Statistik R. Frühwirth Statistik Teil 7: Simulation von Experimenten Teil 6: Regressionsanalyse 3/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Statistik R. Frühwirth Statistik Teil 5: Testen von Hypothesen 1/534 R. Frühwirth Übersicht über die Vorlesung R. Frühwirth Februar 2010 VO 142.090 http://tinyurl.com/TU142090 [email protected] R. Frühwirth Statistik Statistik R. Frühwirth Statistik R. Frühwirth Teil 1 Statistik R. Frühwirth Statistik Deskriptive Statistik R. Frühwirth Teil 4: Parameterschätzung Teil 3: Zufallsvariable Teil 2: Wahrscheinlichkeitsrechnung Teil 1: Deskriptive Statistik Übersicht über die Vorlesung 4/534 2/534 Einleitung Statistik 5/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale 3 R. Frühwirth Statistik Zweidimensionale Merkmale Eindimensionale Merkmale 2 7/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung Einleitung Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Grundbegriffe R. Frühwirth Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale 3 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Zweidimensionale Merkmale Eindimensionale Merkmale 2 Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung Einleitung Statistik R. Frühwirth Statistik R. Frühwirth Übersicht Teil 1 Statistik Die mathematische Auswertung von Daten, z.B. die Berechnung von Maß- und Kennzahlen Die Erhebung und Speicherung von Daten, z.B. durch statistische Ämter R. Frühwirth Statistik Beschreibung von vorhandenen Daten durch Maßzahlen, Tabellen, Graphiken Deskriptive Statistik 2 1 Definition von Statistik Grundbegriffe R. Frühwirth Zweidimensionale Merkmale Eindimensionale Merkmale 2 3 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Abschnitt 1: Einleitung 8/534 6/534 Statistik Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth R. Frühwirth Statistik kontinuierlich (reellwertig). Beispiel: Messvorgang. diskret (ganzzahlig). Beispiel: Zählvorgang. Quantitative Merkmale ordinal (Rang). Beispiel: Noten 1–5. kategorial (Klassifizierung). Beispiel: ledig/geschieden/verheiratet/verwitwet. binär (ja/nein). Beispiel: EU-Bürgerschaft. Qualitative Merkmale Merkmal- und Skalentypen Statistik 11/534 9/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade R. Frühwirth Statistik R. Frühwirth Zweidimensionale Merkmale Konfirmative Datenanalyse: Ziel ist, vorhandene Theorien zu prüfen, z.B. durch Schätzen von Parametern oder Testen von Hypothesen Explorative Datenanalyse: Ziel ist, Hypothesen für die Theoriebildung zu gewinnen Untersuchung von Gesetzmäßigkeiten und Ursachen, die hinter den Daten stehen und die Daten (teilweise) erklären. Induktive Statistik Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Grundbegriffe Statistik 10/534 R. Frühwirth Statistik 12/534 Verhältnisskala: Ordnung, Differenzen und Größenverhältnisse sind sinnvoll interpretierbar, es gibt einen absoluten Nullpunkt. Intervallskala: Ordnung und Differenzen zwischen den Werten sind sinnvoll interpretierbar, der Nullpunkt ist willkürlich festgelegt. Ordinalskala: Ordnung der Zahlen ist wesentlich. Nominalskala: Zahlenwerte sind nur Bezeichnung für sich ausschließende Kategorien. Skalentypen Merkmal- und Skalentypen R. Frühwirth Zweidimensionale Merkmale Eindimensionale Merkmale 2 3 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Unterabschnitt: Merkmal- und Skalentypen Statistik Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale 3 R. Frühwirth Statistik Zweidimensionale Merkmale Eindimensionale Merkmale 2 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung Einleitung Statistik R. Frühwirth 15/534 13/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Statistik Unterabschnitt: Aussagen und Häufigkeiten R. Frühwirth Die Größe einer Person wird in cm angegeben. Es liegt eine Verhältnisskala vor, da ein natürlicher Nullpunkt existiert. Die Celsius-Skala der Temperatur ist eine Intervallskala, da der Nullpunkt willkürlich festgelegt ist. 4 6 Die Jahreszahlen (2007, 2008, . . . ) bilden eine Intervallskala, da der Nullpunkt willkürlich festgelegt ist. 3 Die Kelvin-Skala der Temperatur ist eine Verhältnisskala, da der Nullpunkt physikalisch festgelegt ist. Der Stand einer Mannschaft in der Meisterschaft wird durch den Rang in der Liga angegeben. Ordinalskala. 2 5 Der Familienstand einer Person wird durch Zahlen kodiert (1=ledig, 2=verheiratet, 3=geschieden, 4=verwitwet). Nominalskala. 1 Beispiel Statistik R. Frühwirth R. Frühwirth Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Merkmal- und Skalentypen Geschlecht 1 2 2 1 1 1 2 2 Alter 34 54 46 27 38 31 48 51 Ausbildung 2 1 3 4 2 3 4 2 Statistik 14/534 R. Frühwirth Statistik 16/534 Die Aussage “Drei der Personen in Matrix D sind über 50 Jahre alt” ist falsch. Beispiel Die Aussage “Vier der Personen in Matrix D sind weiblich” ist wahr. Beispiel Eine Aussage kann wahr oder falsch sein. Eine Aussage ist eine Feststellung über Eigenschaften der Untersuchungsobjekte. Der Begriff der Aussage Aussagen und Häufigkeiten R. Frühwirth Geschlecht: 1=W, 2=M, Alter: in Jahren Ausbildung: 1=Pflichtschule, 2=Höhere Schule, 3=Bachelor, 4=Master Nummer 1 2 3 4 5 6 7 8 In der folgenden Datenmatrix D sind Merkmale von acht Personen zusammengestellt. Beispiel Merkmal- und Skalentypen Statistik R. Frühwirth Name Disjunktion Konjunktion Negation Implikation Statistik Bedeutung A oder B (oder beide) A und B (sowohl A als auch B) nicht A (das Gegenteil von A) aus A folgt B (A0 ∪ B) 17/534 Statistik 19/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Zweidimensionale Merkmale R. Frühwirth Statistik R. Frühwirth Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade A ist die Aussage “Die Person in Matrix D hat zumindest Bakkalaureat”. Dann ist h(A) = 4. Beispiel Es sei A eine Aussage über eine Menge von Objekten. Die absolute Häufigkeit h(A) von A ist die Anzahl der Objekte, für die A zutrifft. Definition (Absolute Häufigkeit) Aussagen und Häufigkeiten Symbol A∪B A∩B A0 A⊆B Es seien A und B zwei Aussagen. Verknüpfung von Aussagen Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Aussagen und Häufigkeiten R. Frühwirth Statistik R. Frühwirth Statistik 20/534 A ist die Aussage “Die untersuchte Person ist älter als dreißig Jahre”. Dann ist f (A) = 7/8. Beispiel Es sei A eine Aussage über eine Menge von Objekten. Die relative Häufigkeit f (A) = h(A)/n von A ist die Anzahl der Objekte, für die A zutrifft, dividiert durch die Gesamtanzahl der Objekte. Definition (Relative Häufigkeit) 18/534 (A ∩ B 0 ∩ C 0 ) ∪ (A0 ∩ B ∩ C 0 ) ∪ (A0 ∩ B 0 ∩ C) ∪ (A0 ∩ B 0 ∩ C 0 ) Höchstens eine der Aussagen trifft zu: (A ∩ B ∩ C 0 ) ∪ (A ∩ B 0 ∩ C) ∪ (A0 ∩ B ∩ C) Genau zwei der Aussagen treffen zu: A ∩0 ∩C A und C treffen zu, B nicht: A∩B∩C Alle drei Aussagen treffen zu: Aussagen und Häufigkeiten 4 3 2 1 Es seien A, B, C drei Aussagen. Wir können mittels Verknüpfungen die folgenden Aussagen formulieren: Beispiel Aussagen und Häufigkeiten Statistik Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 2 3 Einleitung 1 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth 23/534 21/534 Statistik R. Frühwirth Statistik Abschnitt 2: Eindimensionale Merkmale R. Frühwirth ( h(A ∪ B) = h(A) + h(B) A ∩ B = ∅ =⇒ f (A ∪ B) = f (A) + f (B) Additionsgesetz Rechengesetze für Häufigkeiten A = Ω: A trifft immer zu, h(A) = n, f (A) = 1. A = ∅: A trifft niemals zu, h(A) = f (A) = 0. Spezielle Aussagen R. Frühwirth Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Aussagen und Häufigkeiten f (A ∪ B) = f (A) + f (B) − f (A ∩ B) h(A ∪ B) = h(A) + h(B) − h(A ∩ B) Statistik 3 2 1 R. Frühwirth Statistik Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Unterabschnitt: Graphische Darstellung R. Frühwirth 24/534 22/534 33% der Kunden einer Bank haben einen Wohnungskredit, 24% haben einen Kredit zur Finanzierung von Konsumgütern, 11% haben beides. Wie groß ist der Anteil der Kunden, die weder Wohnungs- noch Konsumgüterkredit haben? Beispiel Siebformel Aussagen und Häufigkeiten Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik 25/534 0 0 5 10 15 20 25 30 35 40 45 R. Frühwirth 5 Statistik Histogramm x Datensatz 2 10 15 27/534 Datensatz 2 = Datensatz 1 + Kontamination (100 Werte): Graphische Darstellung R. Frühwirth Quantitative Variable: gruppierte Häufigkeitstabelle, Histogramm, Boxplot, empirische Verteilungsfunktion Qualitative Variable: Häufigkeitstabelle, Tortendiagramm, Stabdiagramm Graphische Darstellungen von Datensätzen sind daher äußerst beliebt und nützlich. Ein Bild sagt mehr als tausend Worte! Graphische Darstellung Häufigkeit Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth 1 R. Frühwirth 2 3 5 x Statistik Histogramm 4 Datensatz 1 Statistik Matlab: make dataset3 R. Frühwirth h(k) 5 8 22 5 10 50 f (k) 0.10 0.16 0.44 0.10 0.20 1.00 6 Häufigkeitstabelle Note k 1 2 3 4 5 Datensatz 3 (50 Püfungsnoten): Graphische Darstellung 0 0 5 10 15 20 25 30 35 40 45 7 Datensatz 1 (500 normalverteilte Werte): Graphische Darstellung Häufigkeit 8 9 10 28/534 26/534 Statistik 29/534 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Statistik 5 x 10 15 R. Frühwirth Statistik Matlab: make dataset2 Boxplot 31/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 0 Zweidimensionale Merkmale Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 1 Statistik R. Frühwirth Eindimensionale Merkmale Datensatz 2 Datensatz 2 (500 Werte + Kontamination): Der Boxplot ist die graphische Darstellung des five point summary. Statistik Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Graphische Darstellung R. Frühwirth Matlab: make dataset3 Tortendiagramm Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 3 4 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 5 Statistik R. Frühwirth Zweidimensionale Merkmale 2 1 Datensatz 3 (50 Püfungsnoten): Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Graphische Darstellung 3 x 4 Statistik 5 3 2 1 R. Frühwirth Statistik Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Unterabschnitt: Empirische Verteilungsfunktion R. Frühwirth 2 Stabdiagramm 1 Matlab: make dataset3 0 5 10 15 20 25 Datensatz 3 (50 Püfungsnoten): Graphische Darstellung Häufigkeit 32/534 30/534 Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung h(k) 5 8 22 5 10 H(k) 5 13 35 40 50 f (k) 0.10 0.16 0.44 0.10 0.20 F (k) 0.10 0.26 0.70 0.80 1.00 Statistik 2 3 x 4 5 R. Frühwirth Statistik Matlab: make dataset3 Empirische Verteilungsfunktion 0 1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Empirische Verteilungsfunktion Datensatz 3: (50 Prüfungsnoten): Empirische Verteilungsfunktion R. Frühwirth Matlab: make dataset3 Häufigkeitstabelle mit Summenhäufigkeiten Note k 1 2 3 4 5 Datensatz 3 (50 Prüfungsnoten): Die Häufigkeitstabelle kann durch Summenhäufigkeiten ergänzt werden. Ab Ordinalskala ist es sinnvoll, die Daten zu ordnen. F(x) R. Frühwirth Empirische Verteilungsfunktion 35/534 33/534 Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik x Datensatz 2 10 Empirische Verteilungsfunktion 5 R. Frühwirth Statistik Matlab: make dataset2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Datensatz 2 (500 Werte + Kontamination): Empirische Verteilungsfunktion R. Frühwirth 15 Fn ist eine Sprungfunktion. Die Sprungstellen sind die Datenpunkte, die Sprunghöhen sind die relativen Häufigkeiten der Datenpunkte. Fn (x) = f (x1 ) + · · · + f (xi ). Ist xi ≤ x < xi+1 , gilt 36/534 34/534 Die empirische Verteilungsfunktion Fn (x) der Datenliste ~x = (x1 , . . . , xn ) ist der Anteil der Daten, die kleiner oder gleich x sind: Fn (x) = f (~x ≤ x). Definition (Empirische Verteilungsfunktion) Die graphische Darstellung der Summenhäufigkeiten wird die empirische Verteilungsfunktion der Datenliste genannt. Empirische Verteilungsfunktion F(x) Statistik x 10 R. Frühwirth Statistik Empirische Verteilungsfunktion 5 Datensatz 2 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 2 3 Einleitung 1 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Statistik 39/534 37/534 R. Frühwirth 15 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Statistik Unterabschnitt: Kernschätzer 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Statistik R. Frühwirth R. Frühwirth Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Aus der empirischen Verteilungsfunktion können Quantile einfach abgelesen werden. Median von Datensatz 2: F(x) R. Frühwirth Empirische Verteilungsfunktion x 10 R. Frühwirth Statistik Empirische Verteilungsfunktion 5 Datensatz 2 15 x − xi h R. Frühwirth Statistik Der beliebteste Kern ist der Gaußkern: 2 1 x K(x) = √ exp − 2 2π h ist die Bandbreite des Kernschätzers. n 1 X fˆ(x) = K nh i=1 Die Dichte des beobachteten Merkmals wird dabei durch eine Summe von Kernen K(·) approximiert: Die Häufigkeitsverteilung (Histogramm) kann mit einem Kern- oder Dichteschätzer geglättet werden. Kernschätzer 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Es können auch Unter- und Überschreitungshäufigkeiten abgelesen werden. Welcher Anteil der Daten ist kleiner oder gleich 6? Empirische Verteilungsfunktion F(x) 40/534 38/534 Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth 5 10 Relative Häufigkeit Kernschätzer Statistik 15 41/534 R. Frühwirth Statistik Ein Schiefemaß gibt an, wie symmetrisch die Daten um ihren zentralen Wert liegen. 43/534 Ein Lagemaß gibt an, um welchen Wert die Daten konzentriert sind. Ein Streuungsmaß gibt an, wie groß die Schwankungen der Daten um ihren zentralen Wert sind. Wir unterscheiden Lage-, Streuungs-, und Schiefemaße. Manche Maßzahlen gehen von der geordneten Datenliste x(1) , . . . , x(n) aus. Datenlisten sind oft so umfangreich, dass ihr Inhalt in einigen wenigen Maßzahlen zusammgefasst wird oder werden muss. Welche Maßzahlen dabei sinnvoll sind, hängt vom Skalentyp ab. R. Frühwirth Matlab: make dataset2 Maßzahlen x Datensatz 2 Glättung des Histogramms durch Kernschätzer 0 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 Datensatz 2: Kernschätzer f(x) Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik 42/534 R. Frühwirth Statistik Je nach Skala sind verschiedene Lagemaße sinnvoll. 44/534 Sinnvolle Lagemaße geben den “typischen” oder “zentralen” Wert der Datenliste an. min x ≤ `(x) ≤ max(x) Es sei x = (x1 , . . . , xn ) eine Datenliste. Die Funktion `(x) heißt ein Lagemaß für x, wenn gilt: `(ax + b) = a`(x) + b für a > 0 Definition (Lagemaß) Lagemaße R. Frühwirth Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Maßzahlen 3 2 1 Unterabschnitt: Maßzahlen Statistik x̄ = 1 n i=1 n X xi Statistik i=1 n X (xi − x)2 45/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale R. Frühwirth Statistik 47/534 Das α-Quantil teilt die geordnete Liste im Verhältnis α : 1 − α. Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Matlab: qa=quantile(x,alpha) Q0 ist der kleinste Wert, Q1 ist der größte Wert der Datenliste. Q0.5 ist der Median. Die fünf Quartile Q0 , Q0.25 , Q0.5 , Q0.75 , Q1 bilden das five point summary der Datenliste. Matlab: fps=quantile(x,[0 0.25 0.5 0.75 1]) Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Qα = x(αn) Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Eindimensionale Merkmale α-Quantil Der Median ist ein Spezialfall eines allgemeineren Begriffs, des Quantils. Maßzahlen R. Frühwirth Matlab: xbar=mean(x) x̄ = argx min Der Mittelwert minimiert die folgende Funktion: Sinnvoll für Intervall- und Verhältnisskala. Mittelwert Statistik R. Frühwirth Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Maßzahlen x̃ = x(n/2) Statistik i=1 n X |xi − x| 46/534 R. Frühwirth Statistik Matlab: xshorth=shorth(x) Matlab: xlms=lms(x) Ein verwandtes Lagemaß ist der “shorth”, der Mittelwert aller Daten im kürzesten Intervall, das h Datenpunkte enthält. x̃ = argx min medni=1 (xi − x)2 Der LMS-Wert minimiert die folgende Funktion: 48/534 Der LMS-Wert ist extrem unempfindlich gegen fehlerhafte oder untypische Daten. Der LMS-Wert ist der Mittelpunkt des kürzesten Intervalls, das h = bn/2c + 1 Datenpunkte enthält. LMS (Least Median of Squares) Maßzahlen R. Frühwirth Matlab: xmed=median(x) x̃ = argx min Der Median minimiert die folgende Funktion: Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Der Median teilt die geordnete Liste in zwei gleich große Teile. Median Maßzahlen Statistik Statistik Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale R. Frühwirth Statistik Matlab: xvar=var(x,1) Matlab: xstd=std(x,1) Das Quadrat der Standardabweichung heißt Varianz. 51/534 Die Standardabweichung hat die gleiche Dimension wie die Daten. Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Sinnvoll für Intervall- und Verhältnisskala. 49/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele v u n u1 X s=t (xi − x̄)2 n i=1 Statistik Statistik R. Frühwirth Eindimensionale Merkmale Standardabweichung R. Frühwirth Matlab: xhsm=hsm(x) Der HSM-Wert ist das Mittel der beiden letzten Daten. Bestimme das kürzeste Intervall, das h = bn/2c + 1 Datenpunkte enthält. Wiederhole den Vorgang auf den Daten in diesem Intervall, bis zwei Datenpunkte übrig sind. Maßzahlen 3 2 1 HSM (Half-sample mode) Sinnvoll vor allem für qualitative Merkmale. Für quantitative Merkmale kann der Modus aus dem Kernschätzer der Dichte bestimmt werden. Matlab: xmode=mode(x) Modus Der Modus ist der häufigste Wert einer Datenliste Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Maßzahlen IQR = Q0.75 − Q0.25 Statistik 50/534 R. Frühwirth Statistik Matlab: xiqr=iqr(x) Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. 52/534 Die Interquartilsdistanz ist die Länge des Intervalls, das die zentralen 50% der Daten enthält. Interquartilsdistanz Maßzahlen R. Frühwirth Je nach Skala sind verschiedene Streuungsmaße sinnvoll. Streuungsmaße sind invariant unter Verschiebung der Daten. Sinnvolle Streuungsmaße messen die Abweichung der Daten von ihrem zentralen Wert. σ(ax + b) = |a| σ(x) σ(x) ≥ 0 Es sei x = (x1 , . . . , xn ) eine Datenliste. Die Funktion σ(x) heißt ein Streuungsmaß für x, wenn gilt: Definition (Streuungsmaß) Streuungsmaße Maßzahlen Statistik Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth γ= 1 n i=1 (xi s3 Pn Statistik − x̄) 3 R. Frühwirth Statistik Matlab: xgamma=skewness(x,1) Sinnvoll für Intervall- und Verhältnisskala. Ist γ > 0, heißen die Daten rechtsschief. Ist γ < 0, heißen die Daten linksschief. Die Schiefe γ ist gleich 0 für symmetrische Daten. Schiefe Maßzahlen R. Frühwirth 53/534 55/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Matlab: xlos=LoS(x) Zweidimensionale Merkmale Zweidimensionale Merkmale Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. LoS ist die Länge des kürzesten Intervalls, das h = bn/2c + 1 Datenpunkte enthält. LoS (Length of the Shorth) Statistik R. Frühwirth Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Maßzahlen SK = Statistik 54/534 R. Frühwirth Matlab: xsk=SK(x) Statistik Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Ist SK > 0, heißen die Daten rechtsschief. Ist SK < 0, heißen die Daten linksschief. 56/534 Der Schiefekoeffizient ist gleich 0 für symmetrische Daten. SK liegt zwischen −1 (R = 0) und +1 (L = 0). R−L R+L mit R = Q0.75 − Q0.5 , L = Q0.5 − Q0.25 . Schiefekoeffizient Maßzahlen R. Frühwirth Je nach Skala sind verschiedene Schiefemaße sinnvoll. Schiefemaße sind invariant unter Verschiebung der Daten. Sinnvolle Schiefemaße messen die Asymmetrie der Daten. s(x) = 0, wenn ∃b : x − b = b − x s(ax + b) = sgn(a) s(x) Es sei x = (x1 , . . . , xn ) eine Datenliste. Die Funktion s(x) heißt ein Schiefemaß für x, wenn gilt: Definition (Schiefemaß) Schiefemaße Maßzahlen Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth 1 2 3 4 5 x Datensatz 1 Statistik 6 7 8 9 Mean Median LMS Shorth HSM R. Frühwirth Statistik Datensatz 1: Mittelwert, Median, LMS, Shorth, HSM 0 0 5 10 15 20 25 30 35 40 45 Beispiele R. Frühwirth Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 2 3 Einleitung 1 Unterabschnitt: Beispiele Häufigkeit 10 59/534 57/534 Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth 4.9532 4.9518 4.8080 4.8002 5.0830 Statistik 1.0255 1.4168 1.3520 Schiefemaße: Schiefe: Schiefekoeffizient: 5.4343 5.0777 5.1100 5.0740 4.9985 R. Frühwirth Schiefemaße: Schiefe: Schiefekoeffizient: 1.8959 1.6152 1.5918 Statistik Standardabweichung: Interquartilsdistanz: Length of the Shorth: Streuungsmaße: Mittelwert: Median: LMS: Shorth: HSM: Lagemaße: 60/534 1.7696 0.1046 58/534 0.0375 0.0258 Datensatz 2: Datensatz 1 + Kontamination (100 Werte) Beispiele R. Frühwirth Standardabweichung: Interquartilsdistanz: Length of the Shorth: Streuungsmaße: Mittelwert: Median: LMS: Shorth: HSM: Lagemaße: Datensatz 1: Symmetrisch, 500 Werte Beispiele Statistik 10 1 2 Statistik 3 x 4 5 Mean Median Mode 63/534 61/534 Statistik Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth 0 R. Frühwirth Statistik Datensatz 3: Mittelwert, Median, Modus Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade R. Frühwirth 15 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Zweidimensionale Merkmale 5 x Mean Median LMS Shorth HSM Statistik R. Frühwirth Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 10 15 20 25 5 Datensatz 2 Datensatz 2: Mittelwert, Median, LMS, Shorth, HSM 0 0 5 10 15 20 25 30 35 40 45 Beispiele Häufigkeit Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Beispiele Häufigkeit 5.4343 5.0777 5.1100 Statistik 1.8959 1.6152 Schiefemaße: Schiefe: Schiefekoeffizient: R. Frühwirth Statistik Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Eindimensionale Merkmale 2 3 Einleitung 1 Abschnitt 3: Zweidimensionale Merkmale R. Frühwirth Standardabweichung: Interquartilsdistanz: Streuungsmaße: Mittelwert: Median: Modus: Lagemaße: Datensatz 3: 50 Prüfungsnoten Beispiele 64/534 62/534 1.7696 0.1046 Statistik Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth R. Frühwirth A A0 Statistik B 228 136 364 B0 372 264 636 Vierfeldertafel für 1000 Personen: A=“Die Person ist weiblich“ B=“Die Person ist Raucher/in“ Beispiel: 600 400 1000 Die Häufigkeit des Eintretens von A und B kann in einer Vierfeldertafel oder Kontingenztafel zusammengefasst werden. Wir betrachten zunächst zwei binäre Merkmale A und B. Qualitative Merkmale Statistik 65/534 67/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade R. Frühwirth Statistik R. Frühwirth Zweidimensionale Merkmale Der Zusammenhang zwischen den beiden Merkmalen gibt zusätzliche Information. Beispiele: Körpergröße und Gewicht einer Person Alter und Einkommen einer Person Schulbildung und Geschlecht einer Person Oft werden zwei oder mehr Merkmale eines Objekts gleichzeitig beobachtet. Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Zweidimensionale Merkmale Statistik R. Frühwirth Statistik Zeilen- und Spaltensummen sind die Häufigkeiten der Ausprägungen A, A0 und B, B 0 . A A0 B B0 h(A ∩ B) h(A ∩ B 0 ) h(A) h(A0 ∩ B) h(A0 ∩ B 0 ) h(A0 ) h(B) h(B 0 ) n Allgemeiner Aufbau einer Vierfeldertafel: Qualitative Merkmale R. Frühwirth Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Eindimensionale Merkmale 2 3 Einleitung 1 Unterabschnitt: Qualitative Merkmale 68/534 66/534 Statistik Statistik 69/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale R. Frühwirth Statistik 71/534 Die Koppelung kann auch durch eine gemeinsame Ursache für beide Merkmale entstehen. Eine bestehende Koppelung ist kein Beweis für einen kausalen Zusammenhang! A = B 0 =⇒ ρ(A, B) = −1 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele A = B =⇒ ρ(A, B) = 1 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Eindimensionale Merkmale Speziell gilt: Der Betrag von ρ(A, B) gibt die Stärke der Koppelung an. Das Vorzeichen von ρ(A, B) gibt die Richtung der Koppelung an. Qualitative Merkmale R. Frühwirth Zeilen- und Spaltensummen sind die relativen Häufigkeiten der Ausprägungen A, A0 und B, B 0 . Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele A A0 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Einleitung B B0 f (A ∩ B) f (A ∩ B 0 ) f (A) f (A0 ∩ B) f (A0 ∩ B 0 ) f (A0 ) f (B) f (B 0 ) 1 Statistik R. Frühwirth Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Die Vierfeldertafel kann mittels Division durch n auf relative Häufigkeiten umgerechnet werden: Einleitung R. Frühwirth Qualitative Merkmale Statistik 3 2 1 R. Frühwirth Statistik Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Eindimensionale Merkmale Einleitung Unterabschnitt: Quantitative Merkmale R. Frühwirth Ist ρ(A, B) < 0, heißen A und B negativ gekoppelt. Ist ρ(A, B) > 0, heißen A und B positiv gekoppelt. Es gilt stets: −1 ≤ ρ(A, B) ≤ 1 f (A ∩ B) − f (A)f (B) ρ(A, B) = p f (A)f (A0 )f (B)f (B 0 ) Vierfelderkorrelation Der Zusammenhang der beiden Merkmale kann durch die Vierfelderkorrelation gemessen werden: Qualitative Merkmale 72/534 70/534 Statistik Statistik 73/534 R. Frühwirth Statistik 75/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Körpergröße (in cm) Gewicht (in kg) Alter (in Jahren) Statistik R. Frühwirth Zweidimensionale Merkmale Matlab: make dataset5 Merkmal x1 : Merkmal x2 : Merkmal x3 : Datensatz 5: Körpergröße, Gewicht und Alter von 100 Personen Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Quantitative Merkmale Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade R. Frühwirth Statistik R. Frühwirth Zweidimensionale Merkmale Mehrdimensionale Merkmale können durch Histogramme und Streudiagramme dargestellt werden. Dabei geht natürlich ein Teil der Information verloren. Die beobachteten Merkmale bestimmen die Position des Punktes in der x-y-Ebene. Jeder Punkt entspricht einem Objekt. Bevorzugte Darstellung von zweidimensionalen Merkmalen: Streudiagramm (Scatter Plot) Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth 60 x2 70 80 R. Frühwirth 140 20 30 40 50 60 70 80 x3 150 160 170 180 190 140 50 150 160 170 180 190 0 140 150 160 170 180 190 x1 5 10 15 Quantitative Merkmale R. Frühwirth 160 170 Körpergröße (cm) Datensatz 4 Streudiagramm 150 60 x2 70 80 Statistik 50 20 30 40 50 60 70 80 x3 60 70 80 0 50 5 10 15 20 50 140 150 160 170 180 190 x1 60 70 80 Statistik Matlab: make dataset4 55 140 60 65 70 75 80 85 90 190 60 x2 70 80 0 20 30 40 50 60 70 80 x3 5 10 15 20 50 30 40 50 60 70 80 20 140 150 160 170 180 190 x1 30 40 50 60 70 80 180 Datensatz 4: Körpergröße und Gewicht von 100 Personen Quantitative Merkmale Gewicht (kg) Quantitative Merkmale Häufigkeit x1 x1 x2 Häufigkeit x2 x3 x3 Häufigkeit 76/534 74/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale R. Frühwirth Statistik Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade yi − ȳ sy R. Frühwirth Statistik Der empirische Korrelationskoeffizient ist der Mittelwert der Produkte der Standardscores. n 1X s2x = (xi − x̄)2 n i=1 zy,i = n 1X und s2y = (yi − ȳ)2 n i=1 xi − x̄ , sx Wir erinnern uns, dass zx,i = Wir berechnen die Standardscores: Sei (x1 , y1 ), . . . , (xn , yn ) eine bivariate Stichprobe. Eine nützliche Maßzahl ist der empirische Korrelationskoeffizient. Wir brauchen eine Maßzahl für diesen Zusammenhang. Empirische Regressionsgerade 3 Eindimensionale Merkmale 2 77/534 79/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung Einleitung Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Empirische Regressionsgerade R. Frühwirth Statistik Zwischen den beiden Merkmalen x und y besteht offensichtlich ein Zusammenhang, der auch intuitiv völlig klar ist. R. Frühwirth Es gilt immer: rxy n Statistik −1 ≤ rxy ≤ 1 1X 1 = zx,i zy,i = (zx,1 zy,1 + · · · + zx,n zy,n ) n i=1 n Der empirische Korrelationskoeffizient rxy ist definiert als Definition (Empirischer Korrelationskoeffizient) 80/534 78/534 Aus dem Streudiagramm von Datensatz 4 ist ersichtlich, dass tendenziell größere Körpergröße mit größerem Gewicht einhergeht. Die Projektion der Punktwolke auf die y-Achse ergibt das Punktediagramm der Datenliste y1 , . . . , yn . Die Projektion der Punktwolke auf die x-Achse ergibt das Punktediagramm der Datenliste x1 , . . . , xn . (x̄, ȳ) ist der Mittelpunkt der Punktwolke. Empirische Regressionsgerade 3 2 1 Eigenschaften des Streudiagramms Empirische Regressionsgerade Statistik 81/534 Statistik Zwischen dem Butterpreis und dem Brotpreis der letzten 20 Jahre besteht eine positive Korrelation. Warum? R. Frühwirth Beispiel Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade 83/534 Zwischen der Kinderzahl und der Anzahl der Störche in Österreich in den letzten 30 Jahren besteht eine positive Korrelation. Warum? Beispiel Die positive Korrelation kann auch durch eine gemeinsame Ursache oder einen parallel laufenden Trend verursacht sein. Eine positive Korrelation muss nicht unbedingt einen kausalen Zusammenhang bedeuten. Empirische Regressionsgerade R. Frühwirth x und y heißen dann negativ korreliert. Das ist der Fall, wenn die Paare der Standardscores vorwiegend im 2. oder 4. Quadranten liegen. rxy ist negativ, wenn viele Produkte negativ sind, d.h. viele Paare von Standscores verschiedenes Vorzeichen haben. x und y heißen dann positiv korreliert. Das ist der Fall, wenn die Paare der Standardscores vorwiegend im 1. oder 3. Quadranten liegen. Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung rxy ist positiv, wenn viele Produkte positiv sind, d.h. viele Paare von Standscores das gleiche Vorzeichen haben. Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth −2 0 2 Standardscore der Körpergröße Datensatz 4 4 R. Frühwirth Statistik 4 4 0 2 4 −2 rxy=−0.4 0 zx 0 zx 2 2 4 4 −4 −4 −2 0 2 4 −2 rxy=0 −2 rxy=0.9 −4 −4 −2 0 2 4 0 zx 0 zx 2 2 R. Frühwirth Statistik Standardscores mit verschiedenen Korrelationskoeffizienten −2 rxy=0.6 −4 −4 −4 −4 2 2 −4 −4 0 zx 0 zx −2 0 2 4 −2 −2 rxy=0.3 −2 rxy=−0.8 −2 0 2 4 −4 −4 −2 0 2 4 84/534 4 4 82/534 Offensichtlich sind x und y positiv korreliert, da die meisten Punkte im 1. und 3. Quadranten liegen. rxy = 0.5562 −4 −4 −3 −2 −1 0 1 2 3 4 Streudiagramm der Standardscores von Datensatz 4: Empirische Regressionsgerade zy zy Statistik Standardscore des Gewichts R. Frühwirth Empirische Regressionsgerade zy zy Empirische Regressionsgerade zy zy Statistik Statistik 85/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale sxy = n 1X (xi − x̄)(yi − ȳ) n i=1 R. Frühwirth Statistik heißt die Kovarianz der Daten. Die Größe 87/534 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Definition (Kovarianz der Daten) Eindimensionale Merkmale Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten sxy sx sy Einleitung rxy = Statistik R. Frühwirth Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Der Korrelationskoeffizient kann auch direkt aus der Stichprobe berechnet werden: Einleitung R. Frühwirth Empirische Regressionsgerade Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade R. Frühwirth Statistik R. Frühwirth Zweidimensionale Merkmale Besteht zwischen x und y ein starker, aber nichtlinearer Zusammenhang, kann die Korrelation trotzdem sehr klein sein. Die Korrelation gibt also das Ausmaß der linearen Koppelung an. Die Korrelation gibt die Bindung der Punktwolke an eine steigende oder fallende Gerade, die Hauptachse an. Der Korrelationskoeffizient misst die Korrelation der Daten. Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Empirische Regressionsgerade 2 4 −2 rxy=0.00987 0 zx zy Statistik 2 4 86/534 R. Frühwirth Statistik Die Abweichung yi − ŷi heißt der Prognosefehler. 88/534 Wird das Paar (xi , yi ) beobachtet, so heißt ŷi = g(xi ) der Schätzwert. Wir konstruieren eine Prognosefunktion y = g(x), die aus einem beobachteten Wert des Merkmals x eine möglichst gute Prognose für den Wert von y berechnet. y wird die abhängige Variable oder Responsevariable genannt. x wird in diesem Fall die unabhängige oder erklärende Variable genannt. Wir benutzen jetzt x, um y vorherzusagen. Empirische Regressionsgerade R. Frühwirth Nichtlinearer Zusammenhang zwischen x und y −4 −4 0 zx −4 −4 0 2 4 −2 −2 rxy=−0.00168 −2 0 2 4 Empirische Regressionsgerade zy Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung i=1 → minimal Statistik 89/534 4 4 0 2 4 R. Frühwirth −2 rxy=0.6 −2 rxy=−0.4 Statistik −4 −4 2 2 −4 −4 0 zx 0 zx −4 −4 −2 0 2 −2 −2 rxy=0.3 −2 rxy=−0.8 4 −2 0 2 4 −4 −4 −2 0 2 4 0 zx 0 zx 2 2 4 4 −4 −4 −2 0 2 4 −2 rxy=0 −2 rxy=0.9 −4 −4 −2 0 2 4 0 zx 0 zx 2 2 4 4 91/534 Da |rxy | ≤ 1, verläuft die Regressionsgerade flacher als die Hauptachse. Man nennt dies das Regressionsphänomen. Empirische Regressionsgerade R. Frühwirth Minimierung der Fehlerquadratsumme bezüglich â und b̂ ergibt die empirische Regressionsgerade. Ihr Anstieg b̂ heißt der empirische Regressionskoeffizient. Man nennt dies das Prinzip der kleinsten Fehlerquadrate oder Least Squares (LS). i=1 n n X X SSR = (yi − ŷi )2 = (yi − â − b̂xi )2 Die Koeffizienten â und b̂ werden so bestimmt, dass die Quadratsumme SSR der Prognosefehler möglichst klein wird: Wir wählen eine lineare Prognosefunktion g(x) = â + b̂x. zy zy Statistik zy zy R. Frühwirth Empirische Regressionsgerade zy zy Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth b̂ = rxy sxy sy = 2 , sx sx â = ȳ − b̂x̄ R. Frühwirth Statistik x̄ = 167.60 ȳ = 76.16 sx = 8.348 sy = 4.727 R. Frühwirth Statistik Matlab: make dataset4 Datensatz 4: rxy = 0.5562 â = 0.3150 b̂ = 23.37 Sind die Daten standardisiert, lautet die empirische Regressionsgerade: y = rxy · x Die empirische Regressionsgerade verläuft durch den Schwerpunkt (x̄, ȳ) der Daten. Empirische Regressionsgerade 2 1 Eigenschaften der empirischen Regressionsgeraden heißt die empirische Regressionsgerade. y = â + b̂x mit Die Gerade Definition (Empirische Regressionsgerade) Empirische Regressionsgerade 92/534 90/534 Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Datensatz 4: 160 170 Körpergröße (cm) 180 190 Statistik SST = SS ∗ + SSR 93/534 SS ∗ 2 = rxy SST R. Frühwirth Statistik 95/534 Es gibt an, welcher Anteil an der Gesamtstreuung durch die Korrelation von x und y erklärt werden kann. B= Bestimmheitsmaß der Regression Die Güte der Regressionsgeraden kann durch das Bestimmtheitsmaß angegeben werden: Streuungszerlegung Empirische Regressionsgerade R. Frühwirth Streudiagramm mit Regressionsgerade 55 140 60 65 70 75 Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 85 80 Einleitung 150 Statistik R. Frühwirth 90 Datensatz 4 Empirische Regressionsgerade Gewicht (kg) i=1 2 (yi − ŷi )2 = (1 − rxy )ns2y Statistik 2 rxy 2 1 − rxy R. Frühwirth Statistik Faustregel: Die Korrelation ist signifikant, wenn F > 4. F = (n − 2) Test auf Korrelation Die Teststatistik ist die sogenannte F -Größe: Nullhypothese b = 0 und Alternative b 6= 0 Konstruieren Test mit Es stellt sich die Frage, ob die empirische Korrelation signifikant ist. Auch wenn x und y unkorreliert sind, kann auf Grund von statistischen Schwankungen b̂ 6= 0 sein. i=1 n X SST = (yi − ȳ)2 = ns2y SSR = i=1 n X Empirische Regressionsgerade R. Frühwirth Totale Streuung Reststreuung Erklärbare Streuung n X 2 SS = (ŷi − ȳ)2 = rxy ns2y ∗ Dazu kommt noch die zufällige Streuung der Daten. Einerseits gibt es systematische Unterschiede durch unterschiedliche Werte von x. Die Streuung der Werte yi hat im Regressionsmodell unterschiedliche Ursachen. Empirische Regressionsgerade 96/534 94/534 Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit 7 6 R. Frühwirth Statistik Bedingte Wahrscheinlichkeit Wahrscheinlichkeit Ereignisse 5 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung 4 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Einleitung Einleitung Statistik 99/534 97/534 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Statistik R. Frühwirth Statistik Übersicht Teil 2 R. Frühwirth Matlab: make dataset4 SS ∗ = 691.30 SSR = 1543.36 SST = 2234.66 B = 0.3094 F = 43.90 Datensatz 4: R. Frühwirth Qualitative Merkmale Quantitative Merkmale Empirische Regressionsgerade Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung R. Frühwirth Empirische Regressionsgerade 7 6 5 4 Statistik R. Frühwirth Statistik Bedingte Wahrscheinlichkeit Wahrscheinlichkeit Ereignisse Einleitung Abschnitt 4: Einleitung R. Frühwirth Wahrscheinlichkeitsrechnung Teil 2 100/534 98/534 Statistik Statistik Statistik 101/534 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit R. Frühwirth Statistik 103/534 Die Wahrscheinlichkeit, dass es morgen regnet, ist 40 Prozent“ ist ein ” Aussage über den Glauben der Person, die diese Aussage tätigt. Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Beispiel Statistik R. Frühwirth Wahrscheinlichkeit Die darauf basierende Statistik wird bayesianisch“ genannt. ” Die Wahrscheinlichkeit eines Ausgangs ist eine Aussage über den Glauben der Person, die die Wahrscheinlichkeit angibt. Subjektive Interpretation Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Einleitung Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Zwei Interpretationen der Wahrscheinlichkeit möglich. Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Ziel der Wahrscheinlichkeitsrechnung ist es, den Ausgängen Wahrscheinlichkeiten zuzuweisen. Ereignisse Einleitung R. Frühwirth Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Die möglichen Ausgänge sind jedoch bekannt. Der konkrete Ausgang eines Experiments kann im Allgemeinen nicht genau vorausgesagt werden. Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Einleitung Statistik R. Frühwirth Statistik Der frequentistische Ansatz ist meist einfacher, aber beschränkter. Der bayesianische Ansatz ist umfassender und flexibler. In vielen Fällen sind die Resultate identisch, nur die Interpretation ist verschieden. In der Praxis ist der Übergang zwischen den beiden Ansätzen oft fließend. Einleitung R. Frühwirth Die Wahrscheinlichkeit des Ausgangs 1“ beim Würfeln ist der ” Grenzwert der Häufigkeit für eine große Zahl von Würfen. Beispiel Die darauf basierende Statistik wird frequentistisch“ ” genannt. 104/534 102/534 Die Wahrscheinlichkeit eines Ausgangs ist die Häufigkeit des Ausgangs, wenn das Experiment sehr oft unter den gleichen Bedingungen wiederholt wird. Häufigkeitsinterpretation Einleitung Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung 105/534 R. Frühwirth Statistik 107/534 Mehrere Gründe: Die beobachteten Objekte sind eine zufällige Auswahl aus einer größeren Grundgesamtheit. Der beobachtete Prozess ist prinzipiell indeterministisch (Quantenmechanik). Messfehler geben dem Ergebnis einen stochastischen Charakter. Mangelnde Kenntnis des Anfangszustandes. Für den Physiker der Ausgang eines Experiments, dessen Ergebnis nicht genau vorausgesagt werden kann. Grundlegend für die Statistik ist der Begriff des (zufälligen) Ereignisses. Der Ereignisraum Statistik Bedingte Wahrscheinlichkeit 7 R. Frühwirth Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Einleitung 6 5 4 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Statistik R. Frühwirth Statistik R. Frühwirth Abschnitt 5: Ereignisse R. Frühwirth 106/534 R. Frühwirth Statistik 108/534 Die Wartezeit zwischen zwei Zerfällen kann jeden beliebigen Wert annehmen. Der Ereignisraum ist überabzählbar unendlich. Wird eine radioaktive Quelle beobachtet, ist die Anzahl der Zerfälle pro Sekunde im Prinzip unbeschränkt. Der Ereignisraum ist abzählbar unendlich. Beim Roulette gibt es 37 mögliche Ausgänge. Der Ereignisraum ist endlich. Beispiel Der Ereignisraum Ω kann endlich, abzählbar unendlich oder überabzählbar unendlich sein. Die Menge Ω aller möglichen Ausgänge heißt Ereignisraum oder Stichprobenraum. Statistik Bedingte Wahrscheinlichkeit Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Einleitung Der Ereignisraum 7 6 5 4 Unterabschnitt: Der Ereignisraum Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung 109/534 R. Frühwirth Statistik Zwei Ereignisse A ∈ Σ und B ∈ Σ können logisch verknüpft werden. 111/534 Im überabzählbar unendlichen Fall müssen gewisse pathologische (nicht messbare) Teilmengen ausgeschlossen werden. Die Ereignisalgebra heißt kontinuierlich oder stetig. Im endlichen oder abzählbar unendlichen Fall kann jede Teilmenge als Ereignis betrachtet werden. Die Ereignisalgebra heißt diskret. Die Menge aller Ereignisse des Ereignisraums Ω heißt die Ereignisalgebra Σ(Ω). Definition (Ereignisalgebra) Die Ereignisalgebra Statistik Bedingte Wahrscheinlichkeit 7 R. Frühwirth Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Einleitung 6 5 4 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Die Ereignisalgebra Statistik Name Disjunktion Symbol A0 Negation Symbol A∩B R. Frühwirth Name Negation Bedeutung A und B (sowohl A als auch B) Bedeutung A oder B (oder beide) Statistik Bedeutung nicht A (das Gegenteil von A) Name Konjunktion Konjunktion Symbol A∪B Disjunktion Verknüpfung von Ereignissen Die Ereignisalgebra R. Frühwirth G tritt ein, wenn eine gerade Zahl geworfen wird. G = {2, 4, 6} 112/534 110/534 Der Wurf mit einem Würfel hat den Ereignisraum Ω = {1, 2, 3, 4, 5, 6}. Das Ereignis G (gerade Zahl) ist die Teilmenge Beispiel Ein Ereignis E ist eine Teilmenge des Ereignisraums Ω. Ein Ereignis E tritt ein, wenn E den Ausgang ω ∈ Ω des Experiments enthält. Definition (Ereignis) Die Ereignisalgebra Statistik Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 115/534 Bedingte Wahrscheinlichkeit Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Statistik R. Frühwirth Bedingte Wahrscheinlichkeit R. Frühwirth 113/534 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Ist überabzählbaren Fall ist die Ereignisalgebra Σ ist die kleinste σ-Algebra, die alle Teilintervalle von Ω enthält. Der Ereignisraum ist dann eine sogenannte σ-Algebra. Ist Ω (abzählbar oder überabzählbar) unendlich, verlangt man, dass auch abzählbar viele Vereinigungen und Durchschnitte gebildet werden können. Die Ereignisalgebra R. Frühwirth Ein Ereignis, das nur aus einem möglichen Ausgang besteht, heißt ein Elementarereignis. Das Einselement 1 = Ω ist das sichere Ereignis. Statistik R. Frühwirth Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeit Das Nullelement 0 = ∅ ist das unmögliche Ereignis. Bedeutung aus A folgt B (A0 ∪ B) Bedingte Wahrscheinlichkeit Name Implikation Mit diesen Verknüpfungen ist Σ ist eine Boole’sche Algebra: distributiver komplementärer Verbands mit Nullund Einselement. Symbol A⊆B Implikation Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Die Ereignisalgebra R. Frühwirth Statistik Statistik Bedingte Wahrscheinlichkeit 7 R. Frühwirth Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Einleitung 6 5 4 116/534 114/534 A, B ∈ Σ =⇒ A ∩ B ∈ Σ A, B ∈ Σ =⇒ A ∪ B ∈ Σ (A ∩ B) ∩ C = A ∩ (B ∩ C) (A ∪ B) ∪ C = A ∪ (B ∪ C) A ∩ (A ∪ B) = A A ∪ (A ∩ B) = A A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) (A ∩ B)0 = A0 ∪ B 0 (A ∪ B)0 = A0 ∩ B 0 A ∩ A0 = 0, A ∪ A0 = 1 = Ω Unterabschnitt: Wiederholte Experimente Verneinung: Regeln von de Morgan: Distributivgesetze: Verschmelzungsgesetze: Assoziativgesetze : Σ ist abgeschlossen: Rechengesetze für Ereignisse Die Ereignisalgebra Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik 117/534 R. Frühwirth Statistik Ein Beispiel ist das n-malige Werfen einer Münze. E1 = {(e1 , e0 , . . . , e0 ), (e0 , e1 , e0 , . . . , e0 ), . . . , (e0 , . . . , e0 , e1 )} 119/534 In der Regel interessiert aber nur die Häufigkeit des Eintretens von 1 (oder 0). Dann gibt es nur mehr n + 1 Ausgänge: 1 tritt 0, 1, 2, . . . oder n-mal ein. Bezeichnet das Ereignis E1 das einmalige Eintreten von 1, so ist E1 die ∪-Verbindung mehrerer Elementarereignisse der ursprünglichen Ereignisalgebra: Ein Experiment, das nur zwei mögliche Ergebnisse hat, heißt ein Alternativversuch. Es gibt zwei Ausgänge, 0 und 1. Wird ein Alternativversuch n-mal durchgeführt, ergibt sich eine Ereignisraum mit 2n Ausgängen, nämlich den Folgen der Form (i1 , . . . , in ) mit ij = 0 oder 1. Beispiel (Wiederholter Alternativversuch) Wiederholte Experimente R. Frühwirth e11 = {(1, 1)}, . . . , e36 = {(6, 6)} Das geordnete Paar (i, j) bedeutet: i beim ersten Wurf, j beim zweiten Wurf. Die Ereignisalgebra Σ(Ω × Ω) hat folglich 36 Elementarereignisse eij : Ω × Ω = {(i, j)|i, j = 1, . . . , 6} und insgesamt 2 = 64 Ereignisse (Teilmengen von Ω). Der Ereignisraum des zweimaligen Würfelns ist das kartesische Produkt Ω × Ω: 6 e1 = {1}, e2 = {2}, e3 = {3}, e4 {4}, e5 = {5}, e6 = {6} Die Ereignisalgebra Σ(Ω) hat folglich sechs Elementarereignisse: Ω = {1, 2, 3, 4, 5, 6} Der Wurf mit einem Würfel hat den Ereignisraum Wiederholte Experimente Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik {(6, 1), (6, 2), . . . , (6, 6)} {(1, 6), (2, 6), . . . , (6, 6)} {(1, 1), (2, 2), . . . , (6, 6)} {(1, 6), (2, 5), . . . , (6, 1)} Statistik Bedingte Wahrscheinlichkeit 7 R. Frühwirth Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Ereignisse Einleitung 6 5 4 Abschnitt 6: Wahrscheinlichkeit R. Frühwirth 6 beim ersten Wurf: 6 beim zweiten Wurf: Beide Würfe gleich: Summe der Würfe gleich 7: Beispiele für Elemente der Ereignisalgebra des Doppelwurfs sind: Beispiel (Ereignisalgebra des Doppelwurfs) Analog ist beim n-maligen Würfeln der Ereignisraum das n-fache kartesische Produkt Ω × Ω × . . . × Ω. Wiederholte Experimente 120/534 118/534 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit 121/534 i∈J i∈J R. Frühwirth Statistik 123/534 Ai ∈ Σ, i ∈ J; Ai ∩ Aj = 0, i 6= j =⇒ [ X W ( Ai ) = W (Ai ) Σ heißt dann normiert, und (Σ, W ) ein Wahrscheinlichkeitsraum. W wird auch als Wahrscheinlichkeitsverteilung bezeichnet. 4. σ-Additivität: Ist Σ eine σ-Algebra, was für unendliche Ereignisräume vorausgesetzt werden muss, verlangt man für abzählbares J: Definition (Wahrscheinlichkeitsraum) Wahrscheinlichkeitsmaße Statistik Bedingte Wahrscheinlichkeit 7 R. Frühwirth Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik 6 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Wahrscheinlichkeit Ereignisse Einleitung Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik 5 4 Einleitung Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Wahrscheinlichkeitsmaße Statistik W (A) ≥ 0 ∀A ∈ Σ A ∩ B = 0 =⇒ W (A ∪ B) = W (A) + W (B) W (1) = 1 R. Frühwirth Statistik Hat Σ höchstens abzählbar viele Elementarereignisse P {ei | i ∈ I}, so ist i∈I W (ei ) = 1. W (A ∪ B) = W (A) + W (B) − W (A ∩ B), ∀A, B ∈ Σ 6 W (A) ≤ 1, ∀A ∈ Σ A ⊆ B =⇒ W (A) ≤ W (B), ∀A, B ∈ Σ 3 5 W (0) = 0 2 4 W (A0 ) = 1 − W (A), ∀A ∈ Σ 1 Ist (Σ, W ) ein Wahrscheinlichkeitsraum, so gilt: Rechengesetze für Wahrscheinlichkeit Wahrscheinlichkeitsmaße R. Frühwirth 3. Normierung: 1. Positivität: 2. Additivität: 124/534 122/534 Es sei Σ eine Ereignisalgebra, A und B Ereignisse in Σ, und W eine Abbildung von Σ in R. W heißt ein Wahrscheinlichkeitsmaß, wenn gilt: Definition (Wahrscheinlichkeitsmaß) Wahrscheinlichkeitsmaße Statistik Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit R. Frühwirth Statistik Bedingte Wahrscheinlichkeit 7 127/534 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik 6 Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Wahrscheinlichkeit 5 Einleitung Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth 4 125/534 Statistik R. Frühwirth Statistik Unterabschnitt: Gesetz der großen Zahlen R. Frühwirth Man kann also auf einer diskreten Ereignisalgebra Σ unendlich viele Verteilungen definieren. Andererseits kann jede positive Funktion, die auf der Menge der Elementarereignisse definiert ist und Punkt 6 erfüllt, eindeutig zu einem Wahrscheinlichkeitsmaß fortgesetzt werden. Daher ist ein Wahrscheinlichkeitsmaß durch die Werte, die es den Elementarereignissen zuordnet, eindeutig bestimmt. In einer diskreten Ereignisalgebra ist die Wahrscheinlichkeit eines Ereignisses gleich der Summe der Wahrscheinlichkeiten der Elementarereignisse, deren ∪-Verbindung es ist. R. Frühwirth Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Wahrscheinlichkeitsmaße Statistik R. Frühwirth fn (K) 0.6 0.51 0.504 0.488 0.5066 |fn (K) − 0.5| 0.1 0.01 0.004 0.012 0.0066 Statistik Häufigkeitstabelle hn (K) 6 51 252 488 2533 Matlab: make coin n 10 100 500 1000 5000 Experiment wird n-mal wiederholt Annahme: Münze symmetrisch, K und Z gleichwahrscheinlich Zwei mögliche Ergebnisse: Kopf (K), Zahl (Z) Betrachten einfaches Zufallsexperiment: Münzwurf Gesetz der großen Zahlen R. Frühwirth Die Dichte muss so beschaffen sein, dass das Integral für alle zugelassenen Ereignisse existiert. A Die Wahrscheinlichkeit eines Ereignisses A wird durch Integration über die Dichte ermittelt: Z W (A) = f (x) dx R 128/534 126/534 In einer kontinuierlichen Ereignisalgebra ist die Wahrscheinlichkeit jedes Elementarereignisses gleich 0. Die Wahrscheinlichkeit eines Ereignisses kann daher nicht mehr durch Summation ermittlet werden. Statt dessen wird eine Dichtefunktion f (x) angegeben, die jedem Elementarereignis x einen nichtnegativen Wert f (x) zuordnet. Die Dichtefunktion muss normiert sein: Z f (x) dx = 1 Wahrscheinlichkeitsmaße Statistik 0 200 400 R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Statistik Bedingte Wahrscheinlichkeit 7 R. Frühwirth Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik 6 131/534 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Ereignisse Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik 5 Ereignisse Einleitung Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Einleitung 129/534 500 Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Statistik 4 n 300 Entwicklung der relativen Häufigkeit von K 100 Unterabschnitt: Kombinatorik 0 0.2 0.4 0.6 0.8 1 Statistik R. Frühwirth R. Frühwirth Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Gesetz der großen Zahlen f(K) Statistik 130/534 R. Frühwirth Statistik W (e1 ) = W (e2 ) = . . . = W (em ) = 1 m 132/534 Sind alle m Elementarereignisse gleichwahrscheinlich, gilt: Diese Annahme entspricht nur in seltenen Fällen der physikalischen Realität und muss im Zweifelsfall durch das Experiment überprüft werden. Dies ist natürlich nur sinnvoll für endlich viele Elementarereignisse. Häufig ist es auf Grund von Symmetrieüberlegungen möglich, die Elementarereignisse als gleichwahrscheinlich anzusehen. Kombinatorik R. Frühwirth Das mathematische Problem dieser Definition liegt darin, dass die Existenz des Grenzwerts von vornherein nicht einzusehen ist und im klassisch analytischen Sinn tatsächlich nicht gegeben sein muss, sondern nur in einem weiteren, statistischen Sinn. lim fn (K) = W (K) n→∞ Empirisches Gesetz der großen Zahlen Dieser Grenzwert wird als die Wahrscheinlichkeit W (K) bezeichnet. Die relative Häufigkeit des Ereignisses K scheint gegen den Grenzwert 0.5 zu streben. Gesetz der großen Zahlen Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Statistik 133/534 R. Frühwirth n−1 k ! Statistik + n−1 k−1 ! = n k ! Die Binomialkoeffizienten können im sogenannten Pascal’schen Dreieck angeordent werden: 135/534 Sei M wieder eine Menge mit n Elementen. Eine k-elementige Teilmenge von M heißt eine Kombination von n Elementen zur k-ten Klasse. n! n n = Es gibt Ck = solcher Kombinationen. k k! (n − k)! Ckn wird auch als Binomialkoeffizient bezeichnet. Definition (Kombination) Kombinatorik R. Frühwirth Die Wahrscheinlichkeit von A ist die Anzahl der günstigen“ ” durch die Anzahl der möglichen“ Fälle. ” Die Abzählung der günstigen und möglichen Fälle erfordert oft kombinatorische Methoden. Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Wahrscheinlichkeit g W (A) = m Statistik R. Frühwirth Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Regel von Laplace Für ein Ereignis A, das sich aus g Elementarereignissen zusammensetzt, gilt: Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Kombinatorik Vkn = n! = n · (n − 1) . . . (n − k + 1) (n − k)! i=1 n Y i Statistik k=0 n X n k ! = 2n 2 R. Frühwirth Statistik 136/534 Wie groß ist die Wahrscheinlichkeit, dass in einer Serie von 37 Würfen jede Zahl vorkommt? Wie groß ist die Wahrscheinlichkeit, dass sich in einer Serie von zehn Würfen keine Zahl wiederholt? Beim Roulette sind die Zahlen von 0 bis 36 als Ergebnis möglich. Beispiel 1 134/534 Wie aus der Definition der Kombination folgt, ist die Summe aller Ckn , 0 ≤ k ≤ n, für festes n gleich der Anzahl aller Teilmengen von M : Kombinatorik R. Frühwirth verschiedene Weisen (Permutationen) anordnen lassen. n! = solcher Variationen. Für den Sonderfall k = n sieht man, dass sich die n Elemente der Menge M auf Es gibt Es sei M eine Menge mit n Elementen. Eine geordnete Folge von k verschiedenen Elementen von M heißt eine Variation von n Elementen zur k-ten Klasse. Definition (Variation) Kombinatorik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit R. Frühwirth Statistik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 137/534 R. Frühwirth Statistik Quantifizierung von oft“ und selten“ erfolgt durch ” ” Häufigkeitstabelle. Negative Koppelung: Je öfter A eintritt, desto seltener tritt tendenziell auch B ein. 139/534 Positive Koppelung: Je öfter A eintritt, desto öfter tritt tendenziell auch B ein. Ein solcher Zusammenhang wird Koppelung genannt. Frage: Besteht ein Zusammenhang zwischen den Ereignissen? Wir betrachten jetzt zwei Ereignisse A und B, die bei einem Experiment eintreten können. Kopplung und bedingte Wahrscheinlichkeit 7 Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik 6 Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Ereignisse Einleitung Wahrscheinlichkeit 5 4 Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Statistik R. Frühwirth Statistik R. Frühwirth Abschnitt 7: Bedingte Wahrscheinlichkeit R. Frühwirth Statistik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeit Ereignisse Einleitung R. Frühwirth A A0 Statistik B 19 26 45 B0 526 429 955 545 455 1000 Vierfeldertafel für 1000 Personen: A=“Eine untersuchte Person ist weiblich“ B=“Eine untersuchte Person hat Diabetes“ Beispiel: Die Häufigkeit des Eintretens von A und B kann in einer Vierfeldertafel oder Kontingenztafel zusammengefasst werden. Kopplung und bedingte Wahrscheinlichkeit 7 6 5 4 Unterabschnitt: Kopplung und bedingte Wahrscheinlichkeit 140/534 138/534 Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik R. Frühwirth Statistik Nach dem empirischen Gesetz der großen Zahl sind diese Wahrscheinlichkeiten die Grenzwerte der entsprechenden relativen Häufigkeiten. A A0 B B0 W (A ∩ B) W (A ∩ B 0 ) W (A) W (A0 ∩ B) W (A0 ∩ B 0 ) W (A0 ) W (B) W (B 0 ) 1 Wahrscheinlichkeitstabelle: Stammen die Daten aus einem Zufallsexperiment, dann besitzen die Ereigniskombinationen auch Wahrscheinlichkeiten. Kopplung und bedingte Wahrscheinlichkeit R. Frühwirth 143/534 141/534 f (A|B) heißt die bedingte relative Häufigkeit von A unter der Bedingung B. h(A ∩ B) f (A ∩ B) = f (A|B) = h(B) f (B) Bedingte relative Häufigkeiten werden auf das Eintreten des anderen Merkmals bezogen: h(A ∩ B) f (A ∩ B) = n Gewöhnliche relative Häufigkeiten werden auf den Umfang n des gesamten Datensatzes bezogen: Kopplung und bedingte Wahrscheinlichkeit Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth 19 = 0.422, 45 f (A|B 0 ) = 526 = 0.551 955 Statistik fn (A ∩ B) W (A ∩ B) → W (A|B) = fn (B) W (B) W (A ∩ B) W (B) R. Frühwirth Statistik heißt die bedingte Wahrscheinlichkeit von A unter der Bedingung B, sofern W (B) 6= 0. W (A|B) = Definition (Bedingte Wahrscheinlichkeit) fn (A|B) = Die bedingten relativen Häufigkeiten konvergieren für n → ∞ gegen einen Grenzwert: Kopplung und bedingte Wahrscheinlichkeit R. Frühwirth f (A|B) > f (A) deutet auf eine positive Koppelung, f (A|B) < f (A) auf eine negative Koppelung. Es ist somit zu vermuten, dass die beiden Merkmale gekoppelt sind. f (A|B) = Die Vierfeldertafel U gibt folgende bedingte relative Häufigkeiten: Kopplung und bedingte Wahrscheinlichkeit 144/534 142/534 Statistik 1 , 1≤i≤6 6 Statistik 147/534 Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit R. Frühwirth Statistik Beide Formeln gelten auch für relative Häufigkeiten! W (B|A) = Inverse Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik W (A|B)W (B) W (A) Statistik R. Frühwirth Wahrscheinlichkeit und die Formel für die 145/534 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik W (A ∩ B) = W (A|B)W (B) = W (B|A)W (A) Produktformel Aus der Definition der bedingten Wahrscheinlichkeit folgt sofort die Kopplung und bedingte Wahrscheinlichkeit R. Frühwirth W (e1 |U ) = W (e1 ∩ U ) W (e1 ) 1 = = W (U ) W (U ) 3 W (e1 ∩ G) W (0) W (e1 |G) = = =0 W (U ) W (U ) Dann gilt zum Beispiel U = {1, 3, 5}, G = {2, 4, 6} Wir definieren die folgenden Ereignisse: W (ei ) = Ist der Würfel völlig symmetrisch, werden den Elementarereignissen ei = {i} gleiche Wahrscheinlichkeiten zugeordnet: Beispiel (Der symmetrische Würfel) Statistik R. Frühwirth Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Kopplung und bedingte Wahrscheinlichkeit Statistik 7 6 5 4 R. Frühwirth Statistik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeit Ereignisse Einleitung Unterabschnitt: Satz von Bayes R. Frühwirth W (e1 ∩ U ) W (e1 ) = =1 W (e1 ) W (e1 ) W (e1 ∪ e3 ) W ((e1 ∪ e3 ) ∩ U ) 2 = = W (e1 ∪ e3 |U ) = W (U ) W (U ) 3 W ((e1 ∪ e2 ) ∩ U ) W (e1 ) 1 W (e1 ∪ e2 |U ) = = = W (U ) W (U ) 3 W (U |e1 ) = Beispiel (Fortsetzung) Kopplung und bedingte Wahrscheinlichkeit 148/534 146/534 Statistik Vollständigkeit: B1 ∪ B2 ∪ . . . ∪ Bm = Ω Statistik Einleitung R. Frühwirth Statistik 151/534 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit W (Bi ) wird die a-priori Wahrscheinlichkeit von B genannt, W (Bi |A) die a-posteriori Wahrscheinlichkeit. Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente W (A|Bi )W (Bi ) W (Bi |A) = W (A) W (A|Bi )W (Bi ) = W (A|B1 )W (B1 ) + . . . + W (A|Bm )W (Bm ) Statistik R. Frühwirth Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 149/534 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Ereignisse Satz von Bayes Es sei B1 , . . . , Bm eine Zerlegung. Dann gilt: Satz von Bayes R. Frühwirth W (B1 ) + W (B2 ) + . . . + W (Bm ) = W (Ω) = 1 Satz Bilden die Ereignisse B1 , B2 , . . . , Bm eine Zerlegung der Ergebnismenge Ω, dann gilt: 2 Die Ereignisse B1 , B2 , . . . , Bm bilden eine Zerlegung der Ergebnismenge Ω, wenn gilt: 1 Unvereinbarkeit: Bi ∩ Bj = ∅, i 6= j Definition (Zerlegung) Statistik R. Frühwirth Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Satz von Bayes Statistik 150/534 Statistik 152/534 Wie groß ist die Wahrscheinlichkeit, daß ein mangelhafter Bauteil von Anbieter 1 kommt? 3 R. Frühwirth Wie groß ist die Wahrscheinlichkeit, daß ein einwandfreier Bauteil von Anbieter 2 kommt? Wie groß ist der totale Ausschussanteil? 2 1 Ein Betrieb kauft Bauteile von zwei Anbietern, wobei der Anteil des ersten 65% beträgt. Erfahrungsgemäß ist der Ausschussanteil bei Anbieter 1 gleich 3% und bei Anbieter 2 gleich 4%. Beispiel Satz von Bayes R. Frühwirth Ein Betrieb erzeugt Glühbirnen mit 40W (35% der Produktion), mit 60W (45%) und mit 100W (20%). Nach einem Jahr sind noch 98% der 40W-Birnen funktionsfähig, 96% der 60W-Birnen, und 92% der 100W-Birnen. Welcher Anteil an allen Glühbirnen ist nach einem Jahr noch funktionsfähig? Beispiel W (A) = W (A|B1 )W (B1 ) + . . . + W (A|Bm )W (Bm ) Totale Wahrscheinlichkeit Es sei B1 , . . . , Bm eine Zerlegung. Dann gilt: Satz von Bayes Statistik Statistik Einleitung Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit R. Frühwirth Statistik 155/534 Liegt weder positive noch negative Kopppelung vor, sind A und B unabhängig. W (A|B) < W (A) oder W (A ∩ B) < W (A)W (B) Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Zwei Ereignisse sind negativ gekoppelt, wenn Statistik R. Frühwirth Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 153/534 Ereignisse W (A|B) > W (A) oder W (A ∩ B) > W (A)W (B) Zwei Ereignisse sind positiv gekoppelt, wenn Statistik Ereignisse Einleitung R. Frühwirth Unabhängigkeit R. Frühwirth Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Bedingte Wahrscheinlichkeit Ein Bauteil wird von vier Firmen geliefert, und zwar kommen 20% von Firma 1, 30% von Firma 2, 35% von Firma 3, und 15% von Firma 4. Die Wahrscheinlichkeit, dass der Bauteil im Testbetreib innerhalb von 24 Stunden ausfällt, ist 0.02 für Firma 1, 0.015 für Firma 2, 0.025 für Firma 3, und 0.02 für Firma 4. Ein Bauteil fällt im Testbetrieb nach 16 Stunden aus. Die Wahrscheinlichkeit, dass er von Firma i kommt, ist mittel des Satzes von Bayes zu berechnen. Beispiel Statistik R. Frühwirth Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Satz von Bayes R. Frühwirth 154/534 R. Frühwirth Statistik 156/534 Dazu genügt nicht, dass je zwei Ereignisse Ai und Aj paarweise unabhängig sind! W (A1 ∩ . . . ∩ An ) = W (A1 ) · . . . · W (An ) Die Ereignisse A1 , A2 , . . . , An heißen unabhängig, wenn gilt: Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn W (A ∩ B) = W (A)W (B) Definition (Unabhängigkeit) Statistik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeit Ereignisse Einleitung Unabhängigkeit 7 6 5 4 Unterabschnitt: Unabhängigkeit Statistik R. Frühwirth W (E1 ∩ E2 ∩ E3 ) = Statistik 1 1 6= = W (E1 ) · W (E2 ) · W (E3 ) 4 8 1 = W (Ei ) · W (Ej ) 4 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente ρ(A, B) > 0 ⇐⇒ A und B positiv gekoppelt ρ(A, B) < 0 ⇐⇒ A und B negativ gekoppelt 3 4 Statistik ρ(A, B) = 0 ⇐⇒ A und B unabhängig 2 R. Frühwirth −1 ≤ ρ(A, B) ≤ 1 1 Eigenschaften der Vierfelderkorrelation W (A ∩ B) − W (A)W (B) ρ(A, B) = p W (A)W (A0 )W (B)W (B 0 ) 159/534 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung Einleitung Vierfelderkorrelation 157/534 Statistik R. Frühwirth Ereignisse Die Koppelung kann durch die Vierfelderkorrelation gemessen werden: Unabhängigkeit aber W (Ei ∩ Ej ) = Dann gilt für alle i 6= j E3 = {KK, ZZ} . . . Gerade Zahl von Köpfen E2 = {KK, ZK} . . . Kopf beim zweiten Wurf E1 = {KK, KZ} . . . Kopf beim ersten Wurf Wir betrachten den zweimaligen Wurf einer Münze (Kopf/Zahl). Die möglichen Ausgänge sind Ω = {KK, KZ, ZK, ZZ}. Ferner definieren wir die Ereignisse: Beispiel Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Unabhängigkeit R. Frühwirth Statistik 158/534 A = B 0 =⇒ ρ(A, B) = −1 A = B =⇒ ρ(A, B) = 1 R. Frühwirth Statistik 160/534 Die Koppelung kann auch durch eine gemeinsame Ursache für beide Ereignisse entstehen. Eine bestehende Koppelung ist kein Beweis für einen kausalen Zusammenhang! Speziell gilt: Der Betrag von ρ(A, B) gibt die Stärke der Koppelung an. Das Vorzeichen von ρ(A, B) gibt die Richtung der Koppelung an. Unabhängigkeit A A0 B B0 W (A)W (B) W (A)W (B 0 ) W (A) W (A0 )W (B) W (A0 )W (B 0 ) W (A0 ) W (B) W (B 0 ) 1 Die Vierfeldertafel für zwei unabhängige Ereignisse: Sind A und B unabhängig, gilt W (A|B) = W (A) und W (B|A) = W (B). Unabhängigkeit Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik 161/534 R. Frühwirth Statistik 163/534 In diesem Fall sind also auch die Elementarereignisse des einfachen Wurfes gleichwahrscheinlich und die beiden Teilwürfe sind unabhängig. Setzt man umgekehrt voraus, dass für beide Teilwürfe die Elementarereignisse gleichwahrscheinlich sind, und dass Ei1 und Ej2 für alle i und j unabhängig sind, so sind die eij gleichwahrscheinlich. Sind die Teilwürfe nicht unabhängig, so sind die eij trotz der Gleichwahrscheinlichkeit der ei und ej nicht mehr gleichwahrscheinlich. Ein Beispiel dafür ist der Wurf“ mit einem sehr ” großen Würfel, der jedesmal bloß um 90o gedreht werden kann. Das Elementarereignis e34 ist hier unmöglich und muss daher die Wahrscheinlichkeit 0 zugewiesen bekommen. Beispiel (Fortsetzung) Unabhängigkeit R. Frühwirth Sind E1 und E2 zwei unaghängige Ereignisse eines Wahrscheinlichkeitsraumes (Σ, W ), so sind auch E1 und E20 , E10 und E2 , sowie E10 und E20 unabhängig. Zwei Elementarereignisse sind sogar höchst abhängig“, weil ” das Eintreten des einen das Eintreten des anderen mit Sicherheit ausschließt. Zwei physikalische Ereignisse können als unabhängig postuliert werden, wenn zwischen ihnen keine wie immer geartete Verbindung besteht, da dann das Eintreten des einen Ereignisses die Wahrscheinlichkeit des anderen nicht beeinflussen kann. Zwei Elementarereignisse sind niemals unabhängig, da ihre ∩-Verbindung stets das unmögliche Ereignis ist. Unabhängigkeit Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kombinatorik Wahrscheinlichkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Einleitung R. Frühwirth Statistik 162/534 R. Frühwirth Statistik wo n0 bzw. n1 die Anzahl des Eintretens von 0 bzw. 1 angibt. Klarerweise gilt n0 + n1 = n. W ({(i1 , . . . , in )}) = pn1 (1 − p)n0 164/534 Die Ereignisalgebra hat 2n Elementarereignisse, nämlich die Folgen der Form (i1 , . . . , in ), ij = 0 oder 1. Sind die Wiederholungen unabhängig, und bezeichnet p die Wahrscheinlichkeit des Eintretens von 1, ist die Wahrscheinlichkeit einer Folge Beispiel (Wiederholung eines Alternativversuchs) Unabhängigkeit R. Frühwirth W (Ei1 ) = 1 1 , W (Ej2 ) = 6 6 1 1 2 W (Ei ∩ Ej ) = W (eij = = W (Ei1 ) · W (Ej2 ) 36 Klarerweise gilt Ei1 ∩ Ej2 = eij . Kann man annehmen, dass alle Elementarereignisse gleichwahrscheinlich sind, so gilt: Ej2 = e1j ∪ e2j ∪ . . . ∪ e6j Ei1 = ei1 ∪ ei2 ∪ . . . ∪ ei6 und analog Es gibt 36 Elementarereignisse eij = {(i, j)}, 1 ≤ i, j ≤ 6. Das Ereignis Ei1 , beim ersten Wurf eine i zu würfeln, setzt sich so zusammen: Beispiel (Wurf mit zwei unterscheidbaren Würfeln) Unabhängigkeit Teil 3 165/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Statistik Rechnen mit Verteilungen 12 R. Frühwirth Momente 11 Wichtige Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 10 Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Wichtige Verteilungen 9 8 Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik R. Frühwirth Statistik R. Frühwirth 167/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Abschnitt 8: Eindimensionale Zufallsvariable Rechnen mit Verteilungen Rechnen mit Verteilungen Statistik Erwartung Varianz Schiefe Erwartung Varianz Schiefe R. Frühwirth Momente Momente Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable Eindimensionale Zufallsvariable Statistik R. Frühwirth Statistik R. Frühwirth R. Frühwirth Statistik Rechnen mit Verteilungen Momente Wichtige Verteilungen Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable 12 11 10 9 8 R. Frühwirth Statistik Rechnen mit Verteilungen Momente Wichtige Verteilungen Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Unterabschnitt: Grundbegriffe 12 11 10 9 8 Übersicht Teil 3 168/534 166/534 Statistik ω ∈ Ω 7→ x = X(ω) ∈ R Statistik 169/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Statistik Rechnen mit Verteilungen 12 R. Frühwirth Momente 11 Wichtige Verteilungen 171/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 10 Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Wichtige Verteilungen Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 9 8 Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik R. Frühwirth Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Statistik Unterabschnitt: Diskrete Zufallsvariable R. Frühwirth Da der Wert einer Zufallsvariablen vom Ausgang des Experiments abhängt, kann man den möglichen Werten Wahrscheinlichkeiten zuschreiben. Erwartung Varianz Schiefe Momente R. Frühwirth Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Ist Ω überabzählbar unendlich, muss X eine messbare Abbildung sein. Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Wichtige Verteilungen Ist Ω endlich oder abzählbar unendlich, ist jede beliebige Abbildung X zugelassen. Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen die jedem Element ω des Ereignisraums Ω eine reelle Zahl zuordnet, heißt eine (eindimensionale) Zufallsvariable. Eine Abbildung X: Definition (Zufallsvariable) Statistik R. Frühwirth Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Grundbegriffe Statistik 170/534 R. Frühwirth Statistik Die Ereignisalgebra ist die Potenzmenge (Menge aller Teilmengen) P von N0 . 172/534 Im folgenden nehmen wir an, dass die Werte einer diskreten Zufallsvariablen nichtnegative ganze Zahlen sind. Dies ist keine Einschränkung, weil jede abzählbare Menge von reellen Zahlen bijektiv auf (eine Teilmenge von) N0 abgebildet werden kann. In der physikalischen Praxis kommen diskrete Zufallsvariable häufig vor: man denke an das Zählen von Ereignissen in einem festen Zeitintervall (Poissonverteilung), an das Abzählen von Alternativversuchen (Binomialverteilung), oder auch an die Besetzungshäufigkeit der diskreten Energieniveaus des Wasserstoffatoms. Diskrete Zufallsvariable sind oft das Resultat von Zählvorgängen. Diskrete Zufallsvariable R. Frühwirth Die Abbildung, die dem Zerfall eines Teilchens die Lebensdauer x zuordnet, ist eine kontinuierliche Zufallsvariable. Beispiel Die Abbildung, die beim Würfeln dem Elementarereignis ei die Augenzahl i zuordnet, ist eine diskrete Zufallsvariable. Natürlich wäre auch die Abbildung ei :−→ 7 − i eine diskrete Zufallsvariable. Beispiel Nimmt die Zufallsvariable X ein Kontinuum von Werte an, heißt sie kontinuierlich. Nimmt die Zufallsvariable X nur endlich oder abzählbar unendlich viele Werte an, heißt sie diskret. Grundbegriffe Statistik Statistik 173/534 Statistik 175/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Rechnen mit Verteilungen R. Frühwirth Statistik R. Frühwirth Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Die Werte von X sind die natürlichen Zahlen von 2 bis 12. Die Verteilung von X ist dann gegeben durch k−1 , k≤7 X −1 36 WX (k) = W (X (k)) = W ({(i, j)}) = i+j=k 13 − k , k ≥ 7 36 X : (i, j) 7→ i + j Wir ordnen dem Ausgang eines Doppelwurfs die Summe der Augenzahlen zu: Beispiel Diskrete Zufallsvariable R. Frühwirth WX wird als die Verteilung von X bezeichnet, und zwar als diskrete oder Spektralverteilung. X(ω)=k Es sei Σ(Ω) eine diskrete Ereignisalgebra. Die diskrete Zufallsvariable X : Ω 7→ N0 induziert ein Wahrscheinlichkeitsmaß auf N0 mittels X WX ({k}) = W (X −1 (k)) = W ({ω}) Definition (Verteilung einer diskreten Zufallsvariablen) Ist auf der Ereignisalgebra Σ(Ω) ein Wahrscheinlichkeitsmaß W definiert, so kann man mit Hilfe der Zufallsvariablen X auf der Potenzmenge P von N0 ebenfalls ein Wahrscheinlichkeitsmaß definieren. Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Diskrete Zufallsvariable Statistik R. Frühwirth Statistik Die Funktion fX (k) wird als Wahrscheinlichkeitsdichtefunktion oder kurz Dichte der Zufallsvariablen X bezeichnet. Definition (Diskrete Dichtefunktion) Die Zahlen WX (k) können als Funktionswerte einer Spektralfunktion fX angesehen werden: ( WX (k), wenn x = k fX (x) = 0, sonst Diskrete Zufallsvariable R. Frühwirth WX (0) = W (X −1 (0)) = W ({2, 4, 6}) = 1 2 1 −1 WX (1) = W (X (1)) = W ({1, 3, 5}) = 2 Die Verteilung von X ist dann gegeben durch X : ω 7→ mod (ω, 2) 176/534 174/534 Wir ordnen den geraden Augenzahlen des Würfels die Zahl 0 zu, den ungeraden die Zahl 1: Beispiel Diskrete Zufallsvariable Statistik 3 4 5 6 7 x 8 9 10 11 12 177/534 Erwartung Varianz Schiefe Statistik x ≤ y =⇒ F (x) ≤ F (y) ∀x, y ∈ R limx→−∞ F (x) = 0; limx→∞ F (x) = 1 4 5 Statistik 179/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Rechnen mit Verteilungen R. Frühwirth Statistik R. Frühwirth Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze W (a < r ≤ b) = F (b) − F (a) W (r ≤ a) + W (a < r ≤ b) = W (r ≤ b) =⇒ Die Wahrscheinlichkeit, dass r in das Intervall (a, b] fällt, ist F (b) − F (a): 0 ≤ F (x) ≤ 1 ∀x ∈ R 6 Die Sprunghöhe im Punkt k ist gleich fX (k) 3 F hat eine Sprungstelle in allen Punkten des Wertebereichs 2 1 Eigenschaften einer diskreten Verteilungsfunktion F Statistik Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Diskrete Zufallsvariable R. Frühwirth Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0 Rechnen mit Verteilungen Rechnen mit Verteilungen 0.02 Momente 0.04 Erwartung Varianz Schiefe 0.06 0.08 Wichtige Verteilungen 0.1 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen 0.12 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable 2 Dichtefunktion 0.14 0.16 0.18 Statistik R. Frühwirth Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Die Dichte der Zufallsvariablen X = i + j: f(x) R. Frühwirth Diskrete Zufallsvariable fX (k) = k≤x X WX ({k}) 0 2 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 3 R. Frühwirth 4 5 Statistik 6 7 x 8 Verteilungsfunktion 9 10 11 12 Die Verteilungsfunktion der Zufallsvariablen X = i + j: Statistik k≤x X Diskrete Zufallsvariable R. Frühwirth FX (x) = Es gilt offenbar: FX (x) = W (X ≤ x) Ist X eine diskrete Zufallsvariable, so ist die Verteilungsfunktion FX von X definiert durch: Definition (Diskrete Verteilungsfunktion) k∈E 180/534 178/534 Die Wahrscheinlichkeit WX (E) eines Ereignisses E lässt sich bequem mit Hilfe der Dichte von X berechnen: X WX (E) = fX (k) Diskrete Zufallsvariable F(x) 181/534 R. Frühwirth Statistik 183/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Erwartung Varianz Schiefe Momente Rechnen mit Verteilungen W (x < X ≤ x + ∆x) = FX (x + ∆x) − FX (x) = ∆FX . Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen heißt die Verteilungsfunktion von X. Die Wahrscheinlichkeit, dass X in ein Intervall (x, x + ∆x] fällt, ist dann: Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Wichtige Verteilungen FX (x) = W (X ≤ x) Es sei (Σ, W ) ein Wahrscheinlichkeitsraum über einer überabzählbaren Ergebnismenge Ω. X sei eine Zufallsvariable, also eine (messbare) Funktion von Ω in R. Die Funktion FX , definiert durch: Definition (Stetige Verteilungsfunktion) Stetige Zufallsvariable Statistik Rechnen mit Verteilungen 12 R. Frühwirth Momente 11 Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Wichtige Verteilungen 10 Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 9 8 Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Stetige Zufallsvariable Statistik limx→−∞ F (x) = 0; limx→∞ F (x) = 1 182/534 0<α<1 R. Frühwirth Statistik heißt die Quantilsfunktion der Verteilung von X. −1 x = FX (α), gilt, heißt das α-Quantil der Verteilung von X. Die Funktion 184/534 Es sei FX (x) eine stetige Verteilungsfunktion. Der Wert xα , für den FX (xα ) = α, 0 < α < 1 Definition (Quantil) x1 ≤ x2 =⇒ F (x1 ) ≤ F (x2 ) ∀x1 , x2 ∈ R 3 0 ≤ F (x) ≤ 1 ∀x ∈ R 2 1 Eigenschaften einer stetigen Verteilungsfunktion Stetige Zufallsvariable R. Frühwirth Eine Funktion X, die auf einer solchen überabzählbaren Menge von Elementarereignissen definiert ist, kann beliebige reelle Werte annehmen. Diese Beschränkung soll nun fallengelassen werden, d.h es werden jetzt überabzählbar viele Elementarereignisse zugelassen. Das ist notwendig, wenn nicht nur Zählvorgänge, sondern beliebige Messvorgänge zugelassen werden. Bisher wurden nur solche Zufallsvariable behandelt, die auf diskreten Ereignisalgebren definiert waren. Stetige Zufallsvariable Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik R. Frühwirth Statistik x Die Wahrscheinlichkeit eines einzelnen Punktes ist immer gleich 0: Z x WX ({x}) = fX (x) dx = 0 M 187/534 Ähnlich wie bei diskreten Zufallsvariablen lässt sich die Wahrscheinlichkeit WX einer Menge M ∈ Σ leicht mit Hilfe der Dichte angeben: Z WX (M ) = fX (x) dx Das Wahrscheinlichkeitsmaß WX heißt die Verteilung von X. Es ist auf einer Ereignisalgebra Σ definiert, die aus Mengen reeller Zahlen besteht und zumindest alle Intervalle und deren Vereinigungen als Elemente enthält. Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Stetige Zufallsvariable Rechnen mit Verteilungen Rechnen mit Verteilungen 185/534 Erwartung Varianz Schiefe Erwartung Varianz Schiefe Statistik Momente Momente R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Wichtige Verteilungen Quantile können auch für diskrete Verteilungen definiert werden, jedoch sind sie dann nicht immer eindeutig. Die Quantile zu den Werten α = 0.25, 0.5, 0.75 heißen Quartile. Das Quantil zum Wert α = 0.5 heißt Median der Verteilung. Definition (Quartil) Statistik R. Frühwirth Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Stetige Zufallsvariable Statistik R. Frühwirth Statistik −∞ so gilt für eine stetige Dichte f : Z ∞ f (x) dx = 1 k∈N0 Ganz allgemein erhält man eine Aussage über stetige Zufallsvariable dadurch, dass man in einer Aussage über diskrete Zufallsvariable die Summation durch eine Integration ersetzt. Gilt zum Beispiel für eine diskrete Dichte f : X f (k) = 1 WX ((x1 , x2 ]) = WX ((x1 , x2 )) = WX ([x1 , x2 ]). Daher ist auch Stetige Zufallsvariable R. Frühwirth 188/534 186/534 0 wobei fX (x) = FX (x) ist. Die Ableitung der Verteilungsfunktion, die Funktion fX , wird als Wahrscheinlichkeitsdichtefunktion oder wieder kurz Dichte von X bezeichnet. x1 Ist FX differenzierbar, heißt X eine stetige Zufallsvariable. Für die Verteilung von X gilt nach dem Hauptsatz der Integralrechnung: Z x2 WX (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ) = fX (x) dx Definition (Stetige Dichtefunktion) Stetige Zufallsvariable Statistik 15 20 Statistik 0 0 0 0 R. Frühwirth 0.1 0.2 0.04 0.02 0.3 10 x 15 20 Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Rechnen mit Verteilungen Rechnen mit Verteilungen Rechnen mit Verteilungen Erwartung Varianz Schiefe 12 Momente Momente 11 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Erwartung Varianz Schiefe Wichtige Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen 10 9 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik 191/534 189/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen R. Frühwirth Eindimensionale Zufallsvariable 5 Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Statistik 8 0.5 Grundbegriffe Randverteilungen und bedingte Verteilungen 0.6 Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Mehrdimensionale Zufallsvariable 0.06 10 x Verteilungsfunktion Statistik R. Frühwirth 0.7 0.8 0.9 1 0.4 5 Dichtefunktion 0.08 0.1 0.12 0.14 0.16 0.18 0.2 Unterabschnitt: Grundbegriffe f(x) R. Frühwirth Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Stetige Zufallsvariable F(x) ω ∈ Ω 7→ x = X(ω) ∈ Rd Statistik 190/534 R. Frühwirth Statistik Mehrdimensionale Zufallsvariablen können diskret oder stetig sein. 192/534 die jedem Element ω des Ereignisraums Ω einen reellen Vektor x ∈ Rd zuordnet, heißt eine d-dimensionale Zufallsvariable. Eine Abbildung X: Definition (Zufallsvariable) R. Frühwirth Rechnen mit Verteilungen Momente Wichtige Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Eindimensionale Zufallsvariable Grundbegriffe 12 11 10 9 8 Abschnitt 9: Mehrdimensionale Zufallsvariable Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth 0 0.005 0.01 0.015 0.02 0.025 0.03 Grundbegriffe definiert. 1 x2 3 R. Frühwirth 2 R. Frühwirth 4 6 Statistik 5 Statistik 1 2 3 x1 4 5 fX (x1 , . . . , xd ) = W (X1 = x1 ∩ . . . ∩ Xd = xd ) Ist X = (X1 , . . . , Xd ) eine d-dimensionale diskrete Zufallsvariable, so ist die Dichtefunktion fX durch Definition (Dichtefunktion) definiert. FX (x1 , . . . , xd ) = W (X1 ≤ x1 ∩ . . . ∩ Xd ≤ xd ) 6 195/534 193/534 Ist X = (X1 , . . . , Xd ) eine d-dimensionale Zufallsvariable, so ist die Verteilungsfunktion FX durch Definition (Verteilungsfunktion) Grundbegriffe w(x1,x2) Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik 1 i≤3∩j≤4 36 P = 12 36 = 13 . i≤x1 ∩j≤x2 f (i, j) 194/534 R. Frühwirth Statistik 196/534 Der Wertevorrat von Y sind die natürlichen Zahlen zwischen 1 und 36, und Ws ist gegeben durch: 1 Ws {k} = , 1 ≤ k ≤ 36 36 Y : (ei , ej ) −→ 6i + j − 6 Wegen der Abzählbarkeit der Elementarereignisse können diese auch durch eine eindimensionale Zufallsvariable Y eindeutig in R abgebildet werden, z. B.: Beispielsweise ist F (3, 4) = F (x1 , x2 ) = W (X1 ≤ x1 ∩ X2 ≤ x2 ) = X x1 ∈ {1, . . . , 6} ∩ x2 ∈ {1, . . . , 6} sonst Die Verteilungsfunktion F ist daher: Beispiel (Fortsetzung) Grundbegriffe 0, 1 , 36 R. Frühwirth fX (x1 , x2 ) = Die Dichte fX lautet: ( 1 WX {(i, j)} = 36 Die zweidimensionale Zufallsvariable X = (X1 , X2 ) ordnet dem Ergebnis des Wurfs mit zwei Würfeln die Augenzahlen (i, j) zu. Sind alle Ausgänge gleichwahrscheinlich, so ist WX gegeben durch: Beispiel Grundbegriffe Statistik Statistik Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 199/534 Erwartung Varianz Schiefe Erwartung Varianz Schiefe Statistik Momente Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Momente R. Frühwirth Statistik R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Sind X1 und X2 zwei (diskrete oder stetige) 1-dimensionale Zufallsvariable, so ist X = (X1 , X2 ) eine zweidimensionale Zufallsvariable. Die Verteilung (Verteilungsfunktion, Dichte) von X heißt auch die gemeinsame Verteilung (Verteilungsfunktion, Dichte) von X1 und X2 . Es stellt sich nun das folgende Problem: Kann man die Verteilung von X1 bzw. X2 aus der gemeinsamen Verteilung berechnen? Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Randverteilungen und bedingte Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 197/534 Rechnen mit Verteilungen Rechnen mit Verteilungen Statistik Erwartung Varianz Schiefe Erwartung Varianz Schiefe R. Frühwirth Momente Momente Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen definiert. ∂ d FX fX (x1 , . . . , xd ) = ∂x1 . . . ∂xd Ist X = (X1 , . . . , Xd ) eine d-dimensionale stetige Zufallsvariable, so ist die Dichtefunktion fX durch Definition (Dichtefunktion) Statistik R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Grundbegriffe Statistik 198/534 R. Frühwirth ∞ −∞ Z Statistik f1 (x1 ) = −∞ ist die Dichte von X1 . Daraus folgt: −∞ f (x1 , x2 ) dx2 200/534 F1 (x1 ) = W (X1 ≤ x1 ) = W (X1 ≤ x1 ∩ −∞ < X2 < ∞) = Z x1 Z ∞ = f (x1 , x2 ) dx2 dx1 Es sei F die Verteilungsfunktion und f die Dichte der stetigen Zufallsvariablen X = (X1 , X2 ). Dann ist die Verteilungsfunktion F1 von X1 gegeben durch: Randverteilungen und bedingte Verteilungen R. Frühwirth Rechnen mit Verteilungen Momente 11 12 Wichtige Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Randverteilungen und bedingte Verteilungen Eindimensionale Zufallsvariable 10 9 8 Unterabschnitt: Randverteilungen und bedingte Verteilungen Statistik Statistik 201/534 Statistik 203/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Die bedingte Dichte ist für festes k2 die Dichte eine Verteilung, der durch X2 = k2 bedingten Verteilung von X1 . heißt die durch X2 bedingte Dichte von X1 . f (k1 , k2 ) f (k1 |k2 ) = f2 (k2 ) Es sei X = (X1 , X2 ) eine 2-dimensionale diskrete Zufallsvariable mit der Dichte f (k1 , k2 ) und den Randverteilungsdichten f1 (k1 ) bzw. f2 (k2 ). Die Funktion f (k1 |k2 ), definiert durch: Definition (Bedingte Dichte) Randverteilungen und bedingte Verteilungen R. Frühwirth k2 Ist X = (X1 , X2 ) diskret mit der Dichte f , so ist analog die Dichte f1 der Randverteilung von X1 bezüglich X gegeben durch: X f1 (k1 ) = f (k1 , k2 ) −∞ Es sei X = (X1 , X2 ) eine zweidimensionale stetige Zufallsvariable mit der Verteilungsfunktion F und der Dichte f . Die Verteilung von X1 heißt die Randverteilung von X1 bezüglich X. Ihre Dichte f1 lautet: Z ∞ f1 (x1 ) = f (x1 , x2 ) dx2 . Definition (Randverteilung) Statistik R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Randverteilungen und bedingte Verteilungen Statistik f (x1 , x2 ) (f2 (x2 ) 6= 0) f2 (x2 ) R. Frühwirth Statistik und analog für diskretes X. 204/534 Dass f (x1 |x2 ) tatsächlich eine Dichte ist, läßt sich leicht nachprüfen: Z ∞ Z ∞ f (x1 , x2 ) f2 (x2 ) f (x1 |x2 ) dx1 = dx1 = =1 f2 (x2 ) −∞ −∞ f2 (x2 ) f (x1 |x2 ) ist für festes x2 die Dichte einer Verteilung, der durch X2 = x2 bedingten Verteilung von X1 . f (x1 |x2 ) = Ist X = (X1 , X2 ) stetig, so ist analog f (x1 |x2 ) definiert durch: 202/534 W (X1 = k1 ∩ X2 = k2 ) f (k1 , k2 ) = W (X2 = k2 ) f2 (k2 ) Randverteilungen und bedingte Verteilungen R. Frühwirth W (X1 = k1 |X2 = k2 ) = Es seien X1 und X2 zwei diskrete Zufallsvariable mit der gemeinsamen Dichte f (k1 , k2 ) und den Randverteilungsdichten f1 (k1 ) und f2 (k2 ). Dann ist die bedingte Wahrscheinlichkeit des Ereignisses X1 = k1 unter der Bedingung X2 = k2 gegeben durch: Der umgekehrte Vorgang ist im allgemeinen nicht möglich, da die gemeinsame Verteilung auch Information über mögliche Zusammenhänge (Kopplung) zwischen X1 und X2 enthält. Die Verteilungen von X1 und X2 lassen sich also aus der gemeinsamen Verteilung von X1 und X2 berechnen. Randverteilungen und bedingte Verteilungen Statistik Statistik 205/534 −∞ Statistik 207/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze wobei fi,j (xi , xj ) die Randverteilungsdichte von Xi , Xj ist. fi,j (xi , xj ) fj (xj ) Rechnen mit Verteilungen Erwartung Varianz Schiefe f (xi |xj ) = Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Momente Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Die durch Xj bedingte Dichte von Xi ist gegeben durch: −∞ fi1 ,...,im (xi1 , . . . , xim ) Z ∞ Z ∞ = ... f (x1 , . . . , xn ) dxim+1 . . . dxin Die Dichte der Randverteilung von Xi1 , . . . , Xim ist gegeben durch: Randverteilungen und bedingte Verteilungen R. Frühwirth X1 und X2 unabhängig ⇐⇒ f (x1 |x2 ) = f1 (x1 ) Ist die (unbedingte) Dichte der Randverteilung von X1 gleich der durch X2 bedingten Dichte, so heißen X1 und X2 unabhängig. Definition (Unabhängigkeit von Zufallsvariablen) und analog für diskrete Dichten. Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen −∞ Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable f (x1 , x2 ) = f (x1 |x2 ) · f2 (x2 ) Z ∞ f1 (x1 ) = f (x1 |x2 ) · f2 (x2 ) dx2 Statistik R. Frühwirth Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Es gilt: Eindimensionale Zufallsvariable R. Frühwirth Randverteilungen und bedingte Verteilungen Statistik 206/534 R. Frühwirth Statistik 208/534 Xi1 , . . . , Xik heißen unabhängig, wenn die Dichte der Randverteilung von Xi1 , . . . , Xik das Produkt der Dichten der Randverteilungen der einzelnen Xij ist. Randverteilungen und bedingte Verteilungen R. Frühwirth Ist X = (X1 , . . . , Xd ), d > 2, so müssen die Definitionen der Randverteilung, der bedingten Dichten und der Unabhängigkeit entsprechend verallgemeinert werden. und analog für diskretes X. Für unabhängige Zufallsvariable X1 ,X2 ist also die Dichte der gemeinsamen Verteilung gleich dem Produkt der einzelnen Dichten. ⇐⇒ f (x1 , x2 ) = f1 (x1 ) · f2 (x2 ) f (x1 |x2 ) = f1 (x1 ) ⇐⇒ f (x2 |x1 ) = f2 (x1 ) Für unabhängige Zufallsvariablen X1 und X2 gilt: Randverteilungen und bedingte Verteilungen Statistik Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth 209/534 R. Frühwirth Statistik 211/534 Der Faktor 1/[exp(−tmin /τ ) − exp(−tmax /τ )] korrigiert für jene Teilchen, die vor tmin oder nach tmax zerfallen. Die Nachweiswahrscheinlichkeit a(t) kann auch von der Geometrie des Detektors oder deren Ansprechwahrscheinlichkeit bestimmt werden und eine komplizierte Abhängigkeit von t haben. So kann es etwa von der Konfiguration der Zerfallsprodukte abhängen, ob ein Zerfall bei t beobachtet werden kann oder nicht. Für die gemessene Wahrscheinlichkeitsdichte gilt: 0, t ≤ tmin 1 exp(−t/τ ) τ fA (t) = , tmin ≤ t < tmax exp(−t min /τ ) − exp(−tmax /τ ) 0, t > t max Beispiel (Fortsetzung) Randverteilungen und bedingte Verteilungen Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze f (x, 0) = [1 − a(x)]f (x) f (x, 1) = a(x)f (x) Die gemeinsame Dichte von X und I ist daher: W (I = 0|X = x) = 1 − a(x) W (I = 1|X = x) = a(x) X sei eine Zufallsvariable mit der Dichte f (x). Nimmt X den Wert x an, so gibt es eine Wahrscheinlichkeit a(x) dafür, dass x auch tatsächlich beobachtet wird. Man definiert nun eine Zufallsvariable I, die 1 ist, wenn x beobachtet wird, und 0 sonst. Dann ist I unter der Bedingung X = x alternativ nach Aa(x) verteilt: Beispiel (Die Akzeptanz oder Nachweiswahrscheinlichkeit) Statistik R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Randverteilungen und bedingte Verteilungen f (x, 1) a(x)f (x) = R f2 (1) a(x)f (x) dx Statistik Statistik Rechnen mit Verteilungen 12 R. Frühwirth Momente Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable 11 10 9 8 Abschnitt 10: Wichtige Verteilungen R. Frühwirth 212/534 210/534 Als konkretes Beispiel diene die Messung einer Lebensdauer. Die Messung möge bei tmin beginnen und bei tmax enden. Dann hat a(t) die folgende Gestalt: 0, für t ≤ tmin a(t) = 1, für tmin < t ≤ tmax 0, für t > tmax fA (x) = f (x|I = 1) = Da der Experimentator nur mit beobachteten Größen arbeiten kann, schränkt er seine Grundgesamtheit auf die nachgewiesenen Ereignisse ein, d.h. er braucht die Dichte von X unter der Bedingung, dass X beobachtet wird: Beispiel (Fortsetzung) Randverteilungen und bedingte Verteilungen 213/534 x = 0, 1 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 215/534 Rechnen mit Verteilungen Rechnen mit Verteilungen Statistik Erwartung Varianz Schiefe R. Frühwirth Momente Wichtige Verteilungen Erwartung Varianz Schiefe fX (x) = px (1 − p)1−x , Momente oder Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen fX (0) = 1 − p, fX (1) = p Die Dichte fX lautet: Die Verteilung einer Zufallsvariablen, die den Ausgängen eines Alternativversuchs die Werte 1 (Erfolg) bzw. 0 (Misserfolg) zuordnet. Die Alternativ- oder Bernoulliverteilung Al(p) Diskrete Verteilungen Statistik Rechnen mit Verteilungen 12 R. Frühwirth Momente Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Mehrdimensionale Zufallsvariable 11 10 9 Eindimensionale Zufallsvariable Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable 8 Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Diskrete Verteilungen ( 0, 1 n, x ∈ {1, . . . , n} sonst Statistik 214/534 j=1 n X ij R. Frühwirth Statistik 216/534 Der Wertebereich von X ist die Menge {0, 1, . . . , n}. Auf die Zahl k (0 ≤ k ≤ n) werden alle Folgen abgebildet, bei denen e1 genau k-mal eintritt. Es gibt Ckn solche Folgen, und jede hat die Wahrscheinlichkeit pk (1 − p)n−k . r(e) = Die diskrete Zufallsvariable X bildet die Folge e auf die Häufigkeit von e1 ab: Wird der Alternativversuch n mal unabhängig durchgeführt, so gibt es 2n Elementarereignisse, nämlich die Folgen der Form e = (ei1 , . . . , ein ), ij = 0 oder 1. Die Binomialverteilung Bi(n, p) Diskrete Verteilungen R. Frühwirth Die Verteilungsfunktion FX ist eine Stufenfunktion mit Sprüngen der Größe n1 in den Punkten 1, . . . , n. fX = Die Dichte fX lautet: Die Verteilung einer Zufallsvariablen X, die die Werte 1, . . . , n mit gleicher Wahrscheinlichkeit annimmt.. Die diskrete Gleichverteilung auf n Punkten, Gl(n) Diskrete Verteilungen Statistik k=0 n X f (k) = k=0 n X n k p (1 − p)n−k = 1 k ! Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth 217/534 pi = 1 R. Frühwirth Statistik (ei1 , . . . , ein ), 1 ≤ ij ≤ d 219/534 erfüllen müssen. Führt man den verallgemeinerten Alternativversuch n-mal durch, so sind die Elementarereignisse die Folgen der Form: i=1 d X Der Alternativversuch kann dahingehend verallgemeinert werden, dass man nicht nur zwei, sondern d Elementarereignisse e1 , . . . , ed zulässt, denen die Wahrscheinlichkeiten p1 , . . . , pd zugeordnet werden, die nur Die Multinomialverteilung Mu(n, p1 , . . . , pd ) Diskrete Verteilungen Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Rechnen mit Verteilungen R. Frühwirth Statistik R. Frühwirth Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Das ist gerade der binomische Lehrsatz. Es gilt Die Verteilung von X wird als Binomialverteilung Bi(n, p) mit den Parametern n und p bezeichnet. Die Dichte f ist daher: ! n k f (k) = p (1 − p)n−k , 0 ≤ k ≤ n k Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth 1 3 4 4 5 k 5 k 6 6 7 7 8 8 9 9 10 10 0.2 0.3 0.4 0 Statistik 1 0 1 Bi(10,0.9) 0 Bi(10,0.5) 2 2 j=1 n Y W (eij ) = j=1 n Y 3 3 5 k 5 k 6 6 pij = 4 4 i=1 d Y 7 7 9 9 pni i 8 8 10 10 218/534 Statistik 220/534 d d d Y X X n! pni i , ni = n, pi = 1 n1 ! . . . nd ! i=1 i=1 i=1 R. Frühwirth f (n1 , . . . , nd ) = Die Dichte von X lautet daher: Die d-dimensionale Zufallsvariable X = (X1 , . . . , Xd ) bildet die Folge (ei1 , . . . , ein ) auf den Vektor (n1 , . . . , nd ) ab. Dabei werden n!/(n1 !· · ·nd !) Folgen auf den gleichen Vektor abgebildet. wobei ni die Anzahl des Eintretens von ei ist. Die Summe der ni ist daher n. W (ei1 , . . . , ein ) = Sind die n Teilversuche unabhängig, gilt: Diskrete Verteilungen R. Frühwirth 0 2 3 0 1 2 0.1 0.2 0.3 0.4 0.1 0 Bi(10,0.7) 0 Bi(10,0.3) 0.1 0.2 0.3 0.4 0 0.1 0.2 0.3 0.4 Diskrete Verteilungen P(k) P(k) Diskrete Verteilungen P(k) P(k) Statistik Statistik 221/534 223/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Rechnen mit Verteilungen R. Frühwirth Statistik R. Frühwirth Erwartung Varianz Schiefe Allgemein gilt: Ist die Wartezeit zwischen zwei Ereignissen eines Zufallsprozesses exponentialverteilt, so ist die Anzahl der Ereignisse pro Zeiteinheit Poissonverteilt. Das klassische Beispiel einer Poissonverteilten Zufallsvariablen ist die Anzahl der Zerfälle pro Zeiteinheit in einer radioaktiven Quelle. Die Poissonverteilung entsteht aus der Binomialverteilung durch den Grenzübergang n → ∞ unter der Bedingung n · p = λ. Die Poissonverteilung Po(λ) Diskrete Verteilungen R. Frühwirth Werden in das Histogramm n Ergebnisse eingefüllt, so sind die Gruppeninhalte (X1 , . . . , Xd ) multinomial nach Mu(n, p1 , . . . , pd ) verteilt. Die Wahrscheinlichkeit, dass R in Gruppe i fällt, sei gleich pi . Xi ist die Anzahl der Fälle, in denen die Zufallsvariable R, das experimentelle Ergebnis, in Gruppe i fällt. Das klassische Beispiel einer multinomialverteilten Zufallsvariablen ist das Histogramm (gruppierte Häufigkeitsverteilung), das zur graphischen Darstellung der (absoluten) experimentellen Häufigkeit verwendet wird. Die Verteilung von X wird als Multinomialverteilung mit den Parametern n und p1 , . . . , pd bezeichnet: WX = Mu(n, p1 , . . . , pd ) Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Diskrete Verteilungen 1 R. Frühwirth 2 3 Statistik 4 5 x 6 7 8 9 10 222/534 n! k!(n − k)! n λk −λ ·e k! R. Frühwirth = Statistik λ n n λ k n 1− n λ = n 1− k n−k λ λ 1− = n n n(n − 1) . . . (n − k + 1) λk = lim n→∞ nk k! " k # i−1 λk Y 1 − n · 1− = lim λ n→∞ k! 1− n i=1 n→∞ = lim n→∞ Pλ (k) = lim Bn; λ (k) = 224/534 Die Dichte der Poissonverteilung folgt aus der Berechnung des Grenzwertes: Diskrete Verteilungen 0 0 5 10 15 20 25 Ein Histogramm Diskrete Verteilungen ni Statistik 5 3 4 k k 5 6 10 7 8 9 9 Po(5) 8 15 10 0.1 0.15 0.2 1 2 2 3 4 4 5 k 5 k 6 6 7 7 8 9 10 10 0.2 0.3 0.4 0 1 0 1 Bi(10,0.4) 0 Bi(10,0.6) 2 2 5 2 3 3 3 4 4 10 4 5 k 5 k k k 5 6 6 15 6 7 7 7 8 8 9 9 9 20 10 10 Po(10) 8 227/534 225/534 25 10 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen 0 0 R. Frühwirth Statistik Zwei Hypergeometrische Verteilungen und die entsprechenden Binomialverteilungen 0.1 0.1 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe 1 3 0.1 0.2 0.3 0.4 0.5 1 Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Momente 0 Hy(100,40,10) 0 Hy(20,12,10) Statistik 0 0 Po(2) Statistik R. Frühwirth Erwartung Varianz Schiefe 0.2 0.3 0.4 0 0.1 0.2 0.3 0.4 0.5 Diskrete Verteilungen R. Frühwirth 0 0 2 0 1 0 0.1 0.2 0.3 0.05 0 Po(1) 0.4 0.05 0.1 0.15 0.2 0 0.1 0.2 0.3 0.4 Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable w(k) w(k) P(k) P(k) R. Frühwirth Diskrete Verteilungen w(k) w(k) P(k) P(k) Statistik 226/534 j=1 n X ij R. Frühwirth Statistik 228/534 Der Wertebereich von X ist die Menge {0, 1, . . . , n}. Auf die Zahl k, 0 ≤ k ≤ n werden alle Folgen abgebildet, bei denen e1 genau k-mal eintritt. Es gibt Ckn solche Folgen, und jede hat die Wahrscheinlichkeit pk (1 − p)n−k . Es gilt daher ! n WX (k) = f (k) = pk (1 − p)n−k , 0 ≤ k ≤ n k r(f ) = Die Ereignisalgebra hat 2n Elementarereignisse, nämlich die Folgen der Form f = (ei1 , . . . , ein ), ij = 0 oder 1. Die diskrete Zufallsvariable X bildet die Folge f auf die Häufigkeit von e1 ab: Beispiel (Wiederholung eines Alternativversuchs.) Diskrete Verteilungen R. Frühwirth Grundgesamtheit von N Objekten, davon haben M eine bestimmte Eigenschaft E. Es werden n Objekte gezogen, wobei jedes Objekt die gleiche Wahrscheinlickeit hat, gezogen zu werden. Einmal gezogene Objekte werden nicht zurückgelegt. Die Anzahl der gezogenen Objekte mit der Eigenschaft E ist eine Zufallsvariable X. Die Verteilung von X wird hypergeometrische Verteilung Hy(N, M, n) genannt. Ihre Dichte lautet: M N −M m n−m f (m) = , 0 ≤ m ≤ min(n, M ) N n Die hypergeometrische Verteilung Hy(N, M, n) Diskrete Verteilungen Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik 229/534 0 −0.5 0.2 0.4 0.6 0.8 1 1.2 0 R. Frühwirth 0.5 x 1 1.5 Statistik Dichtefunktion der Gleichverteilung Un(0,1) 0 −0.5 0.2 0.4 0.6 0.8 1 1.2 0 0.5 x 1 231/534 1.5 Verteilungsfunktion der Gleichverteilung Un(0,1) Die stetige Gleichverteilung auf dem Intervall [a, b] hat die Dichte: 0, x < a 1 f (x|a, b) = I[a,b] = 1/(b − a), a ≤ x ≤ b b−a 0, b < x Die stetige Gleichverteilung Un(a, b) Stetige Verteilungen R. Frühwirth WX (k ≤ 1) = f (0) + f (1) = (1 − p)n + np(1 − p)n−1 Die Wahrscheinlichkeit, dass e1 höchstens einmal eintritt, ist gleich Beispiel (Wiederholung eines Alternativversuchs) f(x) R. Frühwirth Diskrete Verteilungen F(x) Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth 230/534 (x−µ)2 1 e− 2σ2 2πσ R. Frühwirth Statistik Die Verteilungsfunktion Φ(x) ist nicht durch elementare Funktionen darstellbar. Im Fall von µ = 0, σ = 1 heißt sie Standardnormalverteilung. f (x|µ, σ 2 ) = √ Ihre Dichte lautet: 232/534 Die Normalverteilung ist eine der wichtigsten Verteilungen in Wissenschaft und Technik. Die Gauß- oder Normalverteilung No(µ, σ 2 ) Stetige Verteilungen Statistik Rechnen mit Verteilungen 12 R. Frühwirth Momente Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable 11 10 9 8 Unterabschnitt: Stetige Verteilungen Statistik R. Frühwirth 0 x 0 2 4 x 6 8 10 Statistik 2 4 x 6 8 235/534 10 Erwartung Varianz Schiefe Momente Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Rechnen mit Verteilungen R. Frühwirth 233/534 5 Statistik R. Frühwirth Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 0 0.2 0.1 0 0.4 0.6 0.8 1 0 x Verteilungsfunktion der Standardnormalverteilung Verteilungsfunktion der Exponentialverteilung Ex(2) 0 −5 0.2 0.4 0.6 0.8 1 0.2 0.3 0.4 0.5 5 Statistik Dichtefunktion der Exponentialverteilung Ex(2) Stetige Verteilungen 0 −5 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Dichtefunktion der Standardnormalverteilung Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable f(x) f(x) R. Frühwirth Stetige Verteilungen F(x) F(x) 1 −x/τ e · I[0,∞) (x) τ Statistik 3 2 R. Frühwirth Statistik Sind die Wartezeiten eines Prozesses unabhängig und exponentialverteilt gemäß Ex(τ ), so ist der Prozess ein Poissonprozess mit Intensität λ = 1/τ . Die Wartezeit zwischen zwei aufeinanderfolgenden Ereignissen ist exponentialverteilt gemäß Ex(1/λ). 236/534 Die Anzahl der Ereignisse in einem Zeitintervall der Länge T ist Poisson-verteilt gemäß Po(λT ). Eigenschaften eines Poissonprozesses 1 234/534 Wir beobachten einen Prozess, bei dem gewisse Ereignisse zu zufälligen Zeitpunkten eintreten. Ist die Anzahl der Ereignisse pro Zeiteinheit unabhängig und Poisson-verteilt gemäß Po(λ), sprechen wir von einem Poissonprozess mit Intensität λ. Der Poissonprozess Stetige Verteilungen R. Frühwirth Ihre Verteilungsfunktion lautet: F (x|τ ) = 1 − e−x/τ · I[0,∞) (x) f (x|τ ) = Ihre Dichte lautet: Die Exponentialverteilung ist die Wartezeitverteilung des radioaktiven Zerfalls von Atomen und allgemein des Zerfalls von Elementarteilchen. Die Exponentialverteilung Ex(τ ) Stetige Verteilungen Statistik x e ba Γ(a) · I[0,∞) (x) Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik Rechnen mit Verteilungen 12 R. Frühwirth Momente Wichtige Verteilungen Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Mehrdimensionale Zufallsvariable 11 10 9 Eindimensionale Zufallsvariable 239/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth 8 237/534 Statistik R. Frühwirth Statistik Unterabschnitt: Die Normalverteilung und verwandte Verteilungen R. Frühwirth Ihre Verteilungsfunktion ist die regularisierte unvollständige Gammafunktion: Z x a−1 −x/b x e γ(a, x/b F (x|a, b) = dx = a b Γ(a) Γ(a) 0 f (x|a, b) = a−1 −x/b Die Dichte der Gammaverteilung lautet: Die Exponentialverteilung ist eine Spezialfall einer allgemeineren Familie von Verteilungen, der Gammaverteilung. Die Gammaverteilung Ga(a, b) R. Frühwirth Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth 0 0 5 5 R. Frühwirth 10 x 10 x 15 20 20 Statistik Ga(5,1) 15 Ga(2,1) 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0 0 5 5 10 x 10 x 15 Ga(10,1) 15 Ga(3,1) (x−µ)2 1 √ e− 2σ2 σ 2π R. Frühwirth Statistik Die √ halbe Breite auf halber Höhe (HWHM) ist gleich σ 2 ln 2 ≈ 1, 177σ. Das Maximum ist bei x = µ, die Wendepunkte bei x = µ ± σ. f (x) = Ihre Dichte ist die bekannte Glockenkurve: Die eindimensionale Normalverteilung Die Normalverteilung und verwandte Verteilungen 0 0.05 0.1 0.15 0.2 0 0.1 0.2 0.3 0.4 Stetige Verteilungen f(x) f(x) Stetige Verteilungen f(x) f(x) 240/534 238/534 20 20 Statistik −3 −2 −1 0 (x−µ)/σ 1 HWHM fmax=0.39894 2 3 4 241/534 Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth R. Frühwirth Statistik 243/534 Jede Randverteilung einer Normalverteilung ist wieder eine Normalverteilung. Mittelwert und Matrix der Randverteilung entstehen durch Streichen der Spalten und Zeilen der restlichen Variablen. Ist X normalverteilt gemäß No(µ, V) und H eine m × d Matrix, so ist Y = HX normalverteilt gemäß No(Hµ, HVHT ). V und V sind symmetrische positiv definite d × d-Matrizen. −1 1 1 T −1 p exp − f (x) = (x − µ) V (x − µ) d 2 (2π) 2 |V| Ihre Dichte lautet: Die d-dimensionale Normalverteilung No(µ, V) Die Normalverteilung und verwandte Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Rechnen mit Verteilungen R. Frühwirth Statistik R. Frühwirth Erwartung Varianz Schiefe Eindimensionale Normalverteilung, gelber Bereich = 68.2% 0 −4 0.1 0.2 0.3 0.4 0.5 Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Die Normalverteilung und verwandte Verteilungen f((x−µ)/σ) W (|r − µ| ≥ σ) W (|r − µ| ≥ 2σ) W (|r − µ| ≥ 3σ) R. Frühwirth Statistik R. Frühwirth Statistik 244/534 Alle Digonalelemente von D2 sind positiv. Die Zufallsvariable Y = DU(X − µ) ist dann standardnormalverteilt. Die Drehung U heißt Hauptachsentransformation. UVUT = D2 Ist X normalverteilt gemäß No(µ, V), so kann V als positiv definite symmetrische Matrix mittels einer orthogonalen Transformation auf Diagonalform gebracht werden: Jede bedingte Verteilung einer Normalverteilung ist wieder eine Normalverteilung. 242/534 Ist die Faltung von zwei Verteilungen eine Normalverteilung, so sind auch die beiden Summanden Normalverteilungen. Die Faltung zweier Normalverteilungen ist wieder eine Normalverteilung. = 31.8% = 4.6% = 0.2% Die Normalverteilung und verwandte Verteilungen 2 1 Eigenschaften der Normalverteilung Es gilt: Die Normalverteilung und verwandte Verteilungen Statistik 1−ρ 1 x22 σ22 i Statistik f (x1 , x2 ) = f (x2 ) " 2 # ρ x2 σ1 x1 − σ2 245/534 Statistik 247/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Rechnen mit Verteilungen Rechnen mit Verteilungen Erwartung Varianz Schiefe Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Momente E[X1 |X2 ] heißt die bedingte Erwartung. Statistik R. Frühwirth Erwartung Varianz Schiefe E[X1 |X2 ] = ρx2 σ1 /σ2 X1 |X2 = x2 ist also eine normalverteilte Zufallsvariable mit der Erwartung 1 1 p =√ exp − 2 2 2 σ1 (1 − ρ2 ) 2πσ1 1 − ρ f (x1 |x2 ) = Die bedingte Dichte f (x1 |x2 ) ist gegeben durch Die Normalverteilung und verwandte Verteilungen R. Frühwirth Zwei unkorrelierte normalverteilte Zufallsvariable mit gemeinsamer Normalverteilung sind daher unabhängig. ρ = σ12 /(σ1 σ2 ) ist der Korrelationskoeffizient. Sind X1 und X2 unkorreliert, also ρ = 0, folgt: 1 x21 x22 1 f (x1 , x2 ) = exp − + 2 = f1 (x1 ) · f2 (x2 ) 2πσ1 σ2 2 σ12 σ2 2πσ1 σ2 Für d = 2 und µ = 0 kann die Dichte folgendermaßen angeschrieben werden: 2 h x1 1√ 1 f (x1 , x2 ) = exp − 2(1−ρ − 2 σρ 1xσ1 2x2 + 2) σ2 2 Die zweidimensionale Normalverteilung Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Die Normalverteilung und verwandte Verteilungen 2 0 −2 R. Frühwirth −2 0 Statistik 2 −3 −3 −2 −1 0 1 2 −2 −1 0 1 σ1=1, σ2=1, ρ=0.6 2 R. Frühwirth Statistik 248/534 Sie hängt im Fall d = 2 nur von ρ ab. Ist ρ = 0, sind X1 und X2 bereits unabhängig, und der Drehwinkel ist gleich 0. Ist ρ 6= 0, ist die Drehmatrix U gleich ! cos ϕ − sin ϕ 1 σ 2 − σ12 U= mit ϕ = − arccot 2 2 2ρσ1 σ2 sin ϕ cos ϕ Die Hauptachsentransformation ist jene Drehung, die die Ellipsen in achsenparallele Lage bringt. Die Höhenschichtlinien der Dichtefunktion sind Ellipsen. 246/534 3 Ist ρ = 1, sind X1 und X2 proportional: X1 = X2 σ1 /σ2 . Je nach Vorzeichen von ρ fällt oder wächst die bedingte Erwartung von X1 , wenn X2 wächst. Die Normalverteilung und verwandte Verteilungen 0 0.05 0.1 0.15 0.2 3 Die Normalverteilung und verwandte Verteilungen Statistik R. Frühwirth xn/2−1 e−x/2 · I[0,∞) (x) Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik Rechnen mit Verteilungen 12 R. Frühwirth Momente Erwartung Varianz Schiefe Wichtige Verteilungen Mehrdimensionale Zufallsvariable 11 10 9 251/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik Eindimensionale Zufallsvariable 249/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Statistik R. Frühwirth Statistik Abschnitt 11: Momente 8 1 2n/2 Γ( n2 ) Sie ist die Gammaverteilung Ga(n/2, 2). Ist X standardnormalverteilt, so ist Y = X 2 χ2 -verteilt mit einem Freiheitsgrad. f (x|n) = Die Dichte der χ2 -Verteilung mit n Freiheitsgraden lautet: Die χ2 -Verteilung χ2 (n) Die Dichte der t-Verteilung mit n Freiheitsgraden lautet: −(n+1)/2 Γ( n+1 x2 2 ) f (x|n) = √ 1+ n nπ Γ( n2 ) Die t-Verteilung t(n) R. Frühwirth Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Die Normalverteilung und verwandte Verteilungen Statistik 12 11 10 9 8 X/n Y /m R. Frühwirth Statistik Rechnen mit Verteilungen Momente Erwartung Varianz Schiefe Wichtige Verteilungen Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable Unterabschnitt: Erwartung R. Frühwirth verteilt gemäß F(n, m). F = 252/534 250/534 n/2 m/2 Γ( n+m m xn/2−1 2 )n · I[0,∞) (x) n m Γ( 2 )Γ( 2 ) (m + nx)(n+m)/2 Sind X und Y unabhängig und χ2 -verteilt mit n bzw. n Freiheitsgraden, so ist f (x|n, m) = Die Dichte der F-Verteilung (Fisher-Snedecor-Verteilung) mit n bzw. m Freiheitsgraden lautet: Die F-Verteilung F(n, m) Die Normalverteilung und verwandte Verteilungen Statistik −∞ Statistik R. Frühwirth Statistik X1 und X2 unabhängig =⇒ E[X1 X2 ] = E[X1 ] · E[X2 ] 4 Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze E[X1 + X2 ] = E[X1 ] + E[X2 ] 3 Erwartung Varianz Schiefe E[aX + b] = aE[X] + b E[c] = c, c ∈ R 2 Momente 1 Eigenschaften der Erwartung 255/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Wichtige Verteilungen 1 , x∈R π(1 + x2 ) Statistik R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen f (x) = Die Erwartung braucht nicht zu existieren. Ein Beispiel ist die Cauchy-Verteilung (t-Verteilung mit einem Freiheitsgrad) mit der Dichte Die Erwartung ist ein Lageparameter. 253/534 Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Erwartung Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Rechnen mit Verteilungen Rechnen mit Verteilungen Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Erwartung Varianz Schiefe EX [g] = E[g(X)] heißt die Erwartung von g(X). Ist g ein k-dimensionaler Vektor von Funktionen, dann ist auch E[g(X)] ein k-dimensionaler Vektor. k∈N0 Es sei X eine (diskrete oder stetige) Zufallsvariable mit der Dichte f (x). Ferner sei g eine beliebige stetige reelle oder komplexe Funktion. Man definiert EX [g] = E[g(X)] durch: Z ∞ X g(x)f (x) dx g(k)f (k) bzw. E[g(X)] = E[g(X)] = Definition (Erwartung) Statistik R. Frühwirth Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Erwartung k∈N0 R. Frühwirth −∞ Statistik ! n pk (1 − p)n−k k R. Frühwirth Statistik Mit k0 = k − 1 und n0 = n − 1 folgt ! n0 X 0 0 0 n E[X] = np pk (1 − p)n −k = np k k0 =0 Es sei X binomialverteilt nach Bi(n, p). ! n n X X n E[X] = k pk (1 − p)n−k = k k k=0 k=1 Beispiel (Die Erwartung der Binomialverteilung) E[X] = 1 · p + 0 · (1 − p) = p Es sei X alternativverteilt nach Al(p). Dann gilt Beispiel (Die Erwartung der Alternativverteilung) Erwartung −∞ 256/534 254/534 Ist X = (X1 , . . . , Xd ), wird die Erwartung entsprechend verallgemeinert: Z ∞ Z ∞ g(x1 , . . . , xd ) f (x1 , . . . , xd ) dx1 . . . dxd EX [g] = ... −∞ Ist g(x) = x, so heißt E[g(X)] = E[X] die Erwartung oder der Mittelwert von X. Z ∞ X E[X] = xf (x) dx bzw. E[X] = k f (k) Definition (Erwartung einer Zufallsvariablen) Erwartung Statistik i=1 n X Xi . k=0 k· R. Frühwirth λ −λ e = k! k k λ e−λ (k − 1)! Statistik k=1 ∞ X k =0 R. Frühwirth Beispiel (Die Erwartung derStatistik d-dimensionalen Normalverteilung)259/534 E[X − µ] = 0 =⇒ E[X] − µ = 0 =⇒ E[X] = µ Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Es sei X normalverteilt gemäß No(µ, σ 2 ): Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Erwartung Varianz Schiefe Beispiel (Die Erwartung der Normalverteilung) Erwartung Varianz Schiefe Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Momente Es sei X exponentialverteilt gemäß Eτ : Z ∞ ∞ t −t/τ E[X] = e dt = −te−t/τ − τ e−t/τ = τ τ 0 0 Beispiel (Die Erwartung der Exponentialverteilung) Es sei X gleichverteilt auf dem Intervall [a, b]: Z b x a+b E[X] = dx = b − a 2 a 257/534 0 ∞ X λk −λ =λ e =λ 0 k! 0 Beispiel (Die Erwartung der stetigen Gleichverteilung) Erwartung E[X] = ∞ X Es sei X nach Po(λ) poissonverteilt: Beispiel (Die Erwartung der Poissonverteilung) Dann folgt E[X] = np aus der Additivität der Ewartung. r= Da X die Anzahl des Eintretens von e1 in n unabhängigen Alternativversuchen angibt, kann X auch als die Summe von n alternativverteilten Zufallsvariablen X1 , . . . , Xn betrachtet werden: Beispiel (Fortsetzung) Statistik R. Frühwirth Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Erwartung nM N ! n pk (1 − p)n−k k Statistik 0 Z ∞ xa e−x/b dx = ab ba Γ(a) R. Frühwirth Statistik E[X] = n Es sei X χ2 -verteilt mit n Freiheitsgraden: Beispiel (Die Erwartung der χ2 -Verteilung) E[X] = Es sei X gammaverteilt gemäß Ga(a, b): Beispiel (Die Erwartung der Gammaverteilung) Erwartung R. Frühwirth Mit k0 = k − 1 und n0 = n − 1 folgt ! n0 X 0 0 0 n E[X] = np pk (1 − p)n −k = np k k0 =0 Es sei X binomialverteilt nach Bi(n, p). ! n n X X n E[X] = k pk (1 − p)n−k = k k k=0 k=1 Beispiel (Die Erwartung der Binomialverteilung) E[X] = Es sei X hypergeometrisch verteilt nach Hy(N, M, n). Dann gilt Beispiel (Die Erwartung der hypergeometrischen Verteilung) Erwartung 260/534 258/534 Statistik Erwartung Statistik 261/534 2 2 3 3 2 R. Frühwirth Statistik 263/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Erwartung Varianz Schiefe Momente Rechnen mit Verteilungen 4 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze µ04 = µ4 + 4µ01 µ3 + 6µ01 µ2 + µ01 µ03 = µ3 + 3µ01 µ2 + µ01 Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen = µ2 + 2 µ01 Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Wichtige Verteilungen µ02 4 Statistik R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen µ4 = µ04 − 4µ01 µ03 + 6µ01 µ02 − 3µ01 µ3 = µ03 − 3µ01 µ02 + 2µ01 µ2 = µ02 − µ01 Beispiel (Umrechnung von zentralen Momenten und Momenten um 0) Statistik Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth R. Frühwirth Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Erwartung Varianz Schiefe Momente Rechnen mit Verteilungen m ,m > 2 m−2 Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze E[X] = Es sei X F-verteilt mit n bzw. m Freiheitsgraden: Beispiel (Die Erwartung der F-Verteilung) Für n = 1 (Cauchy- oder Breit-Wigner-Verteilung) existiert die Erwartung nicht. E[X] = 0, n > 1 Es sei X t-verteilt mit n Freiheitsgraden: Beispiel (Die Erwartung der t-Verteilung) Statistik R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Erwartung Statistik Rechnen mit Verteilungen 12 R. Frühwirth Momente Erwartung Varianz Schiefe Wichtige Verteilungen Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable Statistik 11 10 9 8 Unterabschnitt: Varianz R. Frühwirth Die zentralen Momente µ1 , . . . , µk können aus den Momenten um 0 µ01 , . . . , µ0k berechnet werden, und umgekehrt. 264/534 262/534 Sei X eine Zufallsvariable. Die Erwartung von g(x) = (x − a)k , sofern sie existiert, heißt k-tes Moment von X um a. Das k-te Moment um 0 wird mit µ0k bezeichnet. Das k-te Moment um den Erwartungswert E[X] wird als zentrales Moment µk bezeichnet. Definition (Momente) Erwartung Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik 265/534 −∞ R. Frühwirth Statistik 267/534 heißt die Kovarianz von Xi und Xj , auch σij geschrieben. Die Matrix V mit Vij = cov[Xi , Xj ] heißt die Kovarianzmatrix von X, bezeichnet mit Cov[X]. −∞ cov[Xi , Xj ] = E[(Xi − µ0i )(Xj − µ0j )] = Z = (xi − µ0i )(xj − µ0j ) f (x1 , . . . xn ) dx1 . . . dxn = Rn Z ∞Z ∞ (xi − µ0i )(xj − µ0j ) fij (xi , xj ) dxi dxj = Sei X = (X1 , . . . , Xn ) eine n-dimensionale Zufallsvariable und E[Xi ] = µ0i . Definition (Kovarianz) Varianz R. Frühwirth 1 f (x) = , x∈R (2 + x2 )3/2 Die Standardabweichung ist ein Skalenparameter, der die Breite der Verteilung beschreiben. Die Standardabweichung hat die gleiche Dimension wie die Zufallsvariable. Varianz und Standardabweichung sind (wie alle zentralen Momente) invariant gegen Translationen. Die Varianz braucht nicht zu existieren. Ein Beispiel ist die t-Verteilung mit zwei Freiheitsgraden mit der Dichte Das zweite zentrale Moment µ2 heißt die Varianz von X, bezeichnet mit var[X]. Die Wurzel aus der Varianz heißt die Standardabweichung von X, bezeichnet mit σ[X]. Definition (Varianz) Varianz Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik 1 g2 5 i=1 n X i=1 j=1 cov[Xi , Xj ] Statistik i=1 j=i+1 n n X X R. Frühwirth var[Xi ] + 2 i=1 var[a1 X1 + a2 X2 ] = a21 var[X1 ] + a22 var[X2 ] + 2a1 a2 cov[X1 , X2 ] " n # n X n X X var Xi = cov[Xi , Xj ] = var[aX + b] = a2 var[X] 4 cov[X1 , X2 ] = E[X1 X2 ] − E[X1 ] · E[X2 ] 3 var[X] = E[r2 ] − (E[X])2 2 1 Eigenschaften der Varianz bzw. der Kovarianz Varianz R. Frühwirth W (|X − µ| > gσ) ≤ 268/534 266/534 Es sei X eine Zufallsvariable mit der Erwartung E[X] = µ und der Varianz var[X] = σ 2 . Für g > 0 gilt: Die Tschebyscheff’sche Ungleichung Varianz Statistik Statistik 271/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze E[Y ] = p, var[Y ] = p(1 − p)/n Ist Y = X/n die relative Häufigkeit des Eintretens von e1 , so gilt var[X] = np(1 − p) Ist X nach Bi(n, p) verteilt, so ist X die Summe von n unabhängigen alternativverteilten Zufallsvariablen. Es gilt daher: Beispiel (Die Varianz der Binomialverteilung) var[X] = E[X 2 ] − p2 = 12 · p + 02 · (1 − p) − p2 = p(1 − p) Es sei X alternativverteilt nach Al(p). Beispiel (Die Varianz der Alternativverteilung) Statistik R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Varianz Rechnen mit Verteilungen Rechnen mit Verteilungen 269/534 Erwartung Varianz Schiefe Erwartung Varianz Schiefe Statistik Momente Momente R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen i=1 Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Wichtige Verteilungen i=1 X1 , . . . , Xn unabhängig: " n # n X X var Xi = var[Xi ] X1 , X2 unabhängig =⇒ cov[X1 , X2 ] = 0 Statistik R. Frühwirth Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen 2 1 Für unabhängige Zufallsgrößen gilt: Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Varianz Statistik R. Frühwirth var[X] = Statistik nM (N − n)(N − M ) N 2 (N − 1) Es sei X hypergeometrisch verteilt nach Hy(N, M, n). Dann gilt Beispiel (Die Varianz der hypergeometrischen Verteilung) R. Frühwirth Ist |ρij | = 1, so sind Xi und Xj linear abhängig. −1 ≤ ρij ≤ 1 Varianz 2 1 Eigenschaften des Korrelationskoeffizienten 272/534 270/534 Definition (Korrelationskoeffizient) σij heißt der Korrelationskoeffizient von Xi Die Größe ρij = σi σj und Xj . Varianz Statistik Varianz Statistik 273/534 b 2 1 τ ∞ 0 2 Z t2 e−t/τ dt = 2τ 2 Statistik 275/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze var[X] = E[X ] − τ 2 = τ 2 E[X 2 ] = Beispiel (Die Varianz der Exponentialverteilung) Z b3 − a3 x dx = 3(b − a) a 2 (b − a)2 b3 − a3 b+a − = var[X] = 3(b − a) 2 12 1 E[X ] = b−a 2 Beispiel (Die Varianz der stetigen Gleichverteilung) Statistik R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze = − npi pj =n(n − 1)pi pj − npi npj = cov[Xi , Xj ] =E[Xi Xj ] − E[Xi ] · E[Xj ] = Für ein Histogramm ist also die Varianz des Gruppeninhaltes gleich npi (1 − pi ). Für pi 1 (viele Gruppen) ist das ungefähr gleich npi , der Erwartung des Gruppeninhaltes. var[Xi ] = npi (1 − pi ) Sei X = (X1 , . . . , Xd ) nach Mu(n; p1 , . . . , pd ) verteilt (d ≥ 2). Da Xi binomialverteilt ist, gilt Beispiel (Die Kovarianzmatrix der Multinomialverteilung) Statistik R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Varianz R. Frühwirth Statistik var[X] =E[X 2 ] − λ2 = λ λk −λ e +λ= k00 ! 00 0 λk −λ e = k0 ! √ 1 2π σ Z 1 (x − µ)2 exp − dx = 1 für alle µ. 2 σ2 274/534 R. Frühwirth Statistik var[X] = σ 2 276/534 Nach zweimaligem Differenzieren nach µ, wobei Differentiation und Integration vertauscht werden dürfen, erhält man: Z (x − µ)2 1 1 1 (x − µ)2 √ − 2 + exp − dx = 0 σ σ2 2 σ2 2π σ Z 1 (x − µ)2 1 √ (x − µ)2 exp − dx = σ 2 2 σ2 2π σ Es gilt: Beispiel (Die Varianz der Normalverteilung) Varianz k00 =0 2 λ2 (k0 + 1) · λ · λk−1 e−λ = (k − 1)! λk −λ e = k! k·λ· k2 k0 =0 ∞ X k=0 ∞ X k=0 ∞ X ∞ X =λ + λ = = = E[X 2 ] = Beispiel (Die Varianz der Poissonverteilung) Varianz Statistik Z 0 ∞ xa+1 e−x/b dx = a(a + 1)b2 ba Γ(a) 277/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik Rechnen mit Verteilungen 12 R. Frühwirth Momente Erwartung Varianz Schiefe Wichtige Verteilungen Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable 11 10 9 8 279/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Schiefe Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze var[X] = 2 n Es sei X χ2 -verteilt mit n Freiheitsgraden: Beispiel (Die Varianz der χ2 -Verteilung) var[X] = ab2 E[X 2 ] = Es sei X gammaverteilt gemäß Ga(a, b): Beispiel (Die Varianz der Gammaverteilung) Statistik R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Varianz n ,n > 2 n−2 Statistik 2m2 (n + m − 2) ,m > 4 n(m − 2)2 (m − 4) 278/534 Z R. Frühwirth Statistik Die Schiefe ist daher gleich γ = 2. µ3 = E[(X − E[X])3 ] = 0 ∞ (t − τ )3 −t/τ e dt = 2τ 3 τ Beispiel (Die Schiefe der Exponentialverteilung) 280/534 Die Schiefe misst die Asymmetrie einer Verteilung. Ist die Schiefe positiv (negativ), heißt die Verteilung rechtsschief (linksschief). Für symmetrische Verteilungen ist sie 0. Das reduzierte dritte zentrale Moment γ = µ3 /σ 3 heißt die Schiefe. Definition (Schiefe) Schiefe R. Frühwirth var[X] = Es sei X F-verteilt mit n bzw. m Freiheitsgraden: Beispiel (Die Varianz der F-Verteilung) Für n ≤ 2 existiert die Varianz nicht. var[X] = Es sei X t-verteilt mit n Freiheitsgraden: Beispiel (Die Varianz der t-Verteilung) Varianz Statistik 3 Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 12 R. Frühwirth Momente Wichtige Verteilungen Mehrdimensionale Zufallsvariable 11 10 9 Eindimensionale Zufallsvariable 283/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik R. Frühwirth 8 281/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik Unterabschnitt: Faltung und Messfehler R. Frühwirth dieselben Momente µ0k = ek(k+2)/4 , unabhängig von λ. 1 f (x) = √ x− ln x [1 − λ sin(4π ln x)], 0 ≤ x ≤ ∞, 0 ≤ λ ≤ 1 4 π2 e Selbst wenn alle Momente einer Verteilung existieren, ist sie dadurch nicht eindeutig bestimmt. Zum Beispiel haben die Verteilungen mit den Dichten ∞ (x − ab) a−1 −x/b x e dx = 2ab3 ba Γ(a) 0 √ Die Schiefe ist daher gleich γ = 2/ a und strebt für a → ∞ gegen 0. µ3 = E[(X − E[X])3 ] = Z Beispiel (Die Schiefe der Gammaverteilung) Statistik R. Frühwirth R. Frühwirth Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Schiefe R. Frühwirth −∞ Statistik Satz Sind X1 und X2 zwei unabhängige Zufallsvariable mit der gemeinsamen Dichte f (x1 , x2 ) = f1 (x1 ) · f2 (x2 ), so hat ihre Summe X = X1 + X2 die Dichte Z ∞ g(x) = f1 (x − x2 ) · f2 (x2 ) dx2 = −∞ Z ∞ = f1 (x1 ) · f2 (x − x1 ) dx1 Es seien X1 und X2 zwei unabhängige Zufallsvariablen. Die Summe X = X1 + X2 heißt die Faltung von X1 und X2 . Definition (Faltung) Faltung und Messfehler Statistik Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 12 R. Frühwirth Momente Wichtige Verteilungen Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable 11 10 9 8 Abschnitt 12: Rechnen mit Verteilungen 284/534 282/534 Statistik 0 1 (t2 −t)/τ −t2 /τ e e dt2 = τ2 −∞ t Statistik 285/534 −∞ Statistik 287/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Im günstigsten Fall hängt b nur von der Differenz x0 − x ab, oder eine weitere explizite Abhängigkeit von x ist vernachlässigbar. Dann wird aus dem Integral ein Faltungsintegral. Dies ist genau dann der Fall, wenn der Messfehler und die Messung unabhängig sind. −∞ Es wird eine Zufallsgröße X beobachtet. Der Messfehler wird durch eine bedingte Dichte b(x0 |x) beschrieben, die die Wahrscheinlichkeit angibt, dass x0 bei der Messung registriert wird, wenn X den Wert x annimmt. Für die gemessene Verteilung gilt dann: Z ∞ Z ∞ fM (x0 ) = b(x0 |x)f (x) dx = f (x0 , x) dx Beispiel (Der Messfehler) Statistik R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Faltung und Messfehler Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze R. Frühwirth Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 1 = 2 te−t/τ τ = Z Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Es seien X1 und X2 exponentialverteilt gemäß Eτ . Die Summe X = X1 + X2 hat die folgende Dichte: Z ∞ g(t) = f1 (t − t2 )f2 (t2 ) dt2 = Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable Beispiel (Faltung von zwei Exponentialverteilungen) Statistik R. Frühwirth Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Die Dichte g wird als Faltungsprodukt von f1 und f2 bezeichnet: g = f1 ∗ f2 . Eindimensionale Zufallsvariable R. Frühwirth Faltung und Messfehler Statistik 286/534 R. Frühwirth Statistik ϕX (t) = ϕX1 (t) · ϕX2 (t) Satz Ist X = X1 + X2 die Faltung von X1 und X2 , so gilt: ϕX (t) = E[ exp(itX) ], t ∈ R 288/534 Es sei X eine Zufallsvariable. Die charakteristische Funktion von X ist definiert durch: Definition (Charakteristische Funktion) Die Faltung von zwei Zufallsvariablen X1 und X2 kann auch mit Hilfe ihrer charakteristischen Funktionen berechnet werden. Faltung und Messfehler R. Frühwirth Die Summenverteilung heißt Dreiecksverteilung. Das Produkt der Dichten ist nur ungleich 0, wenn 0 ≤ x − x2 ≤ 1 und 0 ≤ x2 ≤ 1 gilt. Die effektiven Integrationsgrenzen sind daher xmin = max(0, x − 1) und xmax = min(x, 1). Ist 0 ≤ x ≤ 1, ist xmin = 0 und xmax = x; ist 1 ≤ x ≤ 2, ist xmin = x − 1 und xmax = 1. Die Dichte g(x) lautet daher: wenn 0 ≤ x ≤ 1 x, g(x) = 2 − x, wenn 1 ≤ x ≤ 2 0, sonst −∞ Es seien X1 und X2 gleichverteilt im Intervall [0, 1]. Die Summe X = X1 + X2 hat die folgende Dichte: Z ∞ g(x) = f1 (x − x2 )f2 (x2 ) dx2 Beispiel (Faltung von zwei Gleichverteilungen) Faltung und Messfehler Statistik k=0 ∞ X eikt λki e−λi = exp[λi (eit − 1)] k! 289/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 12 R. Frühwirth Momente Wichtige Verteilungen Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable 11 10 9 8 291/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Fehlerfortpflanzung, Transformation von Dichten Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Statistik Rechnen mit Verteilungen Rechnen mit Verteilungen R. Frühwirth Erwartung Varianz Schiefe Erwartung Varianz Schiefe Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Momente X ist also Poisson-verteilt gemäß Po(λ) mit λ = λ1 + λ2 . ϕX (t) = exp[λ1 (eit − 1)] exp[λ2 (eit − 1)] = exp[(λ1 + λ2 )(eit − 1)] Die charakteristische Funktion von X = X1 + X2 ist daher gleich ϕXi (t) = Es seien X1 und X2 Poisson-verteilt gemäß Po(λ1 ) bzw. Po(λ2 ). Die charakteristische Funktion von Xi lautet: Beispiel (Faltung von zwei Poissonverteilungen) Statistik R. Frühwirth Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Faltung und Messfehler 1 (1 − 2it)ni /2 1 1 = (1 − 2it)n1 /2 (1 − 2it)n2 /2 (1 − 2it)(n1 +n2 )/2 Statistik 290/534 Statistik Cov[Y ] = H · Cov[X] · HT 2 R. Frühwirth E[Y ] = H · E[X] 1 Lineare Transformation von Erwartung und Varianz Es gilt exakt: Es sei X = (X1 , . . . , Xn ) eine n-dimensionale Zufallsvariable und H eine m × n - Matrix. Dann ist Y = (Y1 , . . . Ym ) = HX — wie jede deterministische Funktion einer Zufallsvariablen — wieder eine Zufallsvariable. Wie ist Y verteilt? 292/534 Im folgenden Abschnitt sollen Linearkombinationen von — nicht notwendig unabhängigen — Zufallsvariablen betrachtet werden. Fehlerfortpflanzung, Transformation von Dichten R. Frühwirth X ist also χ2 -verteilt mit n = n1 + n2 Freiheitsgraden. ϕX (t) = Die charakteristische Funktion von X = X1 + X2 ist daher gleich ϕXi (t) = Es seien X1 und X2 χ2 -verteilt mit n1 bzw. n2 Freiheitsgraden. Die charakteristische Funktion von Xi lautet: Beispiel (Faltung von zwei χ2 -Verteilungen) Faltung und Messfehler Statistik Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik 293/534 1 |A| R. Frühwirth Statistik Y ist also gleichverteilt im Intervall [0, 1]. Y wird als p-Wert (probability transform) von X bezeichnet. 295/534 Es sei X eine stetige Zufallsvariable mit der Dichte f (x) und der Verteilungsfunktion F (x), und Y = F (X). Dann ist die Dichte von Y gegeben durch: dF −1 = f (x)/f (x) = 1 g(y) = f (x) · dy Beispiel (Transformation mit der Verteilungsfunktion) fY (y) = fX (A−1 (y − b)) · Es sei X eine d-dimensionale Zufallsvariable mit Dichte fX (x) und Y = AX + b. Ist A regulär, ist die Dichte von Y gegeben durch: Beispiel (Transformation unter einer affinen Abbildung) Fehlerfortpflanzung, Transformation von Dichten R. Frühwirth Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Rechnen mit Verteilungen E[Y ] = h(E[X]) T ∂h ∂h Cov[Y ] = · Cov[X] · ∂x ∂x Statistik R. Frühwirth Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 2 1 Lineare Fehlerfortpflanzung Entwickelt man h an der Stelle E[X], so gilt in 1. Näherung: Es wird angenommen, dass h in jenem Bereich, in dem die Dichte von X signifikant von 0 verschieden ist, genügend gut durch eine lineare Funktion angenähert werden kann. Es soll nun statt der linearen Abbildung H eine allgemeine Funktion h = (h1 , . . . , hm ) betrachtet werden. Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Fehlerfortpflanzung, Transformation von Dichten Statistik 294/534 R. Frühwirth Statistik Y ist daher exponentialverteilt mit τ = 1. 296/534 Es sei X gleichverteilt im Intervall [0, 1] und Y = − ln(X). Dann ist g(y) = exp(−y) und dg = e−y fY (y) = fX (exp(−y)) · dy Beispiel X ist also verteilt mit der Verteilungsfunktion F und der Dichte f . Es sei U gleichverteilt im Intervall [0, 1], F (x) (f (x)) die Verteilungsfunktion (Dichtefunktion) einer stetigen Verteilung, und X = F −1 (U ). Dann ist die Dichte von X gegeben durch: dF = f (x) g(x) = 1 · dx Beispiel (Transformation mit der inversen Verteilungsfunktion) Fehlerfortpflanzung, Transformation von Dichten R. Frühwirth ∂g fY (y1 , . . . , yd ) = fX (g(y1 , . . . , yd )) · ∂y ∂g wobei der Betrag der Funktionaldeterminante ist. ∂y Transformation der Dichte Es sei X = (X1 , . . . , Xd ) eine d-dimensionale Zufallsvariable mit der Dichte fX (x1 , . . . , xd ), h eine umkehrbare Abbildung h : Rd → Rd , g die Umkehrfunktion von h, Y = h(X) und fY (y1 , . . . , yd ) die Dichte von Y . Dann gilt: Ist h = (h1 , . . . , hn ) eine umkehrbar eindeutige Abbildung h : Rn → Rn , so läßt sich die Dichte von Y = (Y1 , . . . , Yn ) = h(X1 , . . . , Xn ) berechnen. Fehlerfortpflanzung, Transformation von Dichten Statistik f (r, ϕ) = 2 1 re−r /2 2π Statistik 2 /2 , f2 (ϕ) = 1 2π 297/534 Statistik 299/534 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Rechnen mit Verteilungen R. Frühwirth Statistik R. Frühwirth Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Im idealen Gas sind die Komponenten (Vx , Vy , Vz ) der Molekülgeschwindigkeit in guter Näherung normalverteilt, mit Mittelwert 0 und Varianz σ 2 = kT /m, wobei m die Molekülmasse, k die Boltzmannkonstante und T die Temperatur ist. Beispiel (Geschwindigkeitsverteilung im idealen Gas) R, θ und ϕ sind unabhängig mit den Randdichten √ 2 2 1 1 f1 (r) = √ r2 e−r /2 , f2 (θ) = sin(θ), f3 (ϕ) = 2 2π π Beispiel (Fortsetzung) Fehlerfortpflanzung, Transformation von Dichten R. Frühwirth f1 (r) = re−r R und Φ sind unabhängig mit den Randdichten Die Dichte ist daher Die Funktionaldeterminante lautet: ∂(x, y) ∂(r, ϕ) = r X = R cos(Φ), Y = R sin(Φ) Es seien (X, Y ) unabhängig und standardnormalverteilt. Wir suchen die Verteilung der Polarkoordinaten (R, Φ), definiert durch: Beispiel (Transformation auf Polarkoordinaten) Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Fehlerfortpflanzung, Transformation von Dichten Statistik (2π) 1 3/2 e−r 2 r sin(θ) /2 2 R. Frühwirth Statistik Die häufigste Geschwindigkeit (das Maximum der Dichte) ist bei r 2 kT Vmax = m Die Verteilung wird Maxwell-Verteilung genannt. Mittelwert und Standardabweichung sind r r 8 kT 3 kT E[V ] = , σ[V ] = πm m Der Betrag V der Geschwindigkeit hat dann die Dichte √ 3/2 2 2m f (v) = √ v 2 e−mv /2kT 3/2 π(kT ) Beispiel (Fortsetzung) Fehlerfortpflanzung, Transformation von Dichten R. Frühwirth f (r, θ, ϕ) = Die Dichte ist daher Die Funktionaldeterminante lautet: ∂(x, y, z) 2 ∂(r, θ, ϕ) = r sin(θ) X = R sin(Θ) cos(Φ), Y = R sin(Θ) sin(Φ), z = R cos(Θ) 300/534 298/534 Es seien (X, Y, Z) unabhängig und standardnormalverteilt. Wir suchen die Verteilung der Kugelkoordinaten (R, Θ, Φ), definiert durch: Beispiel (Transformation auf Kugelkoordinaten) Fehlerfortpflanzung, Transformation von Dichten Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth 0 0.5 1.5 E[v] 2 2.5 v 3 3.5 R. Frühwirth 4.5 5 301/534 R. Frühwirth Statistik Das Gesetz der Fehlerfortpflanzung gilt nicht für systematische Fehler! 303/534 Die Korrektur von systematischen Fehlern erfordert solgfältige Kalibaration der Messaparatur, Überprüfung von theoretischen Annahmen, etc. Systematische Fehler werden durch Vergrößerung der Stichprobe nicht kleiner! Die Messung kann jedoch durch eine falsche Kalibration (z.B. Skalenfehler oder Nullpunktfehler) des Messgeräts verfälscht sein. Solche Fehler werden systematische Fehler genannt. Kann der Messfehler durch eine Zufallsvariable mit Mittel 0 beschrieben werden, hat die Messung nur einen statistischen Fehler. Statistik 4 Maxwell−Verteilung mit kT=m Maxwell-Verteilung, kT = m 1 vmax Systematische Fehler 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Fehlerfortpflanzung, Transformation von Dichten f(v) Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth R. Frühwirth 302/534 R. Frühwirth Statistik 304/534 Wir messen zwei Spannungen U1 , U2 mit dem gleichen Messgerät. Durch fehlerhafte Kalibration misst das Gerät statt der wahren Spannung U die Spannung Um = aU + b + ε, mit a = 0.99, b = 0.05, σ[ε] = 0.03 V. Der Mittelwert Ū der beiden Spannungen hat dann einen statistischen Fehler von 0.02 V. Der systematische Fehler des Mittelwerts wird beschrieben durch Ūm = aŪ + b, ist also der der Einzelmessung. Der systematische Fehler der Differenz ∆U wird beschrieben durch ∆Um = a∆U . Der Nullpunktfehler ist verschwunden. Beispiel Statistik Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Momente Wichtige Verteilungen Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable Systematische Fehler 12 11 10 9 8 Unterabschnitt: Systematische Fehler Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable 305/534 i=1 Ui R. Frühwirth Statistik 307/534 Der zentrale Grenzwertsatz erklärt, warum die Normalverteilung in der Natur eine so bedeutende Rolle spielt, etwa bei der Verteilung der Impulskomponenten von Gasmolekülen, die das Ergebnis von zahlreichen Stößen ist. so ist Y = limn→∞ Yn standardnormalverteilt. Xi − µi , Yn = Ui = √ nσi n X Sei (Xi )i∈N eine Folge von unabhängigen Zufallsvariablen mit beliebigen Verteilungen. µi = E[Xi ] und σi2 = var[Xi ] seien endlich für alle i ∈ N. Definiert man für jedes n ∈ N Ui und Yn durch: Zentraler Grenzwertsatz für beliebig verteilte Folgen von Zufallsvariablen Grenzverteilungssätze Statistik Rechnen mit Verteilungen Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze 12 R. Frühwirth Momente Wichtige Verteilungen Mehrdimensionale Zufallsvariable Eindimensionale Zufallsvariable 11 10 9 8 Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Grenzverteilungssätze i=1 n X Xi , Un = Sn − E[Sn ] Sn − nµ = √ σ[Sn ] n·σ Statistik 306/534 R. Frühwirth Statistik 308/534 Da eine gemäß Bi(n, p) verteilte Zufallsvariable als Summe von n alternativverteilten Zufallsvariablen dargestellt werden kann, muss die Binomialverteilung für n → ∞ gegen eine Normalverteilung streben. Die Abbildung zeigt die Verteilungsfunktion der Binomialverteilung Bi(n, p) mit n = 200 und p = 0.1, sowie die Verteilungsfunktion der Normalverteilung No(µ, σ 2 ) mit µ = np = 20 und σ 2 = np(1 − p) = 18. Beispiel (Binomialverteilung für großes n) Auch bei relativ kleinem n ist die Normalverteilung of eine gute Näherung für die Summe von Zufallsvariablen. Grenzverteilungssätze R. Frühwirth so ist U = limn→∞ Un standardnormalverteilt. Sn = Sei (Xi )i∈N eine Folge von unabhängigen Zufallsvariablen, die die gleiche Verteilung besitzen, mit endlicher Erwartung µ und endlicher Varianz σ 2 . Definiert man Sn und Un durch: Zentraler Grenzwertsatz für identisch verteilte Folgen von Zufallsvariablen Grenzverteilungssätze Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth 0 5 Bi(200,0.1) No(20,18) R. Frühwirth 10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 5 Po(25) N(25,25) 15 R. Frühwirth 10 Grenzverteilungssätze 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Grenzverteilungssätze F(x) F(x) Statistik 20 Statistik 15 25 x 20 x 30 25 35 30 40 35 45 311/534 50 309/534 40 Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Faltung und Messfehler Fehlerfortpflanzung, Transformation von Dichten Systematische Fehler Grenzverteilungssätze Rechnen mit Verteilungen Erwartung Varianz Schiefe Momente Diskrete Verteilungen Stetige Verteilungen Die Normalverteilung und verwandte Verteilungen Wichtige Verteilungen Grundbegriffe Randverteilungen und bedingte Verteilungen Mehrdimensionale Zufallsvariable Grundbegriffe Diskrete Zufallsvariable Stetige Zufallsvariable Eindimensionale Zufallsvariable R. Frühwirth Teil 4 Statistik R. Frühwirth Statistik Parameterschätzung R. Frühwirth 312/534 310/534 Da eine gemäß Po(λ) verteilte Zufallsvariable als Summe von λ P (1)-verteilten Zufallsvariablen dargestellt werden kann, muss die Poissonverteilung für λ → ∞ gegen eine Normalverteilung streben. Die Abbildung zeigt die Verteilungsfunktion der Poissonverteilung Po(λ) mit λ = 25, sowie die Verteilungsfunktion der Normalverteilung No(µ, σ 2 ) mit µ = λ = 25 und σ 2 = λ = 25. Beispiel (Poissonverteilung für großes n) Grenzverteilungssätze 13 Stichprobenfunktionen Statistik 313/534 R. Frühwirth Intervallschätzer Statistik 315/534 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten 15 Intervallschätzer Punktschätzer 14 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Grundbegriffe Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten R. Frühwirth Intervallschätzer Intervallschätzer Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 15 Punktschätzer Punktschätzer 14 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Punktschätzer Stichprobenfunktionen Stichprobenfunktionen Statistik R. Frühwirth Statistik R. Frühwirth Übersicht Teil 4 Statistik 314/534 Y = f (X1 , . . . , Xn ) R. Frühwirth Statistik 316/534 In vielen Fällen sind Momente oder die Verteilung von Y zu bestimmen. heißt eine Stichprobenfunktion. Eine Zufallsvariable Sie bilden dann eine zufällige Stichprobe der Verteilung F . X1 , . . . , Xn seien unabhängige Zufallsvariable, die alle die gleiche Verteilung F haben. R. Frühwirth Intervallschätzer Punktschätzer Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Grundbegriffe 15 14 13 Abschnitt 13: Stichprobenfunktionen Statistik Statistik 317/534 R. Frühwirth Statistik 319/534 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Ist F eine Normalverteilung, ist U für alle n standardnormalverteilt. gegen die Standardnormalverteilung. Hat F das Mittel µ und die Varianz σ 2 , so konvergiert die Verteilung von X −µ √ U= σ/ n Intervallschätzer 2 1 Zentraler Grenzwertsatz Statistik R. Frühwirth Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Stichprobenmittel R. Frühwirth Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten 15 Intervallschätzer Punktschätzer 14 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Stichprobenmittel var[X] = R. Frühwirth Statistik σ2 n Ist F eine Normalverteilung, so ist X normalverteilt. E[X] = µ 15 14 13 R. Frühwirth Intervallschätzer Punktschätzer Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Statistik Unterabschnitt: Stichprobenvarianz 3 2 1 Hat F das Mittel µ und die Varianz σ 2 , gilt: Momente des Stichprobenmittels Das Stichprobenmittel X der Stichprobe X1 , . . . , Xn ist definiert durch n 1X X= Xi n i=1 Definition (Stichprobenmittel) Stichprobenmittel 320/534 318/534 Statistik Statistik E[S ] = σ 2 2 R. Frühwirth Intervallschätzer 323/534 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten 15 Intervallschätzer Punktschätzer 14 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Stichprobenfunktionen Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 13 Stichprobenfunktionen Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Statistik R. Frühwirth Statistik 321/534 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Statistik Unterabschnitt: Stichprobenmedian R. Frühwirth Hat F die Varianz σ 2 , gilt: Erwartung der Stichprobenvarianz Die Stichprobenvarianz S der Stichprobe X1 , . . . , Xn ist definiert durch n 1 X S2 = (Xi − X)2 n − 1 i=1 2 Definition (Stichprobenvarianz) Statistik R. Frühwirth R. Frühwirth Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Stichprobenvarianz T = X −µ √ S/ n 2σ 4 n−1 R. Frühwirth 3 2 1 1 4 nf 2 (m) R. Frühwirth Statistik X̃ ist asymptotisch normalverteilt. n→∞ lim var[X̃] = n→∞ lim E[X̃] = m Hat F den Median m und die Dichte f , gilt: Momente des Stichprobenmedians Der Stichprobenmedian X̃ der Stichprobe X1 , . . . , Xn ist definiert durch X((n+1)/2) , n ungerade X̃ = 1 X (n/2) + X(n/2+1) , n gerade 2 Definition (Stichprobenmedian) Statistik ist t-verteilt mit n − 1 Freiheitsgraden. Die Größe Stichprobenmedian 4 var[S 2 ] = Die Varianz von S 2 ist gegeben durch X und S 2 sind unabhängig. 2 3 (n − 1)S 2 /σ 2 ist χ2 -verteilt mit n − 1 Freiheitsgraden. 1 324/534 322/534 Ist F eine Normalverteilung mit Mittel µ und Varianz σ 2 , so gilt: Satz Stichprobenvarianz Statistik 325/534 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer R. Frühwirth Statistik 327/534 Für einen Parameter ϑ sind viele Punktschätzer möglich. Ein guter“ Punktschätzer sollte jedoch gewisse Anforderungen ” erfüllen. Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Die Konstruktion von sinnvollen Punktschätzern für einen Parameter ϑ ist Aufgabe der Schätztheorie. Punktschätzer Die Funktion g(x1 , . . . , xn ) wird die Schätzfunktion genannt. Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer T = g(X1 , . . . , Xn ) Ein Punktschätzer ist eine Stichprobenfunktion, die einen möglichst genauen Näherungswert für einen unbekannten Verteilungsparameter ϑ liefern soll: Eigenschaften von Punktschätzern R. Frühwirth Intervallschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer 14 15 Stichprobenfunktionen 13 Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Statistik R. Frühwirth Statistik R. Frühwirth Abschnitt 14: Punktschätzer R. Frühwirth Intervallschätzer Statistik Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer Stichprobenfunktionen 326/534 R. Frühwirth Statistik Ist der unbekannte Parameter gleich ϑ, dann ist die Erwartung des Punktschätzers gleich ϑ. Ein erwartungstreuer Punktschätzer hat zwar zufällige Abweichungen vom wahren Wert ϑ, aber keine systematische Verzerrung. lim Eϑ [T ] = ϑ n→∞ T heißt asymptotisch erwartungstreu, wenn gilt: Eϑ [T ] = ϑ 328/534 Ein Punktschätzer T für den Parameter ϑ heißt erwartungstreu oder unverzerrt, wenn für alle zulässigen Werte von ϑ gilt: Definition (Erwartungstreue) Eigenschaften von Punktschätzern 15 14 13 Unterabschnitt: Eigenschaften von Punktschätzern Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik 329/534 R. Frühwirth Statistik var[T ] ≥ 1/Iϑ 331/534 Satz von Rao und Cramèr Es sei X1 , . . . , Xn eine Stichprobe mit der gemeinsamen Dichte g(x1 , . . . , xn |ϑ). Die Varianz eines erwartungstreuen Schätzers T für den Parameter ϑ ist nach unten beschränkt durch: heißt die Fisher-Information der Stichprobe. Es sei X1 , . . . , Xn eine Stichprobe mit der gemeinsamen Dichte g(x1 , . . . , xn |ϑ). Die Erwartung 2 ∂ ln g(X1 , . . . , Xn |ϑ) Iϑ = E − ∂ϑ2 Definition (Fisher-Information) Eigenschaften von Punktschätzern R. Frühwirth n→∞ lim MSE[T ] = 0 Ein Punktschätzer T für den Parameter ϑ heißt konsistent im quadratischen Mittel (MSE-konsistent), wenn gilt: Definition (MSE-Konsistenz) Die mittlere quadratische Abweichung (mean squared error, MSE) eines Punktschätzers T für den Parameter ϑ ist definiert durch: MSE[T ] = Eϑ [(T − ϑ)2 ] Definition (MSE) Eigenschaften von Punktschätzern Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik R. Frühwirth Statistik n X xi /τ xi n − τ2 n 2 nτ n − 3 −=− 2 τ2 τ τ i=1 P 2 n i=1 τ3 ln g(x1 , . . . , xn |τ ) = − n ln τ − ∂2 ln g(x1 , . . . , xn |τ ) = ∂τ 2 2 ∂ E ln g(X , . . . , X |τ ) = 1 n ∂τ 2 Daraus folgt: Es sei X1 , . . . , Xn eine Stichprobe aus der Exponentialverteilung Ex(τ ). Die gemeinsame Dichte ist dann gleich ! n X 1 g(x1 , . . . , xn |τ ) = n exp − xi /τ τ i=1 Beispiel Eigenschaften von Punktschätzern R. Frühwirth 332/534 330/534 Ein erwartungstreuer Punktschätzer T heißt effizient, wenn seine Varianz den kleinsten möglichen Wert annimmt. var[T1 ] ≤ var[T2 ] Ein erwartungstreuer Punktschätzer T1 heißt effizienter als der erwartungstreue Punktschätzer T2 , wenn für alle zulässigen ϑ gilt: Definition (Effizienz) MSE[T1 ] ≤ MSE[T2 ] Ein Punktschätzer T1 heißt MSE-effizienter als der Punktschätzer T2 , wenn für alle zulässigen ϑ gilt: Definition (MSE-Effizienz) Eigenschaften von Punktschätzern Statistik n Iτ = 2 τ Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth 333/534 Es sei X1 , . . . , Xn eine Stichprobe aus der Verteilung F mit Erwartung µ. Dann ist das Stichprobenmittel X ein erwartungstreuer Punktschätzer von µ. Hat F die endliche Varianz σ 2 , so ist X MSE-konsistent. R. Frühwirth Statistik 335/534 Ist F die Exponentialverteilung Ex(τ ), so ist X Gamma-verteilt mit Mittel τ und Varianz τ 2 /n. Da die Fisher-Information für τ gleich Iτ = n/τ 2 ist, ist X effizient für τ . Beispiel Ist F die Normalverteilung No(µ, σ 2 ), so ist X normalverteilt gemäß No(µ, σ 2 /n). Da die Fisher-Information für µ gleich Iµ = n/σ 2 ist, ist X effizient für µ. Beispiel 2 1 Satz Schätzung des Mittelwerts Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten R. Frühwirth Intervallschätzer τ2 n Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten var[T ] ≥ Für jeden erwartungstreuen Schätzer T von τ gilt folglich: Die Information ist also gleich Beispiel (Fortsetzung) Statistik R. Frühwirth Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Eigenschaften von Punktschätzern R. Frühwirth Intervallschätzer Statistik Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer Stichprobenfunktionen 334/534 R. Frühwirth Statistik 336/534 Ist F die Alternativverteilung Al(p), hat X Mittel p und Varianz p(1 − p)/n. Da die Fisher-Information für p gleich Ip = n/[p(1 − p)] ist, ist X effizient für p. Beispiel Ist F die Poissonverteilung Po(λ), hat X Mittel λ und Varianz λ/n. Da die Fisher-Information für λ gleich Iλ = n/λ ist, ist X effizient für λ. Beispiel Schätzung des Mittelwerts 15 14 13 Unterabschnitt: Schätzung des Mittelwerts Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Statistik 337/534 2σ 4 n−1 n 2σ 4 R. Frühwirth Statistik S 2 ist also ein asymptotisch effizienter Punktschätzer für σ 2 . Iσ2 = Die Fisher-Information für σ 2 ist gleich var(S 2 ) = 339/534 Ist F die Normalverteilung No(µ, σ 2 ), so ist (n − 1)S 2 /σ 2 χ2 -verteilt mit n − 1 Freiheitsgraden. Die Varianz von S 2 ist dann gleich Beispiel Schätzung der Varianz R. Frühwirth Intervallschätzer Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer 14 15 Stichprobenfunktionen 13 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Schätzung der Varianz µ4 (n − 3)µ22 − n n(n − 1) R. Frühwirth Statistik In diesem Fall ist S 2 MSE-konsistent. var(S 2 ) = Hat F das endliche vierte zentrale Moment µ4 , so ist 15 14 13 R. Frühwirth Intervallschätzer Statistik Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer Stichprobenfunktionen 340/534 338/534 Es sei X1 , . . . , Xn eine Stichprobe aus der Verteilung F mit Erwartung µ und Varianz σ 2 . Dann ist die Stichprobenvarianz S 2 ein erwartungstreuer Punktschätzer von σ 2 . Unterabschnitt: Schätzung des Medians 3 2 1 Satz Schätzung der Varianz Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth R. Frühwirth 1 1.8506 3 = ≈ 0.62 4 nf (0)2 n n R. Frühwirth Statistik Sie ist also fast um 40 Prozent kleiner als die Varianz von X. var(X̃) = Es sei X1 , . . . , Xn eine Stichprobe aus der t-Verteilung t(3). Die Varianz von X ist gleich 3 var(X) = n Die Varianz von X̃ ist für großes n gleich Beispiel Statistik Der Stichprobenmedian ist MSE-konsistent, sofern f (m) > 0. Schätzung des Medians 4 Der Stichprobenmedian X̃ hat asymptotisch die Varianz 3 1 var(X̃) ≈ 4nf (m)2 Für symmetrisches F ist X̃ erwartungstreu. Es sei X1 , . . . , Xn eine Stichprobe aus der stetigen Verteilung F mit Median m und Dichte f . Dann ist der Stichprobenmedian X̃ ein asymptotisch erwartungstreuer Punktschätzer von m. 2 1 Satz Schätzung des Medians 343/534 341/534 Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth σ2 n 2 πσ 2 σ2 ≈ 1.57 4n n Statistik R. Frühwirth Intervallschätzer Statistik Punktschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-Likelihood-Schätzer 14 15 Stichprobenfunktionen 13 Unterabschnitt: Maximum-Likelihood-Schätzer R. Frühwirth Sie ist also um mehr als 50 Prozent größer als die Varianz von X. var(X̃) = Die Varianz von X̃ ist für großes n gleich var(X) = Es sei X1 , . . . , Xn eine Stichprobe aus der Normalverteilung No(µ, σ 2 ). Die Varianz von X ist gleich Beispiel Schätzung des Medians 344/534 342/534 Statistik R. Frühwirth Statistik n 1X Xi = X n i=1 R. Frühwirth Statistik 347/534 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Intervallschätzer Der ML-Schätzer ist unverzerrt und effizient. p̂ = Nullsetzen der Ableitung und Auflösen nach p ergibt: Beispiel (Fortsetzung) 345/534 Oft wird statt der Likelihoodfunktion ihr Logarithmus, die Log-Likelihoodfunktion `(ϑ) = ln L(ϑ) maximiert. Der plausible oder Maximum-Likelihood-Schätzer ϑ̂ ist jener Wert von ϑ, der die Likelihoodfunktion der Stichprobe maximiert. heißt die Likelihoodfunktion der Stichprobe. L(ϑ|X1 , . . . , Xn ) = g(X1 , . . . , Xn |ϑ) Es sei X1 , . . . , Xn eine Stichprobe mit der gemeinsamen Dichte g(x1 , . . . , xn |ϑ). Die Funktion Maximum-Likelihood-Schätzer 2 1 Definition (ML-Schätzer) Statistik R. Frühwirth Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Maximum-Likelihood-Schätzer i=1 n Y i=1 Xi ln p + n− i=1 Statistik n− Xi i=1 Xi ! xi 346/534 i=1 n X [Xi ln λ − λ − ln(xi !)] n Y λxi e−λ xi ! i=1 Statistik n ∂`(λ) 1X = Xi − n ∂λ λ i=1 R. Frühwirth Ableiten nach λ ergibt: `(λ) = Die Log-Likelihoodfunktion ist daher: g(x1 , . . . , xn |λ) = 348/534 Es sei X1 , . . . , Xn eine Stichprobe aus der Poissonverteilung Po(λ). Die gemeinsame Dichte lautet: P (1 − p)n− ln(1 − p) xi n X ! P Beispiel (ML-Schätzung eines Poisson-Parameters) Maximum-Likelihood-Schätzer R. Frühwirth n ∂`(p) 1X 1 = Xi − ∂p p i=1 1−p Ableiten nach p ergibt: `(p) = n X n X pxi (1 − p)1−xi = p Die Log-Likelihoodfunktion ist daher: g(x1 , . . . , xn |p) = Es sei X1 , . . . , Xn eine Stichprobe aus der Alternativverteilung Al(p). Die gemeinsame Dichte lautet: Beispiel (ML-Schätzung eines Bernoulli-Parameters) Maximum-Likelihood-Schätzer Statistik n 1X Xi = X n i=1 Statistik 349/534 n 1X Xi = X n i=1 Statistik 351/534 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten R. Frühwirth Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Der ML-Schätzer ist unverzerrt und effizient. τ̂ = Nullsetzen der Ableitung und Auflösen nach τ ergibt: Beispiel (Fortsetzung) Statistik R. Frühwirth Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Maximum-Likelihood-Schätzer Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten R. Frühwirth Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Der ML-Schätzer ist unverzerrt und effizient. λ̂ = Nullsetzen der Ableitung und Auflösen nach λ ergibt: Beispiel (Fortsetzung) Statistik R. Frühwirth Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Maximum-Likelihood-Schätzer n n X 1X [− ln τ − Xi ] τ i=1 i=1 n Y e−xi /τ τ i=1 Statistik 350/534 i=1 n Y (xi − µ)2 1 √ exp − 2 σ2 2πσ R. Frühwirth X xi − µ ∂`(µ, σ 2 ) = , ∂µ σ2 i=1 n Statistik 352/534 n X ∂`(µ, σ 2 ) (xi − µ)2 1 = − + ∂σ 2 2 σ2 2 σ4 i=1 Ableiten nach µ und σ 2 ergibt: Die Log-Likelihoodfunktion ist daher: n X √ (xi − µ)2 1 `(µ, σ 2 ) = − ln 2π − ln σ 2 − 2 2 σ2 i=1 g(x1 , . . . , xn |µ, σ 2 ) = Es sei X1 , . . . , Xn eine Stichprobe aus der Normalverteilung No(µ, σ 2 ). Die gemeinsame Dichte lautet: Beispiel (ML-Schätzung der Parameter einer Normalverteilung) Maximum-Likelihood-Schätzer R. Frühwirth n ∂`(τ ) n 1 X =− + 2 Xi ∂τ τ τ i=1 Ableiten nach τ ergibt: `(τ ) = Die Log-Likelihoodfunktion ist daher: g(x1 , . . . , xn |τ ) = Es sei X1 , . . . , Xn eine Stichprobe aus der Exponentialverteilung Ex(τ ). Die gemeinsame Dichte lautet: Beispiel (ML-Schätzung einer mittleren Lebensdauer) Maximum-Likelihood-Schätzer Statistik 1 n 2 n−1 2 (Xi − X) = S n i=1 i=1 n X Xi = X Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer i=1 i=1 n X ln[1 + (xi − µ)2 ] 1 π[1 + (xi − µ)2 ] R. Frühwirth Matlab: make ML cauchy Statistik Das Maximum µ̂ von `(µ) muss numerisch gefunden werden. `(µ) = −n ln π − Die Log-Likelihoodfunktion ist daher: g(x1 , . . . , xn |µ) = n Y 355/534 Es sei X1 , . . . , Xn eine Stichprobe aus der Cauchyverteilung t(1) mit Lageparameter µ. Die gemeinsame Dichte lautet: R. Frühwirth Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 353/534 Beispiel (ML-Schätzung des Lageparameters einer Cauchyverteilung) Maximum-Likelihood-Schätzer R. Frühwirth Der ML-Schätzer von µ ist unverzerrt und effizient. Der ML-Schätzer von σ 2 ist asymptotisch unverzerrt und asymptotisch effizient. 1 σ̂ = n 2 µ̂ = n X Nullsetzen der Ableitungen und Auflösen nach µ und σ 2 ergibt: Beispiel (Fortsetzung) Stichprobenfunktionen Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Maximum-Likelihood-Schätzer Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik n 2 354/534 R. Frühwirth Statistik 356/534 Der Stichprobenmedian x̃ ist ebenfalls ein konsistenter Schätzer für µ. Seine Varianz ist asymptotisch gleich π 2 /(4n) ≈ 2.47/n. Sie ist also um etwa 23 Prozent größer als die Varianz des ML-Schätzers. ist. Für große Stichproben muss daher die Varianz des ML-Schätzers µ̂ ungefähr gleich 2/n sein. Iµ = Man kann zeigen, dass die Fisherinformation der Stichprobe gleich Beispiel (Fortsetzung) Maximum-Likelihood-Schätzer R. Frühwirth Der Likelihoodschätzer ϑ̂ ist (unter den selben Voraussetzungen) konsistent. Satz Daraus folgt sofort die nächste Eigenschaft: Existieren die ersten beiden Ableitungen von L(ϑ), existiert die Information Ig (ϑ) für alle ϑ und ist E [(ln L)0 ] = 0, so ist die Likelihoodschätzung ϑ̂ asymptotisch normalverteilt mit Mittel ϑ und Varianz 1/Ig (ϑ). ϑ̂ ist daher asymptotisch erwartungstreu und asymptotisch effizient. Satz Der ML-Schätzer hat die folgende wichtige Eigenschaft: Maximum-Likelihood-Schätzer Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer 0.5 1 1.5 Stichprobenmedian 2 0.5 0 0 1 1.5 ML−Schätzer σ=0.1435 σ=0.1588 500 µ=1.001 1000 1500 µ=0.9998 Statistik 2 357/534 1 , 0 ≤ x1 , . . . , xn ≤ b bn R. Frühwirth Statistik Da ein Randmaximum vorliegt, gelten die üblichen asymptotischen Eigenschaften nicht. i b̂ = max Xi Der größte Wert der Likelihoodfunktion ist daher bei g(x1 , . . . , xn |b) = 359/534 Es sei X1 , . . . , Xn eine Stichprobe aus der Gleichverteilung Un(0, b) mit Obergrenze b. Die gemeinsame Dichte lautet: Beispiel (ML-Schätzung des Obergrenze einer Gleichverteilung) Maximum-Likelihood-Schätzer R. Frühwirth Die Korrelation zwischen x̃ und µ̂ ist etwa 90%. 0 0 200 400 600 800 1000 1200 Punktschätzer 1400 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Simulation von 10000 Stichproben der Größe n = 100: Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth 1.5 2 Statistik f (x) = nxn−1 bn 0.5 1 µ n , n+1 var[b̂] = b2 n (n + 2)(n + 1)2 2 358/534 R. Frühwirth Matlab: make ML uniform Statistik 360/534 Der Schätzer ist asymptotisch erwartungstreu, die Varianz geht aber wie 1/n2 gegen Null! Der Schätzer ist auch nicht asymptotisch normalverteilt. E[b̂] = 1.5 σ=0.1314 Normierte Likelihoodfunktion Daraus können Erwartung und Varianz berechnet werden: i Die Dichte von b̂ = max Xi lautet: Beispiel (Fortsetzung) Maximum-Likelihood-Schätzer R. Frühwirth 0 0 1 µ −35 0 1 1.5 2 2.5 3 3.5 0.5 0.5 Log−Likelihoodfunktion −30 −25 −20 −15 −10 −5 0 Die Standardabweichung des ML-Schätzers kann näerungsweise aus der normierten Likelihoodfunktion einer Stichprobe abgelesen werden: Maximum-Likelihood-Schätzer log L(µ) Maximum-Likelihood-Schätzer L(µ) Statistik 0.8 R. Frühwirth 0.9 1 ML−Schätzer 1.1 1.2 Statistik µ=0.9617 σ=0.03632 0.9 1 ML−Schätzer 1.1 1.2 363/534 361/534 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Punktschätzer 14 15 Stichprobenfunktionen 13 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Statistik 0.8 µ=0.9902 σ=0.009755 R. Frühwirth 0 0.7 1000 2000 3000 4000 5000 6000 Statistik Unterabschnitt: Grundbegriffe 0 0.7 500 1000 1500 2000 R. Frühwirth Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer 7000 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian 2500 n=100 Stichprobenfunktionen n=25 Statistik R. Frühwirth Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Simulation von 10000 Stichproben (b = 1) der Größe n = 25 bzw. n = 100: Stichprobenfunktionen R. Frühwirth Maximum-Likelihood-Schätzer Statistik 362/534 R. Frühwirth Statistik Ein solches Intervall wird kurz als (1 − α)-Konfidenzintervall bezeichnet. W (G1 ≤ ϑ ≤ G2) = 1 − α W (G1 ≤ G2) = 1 364/534 Es sei X1 , . . . , Xn eine Stichprobe aus der Verteilung F mit dem unbekannten Parameter ϑ. Ein Intervall mit den Grenzen G1 = g1 (X1 , . . . , Xn ) und G2 = g2 (X1 , . . . , Xn ) heißt ein Konfidenzintervall mit Sicherheit 1 − α, wenn gilt: Definition (Konfidenzintervall) Neben dem Schätzwert selbst ist auch seine Streuung um den wahren Wert von Interesse. Wir wollen aus einer Stichprobe ein Intervall bestimmen, das den wahren Wert mit einer gewissen Wahrscheinlichkeit enthält. R. Frühwirth Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Punktschätzer Stichprobenfunktionen Grundbegriffe 15 14 13 Abschnitt 15: Intervallschätzer Statistik Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik 365/534 folgt R. Frühwirth Statistik W (p̂ − z1−α/2 σ[p̂] ≤ p ≤ p̂ + z1−α/2 σ[p̂]) = 1 − α ist dann annähernd standardnormalverteilt. Aus W (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α 367/534 Es sei X1 , . . . , Xn eine Stichprobe aus der Alternativverteilung Al(p). Für genügend großes n ist p̂ = X annähernd normalverteilt gemäß No(p, p(1 − p)/n). Das Standardscore p̂ − p Z= σ[p̂] Mittelwert einer Alternativverteilung Konfidenzintervall für den Mittelwert R. Frühwirth Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten W (ϑ ≥ G1 ) = 1 − α Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Intervallschätzer oder Statistik R. Frühwirth Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten W (ϑ ≤ G2 ) = 1 − α Ein einseitiges Konfidenzintervall liegt vor, wenn gilt: W (ϑ ≤ G1 ) = W (ϑ ≥ G2 ) Ein symmetrisches Konfidenzintervall liegt vor, wenn gilt: Zu jedem Wert der Sicherheit 1 − α gibt es viele verschiedene Konfidenzintervalle. Ist F stetig, gibt es unendlich viele Konfidenzintervalle mit Sicherheit 1 − α. Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Grundbegriffe R. Frühwirth Statistik Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Punktschätzer Stichprobenfunktionen 366/534 R. Frühwirth Statistik G2 =0.3925 + 1.96 · 0.0244 = 0.4404 G1 =0.3925 − 1.96 · 0.0244 = 0.3446 Lösung: Es gilt p̂ = 0.3925 und z1−α/2 = 1.96. Mit dem Bootstrap-Verfahren ergibt sich σ[p̂] = 0.0244. Die Grenzen des Konfidenzintervalls sind daher 368/534 Angabe: Bei einer Umfrage unter n = 400 Personen geben k = 157 Personen an, Produkt X zu kennen. Wir suchen ein 95%-Konfidenzintervall für den Bekanntheitsgrad p. Beispiel Da p nicht bekannt ist, muss σ[p̂] näherungsweise bestimmt werden. Bootstrap-Verfahren: p wird durch p̂ angenähert. Robustes Verfahren: p wird so gewählt, dass σ[p̂] maximal ist, also p = 0.5. Konfidenzintervall für den Mittelwert 15 14 13 Unterabschnitt: Konfidenzintervall für den Mittelwert Statistik Statistik 369/534 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer n−1 W (−tn−1 1−α/2 ≤ T ≤ t1−α/2 ) = 1 − α R. Frühwirth Statistik 371/534 √ √ n−1 W (X − tn−1 1−α/2 S/ n ≤ µ ≤ X + t1−α/2 S/ n) = 1 − α folgt Aus ist t-verteilt mit n − 1 Freiheitsgraden. Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian X −µ √ T = S/ n Statistik R. Frühwirth Stichprobenfunktionen Ist σ 2 unbekannt, wird σ 2 durch die Stichprobenvarianz geschätzt, und das Standardscore Stichprobenfunktionen R. Frühwirth Konfidenzintervall für den Mittelwert Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten R. Frühwirth Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Das robuste Intervall ist nur unwesentlich länger als das Bootstrap-Intervall. Matlab: make KI alternative G2 =0.3925 + 1.96 · 0.025 = 0.4415 G1 =0.3925 − 1.96 · 0.025 = 0.3435 Mit dem robusten Verfahren ergibt sich σ[p̂] = 0.025 und die Grenzen Beispiel (Fortsetzung) Statistik R. Frühwirth Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Konfidenzintervall für den Mittelwert X −µ √ σ/ n Statistik 370/534 R. Frühwirth Matlab: make KI normal Statistik 372/534 Wird die Varianz als unbekannt angenommen, lautet das symmetrische 95%-Konfidenzintervall für µ: √ G1 =0.0540 − 2.01 · 1.0482/ 50 = −0.2439 √ G2 =0.0540 + 2.01 · 1.0482/ 50 = 0.3519 Eine Stichprobe vom Umfang n = 50 aus der Standardnormalverteilung hat das Stichprobenmittel X = 0.0540 und die Stichprobenvarianz S 2 = 1.0987. Wird die Varianz als bekannt vorausgesetzt, lautet das symmetrische 95%-Konfidenzintervall für µ: √ G1 =0.0540 − 1.96/ 50 = −0.2232 √ G2 =0.0540 + 1.96/ 50 = 0.3312 Beispiel Konfidenzintervall für den Mittelwert R. Frühwirth √ √ W (X − z1−α/2 σ/ n ≤ µ ≤ X + z1−α/2 σ/ n) = 1 − α folgt standardnormalverteilt. Aus W (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α Z= Es sei X1 , . . . , Xn eine Stichprobe aus der Normalverteilung No(µ, σ 2 ). X ist normalverteilt gemäß No(µ, σ 2 /n). Ist σ 2 bekannt, ist das Standardscore Mittelwert einer Normalverteilung Konfidenzintervall für den Mittelwert Statistik Statistik 373/534 0.9129 25 0.9297 50 R. Frühwirth Statistik 0.9458 800 375/534 Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten 0.9461 400 Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Intervallschätzer 0.9394 100 Statistik R. Frühwirth Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Matlab: make KI exponential 1−α n Für exponentialverteilte Stichproben vom Umfang n gibt die folgende Tabelle die Sicherheit des 95%-Konfidenzintervall in Näherung durch Normalverteilung, geschätzt aus N = 10000 Stichproben: Beispiel Konfidenzintervall für den Mittelwert R. Frühwirth T ist also Gamma-verteilt gemäß Ga(n, τ ), und T /τ ist verteilt gemäß Ga(n, 1). Aus T W γα/2,n,1 ≤ ≤ γ1−α/2,n,1 = 1 − α τ folgt T T W ≤τ ≤ =1−α γ1−α/2,n,1 γα/2,n,1 Es sei X1 , . . . , Xn eine Stichprobe aus der Exponentialverteilung Ex(τ ). Pn T = i=1 Xi hat die folgende Dichte: t tn−1 f (t) = n exp − τ Γ(n) τ Mittelwert einer Exponentialverteilung Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Konfidenzintervall für den Mittelwert X −µ √ σ/ n Statistik R. Frühwirth Statistik Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Punktschätzer 14 15 Stichprobenfunktionen 13 Unterabschnitt: Konfidenzintervall für Varianz R. Frühwirth 376/534 374/534 Es gilt also approximativ: √ √ W (X − z1−α/2 S/ n ≤ µ ≤ X + z1−α/2 S/ n) = 1 − α für große Stichproben annähernd normalverteilt. Z= Aufgrund des zentralen Grenzwertsatzes ist das Standardscore Z des Stichprobenmittels: Es sei X1 , . . . , Xn eine Stichprobe aus der Verteilung F mit Mittel µ und Varianz σ 2 . Mittelwert einer beliebigen Verteilung Konfidenzintervall für den Mittelwert Statistik W R. Frühwirth Statistik ! =1−α =1−α (n − 1)S 2 ≤ ≤ χ21−α/2,n−1 σ2 (n − 1)S 2 (n − 1)S 2 ≤ σ2 ≤ 2 2 χ1−α/2,n−1 χα/2,n−1 χ2α/2,n−1 W Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Intervallschätzer Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Punktschätzer 14 15 Stichprobenfunktionen 13 Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth 379/534 377/534 Statistik R. Frühwirth Statistik Unterabschnitt: Konfidenzintervall für Differenz von Mittelwerten folgt Aus (n − 1)S 2 /σ 2 ist χ2 -verteilt mit n − 1 Freiheitsgraden. Es sei X1 , . . . , Xn eine Stichprobe aus der Normalverteilung No(µ, σ 2 ). Varianz einer Normalverteilung R. Frühwirth Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Konfidenzintervall für Varianz Statistik 378/534 W folgt Aus R. Frühwirth Statistik D − (µx − µy ) −z1−α/2 ≤ ≤ z1−α/2 = 1 − α σD Sind die Varianzen bekannt, ist das Standardscore von D standardnormalverteilt. 380/534 Wir suchen ein Konfidenzintervall für µx − µy . Die Differenz D = X − Y ist normalverteilt gemäß No(µx − µy , σ 2 ), mit 2 σD = σx2 /n + σy2 /m. Es seien X1 , . . . , Xn und Y1 , . . . , Ym zwei unabhängige Stichproben aus den Normalverteilungen No(µx , σx2 ) bzw. No(µy , σy2 ). Zwei normalverteile Stichproben Konfidenzintervall für Differenz von Mittelwerten R. Frühwirth Matlab: make KI normal varianz.m G2 =49 · 4.3949/29.5973 = 7.2760 G1 =49 · 4.3949/68.4027 = 3.1483 Werden die Quantile der χ2 -Verteilung χ2 (n − 1) durch die Quantile der Normalverteilung No(n − 1, 2(n − 1)) ersetzt, laute das Konfidenzintervall: G2 =49 · 4.3949/31.5549 = 6.8246 G1 =49 · 4.3949/70.2224 = 3.0667 Eine Stichprobe vom Umfang n = 50 aus der Normalverteilung No(0, 4) hat die Stichprobenvarianz S 2 = 4.3949. Das symmetrische 95%-Konfidenzintervall für σ 2 lautet: Beispiel Konfidenzintervall für Varianz Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen D − (µx − µy ) SD Statistik 381/534 R. Frühwirth Statistik Matlab: make KI normal difference.m G2 =0.4388 + 1.993 · 0.5292 = 1.4935 G1 =0.4388 − 1.993 · 0.5292 = −0.6158 383/534 Werden die Varianzen als unbekannt angenommen, ist S 2 = 4.6668 und SD = 0.5292. Das 95%=Konfidenzintervall für µx − µy lautet dann: Beispiel (Fortsetzung) Konfidenzintervall für Differenz von Mittelwerten R. Frühwirth p mit SD = S 1/n + 1/m ist daher t-verteilt mit n + m − 2 Freiheitsgraden. T = χ -verteilt mit m + n − 2 Freiheitsgraden. Das Standardscore 2 (n − 1)Sx2 + (m − 1)Sy2 S2 = n+m−2 Sind die Varianzen unbekannt und gleich, ist W D − z1−α/2 σD ≤ µx − µy ≤ D + z1−α/2 σD = 1 − α Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Grundbegriffe Konfidenzintervall für den Mittelwert Konfidenzintervall für Varianz Konfidenzintervall für Differenz von Mittelwerten Intervallschätzer Eigenschaften von Punktschätzern Schätzung des Mittelwerts Schätzung der Varianz Schätzung des Medians Maximum-LikelihoodSchätzer Punktschätzer Grundbegriffe Stichprobenmittel Stichprobenvarianz Stichprobenmedian Stichprobenfunktionen Statistik R. Frühwirth Statistik R. Frühwirth Konfidenzintervall für Differenz von Mittelwerten W −t1−α/2,n+m−2 ≤ T ≤ t1−α/2,n+m−2 = 1 − α Teil 5 Statistik R. Frühwirth Statistik Testen von Hypothesen R. Frühwirth G2 =0.4388 + 1.96 · 0.4899 = 1.3990 G1 =0.4388 − 1.96 · 0.4899 = −0.5213 384/534 382/534 Eine Stichprobe aus No(2, 4) vom Umfang n = 50 hat Stichprobenmittel X = 2.1080 und Stichprobenvarianz Sx2 = 4.3949; eine zweite Stichprobe aus No(1, 4) vom Umfang m = 25 hat Stichprobenmittel X = 1.6692 und Stichprobenvarianz Sx2 = 5.2220. Werden die Varianzen als bekannt vorausgesetzt, lautet das 95%=Konfidenzintervall für µx − µy : Beispiel W D − t1−α/2,n+m−2 SD ≤ µx − µy ≤ D + t1−α/2,n+m−2 SD = 1−α folgt Aus Konfidenzintervall für Differenz von Mittelwerten Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik 385/534 R. Frühwirth Statistik 387/534 Der Test entscheidet, ob die Stichprobe mit der Hypothese vereinbar ist, nicht ob die Hypothese richtig ist! Ist die Form von F nicht spezifiziert, heißt der Test nichtparametrisch oder parameterfrei. Ist die Form von F bis auf einen oder mehrere Parameter spezifiziert, heißt der Test parametrisch. Die Annahme wird als Nullhypothese H0 bezeichnet. Ein Test soll feststellen, ob die Beobachtungen mit einer gewissen Annahme über F verträglich sind. Wir beobachten eine Stichprobe X1 , . . . , Xn aus einer Verteilung F . Einleitung R. Frühwirth Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Anpassungstests 19 Nichtparametrische Tests 18 Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Parametrische Tests 17 Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung 16 Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung Einleitung Statistik R. Frühwirth Statistik R. Frühwirth Übersicht Teil 5 Statistik 386/534 R. Frühwirth Statistik 388/534 Das ist jedoch keine Bestätigung von H0 . Es heißt lediglich, dass die Daten mit der Hypothese vereinbar sind. Andernfalls wird H0 vorläufig beibehalten. Fällt der Wert von T in den Ablehnungsbereich, wird H0 verworfen. Der Wertebereich von T wird, in Abhängigkeit von H0 , in einen Ablehnungsbereich (kritischen Bereich) C und einen Annahmebereich C 0 unterteilt. Aus der Stichprobe wird eine Testgröße (Teststatistik) T berechnet. Allgemeine Vorgangsweise R. Frühwirth Anpassungstests Nichtparametrische Tests Parametrische Tests Einleitung Einleitung 19 18 17 16 Abschnitt 16: Einleitung Statistik Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests 19 R. Frühwirth Anpassungstests Statistik Nichtparametrische Tests 18 391/534 Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben 17 Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung Parametrische Tests Einleitung Parametrische Tests Einleitung Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth 16 389/534 Statistik R. Frühwirth Statistik Abschnitt 17: Parametrische Tests R. Frühwirth α heißt das Signifikanzniveau des Tests. Gängige Werte sind α = 0.05, 0.01, 0.005. Der Ablehnungsbereich wird so festgelegt, dass die Wahrscheinlichkeit eines Fehlers 1. Art maximal gleich einem Wert α ist. Die Verteilung von T unter Annahme von H0 wird bestimmt. Bei jedem Testverfahren sind zwei Arten von Fehlern möglich. 1 Fehler 1. Art: Die Hypothese H0 wird abgelehnt, obwohl sie zutrifft. 2 Fehler 2. Art: Die Hypothese H0 wird beibehalten, obwohl sie nicht zutrifft. Signifikanz und Güte R. Frühwirth Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Einleitung Statistik 19 18 17 16 R. Frühwirth Anpassungstests Statistik Nichtparametrische Tests Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung Unterabschnitt: Grundlagen R. Frühwirth Ein Ziel der Testtheorie ist es, unverzerrte Tests mit maximaler Güte (UMPU) zu konstruieren. Ist die Güte nie kleiner als α, heißt der Test unverzerrt. Die Güte sollte nie kleiner als α sein. 1 − β(H1 ) heißt die Güte des Tests für H1 . Ist der Ablehnungsbereich festgelegt, kann für eine Gegenhypothese H1 die Wahrscheinlichkeit β(H1 ) eines Fehlers 2. Art berechnet werden. Einleitung 392/534 390/534 Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik R. Frühwirth Statistik T ist also verteilt gemäß Ga(n, τ0 /n). H0 wird abgelehnt, wenn T von seinem Erwartungswert weit entfernt“, also relativ klein oder relativ groß ist. ” X1 , . . . , Xn ist eine exponentialverteilte Stichprobe aus Ex(τ ). Die Hypothese H0 : τ = τ0 soll anhand der Stichprobe getestet werden. Als Teststatistik T wählen wir das Stichprobenmittel: T = X. Unter Annahme von H0 hat T die folgende Dichte: tn−1 t f (t) = exp − (τ0 /n)n Γ(n) τ0 /n Beispiel mit Exponentialverteilung Grundlagen R. Frühwirth Vor der Anwendung ist zu klären, ob die angenommene parametrische Form plausibel ist. 395/534 393/534 Der Test entscheidet, ob die Stichprobe mit der Hypothese vereinbar ist. Eine Nullhypothese H0 kann als eine Teilmenge des Parameterraums Θ aufgefasst werden. Tests von Hypothesen über F heißen parametrisch. Wir betrachten eine Stichprobe X1 , . . . , Xn aus einer Verteilung F , die bis auf einen oder mehrere Parameter spezifiziert ist. Grundlagen Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik 394/534 R. Frühwirth Statistik Matlab: make test exponential mean.m 1 − β(0.986) = 0.0495 < α 396/534 Der Test ist nicht unverzerrt, da z.B. für τ0 = 1 und n = 25 wo G die Verteilungsfunktion der Ga(n, τ /n)-Verteilung ist. 1 − β(τ ) = W (T ∈ C) = G(Qα/2 ) + 1 − G(Q(1−α)/2 ) Die Gütefunktion für einen Wert τ ergibt sich durch: wo Qp das Quantil der Ga(n, τ0 /n)-Verteilung zum Niveau p ist. Ein Verwerfungsbereich mit Signifikanzniveau α ist die Menge C = [0, Qα/2 ] ∪ [Q1−α/2 , ∞[ Grundlagen R. Frühwirth 1 − β(ϑ) heißt die Gütefunktion des Tests. 1 − β(ϑ) = W (T ∈ C|ϑ ∈ H1 ) Ist das Signifikanzniveau α festgelegt, kann für jedes ϑ ∈ H1 die Güte berechnet werden: H1 kann ebenfalls als Teilmenge des Parameterraums Θ aufgefasst werden. Zu einer Nullhypothese H0 kann eine Gegenhypothese H1 formuliert werden. W (T ∈ C|ϑ ∈ H0 ) ≤ α Dann wird der kritische Bereich C so festgelegt, dass Zunächst wird die Teststatistik T und das Signifikanzniveau α gewählt. Grundlagen Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth 0.6 0.8 R. Frühwirth 0.7 Statistik 0.9 1 τ 0 1.1 Gütefunktion (τ =1) 1.2 1.3 1.4 n=25 n=100 397/534 1.5 R. Frühwirth Statistik H0 wird abgelehnt, wenn T von seinem Erwartungswert weit entfernt“, also relativ klein oder relativ groß ist. ” Unter Annahme von H0 ist T verteilt gemäß No(0, 1). Als Teststatistik T wählen wir das Standardscore des Stichprobenmittels: √ n(X − µ0 ) T = σ 399/534 Die Hypothese H0 : µ = µ0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : µ 6= µ0 getestet werden. X1 , . . . , Xn ist eine normalverteilte Stichprobe aus No(µ, σ 2 ) mit bekanntem σ 2 . Erwartungswert bei bekannter Varianz Tests für normalverteilte Stichproben 0 0.5 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Grundlagen 1−β(τ) Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth R. Frühwirth Anpassungstests Statistik Nichtparametrische Tests Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung 398/534 R. Frühwirth Statistik 1 − β(µ) = W (T ∈ C) = G(zα/2 ) + 1 − G(z(1−α)/2 ) √ wo G die Verteilungsfunktion der No( n(µ − µ0 )/σ, 1)Verteilung ist. Der Test ist unverzerrt. Matlab: make test normal mean.m Die Gütefunktion für einen Wert µ ergibt sich durch: 400/534 wo zp das Quantil der Standardnormalverteilung zum Niveau p ist. Die Hypothese H0 wird also abgelehnt, wenn √ n X − µ0 |T | = > z1−α/2 σ Ein Verwerfungsbereich mit Signifikanzniveau α ist die Menge C =] − ∞, zα/2 ] ∪ [z1−α/2 , ∞[ Tests für normalverteilte Stichproben 19 18 17 16 Unterabschnitt: Tests für normalverteilte Stichproben Statistik 0 0.5 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.6 0.8 R. Frühwirth 0.7 0 Statistik 0.9 1 µ 1.1 1.3 1.4 n=25 n=100 401/534 1.5 403/534 Der Chiquadrat-Test Der KolmogorovSmirnov-Test Der Chiquadrat-Test Der KolmogorovSmirnov-Test Statistik Anpassungstests Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung Anpassungstests R. Frühwirth Statistik R. Frühwirth Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Matlab: make test normal mean.m Analog verläuft der Test mit H1 : µ < µ0 . 1 − β(τ ) = W (T ∈ C) = 1 − G(z1−α ) √ wo G die Verteilungsfunktion der No( n(µ − µ0 )/σ, 1)Verteilung ist. Die Gütefunktion für einen Wert µ > µ0 ergibt sich durch: 1.2 Gütefunktion des zweiseitigen Tests (µ =1) Tests für normalverteilte Stichproben 1−β(µ) Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Tests für normalverteilte Stichproben Statistik 0 1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.3 R. Frühwirth 1.2 0 Statistik 1.4 1.5 µ 1.6 1.7 Gütefunktion des einseitigen Tests (µ =1) Tests für normalverteilte Stichproben R. Frühwirth Die Hypothese H0 wird also abgelehnt, wenn √ n X − µ0 T = > z1−α σ 1.8 1.9 n=25 n=100 H0 wird abgelehnt, wenn T zu groß“ ist. ” Ein Verwerfungsbereich mit Signifikanzniveau α ist die Menge C = [z1−α , ∞[ 404/534 2 402/534 Die Hypothese H0 : µ = µ0 soll mit der Teststatistik T gegen die Alternativhypothese H1 : µ > µ0 getestet werden. Einseitiger Test Tests für normalverteilte Stichproben 1−β(µ) Statistik Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests R. Frühwirth Statistik Matlab: make test normal mean.m Der Test ist unverzerrt. 407/534 Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest ist. Nichtparametrische Tests Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung Parametrische Tests wo G die Verteilungsfunktion der nichtzentralen t(n − 1, δ)-Verteilung mit √ δ = n(µ − µ0 )/σ 405/534 Statistik R. Frühwirth Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben 1 − β(τ ) = W (T ∈ C) = G(zα/2 ) + 1 − G(z(1−α)/2 ) Die Gütefunktion für einen Wert µ ergibt sich durch: Tests für normalverteilte Stichproben R. Frühwirth Als Teststatistik T wählen wir das Standardscore des Stichprobenmittels, unter Benützung der Stichprobenvarianz S2: √ n(X − µ0 ) T = S Unter Annahme von H0 ist T verteilt gemäß t(n − 1). Die Hypothese H0 : µ = µ0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : µ 6= µ0 getestet werden. X1 , . . . , Xn ist eine normalverteilte Stichprobe aus No(µ, σ 2 ) mit unbekanntem σ 2 . Erwartungswert bei unbekannter Varianz: t-Test Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Tests für normalverteilte Stichproben Statistik 0 0.5 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.6 0.8 R. Frühwirth 0.7 0 Statistik 0.9 1 µ 1.1 1.2 Gütefunktion des zweiseitigen t−Tests (µ =1) Tests für normalverteilte Stichproben R. Frühwirth Die Hypothese H0 wird also abgelehnt, wenn √ n X − µ0 |T | = > tn−1 1−α/2 S 1.3 wo tn−1 das Quantil der t-Verteilung mit n − 1 p Freiheitsgraden zum Niveau p ist. 1.4 n=25 n=100 H0 wird abgelehnt, wenn T von seinem Erwartungswert weit entfernt“, also relativ klein oder relativ groß ist. ” Ein Verwerfungsbereich mit Signifikanzniveau α ist die Menge n−1 C =] − ∞, tn−1 α/2 ] ∪ [t1−α/2 , ∞[ Tests für normalverteilte Stichproben 1−β(µ) 408/534 1.5 406/534 Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik (n − S 2 (1/n + 1/m) X −Y + (m − n+m−2 1)Sy2 R. Frühwirth Statistik wo tn+m−2 1−α/2 das Quantil der t-Verteilung mit n + m − 2 Freiheitsgraden ist. |T | > tn+m−2 1−α/2 t-verteilt mit n + m − 2 Freiheitsgraden. Die Hypothese H0 wird also abgelehnt, wenn T =p Unter Annahme von H0 ist S2 = 1)Sx2 Sind die Varianzen unbekannt und gleich, kann die Varianz aus der kombinierten ( gepoolten“) Stichprobe ” geschätzt werden: Tests für normalverteilte Stichproben R. Frühwirth Unter Annahme von H0 ist T verteilt gemäß No(0, σx2 /n + σy2 /m). T =X −Y 411/534 409/534 Sind die Varianzen bekannt, wählen wir als Teststatistik T die Differenz der Stichprobenmittel: Die Hypothese H0 : µx = µy soll anhand der Stichproben gegen die Alternativhypothese H1 : µx 6= µy getestet werden. X1 , . . . , Xn und Y1 , . . . , Ym sind zwei unabhängige normalverteilte Stichprobe aus No(µx , σx2 ) bzw. No(µy , σy2 ). Gleichheit von zwei Erwartungswerten Tests für normalverteilte Stichproben Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth T Z=q σx2 /n + σy2 /m R. Frühwirth q Statistik + σy2 /m |X − Y | σx2 /n > z1−α/2 410/534 R. Frühwirth Statistik Dies erfolgt mit dem t-Test für einzelne Stichproben. Die Hypothese H0 : µw = 0 (keine Wirkung der Intervention) soll anhand der Stichprobe gegen die Alternativhypothese H1 : µw 6= 0 getestet werden. 412/534 Wir nehmen an, dass W1 , . . . , Wn normalverteilt mit Mittel 2 µw und unbekannter Varianz σw ist. Die Wirkung der Intervention wird durch die Differenzen Wi = Yi − Xi , i = 1, . . . , n beschrieben. Gepaarte Stichproben (X1 , Y1 ), . . . , (Xn , Yn ) entstehen, wenn für jedes beobachtete Objekt die selbe Größe zweimal gemessen wird, vor und nach einer bestimmten Intervention. t-Test für gepaarte Stichproben Tests für normalverteilte Stichproben oder |Z| > z1−α/2 Die Hypothese H0 wird also abgelehnt, wenn ist dann standardnormalverteilt. Das Standardscore Tests für normalverteilte Stichproben Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik 0 0.5 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.6 0.8 R. Frühwirth 0.7 Statistik 0.9 1 σ2 1.1 1.2 Gütefunktion des zweiseitigen Tests (σ20=1) Tests für normalverteilte Stichproben R. Frühwirth 1.3 n=25 n=100 1.4 Unter Annahme von H0 ist T χ2 -verteilt mit n − 1 Freiheitsgraden. (n − 1)S 2 T = σ02 Als Teststatistik T wählen wir: Die Hypothese H0 : σ 2 = σ02 soll anhand der Stichprobe gegen die Alternativhypothese H1 : σ 2 6= σ02 getestet werden. 415/534 1.5 413/534 X1 , . . . , Xn ist eine normalverteilte Stichprobe mit unbekanntem Erwartungswert µ und unbekannter Varianz σ2 . Test der Varianz Tests für normalverteilte Stichproben 1−β(σ2) Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth oder T > χ21−α/2,n−1 Statistik 414/534 Sx2 Sy2 R. Frühwirth Statistik Unter Annahme von H0 ist T F-verteilt gemäß F(n − 1, m − 1). T = Die Teststatistik T ist das Verhältnis der Stichprobenvarianzen: Die Hypothese H0 : σx2 = σy2 soll anhand der Stichproben gegen die Alternativhypothese H1 : σx2 6= σy2 getestet werden. 416/534 X1 , . . . , Xn und Y1 , . . . , Ym sind zwei unabhängige normalverteilte Stichprobe aus No(µx , σx2 ) bzw. No(µy , σy2 ). Gleichheit von zwei Varianzen Tests für normalverteilte Stichproben R. Frühwirth Matlab: make test normal variance.m Der Test ist nicht unverzerrt. wo G die Verteilungsfunktion der χ2 (n − 1)Verteilung ist. 1 − β(σ 2 ) = G(σ02 /σ 2 · χ2α/2 ) + 1 − G(σ02 /σ 2 · χ2(1−α)/2 ) wo χ2p,k das Quantil der χ2 -Verteilung mit k Freiheitsgraden zum Niveau p ist. Die Gütefunktion für einen Wert σ 2 ergibt sich durch: T < χ2α/2,n−1 Die Hypothese H0 wird also abgelehnt, wenn Tests für normalverteilte Stichproben Statistik Statistik 417/534 Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests R. Frühwirth Anpassungstests Statistik Nichtparametrische Tests 18 19 Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben 17 419/534 Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung Parametrische Tests Einleitung Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben 16 Parametrische Tests Einleitung Statistik R. Frühwirth Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Statistik Unterabschnitt: Tests für alternativverteilte Stichproben R. Frühwirth Matlab: make test normal variance.m Der Test ist unverzerrt. wo G die Verteilungsfunktion der F(n − 1, m − 1)Verteilung ist. 1 − β(τ ) = G(σ02 /σ 2 · Fα/2 ) + 1 − G(σ02 /σ 2 · F(1−α)/2 ) Nichtparametrische Tests R. Frühwirth Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Ist σy2 = kσx2 , ergibt sich die Gütefunktion für einen Wert k ergibt durch: wo Fp das Quantil der F-Verteilung mit n − 1 bzw. m − 1 Freiheitsgraden zum Niveau p ist. Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung Parametrische Tests oder T > F1−α/2 Statistik R. Frühwirth Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben T < Fα/2 Die Hypothese H0 wird also abgelehnt, wenn Parametrische Tests Einleitung R. Frühwirth Tests für normalverteilte Stichproben −0.6 R. Frühwirth −0.4 0 ln k=ln(σ2y /σ2x ) Statistik −0.2 0.2 Gütefunktion des zweiseitigen Tests (σ2x =σ2y ) 0.4 0.6 n=25 n=100 418/534 i=1 n X Xi R. Frühwirth Statistik H0 wird abgelehnt, wenn T zu groß“ ist. ” T ist binomialverteilt gemäß Bi(n, p). T = Als Teststatistik T wählen wir die Anzahl der Versuchsausgänge 1: 420/534 Die Hypothese H0 : p ≤ p0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : p > p0 getestet werden. X1 , . . . , Xn ist eine alternativverteilte Stichprobe aus Al(p). Einseitiger Test auf Erwartungswert Tests für alternativverteilte Stichproben 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Tests für normalverteilte Stichproben 1−β(k) Statistik i=k i n X n pi0 (1 − p0 )n−i Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik 421/534 R. Frühwirth Statistik Matlab: make test alternative mean.m Die Hypothese kann also nicht abgelehnt werden. Z = 1.2372 < z0.95 = 1.6449 Mit der Angabe des letzten Beispiels ergibt die Näherung: Beispiel T − np0 ≥ z1−α Z=p np(1 − p0 ) 423/534 Ist n genügend groß, kann die Verteilung von T durch eine Normalverteilung No(np, np(1 − p) angenähert werden. H0 wird abgelehnt, wenn das Standardscore größer als das (1 − α)-Quantil der Standardnormalverteilung ist: Näherung durch Normalverteilung Tests für alternativverteilte Stichproben R. Frühwirth Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung Anpassungstests n i p (1 − p0 )n−i ≤ α i 0 Statistik R. Frühwirth Der Chiquadrat-Test Der KolmogorovSmirnov-Test i=T n X Die Hypothese H0 wird abgelehnt, wenn W (T ≥ k) ≤ Ist p ≤ p0 , gilt Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Tests für alternativverteilte Stichproben ! 300 X 300 0.02i 0.98300−i = 0.1507 i i=9 Statistik 19 18 17 16 R. Frühwirth Anpassungstests Statistik Nichtparametrische Tests Parametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung Unterabschnitt: Tests für Poissonverteilte Stichproben R. Frühwirth Matlab: make test alternative mean.m Die Behauptung des Herstellers lässt sich also auf einem Signifikanzniveau von 5 Prozent nicht widerlegen. Es gilt: 424/534 422/534 Ein Hersteller behauptet, dass nicht mehr als 2 Prozent eines gewissen Bauteils fehlerhaft sind. In einer Stichprobe vom Umfang 300 sind 9 Stück defekt. Kann die Behauptung des Herstellers widerlegt werden? Beispiel Tests für alternativverteilte Stichproben Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth k=T i=1 Xi Statistik 425/534 R. Frühwirth Statistik Matlab: make test poisson mean.m 427/534 Die Hypothese kann also auf einem Signifikanzniveau von 1 Prozent abgelehnt werden. Z = 2.5938 > z0.99 = 1.6449 Mit der Angabe des letzten Beispiels ergibt die Näherung: Beispiel T − nλ0 ≥ z1−α Z= √ nλ0 Ist n genügend groß, kann die Verteilung von T durch eine Normalverteilung No(nλ, nλ angenähert werden. H0 wird abgelehnt, wenn das Standardscore größer als das (1 − α)-Quantil der Standardnormalverteilung ist: Näherung durch Normalverteilung Tests für Poissonverteilte Stichproben R. Frühwirth T ist Poissonverteilt gemäß Po(nλ). H0 wird abgelehnt, wenn T zu groß“ ist, also wenn ” ∞ X (nλ0 )k e−nλ0 ≤α k! T = n X X1 , . . . , Xn ist eine Poissonverteilte Stichprobe aus Po(λ). Die Hypothese H0 : λ ≤ λ0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : λ > λ0 getestet werden. Als Teststatistik T wählen wir die Stichprobensumme: Einseitiger Test auf Erwartungswert Tests für Poissonverteilte Stichproben Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth T = 154, k=T ∞ X (125)k e−125 = 0.0067 k! Statistik 19 18 17 16 R. Frühwirth Anpassungstests Statistik Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Parametrische Tests Einleitung Abschnitt 18: Nichtparametrische Tests R. Frühwirth Matlab: make test poisson mean.m Die Hypothese lässt sich also auf einem Signifikanzniveau von 1 Prozent widerlegen. Es gilt: 428/534 426/534 Ein Hersteller strebt an, dass in einer Fabrik täglich im Mittel nicht mehr als 25 defekte Bauteile hergestellt werden. Eine Stichprobe von 5 Tagen ergibt 28,34,32,38 und 22 defekte Bauteile. Hat der Hersteller sein Ziel erreicht? Beispiel Tests für Poissonverteilte Stichproben R. Frühwirth Anpassungstests Statistik 429/534 Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests R. Frühwirth Anpassungstests Statistik Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest 18 19 Parametrische Tests 17 431/534 Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung Parametrische Tests Einleitung Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben 16 Parametrische Tests Einleitung Statistik R. Frühwirth Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Statistik Unterabschnitt: Der Vorzeichentest 19 Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest 18 R. Frühwirth Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Parametrische Tests 17 Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Einleitung Parametrische Tests Einleitung Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben 16 Parametrische Tests Einleitung Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Einleitung Statistik 430/534 R. Frühwirth Statistik Es soll also getestet werden, ob p = 0.5. Für jedes Xi gilt: W (Xi ≤ m0 ) = F (m0 ) = p. Pn I = i=1 Ii ist daher binomialverteilt gemäß Bi(n, p). Die Zufallsvariable Ii sei definiert durch ( 1, wenn Xi ≤ m0 Ii = 0, wenn Xi > m0 H0 : m = m0 gegen H1 : m 6= m0 432/534 Wir testen die Hypothese, dass der unbekannte Median m von F gleich m0 ist: Der Vorzeichentest R. Frühwirth Ist eine bestimmte parametrische Form von F plausibel, sollten parametrische Tests angewendet werden, da sie aussagekräftiger sind. Solche Tests sind immer anwendbar, auch wenn über F nichts bekannt ist. Tests von Hypothesen über F heißen nichtparametrisch oder parameterfrei. Wir betrachten wieder Stichproben X1 , . . . , Xn aus einer stetigen Verteilung F , deren Form nicht spezifiziert ist. Einleitung Statistik Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben R. Frühwirth Statistik Die Zufallsvariable Ij sei definiert durch ( 1, wenn Xπ(j) ≤ m0 Ij = 0, sonst wo π eine Permutation der Zahlen {1, . . . , n} ist. Zj = |Yπ(j) | Dazu berechnen wir Yi = Xi − m0 und sortieren die absoluten Werte |Yi | aufsteigend: 435/534 H0 : W (X ≤ m0 − a) = W (X ≥ m0 + a) für alle a > 0 Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung Parametrische Tests 433/534 Statistik R. Frühwirth Einleitung Wir testen die Hypothese, dass die Stichprobe aus einer symmetrischen Verteilung F mit Median m0 stammt: Der Vorzeichenrangtest R. Frühwirth Matlab: Funktion signtest Ist p ≤ α, wird die Hypothese verworfen. wobei G die Verteilungsfunktion der Bi(n, 0.5)-Verteilung ist. p = 2 min(G(I), 1 − G(I)) Der p-Wert wird berechnet durch Die Hypothese wird verworfen, wenn I signifikant kleiner oder größer als der Erwartungswert n/2 ist. Unter der Nullhypothese ist I verteilt gemäß Bi(n, 0.5). Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Der Vorzeichentest R. Frühwirth Anpassungstests T = jIj hX 1 2 R. Frühwirth = = Statistik 4 X j2 n(n + 1)(2n + 1) 24 i Xj n(n + 1) jIj = = 2 4 hX i X 2 var[T ] =var jIj = j var[Ij ] = E[T ] =E Daraus folgt j=1 n X W (Ij = 1) = W (Ij = 0) = Unter der Nullhypothese ist Die Testgröße ist Statistik Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Parametrische Tests Einleitung Der Vorzeichenrangtest 19 18 17 16 Unterabschnitt: Der Vorzeichenrangtest 436/534 434/534 Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik i=1 j=1 m X n X s(Xi , Yj ) R. Frühwirth Statistik wobei s(X, Y ) = 1 wenn Y < X und s(X, Y ) = 0 sonst. Die Hypothese wird abgelehnt, wenn U zu klein oder zu groß ist. U= Die Testgröße U nach Mann-Whitney ist definiert durch: H0 : a = 0 gegen H1 : a 6= 0 Wir betrachten nun eine Stichprobe X = {X1 , . . . , Xm } mit der Verteilungsfunktion F (x) und eine davon unabhängige Stichprobe Y = {Y1 , . . . , Yn } aus der zu F verschobenen Verteilung G(x) = F (x − a). Wir testen die Hypothese, dass die Stichprobe aus der selben Verteilung stammen, also Der Rangsummentest R. Frühwirth Matlab: Funktion signrank 439/534 437/534 Für kleinere n ist auch ein exakte Berechnung des p-Werts möglich. Ist p ≤ α, wird die Hypothese verworfen. wobei G die Verteilungsfunktion der No(µ, σ 2 )-Verteilung ist. p = 2 min(G(I), 1 − G(I)) Der p-Wert wird berechnet durch Die Nullhypothese wird verworfen, wenn T signifikant kleiner oder größer als µ ist. Ist genügend groß (etwa n > 25), wird die Verteilung von T durch eine Normalverteilung mit Mittel µ = E[T ] und Varianz σ 2 = var[T ] angenähert. Der Vorzeichenrangtest Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth R. Frühwirth Anpassungstests mn , 2 σ2 = nm(m + n + 1) 12 438/534 R. Frühwirth Statistik Ist p ≤ α, wird die Hypothese verworfen. 440/534 wobei G die Verteilungsfunktion der No(µ, σ 2 )-Verteilung ist. p = 2 min(G(U ), 1 − G(U )) Der p-Wert wird berechnet durch µ= Für genügend große Stichproben ist U annähernd normalverteilt gemäß No(µ, σ 2 ) mit Statistik Nichtparametrische Tests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Parametrische Tests Einleitung Der Rangsummentest 19 18 17 16 Unterabschnitt: Der Rangsummentest Statistik Statistik 441/534 Der Chiquadrat-Test Der KolmogorovSmirnov-Test Der Chiquadrat-Test Der KolmogorovSmirnov-Test 443/534 Anpassungstests Anpassungstests Statistik Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung Nichtparametrische Tests R. Frühwirth Statistik R. Frühwirth Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Ein Anpassungstest kann einem parametrischen Test vorausgehen, um dessen Anwendbarkeit zu überprüfen. Die Verteilung kann völlig oder bis auf unbekannte Parameter bestimmt sein. Ein Test, der die Hypothese überprüft, ob die Daten einer gewissen Verteilung entstammen können, heißt ein Anpassungstest. Anpassungstests R. Frühwirth Matlab: Funktion ranksum Der Test wird auch als Mann-Whitney-Wilcoxon-Test bezeichnet. n(n + 1) T =U+ 2 Die Verteilungsfunktion von T kann rekursiv exakt berechnet werden. Es gilt: wobei R(Xi ) die Rangzahl von Xi in der kombinierten geordneten Stichprobe ist. i=1 Alternativ kann die Testgröße T nach Wilcoxon definiert werden durch: n X T = R(Xi ) Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Der Rangsummentest Statistik 19 18 17 16 R. Frühwirth Statistik Anpassungstests Der Chiquadrat-Test Der Kolmogorov-Smirnov-Test Nichtparametrische Tests Parametrische Tests Einleitung Unterabschnitt: Der Chiquadrat-Test R. Frühwirth Anpassungstests Der Chiquadrat-Test Der Kolmogorov-Smirnov-Test Nichtparametrische Tests 18 19 Parametrische Tests Einleitung 17 16 Abschnitt 19: Anpassungstests 444/534 442/534 Statistik H1 : W (Xi = j) 6= pj , für ein j Statistik 445/534 Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistik Ist das nicht erfüllt, sollte der Ablehnungsbereich durch Simulation bestimmt werden. Als Faustregel gilt: n sollte so groß sein, dass npj > 5, j = 1, . . . , k. 447/534 j=1 Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest k X Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Yj = n Statistik R. Frühwirth Nichtparametrische Tests Der Grund dafür, dass T nur k − 1 Freiheitsgrade hat, ist der lineare Zusammenhang zwischen den Yj : wo χ21−α,k das Quantil der χ2 -Verteilung mit k − 1 Freiheitsgraden zum Niveau 1 − α ist. Soll der Test Signifikanzniveau α haben, wird H0 abgelehnt, wenn T ≥ χ21−α,k−1 Der Chiquadrat-Test R. Frühwirth Unter der Nullhypothese ist Y1 , . . . , Yk multinomial verteilt gemäß Mu(n, p1 , . . . , pk ) und E[Yj ] = npj . Es sei Yj die Zahl der Beobachtungen, die gleich j sind. gegen H0 : W (Xi = j) = pj , j = 1, . . . , k Wir testen die Hypothese H0 , dass die Dichte f die Werte f (j) = pj , j = 1, . . . , k hat: Die Stichprobe X1 , . . . , Xn entstammt einer diskreten Verteilung mit Wertebereich {1, . . . , k}. Der Chiquadrat-Test für diskrete Beobachtungen Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Der Chiquadrat-Test k X (Yj − npj )2 npj j=1 Statistik 446/534 1 6 ST2 = 9.789 R. Frühwirth Statistik Matlab: make chi2test wuerfel.m W (T ≥ 11.07) = 0.048 Das 0.95-Quantil der χ2 -Verteilung mit fünf Freiheitsgraden ist χ20.95,5 = 11.07, und T = 5.000, Eine Simulation von N = 100000 Stichproben ergibt: W (X = 1) = . . . = W (X = 6) = 448/534 Wir testen anhand einer Stichprobe vom Umfang 50, ob ein Würfel symmetrisch ist, d.h. ob die Augenzahl X folgende Verteilung hat: Beispiel Der Chiquadrat-Test R. Frühwirth Satz Unter Annahme der Nullhypothese ist die Zufallsvariable T asymptotisch, d.h. für n → ∞, χ2 -verteilt mit k − 1 Freiheitsgraden. Der kritische Bereich kann nach dem folgenden Ergebnis bestimmt werden. Die Nullhypothese wird verworfen, wenn T groß ist. T = Die Testgröße vergleicht die beobachteten Häufigkeiten Yj mit ihren Erwartungswerten: Der Chiquadrat-Test Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben R. Frühwirth Statistik wo χ21−α,k das Quantil der χ2 -Verteilung mit k − 1 − m Freiheitsgraden zum Niveau 1 − α ist. 451/534 Soll der Test Signifikanzniveau α haben, wird H0 abgelehnt, wenn T ≥ χ21−α,k−1−m Werden m Parameter aus der Stichprobe geschätzt, so ist T (ϑ̃) asymptotisch χ2 -verteilt mit k − 1 − m Freiheitsgraden. Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung Einleitung 449/534 Statistik R. Frühwirth Parametrische Tests Satz Statistik Der kritische Bereich kann nach dem folgenden Ergebnis bestimmt werden. Der Chiquadrat-Test R. Frühwirth Der Test verläuft weiter wie im diskreten Fall. pj = W (X ∈ Gj |H0 ) Unter der Nullhypothese ist Y1 , . . . , Yk multinomial verteilt gemäß Mu(n, p1 , . . . , pk ) und E[Yj ] = npj , mit Es sei Yj die Zahl der Beobachtungen in Gruppe Gj . Dazu wird der Wertebereich von X in k Gruppen G1 , . . . , Gk eingeteilt. Wir testen die Hypothese H0 : F (x) = F0 (x). Die Stichprobe X1 , . . . , Xn entstammt einer stetigen Verteilung F . Der Chiquadrat-Test für stetige Beobachtungen Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Der Chiquadrat-Test Statistik 450/534 2 1 3 2–3 4 4–5 5 >5 R. Frühwirth Statistik Y1 = 6, Y2 = 5, Y3 = 8, Y4 = 6, Y5 = 5 Die Häufigkeiten der Gruppen sind: 1 0 Gruppe X Lösung: Die Beobachtungen werden in fünf Gruppen eingeteilt: Es soll die Hypothese überprüft werden, dass die Beobachtungen Poisson-verteilt gemäß Po(λ) sind. 1, 9, 3, 4, 5, 3, 3, 4, 7, 4, 0, 1, 2, 1, 2} X ={8, 0, 0, 1, 3, 4, 0, 2, 12, 5, 1, 8, 0, 2, 0, 452/534 Angabe: Die Zahl der Arbeitsunfälle wurde in einem großen Betrieb über 30 Wochen erhoben. Es ergaben sich folgende Werte: Beispiel Der Chiquadrat-Test R. Frühwirth ϑ ϑ̃ = arg min T (ϑ) Zunächst werden die Parameter geschätzt, durch ML-Schätzung oder Minimierung von T : Die Statistik T ist nun eine Funktion der unbekannten Parameter: k X (Yj − npj (ϑ))2 T (ϑ) = npj (ϑ) j=1 W (X ∈ Gj ) = pj (ϑ) Die Nullhypothese muss nicht vollständig spezifiziert sein. Wir betrachten den Fall, dass die pj noch von unbekannten Parametern ϑ abhängen: Unbekannte Parameter Der Chiquadrat-Test Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth 1 1.2643 2 3 13.0304 T = 21.99 4.0037 4 8.6522 5 3.0493 Statistik 453/534 R. Frühwirth Statistik K(x) = 1 − 2 (−1)k−1 e−2k k=1 ∞ X 2 x2 455/534 Für Stichproben aus F0 ist die Verteilung von Dn unabhängig von F0 ! Für √ Stichproben aus F0 strebt die Verteilungsfunktion von nD für n → ∞ gegen: x Dn = max |Fn (x) − F0 (x)| Die Stichprobe X1 , . . . , Xn ist aus der stetigen Verteilung mit Verteilungsfunktion F . Wir testen die Hypothese H0 : F (x) = F0 (x). Die Testgröße Dn ist die maximale absolute Abweichung der empirischen Verteilungsfunktion Fn (x) der Stichprobe von der hypothetischen Verteilungsfunktion F0 (x): Eine Stichprobe Der Kolmogorov-Smirnov-Test R. Frühwirth Matlab: make chi2test poisson.m Das 99%-Quantil der χ2 -Verteilung mit drei Freiheitsgraden ist gleich χ20.99,3 = 11.35. Die Hypothese, dass die Beobachtungen Poisson-verteilt sind, ist also abzulehnen. Die Testgröße T ist gleich E[Y1 ] j Die Erwartungswerte der Yj unter Annahme von H0 = Po(λ̃) sind: λ̃ = 3.1667 Der Schätzwert für λ ist das Stichprobenmittel: Beispiel (Fortsetzung) Der Chiquadrat-Test Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Statistik Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth R. Frühwirth Statistik Anpassungstests Der Chiquadrat-Test Der Kolmogorov-Smirnov-Test Nichtparametrische Tests Parametrische Tests Einleitung 454/534 R. Frühwirth Statistik Matlab: Funktion kstest 456/534 In diesem Fall muss der Ablehnungsbereich durch Simulation ermittelt werden. Werden vor dem Test Parameter von F0 geschätzt, sind die Quantile nicht mehr gültig. Die Nullhypothese wird abgelehnt, wenn √ nDn > K1−α Aus der asymptotischen Verteilungsfunktion können Quantile K1−α berechnet werden. Der Kolmogorov-Smirnov-Test 19 18 17 16 Unterabschnitt: Der Kolmogorov-Smirnov-Test Statistik − 2 Fm (x)| Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 22 R. Frühwirth Mehrfache Regression Einfache Regression 21 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einleitung Einfache Regression 20 Einleitung Einleitung Statistik 459/534 457/534 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Statistik Statistik Statistik R. Frühwirth Statistik Übersicht Teil 6 R. Frühwirth Matlab: Funktion kstest2 Die Nullhypothese wird abgelehnt, wenn r nm Dn,m > K1−α n+m Dn,m = max |Fn1 (x) x Die Testgröße ist die maximale absolute Differenz der empirischen Verteilungsfunktionen: Wir testen, ob zwei Stichproben vom Umfang n bzw. m aus der gleichen Verteilung F stammen. Zwei Stichproben R. Frühwirth Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Einleitung Der Vorzeichentest Der Vorzeichenrangtest Der Rangsummentest Nichtparametrische Tests Grundlagen Tests für normalverteilte Stichproben Tests für alternativverteilte Stichproben Tests für Poissonverteilte Stichproben Parametrische Tests Einleitung R. Frühwirth Der Kolmogorov-Smirnov-Test 22 21 20 R. Frühwirth Mehrfache Regression Einfache Regression Einleitung Abschnitt 20: Einleitung R. Frühwirth Statistik Statistik Regressionsanalyse Teil 6 460/534 458/534 Statistik Y = f (β, x) + ε Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung Statistik Mehrfache Regression 22 R. Frühwirth Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 21 Einleitung 463/534 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth 20 461/534 Statistik R. Frühwirth Statistik Unterabschnitt: Lineare Regression R. Frühwirth Eine Einflussvariable: einfache Regression; Mehrere Einflussvariable: mehrfache (multiple) Regression. Ziel ist die Schätzung von β anhand von Beobachtungen Y1 , . . . , Yn . mit Regressionskoeffizienten β und Fehlerterm ε. Regressionsmodell: Ergebnisvariable (abhängige Variable) Y . Einflussvariable (unabhängige Variable) x = (x1 , . . . , xr ). Regressionsanalyse untersucht die Abhängigkeit der Beobachtungen von diversen Variablen. R. Frühwirth Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Einleitung R. Frühwirth Mehrfache Regression E[ε] = 0, var[ε] = σ 2 i=1 n X (Yi − α − βxi )2 462/534 R. Frühwirth Statistik 464/534 Gradient von SS: n n X X ∂SS ∂SS = −2 (Yi − α − βxi ), = −2 xi (Yi − α − βxi ) ∂α ∂β i=1 i=1 SS = Es seien nun Y1 , . . . , Yn die Ergebnisse für die Werte x1 , . . . , xn der Einflussvariablen x. Die Schätzung von α und β kann nach dem Prinzip der kleinsten Fehlerquadrate erfolgen. Die folgende Zielfunktion wird minimiert: Y = α + βx + ε, Das einfachste Regressionsmodell ist eine Gerade: Statistik Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einleitung Lineare Regression 22 21 20 Abschnitt 21: Einfache Regression Statistik xi Yi = α i=1 n X i=1 n X i=1 n X xi xi + β Yi = nα + β x2i Statistik 465/534 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung Statistik Mehrfache Regression 22 R. Frühwirth Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 21 Einleitung 467/534 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth 20 Statistik R. Frühwirth Statistik Unterabschnitt: Tests, Konfidenz- und Prognoseintervalle R. Frühwirth Es gilt E[α̂] = α und E[β̂] = β. α̂ = Y − β̂ x̄ Die geschätzten Regressionskoeffizienten lauten: Pn Pn x Y − x̄ i=1 Yi Pni i 2 β̂ = i=1 2 i=1 xi − nx̄ i=1 n X i=1 n X Nullsetzen des Gradienten gibt die Normalgleichungen: R. Frühwirth Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Lineare Regression ri = Yi − Ŷi , Ŷi = α̂ + β̂xi Statistik β̂ − β σ̂β̂ R. Frühwirth Statistik t-verteilt mit n − 2 Freiheitsgraden, wobei P σ̂ 2 x2 σ̂ 2 P 2 i 2 , σ̂β̂2 = P 2 σ̂α̂2 = n ( xi − nx̄ ) xi − nx̄2 α̂ − α , σ̂α̂ Satz Ist ε normalverteilt, so sind Ein Test der Nullhypothese H0 : β = 0 gegen H1 : β 6= 0 beruht auf dem folgenden Satz. Ist β = 0, hängt das Ergebnis überhaupt nicht von den Einflussvariablen ab. Tests, Konfidenz- und Prognoseintervalle R. Frühwirth 468/534 466/534 Kovarianzmatrix der geschätzten Regressionkoeffizienten: P P 2 xi x P 2 i P − n ( x − nx̄2 ) n ( x2i − nx̄2 ) i 2 Cov[α̂, β̂] = σ P xi 1 P P − 2 2 n ( xi − nx̄2 ) xi − nx̄2 mit Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: n 1 X 2 r σ̂ 2 = n − 2 i=1 i Lineare Regression Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Statistik 469/534 R. Frühwirth Statistik 471/534 Das symmetrische Prognoseintervall für Y0 mit Sicherheit α ist daher gleich: s n+1 (x̄ − x0 )2 +P 2 α̂ + β̂x0 ± tn−2 1−α/2 σ̂ n xi − nx̄2 Da Y0 um seinen Erwartungswert mit Varianz σ 2 streut, ergibt sich: (x̄ − x0 )2 n+1 var[Y0 ] = σ 2 +P 2 n xi − nx̄2 Tests, Konfidenz- und Prognoseintervalle R. Frühwirth Ein analoger Test kann für die Nullhypothese H0 : α = 0 durchgeführt werden. wo tn−2 das Quantil der t-Verteilung mit n − 2 p Freiheitsgraden zum Niveau p ist. |β̂| > tn−2 1−α/2 σ̂β̂ relativ klein oder relativ groß ist, also wenn Die Nullhypothese H0 : β = 0 wird abgelehnt, wenn die Testgröße β̂ T = σ̂β̂ Tests, Konfidenz- und Prognoseintervalle Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Statistik 470/534 σ̂ q 1− 1 n − rk (xk −x̄)2 P x2i −nx̄2 R. Frühwirth Statistik Es hat Erwartung 0 und Varianz 1. rk0 = Das studentisierte Residuum ist dann Das Residuum rk hat die Varianz 1 (xk − x̄)2 2 var[rk ] = σ 1 − − P 2 n xi − nx̄2 472/534 Die Angemessenheit des Modells kann durch Untersuchung der studentisierten Residuen (Restfehler) überprüft werden. Tests, Konfidenz- und Prognoseintervalle R. Frühwirth Die Varianz von E[Y0 ] ergibt sich mittels Fehlerfortpflanzung: (x̄ − x0 )2 2 1 var[E[Y0 ]] = σ +P 2 n xi − nx̄2 E[Y0 ] = α̂ + β̂x0 Für n > 30 können die Quantile der t-Verteilung durch Quantile der Standardnormalverteilung ersetzt werden. Es soll nun das Ergebnis Y0 = Y (x0 ) für einen bestimmten Wert x0 der Einflussvariablen x prognostiziert werden. Der Erwartungswert von Y0 ist Die symmetrischen Konfidenzintervalle mit 95% Sicherheit lauten: n−2 α̂ ± σ̂α̂ · tn−2 β̂ ± σ̂β̂ · t1−α/2 1−α/2 , Tests, Konfidenz- und Prognoseintervalle Statistik 5 10 x 15 20 0 y R. Frühwirth Statistik 10 x Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung Statistik Mehrfache Regression 22 R. Frühwirth Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 21 475/534 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung Statistik Einleitung 473/534 20 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth 15 Statistik R. Frühwirth Statistik Unterabschnitt: Robuste Regression 20 5 Regressionsgerade und studentisierte Residuen −2 0 0 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 5 10 15 20 25 30 35 40 r’ R. Frühwirth Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Tests, Konfidenz- und Prognoseintervalle 0 10 x 15 20 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 3 0 5 10 x R. Frühwirth 15 474/534 20 80 40 90 100 110 120 130 140 150 45 55 60 40 90 50 60 70 Data Outlier LS w/o outlier LS with outlier R. Frühwirth Statistik Lineare Regression mit Ausreißern 50 x 100 110 120 130 140 150 160 170 x 80 90 100 476/534 110 Als LS-Schätzer ist die Regressionsgerade nicht robust, d.h. empfindlich gegen Ausreißer. Statistik Regressionsgerade und studentisierte Residuen 5 Robuste Regression −5 0 5 10 15 20 25 30 35 40 Tests, Konfidenz- und Prognoseintervalle y y r’ y Statistik Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung Statistik Mehrfache Regression 22 R. Frühwirth Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 21 Einleitung 479/534 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth 20 477/534 Statistik R. Frühwirth Statistik Unterabschnitt: Polynomiale Regression R. Frühwirth Beide Methoden gehen auf P. Rousseeuw zurück. Berechnung iterativ (FAST-LTS). LTS (Least Trimmed Squares): Es wird die Summe einer festen Anzahl h ≤ n von Fehlerquadraten minimiert. Berechnung kombinatorisch. “Exact fit property”: Die LMS-Gerade geht durch zwei Datenpunkte. LMS (Least Median of Squares): Anstatt der Summe der Fehlerquadrate wird der Median der Fehlerquadrate minimiert. R. Frühwirth Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Robuste Regression y 45 55 60 40 90 100 110 120 130 140 150 160 170 50 60 70 Data Outlier LS w/o outlier LS with outlier LMS LTS (75%) R. Frühwirth x 80 90 100 478/534 110 mit R. Frühwirth x1 x2 .. . xn Statistik 1 1 X= .. . 1 x21 x22 .. . x2n ··· ··· ··· .. . Y = Xβ + ε xr1 xr2 .. . xrn 480/534 E[ε] = 0, var[ε] = σ 2 Es seien wieder Y1 , . . . , Yn die Ergebnisse für die Werte x1 , . . . , xn der Einflussvariablen x. In Matrix-Vektor-Schreibweise: Y = β0 +β1 x+β2 x2 +· · ·+βr xr +ε, Ist der Zusammenhang zwischen x und Y nicht annähernd linear, kann man versuchen, ein Polynom anzupassen. Das Modell lautet dann: Statistik Robuste Regression mit Ausreißern 50 x Polynomiale Regression 80 40 90 100 110 120 130 140 150 Robuste Regression y Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung ∂SS = −2XT (Y − Xβ) ∂β R. Frühwirth Die Lösung lautet: −5 0 5 10 15 20 25 30 35 40 45 0 10 x 15 20 2 −2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 0 5 10 x R. Frühwirth Statistik Regressionsparabel und studentisierte Residuen 5 Statistik β̂ = XT X −1 XY XY = XT Xβ 15 Nullsetzen des Gradienten gibt die Normalgleichungen: Gradient von SS: SS = (Y − Xβ)T (Y − Xβ) Die folgende Zielfunktion wird minimiert: Polynomiale Regression y R. Frühwirth Polynomiale Regression r’ 483/534 20 481/534 Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth r = Y − Ŷ , Ŷ = Xβ̂ Statistik 22 21 20 R. Frühwirth Statistik Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einfache Regression Einleitung Abschnitt 22: Mehrfache Regression R. Frühwirth Kovarianzmatrix der Residuen r: Cov[β̂] = σ 2 I − X XT X −1 XT Kovarianzmatrix der geschätzten Regressionkoeffizienten: Cov[β̂] = σ 2 XT X −1 mit 484/534 482/534 Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: n X 1 r2 σ̂ 2 = n − r − 1 i=1 i Polynomiale Regression R. Frühwirth Statistik Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einfache Regression Einleitung 485/534 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung 22 21 20 R. Frühwirth Statistik Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einfache Regression Einleitung 487/534 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung Statistik R. Frühwirth Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung Statistik Unterabschnitt: Schätzung, Tests und Prognoseintervalle 22 21 20 R. Frühwirth Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Das lineare Modell R. Frühwirth 1 1 X= .. . 1 Statistik x1,1 x2,1 .. . xn,1 x1,2 x2,2 .. . xn,2 ··· ··· ··· .. . x1,r x2,r .. . xn,r ∂SS = −2XT (Y − Xβ) ∂β R. Frühwirth Die Lösung lautet: Statistik β̂ = XT X −1 XT Y XT Y = XT Xβ Nullsetzen des Gradienten gibt die Normalgleichungen: Gradient von SS: SS = (Y − Xβ)T (Y − Xβ) Die folgende Zielfunktion wird minimiert: Schätzung, Tests und Prognoseintervalle mit Y = Xβ + ε 488/534 486/534 E[ε] = 0, var[ε] = σ 2 Es seien wieder Y1 , . . . , Yn die Ergebnisse für n Werte x1 , . . . , xn der Einflussvariablen x = (x1 , . . . , xr ). In Matrix-Vektor-Schreibweise: Y = β0 +β1 x1 +β2 x1 +· · ·+βr xr +ε, Hängt das Ergebnis Y von mehreren Einflussvariablen ab, lautet das einfachste lineare Regressionmodell: Das lineare Modell Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth r = Y − Ŷ , Ŷ = Xβ̂ Statistik R. Frühwirth Statistik β̂k ± σ̂β̂k · tn−r−1 1−α/2 Das symmetrische Konfidenzintervall für βk mit 95% Sicherheit lautet: wo das Quantil der t-Verteilung mit n − 2 Freiheitsgraden zum Niveau p ist. tn−2 p |β̂k | > tn−r−1 1−α/2 σ̂β̂k relativ klein oder relativ groß ist, also wenn Die Nullhypothese H0 : βk = 0 wird abgelehnt, wenn die Testgröße β̂k T = σ̂β̂k Schätzung, Tests und Prognoseintervalle R. Frühwirth Kovarianzmatrix der Residuen r: Cov[β̂] = σ 2 I − X XT X −1 XT Kovarianzmatrix der geschätzten Regressionkoeffizienten: Cov[β̂] = σ 2 XT X −1 mit 491/534 489/534 Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: n X 1 r2 σ̂ 2 = n − r − 1 i=1 i Schätzung, Tests und Prognoseintervalle Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth β̂k − βk σ̂β̂k R. Frühwirth Statistik 490/534 R. Frühwirth Statistik Die Varianz von E[Y0 ] ergibt sich mittels Fehlerfortpflanzung: var[E[Y0 ]] = σ 2 x+ XT X −1 x+ T E[Y0 ] = x+ · β̂ Der Erwartungswert von Y0 ist dann 492/534 Wir erweitern x0 um den Wert 1: x+ = (1, x01 , . . . , x0r ). Es soll nun das Ergebnis Y0 = Y (x0 ) für einen bestimmten Wert x0 = (x01 , . . . , x0r ) der Einflussvariablen prognostiziert werden. Schätzung, Tests und Prognoseintervalle ist. t-verteilt mit n − r − 1 Freiheitsgraden, wobei σ̂β̂2 das k-te k Diagonalelement der geschätzten Kovarianzmatrix σ̂ 2 XT X −1 Satz Ist ε normalverteilt, so ist Ist βk = 0, hängt das Ergebnis überhaupt nicht von den Einflussvariablen xk ab. Ein Test der Nullhypothese H0 : βk = 0 gegen H1 : βk 6= 0 beruht auf dem folgenden Satz. Schätzung, Tests und Prognoseintervalle Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Statistik 493/534 R. Frühwirth Statistik β̂ = XT GX −1 XT GY Die Lösung lautet: XT GY = XT GXβ Nullsetzen des Gradienten gibt die Normalgleichungen: Gradient von SS: ∂SS = −2XT G(Y − Xβ) ∂β SS = (Y − Xβ)T G(Y − Xβ), G = V−1 Cov[ε] = V Ist V bekannt, lautet die Zielfunktion: Y = Xβ + ε, 495/534 Im allgemeinen Fall können die Fehlerterme eine beliebige Kovarianzmatrix haben: Gewichtete Regression R. Frühwirth Das symmetrische Prognoseintervall für Y0 mit Sicherheit α ist daher gleich: q x+ · β̂ ± tn−k−1 σ̂ 1 + x+ (XT X) −1 x+ T 1−α/2 Da Y0 um seinen Erwartungswert mit Varianz σ 2 streut, ergibt sich: var[E[Y0 ]] = σ 2 1 + x+ XT X −1 x+ T Schätzung, Tests und Prognoseintervalle Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth R. Frühwirth R. Frühwirth Statistik Tests und Prognoseintervalle können entsprechend modifizert werden. Kovarianzmatrix der Residuen r: Cov[β̂] = σ 2 I − X XT GX −1 XT Kovarianzmatrix der geschätzten Regressionkoeffizienten: Cov[β̂] = σ 2 XT GX −1 Statistik Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einfache Regression Einleitung Gewichtete Regression 22 21 20 Unterabschnitt: Gewichtete Regression 496/534 494/534 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung R. Frühwirth 497/534 R. Frühwirth Statistik 499/534 Viele andere Methoden zur Minimierung von SS verfügbar. Das Verfahren wird iteriert, bis die Schätzung sich nicht mehr wesentlich ändert. h wird neuerlich an der Stelle β1 = β̂ linearisiert. Die Schätzung von β lautet: β̂ = HT GH −1 HT G(Y − c) Statistik Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einfache Regression Einleitung Nichtlineare Regression 22 21 20 Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Einleitung Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Nichtlineare Regression Teil 7 Statistik H= R. Frühwirth Statistik Simulation von Experimenten R. Frühwirth h(β) ≈ h(β0 ) + H(β − β0 ) = c + Hβ, Dazu wird h an einer Stelle β0 linearisiert: ∂h ∂β β0 SS kann mit dem Gauß-Newton-Verfahren minimiert werden. SS = [Y − h(β)]T G[Y − h(β)], G = V−1 Cov[ε] = V Ist V bekannt, lautet die Zielfunktion: Y = h(β) + ε, In der Praxis ist die Abhängigkeit der Ergebnisse von den Regressionskoeffizienten oft nichtlinear: Nichtlineare Regression 500/534 498/534 Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Statistik 501/534 R. Frühwirth Statistik 503/534 Es wird ein Modell des Experiments erstellt, das sowohl die deterministischen Abläufe als auch die stochastischen Einflüsse (quantenmechanische Prozesse, Messfehler) modelliert. Dabei bedient sich die experimentelle Mathematik einer statistischen Methode, der nach dem Roulette benannten Monte Carlo-Methode. Um das Ergebnis eines Experiments korrekt interpretieren zu können, muss der Einfluss des experimentellen Aufbaues auf die zu messenden Verteilungen berücksichtigt werden. Einleitung R. Frühwirth Simulation von stetigen Zufallsvariablen Simulation von diskreten Zufallsvariablen 24 25 Einleitung 23 Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Einleitung Einleitung Statistik R. Frühwirth Statistik R. Frühwirth Übersicht Teil 7 Statistik 502/534 R. Frühwirth Statistik 504/534 Wesentlich ist, dass bei Eingabe von Daten eines korrekten Datenmodells die nach der Simulation des Ablaufes entstehende Datenreihe statistisch gesehen die gleichen Eigenschaften aufweist wie die Messdaten. Zum Beispiel kann der Messfehler durch eine detaillierte Simulation der Messapparatur oder durch eine einfache Normalverteilung erzeugt werden. Dabei können Teile des Systems (Experiments) nur global in ihrer Auswirkung oder in realistisch detaillierter Form behandelt werden. R. Frühwirth Simulation von stetigen Zufallsvariablen Simulation von diskreten Zufallsvariablen Einleitung Einleitung 25 24 23 Abschnitt 23: Einleitung Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Statistik 505/534 R. Frühwirth Statistik 507/534 Auf jeden Fall sollte der Simulation des Experiments größte Aufmerksamkeit geschenkt werden, und spätestens bei der Auswertung der echten Messergebnisse wird das Simulationsprogramm neuerlich wichtige Informationen liefern, nachdem es an Hand der realen experimentellen Gegebenheiten laufend angepasst wurde. Natürlich wird eine gewisse Unsicherheit bei der Simulation des Experiments verbleiben; denn erstens können nicht alle kleinsten Details in einem Simulationsprogramm berücksichtigt werden, und zweitens sind die Detektoren häufig noch im Entwicklungsstadium, sodass ihr endgültiges Verhalten noch nicht gemessen und daher auch nicht in die Simulation eingegeben werden kann. Einleitung R. Frühwirth Dabei kann auch der wahre Wert der Paramer variiert werden, um eine gewisse Kenntnis der systematischen Fehler der gewählten Auswertemethode erlangt werden. Ferner wird die Auswertemethode auf ihre Korrektheit überprüft. Durch wiederholte Simulation kann die Streuung und eine eventuelle Verzerrung der Schätzung der gesuchten Parameter studiert werden. Die Kernfrage ist natürlich, ob und in welcher Messzeit das geplante Experiment eine genügend genaue Antwort auf die Problemstellung gibt. Schon in der Planungsphase eines Experiments empfiehlt es sich, eine möglichst realistische Simulation. Einleitung Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Statistik 506/534 R. Frühwirth Statistik 508/534 Tatsächlich handelt es sich dabei um diskrete Werte. Wegen der großen Wortlänge moderner Maschinen kann dieser Wertevorrat für die meisten Anwendungen als quasi-kontinuierlich betrachtet werden. Auf jedem Rechner steht heute ein (Pseudo-) Zufallszahlengenerator zur Verfügung. Diese werden aus Zufallszahlen berechnet, die aus der Gleichverteilung Un(0, 1) gezogen werden. Die Simulation von stochastischen Prozessen benötigt Zufallszahlen mit vorgegebener Verteilung. Einleitung R. Frühwirth Erscheint nun die Durchführung des Experiments als sinnvoll (Messdauer, Beherrschung des Untergrundes etc.), so wird die aus dem simulierten Experiment gewonnene Erfahrung sicherlich eine gewisse Rückwirkung auf das geplante Experiment haben, etwa auf die angestrebte Genauigkeit, die Anzahl, die Positionierung und das erforderliche Ansprechvermögen der Detektoren; auf das Unterdrücken oder auf das Erkennen des Untergrundes; auf die Optimierung der Auswertemethoden und der dazu erforderlichen Rechenzeit. Einleitung Statistik Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung Statistik Simulation von stetigen Zufallsvariablen 25 R. Frühwirth Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung 24 Einleitung 511/534 Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth 23 509/534 Statistik R. Frühwirth Statistik Unterabschnitt: Allgemeine Methoden R. Frühwirth Die Qualität der erzeugten Zahlenreihe muss mit statistischen Tests überprüft werden. Ein Simulationsvorgang kann, wenn gewünscht, reproduziert werden, wenn der Zufallszahlengenerator mit dem gleichen Startwert aufgerufen wird. Der Zufallszahlengenerator hat periodisches Verhalten. Die Periode sollte möglichst lang sein. Die erzeugten Werte werden mit einer deterministischen Funktion generiert und sind daher Pseudozufallszahlen. Darunter versteht man eine Zahlenreihe, die statistisch gesehen ein ähnliches Verhalten zeigt wie eine Zahlenreihe echter Zufallszahlen, in Wahrheit jedoch deterministisch und wiederholbar ist. R. Frühwirth Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Einleitung R. Frühwirth Die Wahrscheinlichkeit, dass eine Zufallszahl aus der Gleichverteilung in das Intervall [F (k − 1), F (k)) fällt, ist gerade gleich f (k). R. Frühwirth Statistik 512/534 Wird k so bestimmt, dass eine im Intervall [0, 1] gleichverteilte Zufallszahl im Intervall [F (k − 1), F (k)) liegt, so gehorcht k der Verteilung mit der Verteilungsfunktion F (x). Satz 510/534 F (x) ist eine monotone Stufenfunktion, die jeweils an den Werten k um f (k) springt. k≤x Die Verteilungsfunktion einer diskreten Verteilung lautet X F (x) = f (k) Statistik Simulation von stetigen Zufallsvariablen Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Einleitung Allgemeine Methoden 25 24 23 Abschnitt 24: Simulation von diskreten Zufallsvariablen Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Statistik R. Frühwirth Statistik % Z u f a l l s z a h l e n aus einer A l t e r n a t i v v e r t e i l u n g function x = s i m u l a t e _ a l t e r n a t i v e (p ,m , n ) % p ... E r f o l g s w a h r s c h e i n l i c h k e i t % x ... Matrix der Größe m mal n u = rand (m , n ); x =u < p ; In Matlab: Vergleiche gleichverteilte Zufallszahl mit der Erfolgswahrscheinlichkeit p. Alternativverteilung R. Frühwirth % Z u f a l l s z a h l e n aus einer d i s k r e t e n V e r t e i l u n g function x = s i m u l a t e _ d i s c r e t e (p ,m , n ) % p ... V e r t e i l u n g % x ... Matrix der Größe m mal n u = rand (m , n ); x = ones (m , n ); p = cumsum ( p ); for i =1: length ( p ) -1 x (u > p ( i ))= i +1; end In Matlab: Allgemeine Methoden 515/534 513/534 Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Statistik Simulation von stetigen Zufallsvariablen 25 R. Frühwirth Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Einleitung 24 23 Unterabschnitt: Binomialverteilung Statistik Simulation von stetigen Zufallsvariablen 25 R. Frühwirth Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Einleitung 24 23 Unterabschnitt: Alternativverteilung 516/534 514/534 Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Statistik ui ≤ e−λ R. Frühwirth Statistik dann ist k − 1 Poisson-verteilt gemäß Po(λ). i=1 k Y Satz Es sei u1 , u2 , . . . eine Folge von gleichverteilten Zufallszahlen und λ > 0. Ist k die kleinste Zahl, sodass Eine Möglichkeit beruht auf dem folgenden Satz. Poissonverteilung R. Frühwirth Standard: Funktion binornd % Z u f a l l s z a h l e n aus einer B i n o m i a l v e r t e i l u n g function x = s i m u l a t e _ b i n o m i a l (p ,N ,m , n ) % p ... E r f o l g s w a h r s c h e i n l i c h k e i t % N ... Anzahl der A l t e r n a t i v v e r s u c h e % x ... Matrix der Größe m mal n u = rand (m ,n , N ); x = sum (u <p ,3); In Matlab: Wiederholter Alternativversuch. Binomialverteilung 519/534 517/534 Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth R. Frühwirth Statistik Standard: Funktion poissrnd % Z u f a l l s z a h l e n aus einer P o i s s o n v e r t e i l u n g function x = s i m ul a t e _ p oi s s o n ( lam ,m , n ) % lam ... I n t e n s i t ä t % x ... Matrix der Größe m mal n z = exp ( - lam ); u = ones (m , n ); x = - ones (m , n ); k =0; while any ( x (:) <0) k = k +1; u = u .* rand ( size ( u )); x (u <= z & x <0)= k -1; end In Matlab: Poissonverteilung Statistik Simulation von stetigen Zufallsvariablen 25 R. Frühwirth Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Einleitung 24 23 Unterabschnitt: Poissonverteilung 520/534 518/534 521/534 Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung 25 24 23 R. Frühwirth Statistik Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen Einleitung 523/534 Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung Statistik R. Frühwirth Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung Statistik Abschnitt 25: Simulation von stetigen Zufallsvariablen Statistik Simulation von stetigen Zufallsvariablen 25 R. Frühwirth Simulation von diskreten Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Einleitung 24 23 R. Frühwirth Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Multinomialverteilung Statistik 25 24 23 R. Frühwirth Statistik Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen Einleitung Unterabschnitt: Allgemeine Methoden R. Frühwirth Standard: Funktion mnrnd % Z u f a l l s z a h l e n aus einer P o i s s o n v e r t e i l u n g function x = s i m u l a t e _ m u l t i n o m i a l (p ,N , n ) % p ... r K l a s s e n w a h r s c h e i n l i c h k e i t e n % N ... Anzahl der Ve r su c he % x ... Feld der Größe r mal n u = rand (n , N ); p =[0 cumsum ( p )]; for i =1: length ( p ) -1 x (i ,:)= sum ( p ( i ) < u & u <= p ( i +1) ,2); end In Matlab: Wiederholter verallgemeinerter Alternativversuch Multinomialverteilung 524/534 522/534 Statistik Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung 25 24 R. Frühwirth Statistik Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen Einleitung 527/534 Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth 23 525/534 Statistik R. Frühwirth Statistik Unterabschnitt: Exponentialverteilung R. Frühwirth Ist u eine im Intervall [0, 1] gleichverteilte Zufallszahl, so ist x = F −1 (u) verteilt mit der Verteilungsfunktion F (x). Satz F (x) ist daher umkehrbar. F (x) ist eine monotone und stetige Funktion. −∞ Die Verteilungsfunktion einer stetigen Verteilung lautet Z x F (x) = f (x) dx R. Frühwirth Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Allgemeine Methoden Statistik 526/534 R. Frühwirth Statistik Standard: Funktion exprnd % Z u f a l l s z a h l e n aus einer E x p o n e n t i a l v e r t e i l u n g function r = s i m u l a t e _ e x p o n e n t i a l ( tau ,m , n ) % tau ... M i t t e l w e r t % r ... Matrix der Größe m mal n r = - tau * log ( rand (m , n )); In Matlab: verteilt gemäß Ex(τ ). x = −τ ln u Ist u gleichverteilt im Intervall [0, 1], so ist F (x) = 1 − e−x/τ 528/534 Die Verteilungsfunktion der Exponentialverteilung Ex(τ ) ist Exponentialverteilung R. Frühwirth % Z u f a l l s z a h l e n aus einer st e ti ge n V e r t e i l u n g function r = s i m u l a t e _c o n t i n u o u s (x ,F ,m , n ) % x ... x - Werte der V e r t e i l u n g s f u n k t i o n % F ... y - Werte der V e r t e i l u n g s f u n k t i o n % r ... Matrix der Größe m mal n u = rand (m , n ); r = interp1 (F ,x , u ); In Matlab: Allgemeine Methoden Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth 529/534 i=1 ui R. Frühwirth Statistik Standard: Funktion normrnd % Z u f a l l s z a h l e n aus der S t a n d a r d n o r m a l v e r t e i l u n g % Box - Muller - V e r f a h r e n function r = s i m u l a t e _ n o r m a l _ z g w s (m , n ) % r ... Matrix der Größe m mal n r = sum ( rand (m ,n ,12) -0.5 ,3); In Matlab: in guter Näherung standardnormalverteilt. x= 12 X 531/534 Sind u1 , . . . , u12 unabhängig und gleichverteilt in [−1/2, 1/2], so ist Erzeugung mit dem zentralen Grenzwertsatz Statistik Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen Einleitung Normalverteilung 25 24 23 Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung R. Frühwirth Statistik Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Normalverteilung 0 −4 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 −3 R. Frühwirth Normalverteilung R. Frühwirth −2 Statistik −1 Statistik 0 x 1 2 3 Faltungsdichte Exakte Dichte 4 % Z u f a l l s z a h l e n aus der S t a n d a r d n o r m a l v e r t e i l u n g % Box - Muller - V e r f a h r e n function r = s i m u l a t e _ b o x m u l l e r ( n ) % r ... Matrix der Größe 2 mal n u = rand (2 , n ); z = sqrt ( -2* log ( u (1 ,:))); r (1 ,:)= z .* cos (2* pi * u (2 ,:)); r (2 ,:)= z .* sin (2* pi * u (2 ,:)); In Matlab: standardnormalverteilt und unabhängig. 532/534 530/534 Verfahren von Box und Muller Sind u1 und u2 zwei unabhängige, gleichverteilte Zufallsgrößen, so sind p x1 = −2 ln u1 cos(2πu2 ) p x2 = −2 ln u1 sin(2πu2 ) Normalverteilung f(x) Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung 25 24 23 R. Frühwirth Statistik Simulation von stetigen Zufallsvariablen Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von diskreten Zufallsvariablen Einleitung 533/534 Allgemeine Methoden Exponentialverteilung Normalverteilung Gamma-,χ2 -, t- und F-Verteilung Simulation von stetigen Zufallsvariablen Allgemeine Methoden Alternativverteilung Binomialverteilung Poissonverteilung Multinomialverteilung Simulation von diskreten Zufallsvariablen Einleitung Statistik R. Frühwirth Statistik R. Frühwirth Unterabschnitt: Gamma-,χ2 -, t- und F-Verteilung R. Frühwirth Funktion frnd Funktion trnd Funktion chi2rnd Funktion gamrnd Statistik Gamma-,χ2 -, t- und F-Verteilung 534/534