Übersicht über die Vorlesung Statistik Statistik R. Frühwirth R. Frühwirth Teil 1: Deskriptive Statistik Statistik Teil 2: Wahrscheinlichkeitsrechnung R. Frühwirth [email protected] Teil 3: Zufallsvariable und Verteilungen VO 142.090 http://tinyurl.com/TU142090 Teil 4: Schätzen von Parametern Februar 2010 R. Frühwirth Statistik 1/160 R. Frühwirth Statistik 2/160 Übersicht über die Vorlesung Statistik Statistik R. Frühwirth R. Frühwirth Teil 5: Testen von Hypothesen Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Teil 6: Regression und lineare Modelle Teil 1 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Teil 7: Einführung in die Bayes-Statistik Deskriptive Statistik Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Teil 8: Simulation von Experimenten R. Frühwirth Statistik 3/160 R. Frühwirth Statistik 4/160 Abschnitt 1: Einleitung Übersicht Teil 1 Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Statistik 3 Zweidimensionale Merkmale R. Frühwirth Statistik Statistik R. Frühwirth Einleitung Einleitung 1 Eindimensionale Merkmale 2 3 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Zweidimensionale Merkmale Zweidimensionale Merkmale R. Frühwirth Statistik Statistik 6/160 Grundbegriffe R. Frühwirth Qualitative Merkmale Quantitative Merkmale Korrelation Eindimensionale Merkmale 5/160 Unterabschnitt: Grundbegriffe Zweidimensionale Merkmale 2 Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Zweidimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Definition von Statistik 1 Die Erhebung und Speicherung von Daten, z.B. durch statistische Ämter 2 Die mathematische Auswertung von Daten, z.B. die Berechnung von Maß- und Kennzahlen Deskriptive Statistik Beschreibung von vorhandenen Daten durch Maßzahlen, Tabellen, Graphiken Qualitative Merkmale Quantitative Merkmale Korrelation 7/160 R. Frühwirth Statistik 8/160 Grundbegriffe Unterabschnitt: Merkmal- und Skalentypen Statistik R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Statistik Induktive Statistik R. Frühwirth Untersuchung von Gesetzmäßigkeiten und Ursachen, die hinter den Daten stehen und die Daten (teilweise) erklären. Explorative Datenanalyse: Ziel ist, Hypothesen für die Theoriebildung zu gewinnen Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation Statistik Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Eindimensionale Merkmale 3 Zweidimensionale Merkmale R. Frühwirth Statistik 10/160 Merkmal- und Skalentypen Statistik Einleitung 2 9/160 Merkmal- und Skalentypen R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Konfirmative Datenanalyse: Ziel ist, vorhandene Theorien zu prüfen, z.B. durch Schätzen von Parametern oder Testen von Hypothesen R. Frühwirth 1 Statistik Qualitative Merkmale R. Frühwirth Einleitung binär (ja/nein). Beispiel: EU-Bürgerschaft. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten kategorial (Klassifizierung). Beispiel: ledig/geschieden/verheiratet/verwitwet. Eindimensionale Merkmale ordinal (Rang). Beispiel: Noten 1–5. Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Quantitative Merkmale diskret (ganzzahlig). Beispiel: Zählvorgang. Zweidimensionale Merkmale kontinuierlich (reellwertig). Beispiel: Messvorgang. R. Frühwirth Statistik Qualitative Merkmale Quantitative Merkmale Korrelation 11/160 Skalentypen Nominalskala: Zahlenwerte sind nur Bezeichnung für sich ausschließende Kategorien. Ordinalskala: Ordnung der Zahlen ist wesentlich. Intervallskala: Ordnung und Differenzen zwischen den Werten sind sinnvoll interpretierbar, der Nullpunkt ist willkürlich festgelegt. Verhältnisskala: Ordnung, Differenzen und Größenverhältnisse sind sinnvoll interpretierbar, es gibt einen absoluten Nullpunkt. R. Frühwirth Statistik 12/160 Merkmal- und Skalentypen Merkmal- und Skalentypen Statistik R. Frühwirth Statistik Beispiel Einleitung 1 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Der Familienstand einer Person wird durch Zahlen kodiert (1=ledig, 2=verheiratet, 3=geschieden, 4=verwitwet). Nominalskala. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 2 Der Stand einer Mannschaft in der Meisterschaft wird durch den Rang in der Liga angegeben. Ordinalskala. 3 Die Jahreszahlen (2007, 2008, . . . ) bilden eine Intervallskala, da der Nullpunkt willkürlich festgelegt ist. 4 Die Celsius-Skala der Temperatur ist eine Intervallskala, da der Nullpunkt willkürlich festgelegt ist. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Die Kelvin-Skala der Temperatur ist eine Verhältnisskala, da der Nullpunkt physikalisch festgelegt ist. 6 Die Größe einer Person wird in cm angegeben. Es liegt eine Verhältnisskala vor, da ein natürlicher Nullpunkt existiert. Statistik Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Qualitative Merkmale Quantitative Merkmale Korrelation 13/160 R. Frühwirth Statistik R. Frühwirth Einleitung Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale R. Frühwirth Statistik Alter 34 54 46 27 38 31 48 51 Ausbildung 2 1 3 4 2 3 4 2 Statistik 14/160 Aussagen und Häufigkeiten Statistik Eindimensionale Merkmale Geschlecht 1 2 2 1 1 1 2 2 Geschlecht: 1=W, 2=M, Alter: in Jahren Ausbildung: 1=Pflichtschule, 2=Höhere Schule, 3=Bachelor, 4=Master R. Frühwirth 1 Nummer 1 2 3 4 5 6 7 8 Eindimensionale Merkmale Unterabschnitt: Aussagen und Häufigkeiten Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten In der folgenden Datenmatrix D sind Merkmale von acht Personen zusammengestellt. Zweidimensionale Merkmale 5 R. Frühwirth Beispiel Der Begriff der Aussage Eine Aussage ist eine Feststellung über Eigenschaften der Untersuchungsobjekte. Eine Aussage kann wahr oder falsch sein. Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 15/160 Beispiel Die Aussage “Vier der Personen in Matrix D sind weiblich” ist wahr. Beispiel Die Aussage “Drei der Personen in Matrix D sind über 50 Jahre alt” ist falsch. R. Frühwirth Statistik 16/160 Aussagen und Häufigkeiten Aussagen und Häufigkeiten Statistik R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Statistik Verknüpfung von Aussagen R. Frühwirth Es seien A und B zwei Aussagen. Symbol A∪B A∩B A0 A⊆B Name Disjunktion Konjunktion Negation Implikation Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Bedeutung A oder B (oder beide) A und B (sowohl A als auch B) nicht A (das Gegenteil von A) aus A folgt B (A0 ∪ B) Beispiel Es seien A, B, C drei Aussagen. Wir können mittels Verknüpfungen die folgenden Aussagen formulieren: 1 Alle drei Aussagen treffen zu: Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation A∩B∩C 2 A und C treffen zu, B nicht: A ∩0 ∩C 3 Genau zwei der Aussagen treffen zu: (A ∩ B ∩ C 0 ) ∪ (A ∩ B 0 ∩ C) ∪ (A0 ∩ B ∩ C) 4 Höchstens eine der Aussagen trifft zu: (A ∩ B 0 ∩ C 0 ) ∪ (A0 ∩ B ∩ C 0 ) ∪ (A0 ∩ B 0 ∩ C) ∪ (A0 ∩ B 0 ∩ C 0 ) R. Frühwirth Statistik R. Frühwirth 17/160 Aussagen und Häufigkeiten Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 18/160 Aussagen und Häufigkeiten Statistik R. Frühwirth Statistik Statistik Definition (Absolute Häufigkeit) R. Frühwirth Es sei A eine Aussage über eine Menge von Objekten. Die absolute Häufigkeit h(A) von A ist die Anzahl der Objekte, für die A zutrifft. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Definition (Relative Häufigkeit) Es sei A eine Aussage über eine Menge von Objekten. Die relative Häufigkeit f (A) = h(A)/n von A ist die Anzahl der Objekte, für die A zutrifft, dividiert durch die Gesamtanzahl der Objekte. Eindimensionale Merkmale Beispiel Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele A ist die Aussage “Die Person in Matrix D hat zumindest Bakkalaureat”. Dann ist h(A) = 4. Zweidimensionale Merkmale Beispiel A ist die Aussage “Die untersuchte Person ist älter als dreißig Jahre”. Dann ist f (A) = 7/8. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistik 19/160 R. Frühwirth Statistik 20/160 Aussagen und Häufigkeiten Aussagen und Häufigkeiten Statistik R. Frühwirth Statistik Spezielle Aussagen Einleitung Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten A = Ω: A trifft immer zu, h(A) = n, f (A) = 1. Rechengesetze für Häufigkeiten Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele ( h(A ∪ B) = h(A) + h(B) A ∩ B = ∅ =⇒ f (A ∪ B) = f (A) + f (B) Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistik Statistik R. Frühwirth Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Einleitung 1 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 33% der Kunden einer Bank haben einen Wohnungskredit, 24% haben einen Kredit zur Finanzierung von Konsumgütern, 11% haben beides. Wie groß ist der Anteil der Kunden, die weder Wohnungs- noch Konsumgüterkredit haben? Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Statistik 1 Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Zweidimensionale Merkmale R. Frühwirth Statistik 22/160 Unterabschnitt: Graphische Darstellung Statistik Eindimensionale Merkmale Beispiel R. Frühwirth R. Frühwirth Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten f (A ∪ B) = f (A) + f (B) − f (A ∩ B) 21/160 Abschnitt 2: Eindimensionale Merkmale Einleitung h(A ∪ B) = h(A) + h(B) − h(A ∩ B) Eindimensionale Merkmale Additionsgesetz Zweidimensionale Merkmale Siebformel Einleitung A = ∅: A trifft niemals zu, h(A) = f (A) = 0. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale R. Frühwirth 23/160 R. Frühwirth Statistik 24/160 Graphische Darstellung Graphische Darstellung Statistik Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Statistik Ein Bild sagt mehr als tausend Worte! R. Frühwirth Graphische Darstellungen von Datensätzen sind daher äußerst beliebt und nützlich. Datensatz 1 (500 normalverteilte Werte): Datensatz 1 Einleitung 45 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Qualitative Variable: Häufigkeitstabelle, Tortendiagramm, Stabdiagramm 40 35 Eindimensionale Merkmale Quantitative Variable: gruppierte Häufigkeitstabelle, Histogramm, Boxplot, empirische Verteilungsfunktion Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation 30 Häufigkeit R. Frühwirth 25 20 15 10 5 0 0 1 2 3 4 5 x 6 7 8 9 10 Histogramm R. Frühwirth Statistik 25/160 R. Frühwirth Graphische Darstellung Statistik Datensatz 2 = Datensatz 1 + Kontamination (100 Werte): Datensatz 2 Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 40 35 Eindimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Einleitung 45 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale 30 Häufigkeit Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 26/160 Graphische Darstellung Statistik R. Frühwirth Statistik Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 25 20 Datensatz 3 (50 Püfungsnoten): Note k 1 2 3 4 5 Zweidimensionale Merkmale 15 f (k) 0.10 0.16 0.44 0.10 0.20 1.00 Häufigkeitstabelle Qualitative Merkmale Quantitative Merkmale Korrelation 10 h(k) 5 8 22 5 10 50 5 0 0 5 10 15 Matlab: make dataset3 x Histogramm R. Frühwirth Statistik 27/160 R. Frühwirth Statistik 28/160 Graphische Darstellung Graphische Darstellung Statistik R. Frühwirth Statistik Datensatz 3 (50 Püfungsnoten): Datensatz 3 (50 Püfungsnoten): R. Frühwirth 25 1 Einleitung 5 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 2 Eindimensionale Merkmale 20 Häufigkeit Einleitung Eindimensionale Merkmale 4 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale 15 10 5 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation 3 Tortendiagramm 0 1 2 3 x 4 5 Stabdiagramm Matlab: make dataset3 R. Frühwirth Matlab: make dataset3 Statistik 29/160 R. Frühwirth Graphische Darstellung Statistik Der Boxplot ist die graphische Darstellung des five point summary. R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Datensatz 2 (500 Werte + Kontamination): Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Datensatz 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 1 Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 Zweidimensionale Merkmale Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 1 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 30/160 Unterabschnitt: Empirische Verteilungsfunktion Statistik R. Frühwirth Statistik Zweidimensionale Merkmale 0 5 10 Qualitative Merkmale Quantitative Merkmale Korrelation 15 x Boxplot Matlab: make dataset2 R. Frühwirth Statistik 31/160 R. Frühwirth Statistik 32/160 Empirische Verteilungsfunktion Empirische Verteilungsfunktion Statistik R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Statistik Ab Ordinalskala ist es sinnvoll, die Daten zu ordnen. R. Frühwirth Die Häufigkeitstabelle kann durch Summenhäufigkeiten ergänzt werden. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Datensatz 3 (50 Prüfungsnoten): Note k 1 2 3 4 5 h(k) 5 8 22 5 10 H(k) 5 13 35 40 50 f (k) 0.10 0.16 0.44 0.10 0.20 F (k) 0.10 0.26 0.70 0.80 1.00 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Häufigkeitstabelle mit Summenhäufigkeiten Statistik Die empirische Verteilungsfunktion Fn (x) der Datenliste ~x = (x1 , . . . , xn ) ist der Anteil der Daten, die kleiner oder gleich x sind: Fn (x) = f (~x ≤ x). Ist xi ≤ x < xi+1 , gilt Fn (x) = f (x1 ) + · · · + f (xi ). R. Frühwirth 33/160 Empirische Verteilungsfunktion R. Frühwirth Datensatz 2 (500 Werte + Kontamination): Datensatz 2 1 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Qualitative Merkmale Quantitative Merkmale Korrelation Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 0.9 0.8 0.7 Eindimensionale Merkmale F(x) 0.9 0.8 0.7 Eindimensionale Merkmale 0.6 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 0.5 0.4 0.3 0.2 Zweidimensionale Merkmale 0.1 0 1 1 Einleitung 2 3 x 4 Qualitative Merkmale Quantitative Merkmale Korrelation 5 Empirische Verteilungsfunktion 0.6 F(x) Einleitung Zweidimensionale Merkmale 34/160 Statistik Datensatz 3: (50 Prüfungsnoten): Empirische Verteilungsfunktion Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Statistik Empirische Verteilungsfunktion Statistik R. Frühwirth Definition (Empirische Verteilungsfunktion) Fn ist eine Sprungfunktion. Die Sprungstellen sind die Datenpunkte, die Sprunghöhen sind die relativen Häufigkeiten der Datenpunkte. Matlab: make dataset3 R. Frühwirth Die graphische Darstellung der Summenhäufigkeiten wird die empirische Verteilungsfunktion der Datenliste genannt. 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 x Empirische Verteilungsfunktion Matlab: make dataset3 R. Frühwirth Statistik Matlab: make dataset2 35/160 R. Frühwirth Statistik 36/160 Empirische Verteilungsfunktion Empirische Verteilungsfunktion Statistik Statistik Aus der empirischen Verteilungsfunktion können Quantile einfach abgelesen werden. Median von Datensatz 2: R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Datensatz 2 1 Es können auch Unter- und Überschreitungshäufigkeiten abgelesen werden. Welcher Anteil der Daten ist kleiner oder gleich 6? Datensatz 2 1 0.9 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 0.7 F(x) 0.6 Zweidimensionale Merkmale 0.5 Zweidimensionale Merkmale 0.4 Qualitative Merkmale Quantitative Merkmale Korrelation 0.9 Eindimensionale Merkmale 0.8 Qualitative Merkmale Quantitative Merkmale Korrelation 0.3 0.2 0.8 0.7 0.6 F(x) Eindimensionale Merkmale 0.5 0.4 0.3 0.2 0.1 0.1 0 0 5 10 0 0 15 x Statistik R. Frühwirth Statistik Statistik R. Frühwirth Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 3 38/160 Die Häufigkeitsverteilung (Histogramm) kann mit einem Kern- oder Dichteschätzer geglättet werden. Einleitung 1 Eindimensionale Merkmale Statistik Kernschätzer R. Frühwirth Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 15 Empirische Verteilungsfunktion 37/160 Unterabschnitt: Kernschätzer Einleitung 10 x Empirische Verteilungsfunktion R. Frühwirth 5 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Zweidimensionale Merkmale R. Frühwirth Statistik 39/160 Die Dichte des beobachteten Merkmals wird dabei durch eine Summe von Kernen K(·) approximiert: n 1 X fˆ(x) = K nh i=1 x − xi h h ist die Bandbreite des Kernschätzers. Der beliebteste Kern ist der Gaußkern: 2 1 x K(x) = √ exp − 2 2π R. Frühwirth Statistik 40/160 Kernschätzer Unterabschnitt: Maßzahlen Statistik R. Frühwirth Statistik Datensatz 2: R. Frühwirth Datensatz 2 0.4 Einleitung 0.3 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 0.25 Eindimensionale Merkmale 0.35 f(x) Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Relative Häufigkeit Kernschätzer Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 0.1 Qualitative Merkmale Quantitative Merkmale Korrelation Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 3 Zweidimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 0.2 0.15 Zweidimensionale Merkmale 1 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 0.05 0 0 5 10 15 x Glättung des Histogramms durch Kernschätzer Matlab: make dataset2 R. Frühwirth Statistik 41/160 R. Frühwirth Maßzahlen Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 42/160 Maßzahlen Statistik R. Frühwirth Statistik Statistik Datenlisten sind oft so umfangreich, dass ihr Inhalt in einigen wenigen Maßzahlen zusammgefasst wird oder werden muss. Welche Maßzahlen dabei sinnvoll sind, hängt vom Skalentyp ab. Manche Maßzahlen gehen von der geordneten Datenliste x(1) , . . . , x(n) aus. Ein Lagemaß gibt an, um welchen Wert die Daten konzentriert sind. Ein Streuungsmaß gibt an, wie groß die Schwankungen der Daten um ihren zentralen Wert sind. Ein Schiefemaß gibt an, wie symmetrisch die Daten um ihren zentralen Wert liegen. Statistik 43/160 Lagemaße Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Wir unterscheiden Lage-, Streuungs-, und Schiefemaße. R. Frühwirth R. Frühwirth Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Definition (Lagemaß) Es sei x = (x1 , . . . , xn ) eine Datenliste. Die Funktion `(x) heißt ein Lagemaß für x, wenn gilt: `(ax + b) = a`(x) + b min x ≤ `(x) ≤ max(x) Sinnvolle Lagemaße geben den “typischen” oder “zentralen” Wert der Datenliste an. Je nach Skala sind verschiedene Lagemaße sinnvoll. R. Frühwirth Statistik 44/160 Maßzahlen Maßzahlen Statistik R. Frühwirth Statistik Mittelwert R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten x̄ = 1 n n X Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten xi i=1 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Eindimensionale Merkmale Sinnvoll für Intervall- und Verhältnisskala. Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Der Mittelwert minimiert die folgende Funktion: Zweidimensionale Merkmale x̄ = argx min Qualitative Merkmale Quantitative Merkmale Korrelation n X (xi − x)2 Statistik n X |xi − x| i=1 R. Frühwirth Statistik 46/160 Statistik Der Median ist ein Spezialfall eines allgemeineren Begriffs, des Quantils. R. Frühwirth Einleitung α-Quantil Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Qα = x(αn) Eindimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation x̃ = argx min Maßzahlen Einleitung Zweidimensionale Merkmale Der Median minimiert die folgende Funktion: 45/160 Statistik Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Matlab: xmed=median(x) Maßzahlen Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Der Median teilt die geordnete Liste in zwei gleich große Teile. Qualitative Merkmale Quantitative Merkmale Korrelation Matlab: xbar=mean(x) R. Frühwirth x̃ = x(n/2) Zweidimensionale Merkmale i=1 R. Frühwirth Median Einleitung Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Das α-Quantil teilt die geordnete Liste im Verhältnis α : 1 − α. Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Zweidimensionale Merkmale Matlab: qa=quantile(x,alpha) Q0 ist der kleinste Wert, Q1 ist der größte Wert der Datenliste. Q0.5 ist der Median. Die fünf Quartile Q0 , Q0.25 , Q0.5 , Q0.75 , Q1 bilden das five point summary der Datenliste. Qualitative Merkmale Quantitative Merkmale Korrelation LMS (Least Median of Squares) Der LMS-Wert ist der Mittelpunkt des kürzesten Intervalls, das h = bn/2c + 1 Datenpunkte enthält. Der LMS-Wert ist extrem unempfindlich gegen fehlerhafte oder untypische Daten. Der LMS-Wert minimiert die folgende Funktion: x̃ = argx min medni=1 (xi − x)2 Ein verwandtes Lagemaß ist der “shorth”, der Mittelwert aller Daten im kürzesten Intervall, das h Datenpunkte enthält. Matlab: xlms=lms(x) Matlab: xshorth=shorth(x) R. Frühwirth Statistik Matlab: fps=quantile(x,[0 0.25 0.5 0.75 1]) 47/160 R. Frühwirth Statistik 48/160 Maßzahlen Maßzahlen Statistik R. Frühwirth Einleitung Statistik Modus Der Modus ist der häufigste Wert einer Datenliste Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Zweidimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Matlab: xmode=mode(x) HSM (Half-sample mode) 1 Qualitative Merkmale Quantitative Merkmale Korrelation 2 3 Bestimme das kürzeste Intervall, das h = bn/2c + 1 Datenpunkte enthält. Wiederhole den Vorgang auf den Daten in diesem Intervall, bis zwei Datenpunkte übrig sind. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Sinnvolle Streuungsmaße messen die Abweichung der Daten von ihrem zentralen Wert. Streuungsmaße sind invariant unter Verschiebung der Daten. R. Frühwirth Statistik 50/160 Maßzahlen Statistik Standardabweichung R. Frühwirth Einleitung v u n u1 X s=t (xi − x̄)2 n i=1 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele σ(ax + b) = |a| σ(x) 49/160 Statistik Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Es sei x = (x1 , . . . , xn ) eine Datenliste. Die Funktion σ(x) heißt ein Streuungsmaß für x, wenn gilt: σ(x) ≥ 0 Je nach Skala sind verschiedene Streuungsmaße sinnvoll. Maßzahlen Einleitung Definition (Streuungsmaß) Der HSM-Wert ist das Mittel der beiden letzten Daten. R. Frühwirth Statistik Matlab: xhsm=hsm(x) R. Frühwirth Streuungsmaße Einleitung Sinnvoll vor allem für qualitative Merkmale. Für quantitative Merkmale kann der Modus aus dem Kernschätzer der Dichte bestimmt werden. Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele R. Frühwirth Eindimensionale Merkmale Sinnvoll für Intervall- und Verhältnisskala. Die Standardabweichung hat die gleiche Dimension wie die Daten. Das Quadrat der Standardabweichung heißt Varianz. Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Interquartilsdistanz IQR = Q0.75 − Q0.25 Die Interquartilsdistanz ist die Länge des Intervalls, das die zentralen 50% der Daten enthält. Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Matlab: xiqr=iqr(x) Matlab: xstd=std(x,1) Matlab: xvar=var(x,1) R. Frühwirth Statistik 51/160 R. Frühwirth Statistik 52/160 Maßzahlen Maßzahlen Statistik R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Statistik LoS (Length of the Shorth) R. Frühwirth Einleitung LoS ist die Länge des kürzesten Intervalls, das h = bn/2c + 1 Datenpunkte enthält. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Matlab: xlos=LoS(x) R. Frühwirth Statistik Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale s(ax + b) = sgn(a) s(x) s(x) = 0, wenn ∃b : x − b = b − x Sinnvolle Schiefemaße messen die Asymmetrie der Daten. Schiefemaße sind invariant unter Verschiebung der Daten. Je nach Skala sind verschiedene Schiefemaße sinnvoll. R. Frühwirth Statistik 54/160 Statistik Schiefe R. Frühwirth Einleitung Eindimensionale Merkmale Es sei x = (x1 , . . . , xn ) eine Datenliste. Die Funktion s(x) heißt ein Schiefemaß für x, wenn gilt: Maßzahlen Statistik Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Definition (Schiefemaß) 53/160 Maßzahlen R. Frühwirth Schiefemaße γ= 1 n Pn i=1 (xi s3 3 Einleitung − x̄) Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Schiefekoeffizient R−L R+L mit R = Q0.75 − Q0.5 , L = Q0.5 − Q0.25 . SK = Eindimensionale Merkmale Die Schiefe γ ist gleich 0 für symmetrische Daten. Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Ist γ < 0, heißen die Daten linksschief. Ist γ > 0, heißen die Daten rechtsschief. Sinnvoll für Intervall- und Verhältnisskala. Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation SK liegt zwischen −1 (R = 0) und +1 (L = 0). Der Schiefekoeffizient ist gleich 0 für symmetrische Daten. Ist SK < 0, heißen die Daten linksschief. Ist SK > 0, heißen die Daten rechtsschief. Sinnvoll für Ordinal-, Intervall- und Verhältnisskala. Matlab: xgamma=skewness(x,1) Matlab: xsk=SK(x) R. Frühwirth Statistik 55/160 R. Frühwirth Statistik 56/160 Unterabschnitt: Beispiele Beispiele Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung 2 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Einleitung 1 Eindimensionale Merkmale 3 Datensatz 1: Symmetrisch, 500 Werte Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Zweidimensionale Merkmale R. Frühwirth Statistik Lagemaße: Mittelwert: Median: LMS: Shorth: HSM: 4.9532 4.9518 4.8080 4.8002 5.0830 0.0375 0.0258 Streuungsmaße: Standardabweichung: Interquartilsdistanz: Length of the Shorth: 57/160 R. Frühwirth Beispiele Schiefemaße: Schiefe: Schiefekoeffizient: 1.0255 1.4168 1.3520 Statistik 58/160 Beispiele Statistik Statistik R. Frühwirth R. Frühwirth Datensatz 1 Datensatz 2: Datensatz 1 + Kontamination (100 Werte) 45 Mean Median LMS Shorth HSM Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 40 35 Eindimensionale Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale 30 Häufigkeit Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 25 20 15 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Zweidimensionale Merkmale 10 Qualitative Merkmale Quantitative Merkmale Korrelation 5 0 0 1 2 3 4 5 x 6 7 8 9 10 Lagemaße: Mittelwert: Median: LMS: Shorth: HSM: Schiefemaße: Schiefe: Schiefekoeffizient: 5.4343 5.0777 5.1100 5.0740 4.9985 1.7696 0.1046 Streuungsmaße: Standardabweichung: Interquartilsdistanz: Length of the Shorth: 1.8959 1.6152 1.5918 Datensatz 1: Mittelwert, Median, LMS, Shorth, HSM R. Frühwirth Statistik 59/160 R. Frühwirth Statistik 60/160 Beispiele Beispiele Statistik Statistik R. Frühwirth R. Frühwirth Datensatz 2 Datensatz 3: 50 Prüfungsnoten 45 Mean Median LMS Shorth HSM Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 40 Eindimensionale Merkmale 30 35 Häufigkeit Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Lagemaße: Mittelwert: Median: Modus: Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 25 20 Standardabweichung: Interquartilsdistanz: Zweidimensionale Merkmale 10 Qualitative Merkmale Quantitative Merkmale Korrelation 5.4343 5.0777 5.1100 1.7696 0.1046 Streuungsmaße: 15 Zweidimensionale Merkmale Schiefemaße: Schiefe: Schiefekoeffizient: 1.8959 1.6152 Qualitative Merkmale Quantitative Merkmale Korrelation 5 0 0 5 10 15 x Datensatz 2: Mittelwert, Median, LMS, Shorth, HSM R. Frühwirth Statistik 61/160 R. Frühwirth Beispiele Statistik 25 R. Frühwirth Mean Median Mode Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 20 Häufigkeit Eindimensionale Merkmale Eindimensionale Merkmale 15 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 10 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 62/160 Abschnitt 3: Zweidimensionale Merkmale Statistik R. Frühwirth Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Statistik Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 5 0 1 2 3 x 4 1 Einleitung 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 5 Datensatz 3: Mittelwert, Median, Modus R. Frühwirth Statistik 63/160 R. Frühwirth Statistik 64/160 Zweidimensionale Merkmale Unterabschnitt: Qualitative Merkmale Statistik R. Frühwirth Statistik Oft werden zwei oder mehr Merkmale eines Objekts gleichzeitig beobachtet. R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Einleitung Beispiele: Körpergröße und Gewicht einer Person Alter und Einkommen einer Person Schulbildung und Geschlecht einer Person Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Der Zusammenhang zwischen den beiden Merkmalen gibt zusätzliche Information. Zweidimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistik 65/160 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Zweidimensionale Merkmale Eindimensionale Merkmale 3 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Statistik 66/160 Statistik Wir betrachten zunächst zwei binäre Merkmale A und B. R. Frühwirth Die Häufigkeit des Eintretens von A und B kann in einer Vierfeldertafel oder Kontingenztafel zusammengefasst werden. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Beispiel: Eindimensionale Merkmale A=“Die Person ist weiblich“ B=“Die Person ist Raucher/in“ Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Vierfeldertafel für 1000 Personen: Qualitative Merkmale Quantitative Merkmale Korrelation A A0 R. Frühwirth B 228 136 364 Statistik B0 372 264 636 Allgemeiner Aufbau einer Vierfeldertafel: Einleitung Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 2 Qualitative Merkmale Statistik Einleitung Einleitung R. Frühwirth Qualitative Merkmale R. Frühwirth 1 Zweidimensionale Merkmale A A0 B B0 h(A ∩ B) h(A ∩ B 0 ) h(A) h(A0 ∩ B) h(A0 ∩ B 0 ) h(A0 ) h(B) h(B 0 ) n Zeilen- und Spaltensummen sind die Häufigkeiten der Ausprägungen A, A0 und B, B 0 . Qualitative Merkmale Quantitative Merkmale Korrelation 600 400 1000 67/160 R. Frühwirth Statistik 68/160 Qualitative Merkmale Qualitative Merkmale Statistik R. Frühwirth Statistik Die Vierfeldertafel kann mittels Division durch n auf relative Häufigkeiten umgerechnet werden: Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Einleitung A A0 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten B B0 f (A ∩ B) f (A ∩ B 0 ) f (A) f (A0 ∩ B) f (A0 ∩ B 0 ) f (A0 ) f (B) f (B 0 ) 1 Statistik Ist ρ(A, B) < 0, heißen A und B negativ gekoppelt. R. Frühwirth Statistik 70/160 Statistik Das Vorzeichen von ρ(A, B) gibt die Richtung der Koppelung an. R. Frühwirth Einleitung Der Betrag von ρ(A, B) gibt die Stärke der Koppelung an. Speziell gilt: Eindimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Ist ρ(A, B) > 0, heißen A und B positiv gekoppelt. Qualitative Merkmale Quantitative Merkmale Korrelation Unterabschnitt: Quantitative Merkmale Einleitung Zweidimensionale Merkmale Es gilt stets: −1 ≤ ρ(A, B) ≤ 1 Zweidimensionale Merkmale 69/160 Statistik Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele f (A ∩ B) − f (A)f (B) ρ(A, B) = p f (A)f (A0 )f (B)f (B 0 ) Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Qualitative Merkmale Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Vierfelderkorrelation Eindimensionale Merkmale Zeilen- und Spaltensummen sind die relativen Häufigkeiten der Ausprägungen A, A0 und B, B 0 . R. Frühwirth R. Frühwirth Der Zusammenhang der beiden Merkmale kann durch die Vierfelderkorrelation gemessen werden: R. Frühwirth Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele A = B =⇒ ρ(A, B) = 1 A = B 0 =⇒ ρ(A, B) = −1 Eine bestehende Koppelung ist kein Beweis für einen kausalen Zusammenhang! Zweidimensionale Merkmale Die Koppelung kann auch durch eine gemeinsame Ursache für beide Merkmale entstehen. R. Frühwirth Statistik 71/160 Qualitative Merkmale Quantitative Merkmale Korrelation 1 Einleitung 2 Eindimensionale Merkmale 3 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Statistik 72/160 Quantitative Merkmale Quantitative Merkmale Statistik Statistik Bevorzugte Darstellung von zweidimensionalen Merkmalen: Streudiagramm (Scatter Plot) Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele R. Frühwirth Datensatz 4: Körpergröße und Gewicht von 100 Personen Datensatz 4 90 Einleitung Jeder Punkt entspricht einem Objekt. Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Die beobachteten Merkmale bestimmen die Position des Punktes in der x-y-Ebene. 85 80 Eindimensionale Merkmale Höherdimensionale Merkmale können durch Histogramme und Streudiagramme dargestellt werden. Dabei geht natürlich ein Teil der Information verloren. Gewicht (kg) R. Frühwirth Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale 75 70 65 Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation 60 Qualitative Merkmale Quantitative Merkmale Korrelation 55 140 150 160 170 Körpergröße (cm) 180 190 Streudiagramm Matlab: make dataset4 R. Frühwirth Statistik 73/160 R. Frühwirth Quantitative Merkmale Statistik R. Frühwirth Zweidimensionale Merkmale x3 60 0 140 150 160 170 180 190 x1 50 140 150 160 170 180 190 x1 20 140 150 160 170 180 190 x1 20 80 40 180 170 160 60 10 60 70 0 50 80 30 60 x2 Qualitative Merkmale Quantitative Merkmale Korrelation 50 40 5 150 140 50 70 15 x3 190 Zweidimensionale Merkmale 70 20 50 80 x2 190 60 70 80 x2 80 15 180 x1 Qualitative Merkmale Quantitative Merkmale Korrelation 50 5 70 170 160 60 Häufigkeit Matlab: make dataset5 60 30 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele 70 80 x2 Häufigkeit Körpergröße (in cm) Gewicht (in kg) Alter (in Jahren) 10 Häufigkeit Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Merkmal x1 : Merkmal x2 : Merkmal x3 : Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 80 70 x1 Eindimensionale Merkmale Einleitung 15 x2 Datensatz 5: Körpergröße, Gewicht und Alter von 100 Personen Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 74/160 Quantitative Merkmale Statistik R. Frühwirth Statistik 10 5 150 140 20 30 40 50 60 70 80 x3 R. Frühwirth Statistik 75/160 R. Frühwirth 50 20 30 40 50 60 70 80 x3 Statistik 0 20 30 40 50 60 70 80 x3 76/160 Unterabschnitt: Korrelation Korrelation Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 1 Einleitung 2 Eindimensionale Merkmale 3 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation R. Frühwirth Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Statistik Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation (x̄, ȳ) ist der Mittelpunkt der Punktwolke. 2 Die Projektion der Punktwolke auf die x-Achse ergibt das Punktediagramm der Datenliste x1 , . . . , xn . 3 Die Projektion der Punktwolke auf die y-Achse ergibt das Punktediagramm der Datenliste y1 , . . . , yn . Aus dem Streudiagramm von Datensatz 4 ist ersichtlich, dass tendenziell größere Körpergröße mit größerem Gewicht einhergeht. Zwischen den beiden Merkmalen x und y besteht offensichtlich ein Zusammenhang, der auch intuitiv völlig klar ist. R. Frühwirth Statistik 78/160 Korrelation Statistik Einleitung 1 77/160 Korrelation R. Frühwirth Eigenschaften des Streudiagramms Statistik Wir brauchen eine Maßzahl für diesen Zusammenhang. R. Frühwirth Eine nützliche Maßzahl ist der empirische Korrelationskoeffizient. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Sei (x1 , y1 ), . . . , (xn , yn ) eine bivariate Stichprobe. Wir berechnen die Standardscores: zx,i = xi − x̄ , sx zy,i = Eindimensionale Merkmale yi − ȳ sy Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Wir erinnern uns, dass n 1X s2x = (xi − x̄)2 n i=1 Definition (Empirischer Korrelationskoeffizient) Der empirische Korrelationskoeffizient rxy ist definiert als n rxy 1X 1 = zx,i zy,i = (zx,1 zy,1 + · · · + zx,n zy,n ) n i=1 n Es gilt immer: Zweidimensionale Merkmale n 1X und s2y = (yi − ȳ)2 n i=1 −1 ≤ rxy ≤ 1 Qualitative Merkmale Quantitative Merkmale Korrelation Der empirische Korrelationskoeffizient ist der Mittelwert der Produkte der Standardscores. R. Frühwirth Statistik 79/160 R. Frühwirth Statistik 80/160 Korrelation Korrelation Statistik Statistik rxy ist positiv, wenn viele Produkte positiv sind, d.h. viele Paare von Standscores das gleiche Vorzeichen haben. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Streudiagramm der Standardscores von Datensatz 4: R. Frühwirth Einleitung Das ist der Fall, wenn die Paare der Standardscores vorwiegend im 1. oder 3. Quadranten liegen. Datensatz 4 4 Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten x und y heißen dann positiv korreliert. rxy ist negativ, wenn viele Produkte negativ sind, d.h. viele Paare von Standscores verschiedenes Vorzeichen haben. Das ist der Fall, wenn die Paare der Standardscores vorwiegend im 2. oder 4. Quadranten liegen. 3 Standardscore des Gewichts R. Frühwirth Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale x und y heißen dann negativ korreliert. Qualitative Merkmale Quantitative Merkmale Korrelation 2 1 0 −1 −2 −3 Qualitative Merkmale Quantitative Merkmale Korrelation −4 −4 −2 0 2 Standardscore der Körpergröße 4 Offensichtlich sind x und y positiv korreliert, da die meisten Punkte im 1. und 3. Quadranten liegen. rxy = 0.5562 R. Frühwirth Statistik 81/160 R. Frühwirth Korrelation Statistik Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Zwischen der Kinderzahl und der Anzahl der Störche in Österreich in den letzten 30 Jahren besteht eine positive Korrelation. Warum? 4 Qualitative Merkmale Quantitative Merkmale Korrelation Zwischen dem Butterpreis und dem Brotpreis der letzten 20 Jahre besteht eine positive Korrelation. Warum? 0 zx 2 0 4 rxy=0.3 −2 0 zx 2 −4 −4 4 4 rxy=0.6 2 0 −2 0 zx 2 4 −2 0 zx 2 4 0 zx 2 4 rxy=0.9 2 0 −2 −2 0 −2 −4 −4 4 2 −4 −4 zy y −2 rxy=0 2 −2 −4 −4 Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Beispiel 0 −2 Eindimensionale Merkmale Beispiel 2 z zy Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 4 rxy=−0.4 y Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Die positive Korrelation kann auch durch eine gemeinsame Ursache oder einen parallel laufenden Trend verursacht sein. 4 rxy=−0.8 2 zy Eindimensionale Merkmale 4 Einleitung z R. Frühwirth zy Eine positive Korrelation muss nicht unbedingt einen kausalen Zusammenhang bedeuten. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten 82/160 Korrelation Statistik R. Frühwirth Statistik 0 −2 −4 −4 −2 0 zx 2 4 −4 −4 −2 Standardscores mit verschiedenen Korrelationskoeffizienten R. Frühwirth Statistik 83/160 R. Frühwirth Statistik 84/160 Korrelation Korrelation Statistik Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Die Korrelation gibt also das Ausmaß der linearen Koppelung an. Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Qualitative Merkmale Quantitative Merkmale Korrelation Statistik 4 rxy=−0.00168 2 rxy=0.00987 2 0 0 Eindimensionale Merkmale Besteht zwischen x und y ein starker, aber nichtlinearer Zusammenhang, kann die Korrelation trotzdem sehr klein sein. R. Frühwirth 4 Einleitung zy Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Die Korrelation gibt die Bindung der Punktwolke an eine steigende oder fallende Gerade, die Hauptachse an. R. Frühwirth y Einleitung Statistik Der Korrelationskoeffizient misst die Korrelation der Daten. z R. Frühwirth 85/160 −2 −2 −4 −4 −2 0 zx 2 4 −4 −4 −2 0 zx 2 4 Nichtlinearer Zusammenhang zwischen x und y R. Frühwirth Statistik 86/160 Korrelation Statistik R. Frühwirth Statistik Der Korrelationskoeffizient kann auch direkt aus der Stichprobe berechnet werden: R. Frühwirth Einleitung Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten rxy = sxy sx sy Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Teil 2 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Definition (Kovarianz der Daten) Wahrscheinlichkeitsrechnung Bedingte Wahrscheinlichkeit Die Größe n sxy = Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 1X (xi − x̄)(yi − ȳ) n i=1 heißt die Kovarianz der Daten. R. Frühwirth Statistik 87/160 R. Frühwirth Statistik 88/160 Abschnitt 4: Einleitung Übersicht Teil 2 Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Einleitung 4 Einleitung 5 Ereignisse 6 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 7 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Statistik Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit R. Frühwirth Statistik 90/160 Statistik Der konkrete Ausgang eines Experiments kann im Allgemeinen nicht genau vorausgesagt werden. R. Frühwirth Einleitung Wahrscheinlichkeit Ereignisse Einleitung Statistik Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 5 89/160 Einleitung Ereignisse Einleitung Bedingte Wahrscheinlichkeit R. Frühwirth R. Frühwirth 4 Einleitung Die möglichen Ausgänge sind jedoch bekannt. Ereignisse Ziel der Wahrscheinlichkeitsrechnung ist es, den Ausgängen Wahrscheinlichkeiten zuzuweisen. Zwei Interpretationen der Wahrscheinlichkeit möglich. Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 91/160 Häufigkeitsinterpretation Die Wahrscheinlichkeit eines Ausgangs ist die Häufigkeit des Ausgangs, wenn das Experiment sehr oft unter den gleichen Bedingungen wiederholt wird. Die darauf basierende Statistik wird frequentistisch“ ” genannt. Beispiel Die Wahrscheinlichkeit des Ausgangs 1“ beim Würfeln ist der ” Grenzwert der Häufigkeit für eine große Zahl von Würfen. R. Frühwirth Statistik 92/160 Einleitung Einleitung Statistik R. Frühwirth Statistik Subjektive Interpretation Einleitung Die Wahrscheinlichkeit eines Ausgangs ist eine Aussage über den Glauben der Person, die die Wahrscheinlichkeit angibt. Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Die darauf basierende Statistik wird bayesianisch“ genannt. ” Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Einleitung Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Die Wahrscheinlichkeit, dass es morgen regnet, ist 40 Prozent“ ist ein ” Aussage über den Glauben der Person, die diese Aussage tätigt. Der frequentistische Ansatz ist meist einfacher, aber beschränkter. Statistik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth 93/160 Statistik Statistik R. Frühwirth 4 Ereignisse 5 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Statistik 94/160 Unterabschnitt: Der Ereignisraum R. Frühwirth Einleitung Einleitung 4 Einleitung 5 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Der bayesianische Ansatz ist umfassender und flexibler. Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Beispiel Abschnitt 5: Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente In vielen Fällen sind die Resultate identisch, nur die Interpretation ist verschieden. Ereignisse Wahrscheinlichkeit R. Frühwirth Einleitung In der Praxis ist der Übergang zwischen den beiden Ansätzen oft fließend. R. Frühwirth Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit R. Frühwirth Statistik 95/160 R. Frühwirth Statistik 96/160 Der Ereignisraum Der Ereignisraum Statistik Statistik Grundlegend für die Statistik ist der Begriff des (zufälligen) Ereignisses. R. Frühwirth Einleitung R. Frühwirth Einleitung Für den Physiker der Ausgang eines Experiments, dessen Ergebnis nicht genau vorausgesagt werden kann. Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Mehrere Gründe: Die beobachteten Objekte sind eine zufällige Auswahl aus einer größeren Grundgesamtheit. Der beobachtete Prozess ist prinzipiell indeterministisch (Quantenmechanik). Messfehler geben dem Ergebnis einen stochastischen Charakter. Mangelnde Kenntnis des Anfangszustandes. Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik 5 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Einleitung Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit R. Frühwirth Statistik 98/160 Definition (Ereignis) Ein Ereignis E ist eine Teilmenge des Ereignisraums Ω. Ein Ereignis E tritt ein, wenn E den Ausgang ω ∈ Ω des Experiments enthält. Beispiel Der Wurf mit einem Würfel hat den Ereignisraum Ω = {1, 2, 3, 4, 5, 6}. Das Ereignis G (gerade Zahl) ist die Teilmenge Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 6 Statistik Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wird eine radioaktive Quelle beobachtet, ist die Anzahl der Zerfälle pro Sekunde im Prinzip unbeschränkt. Der Ereignisraum ist abzählbar unendlich. Die Ereignisalgebra R. Frühwirth Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Beim Roulette gibt es 37 mögliche Ausgänge. Der Ereignisraum ist endlich. R. Frühwirth Statistik 4 Beispiel 97/160 R. Frühwirth Ereignisse Der Ereignisraum Ω kann endlich, abzählbar unendlich oder überabzählbar unendlich sein. Die Wartezeit zwischen zwei Zerfällen kann jeden beliebigen Wert annehmen. Der Ereignisraum ist überabzählbar unendlich. Unterabschnitt: Die Ereignisalgebra Einleitung Die Menge Ω aller möglichen Ausgänge heißt Ereignisraum oder Stichprobenraum. G = {2, 4, 6} G tritt ein, wenn eine gerade Zahl geworfen wird. 99/160 R. Frühwirth Statistik 100/160 Die Ereignisalgebra Die Ereignisalgebra Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Definition (Ereignisalgebra) R. Frühwirth Einleitung Die Menge aller Ereignisse des Ereignisraums Ω heißt die Ereignisalgebra Σ(Ω). Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Im endlichen oder abzählbar unendlichen Fall kann jede Teilmenge als Ereignis betrachtet werden. Die Ereignisalgebra heißt diskret. Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Zwei Ereignisse A ∈ Σ und B ∈ Σ können logisch verknüpft werden. Statistik Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Name Disjunktion Bedeutung A oder B (oder beide) Konjunktion Symbol A∩B Symbol A0 Name Konjunktion Name Negation Bedeutung A und B (sowohl A als auch B) Bedeutung nicht A (das Gegenteil von A) R. Frühwirth 101/160 Statistik 102/160 Die Ereignisalgebra Statistik Einleitung Symbol A∪B Negation Die Ereignisalgebra R. Frühwirth Disjunktion Wahrscheinlichkeit Im überabzählbar unendlichen Fall müssen gewisse pathologische (nicht messbare) Teilmengen ausgeschlossen werden. Die Ereignisalgebra heißt kontinuierlich oder stetig. R. Frühwirth Verknüpfung von Ereignissen Statistik Implikation Symbol A⊆B R. Frühwirth Name Implikation Einleitung Bedeutung aus A folgt B (A0 ∪ B) Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Mit diesen Verknüpfungen ist Σ ist eine Boole’sche Algebra: distributiver komplementärer Verbands mit Nullund Einselement. Das Nullelement 0 = ∅ ist das unmögliche Ereignis. Ein Ereignis, das nur aus einem möglichen Ausgang besteht, heißt ein Elementarereignis. Σ ist abgeschlossen: Assoziativgesetze : Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Verschmelzungsgesetze: Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Das Einselement 1 = Ω ist das sichere Ereignis. Rechengesetze für Ereignisse Distributivgesetze: Regeln von de Morgan: Verneinung: R. Frühwirth Statistik 103/160 R. Frühwirth A, B ∈ Σ =⇒ A ∩ B ∈ Σ A, B ∈ Σ =⇒ A ∪ B ∈ Σ (A ∩ B) ∩ C = A ∩ (B ∩ C) (A ∪ B) ∪ C = A ∪ (B ∪ C) A ∩ (A ∪ B) = A A ∪ (A ∩ B) = A A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) (A ∩ B)0 = A0 ∪ B 0 (A ∪ B)0 = A0 ∩ B 0 A ∩ A0 = 0, A ∪ A0 = 1 = Ω Statistik 104/160 Die Ereignisalgebra Unterabschnitt: Wiederholte Experimente Statistik R. Frühwirth Einleitung Statistik Ist Ω (abzählbar oder überabzählbar) unendlich, verlangt man, dass auch abzählbar viele Vereinigungen und Durchschnitte gebildet werden können. R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Der Ereignisraum ist dann eine sogenannte σ-Algebra. Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ist überabzählbaren Fall ist die Ereignisalgebra Σ ist die kleinste σ-Algebra, die alle Teilintervalle von Ω enthält. Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 105/160 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 7 Bedingte Wahrscheinlichkeit Statistik 106/160 Statistik Der Wurf mit einem Würfel hat den Ereignisraum R. Frühwirth Ω = {1, 2, 3, 4, 5, 6} Einleitung Bedingte Wahrscheinlichkeit Wahrscheinlichkeit Wiederholte Experimente Statistik Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 6 R. Frühwirth Wiederholte Experimente Wahrscheinlichkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 5 Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Ereignisse Einleitung Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen R. Frühwirth 4 Ereignisse Analog ist beim n-maligen Würfeln der Ereignisraum das n-fache kartesische Produkt Ω × Ω × . . . × Ω. Einleitung Ereignisse Die Ereignisalgebra Σ(Ω) hat folglich sechs Elementarereignisse: Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente e1 = {1}, e2 = {2}, e3 = {3}, e4 {4}, e5 = {5}, e6 = {6} Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 6 und insgesamt 2 = 64 Ereignisse (Teilmengen von Ω). Der Ereignisraum des zweimaligen Würfelns ist das kartesische Produkt Ω × Ω: Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ω × Ω = {(i, j)|i, j = 1, . . . , 6} Beispiel (Ereignisalgebra des Doppelwurfs) Beispiele für Elemente der Ereignisalgebra des Doppelwurfs sind: 6 beim ersten Wurf: 6 beim zweiten Wurf: Beide Würfe gleich: Summe der Würfe gleich 7: {(6, 1), (6, 2), . . . , (6, 6)} {(1, 6), (2, 6), . . . , (6, 6)} {(1, 1), (2, 2), . . . , (6, 6)} {(1, 6), (2, 5), . . . , (6, 1)} Das geordnete Paar (i, j) bedeutet: i beim ersten Wurf, j beim zweiten Wurf. Die Ereignisalgebra Σ(Ω × Ω) hat folglich 36 Elementarereignisse eij : e11 = {(1, 1)}, . . . , e36 = {(6, 6)} R. Frühwirth Statistik 107/160 R. Frühwirth Statistik 108/160 Wiederholte Experimente Abschnitt 6: Wahrscheinlichkeit Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Beispiel (Wiederholter Alternativversuch) R. Frühwirth Ein Experiment, das nur zwei mögliche Ergebnisse hat, heißt ein Alternativversuch. Es gibt zwei Ausgänge, 0 und 1. Wird ein Alternativversuch n-mal durchgeführt, ergibt sich eine Ereignisraum mit 2n Ausgängen, nämlich den Folgen der Form (i1 , . . . , in ) mit ij = 0 oder 1. In der Regel interessiert aber nur die Häufigkeit des Eintretens von 1 (oder 0). Dann gibt es nur mehr n + 1 Ausgänge: 1 tritt 0, 1, 2, . . . oder n-mal ein. Bezeichnet das Ereignis E1 das einmalige Eintreten von 1, so ist E1 die ∪-Verbindung mehrerer Elementarereignisse der ursprünglichen Ereignisalgebra: Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 7 Bedingte Wahrscheinlichkeit Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit E1 = {(e1 , e0 , . . . , e0 ), (e0 , e1 , e0 , . . . , e0 ), . . . , (e0 , . . . , e0 , e1 )} Ein Beispiel ist das n-malige Werfen einer Münze. R. Frühwirth Statistik 109/160 R. Frühwirth Unterabschnitt: Wahrscheinlichkeitsmaße Statistik Statistik R. Frühwirth Einleitung Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Einleitung 4 5 Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Wahrscheinlichkeit 6 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 7 Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Statistik Definition (Wahrscheinlichkeitsmaß) Es sei Σ eine Ereignisalgebra, A und B Ereignisse in Σ, und W eine Abbildung von Σ in R. W heißt ein Wahrscheinlichkeitsmaß, wenn gilt: 1. Positivität: 2. Additivität: Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit R. Frühwirth 110/160 Wahrscheinlichkeitsmaße R. Frühwirth Ereignisse Statistik 111/160 3. Normierung: R. Frühwirth W (A) ≥ 0 ∀A ∈ Σ A ∩ B = 0 =⇒ W (A ∪ B) = W (A) + W (B) W (1) = 1 Statistik 112/160 Wahrscheinlichkeitsmaße Wahrscheinlichkeitsmaße Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Definition (Wahrscheinlichkeitsraum) R. Frühwirth Einleitung Ist Σ eine σ-Algebra, was für unendliche Ereignisräume vorausgesetzt werden muss, verlangt man für abzählbares J: 4. σ-Additivität: i∈J Statistik Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Σ heißt dann normiert, und (Σ, W ) ein Wahrscheinlichkeitsraum. W wird auch als Wahrscheinlichkeitsverteilung bezeichnet. R. Frühwirth Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 2 W (0) = 0 3 A ⊆ B =⇒ W (A) ≤ W (B), ∀A, B ∈ Σ 4 W (A) ≤ 1, ∀A ∈ Σ 5 W (A ∪ B) = W (A) + W (B) − W (A ∩ B), ∀A, B ∈ Σ 6 Hat Σ höchstens abzählbar viele Elementarereignisse P {ei | i ∈ I}, so ist i∈I W (ei ) = 1. Statistik 114/160 Statistik In einer diskreten Ereignisalgebra ist die Wahrscheinlichkeit eines Ereignisses gleich der Summe der Wahrscheinlichkeiten der Elementarereignisse, deren ∪-Verbindung es ist. Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente W (A0 ) = 1 − W (A), ∀A ∈ Σ Wahrscheinlichkeitsmaße Statistik Einleitung 1 R. Frühwirth 113/160 Wahrscheinlichkeitsmaße R. Frühwirth Ist (Σ, W ) ein Wahrscheinlichkeitsraum, so gilt: Ereignisse Ai ∈ Σ, i ∈ J; Ai ∩ Aj = 0, i 6= j =⇒ [ X W ( Ai ) = W (Ai ) i∈J Rechengesetze für Wahrscheinlichkeit R. Frühwirth Einleitung Ereignisse Daher ist ein Wahrscheinlichkeitsmaß durch die Werte, die es den Elementarereignissen zuordnet, eindeutig bestimmt. Andererseits kann jede positive Funktion, die auf der Menge der Elementarereignisse definiert ist und Punkt 6 erfüllt, eindeutig zu einem Wahrscheinlichkeitsmaß fortgesetzt werden. Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Man kann also auf einer diskreten Ereignisalgebra Σ unendlich viele Verteilungen definieren. In einer kontinuierlichen Ereignisalgebra ist die Wahrscheinlichkeit jedes Elementarereignisses gleich 0. Die Wahrscheinlichkeit eines Ereignisses kann daher nicht mehr durch Summation ermittlet werden. Statt dessen wird eine Dichtefunktion f (x) angegeben, die jedem Elementarereignis x einen nichtnegativen Wert f (x) zuordnet. Die Dichtefunktion muss normiert sein: Z f (x) dx = 1 R Die Wahrscheinlichkeit eines Ereignisses A wird durch Integration über die Dichte ermittelt: Z W (A) = f (x) dx A Die Dichte muss so beschaffen sein, dass das Integral für alle zugelassenen Ereignisse existiert. R. Frühwirth Statistik 115/160 R. Frühwirth Statistik 116/160 Unterabschnitt: Gesetz der großen Zahlen Gesetz der großen Zahlen Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Einleitung 4 5 Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Wahrscheinlichkeit 6 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 7 Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Bedingte Wahrscheinlichkeit Betrachten einfaches Zufallsexperiment: Münzwurf Zwei mögliche Ergebnisse: Kopf (K), Zahl (Z) Annahme: Münze symmetrisch, K und Z gleichwahrscheinlich Experiment wird n-mal wiederholt n 10 100 500 1000 5000 hn (K) 6 51 252 488 2533 fn (K) 0.6 0.51 0.504 0.488 0.5066 |fn (K) − 0.5| 0.1 0.01 0.004 0.012 0.0066 Häufigkeitstabelle Matlab: make coin R. Frühwirth Statistik 117/160 R. Frühwirth Gesetz der großen Zahlen Statistik Statistik R. Frühwirth 1 Einleitung Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Die relative Häufigkeit des Ereignisses K scheint gegen den Grenzwert 0.5 zu streben. Einleitung 0.8 f(K) Ereignisse Wahrscheinlichkeit 118/160 Gesetz der großen Zahlen R. Frühwirth Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Statistik Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 0.6 Dieser Grenzwert wird als die Wahrscheinlichkeit W (K) bezeichnet. Empirisches Gesetz der großen Zahlen Wahrscheinlichkeit 0.4 Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 0.2 0 lim fn (K) = W (K) n→∞ Bedingte Wahrscheinlichkeit 0 100 200 300 400 500 n Entwicklung der relativen Häufigkeit von K R. Frühwirth Statistik 119/160 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Das mathematische Problem dieser Definition liegt darin, dass die Existenz des Grenzwerts von vornherein nicht einzusehen ist und im klassisch analytischen Sinn tatsächlich nicht gegeben sein muss, sondern nur in einem weiteren, statistischen Sinn. R. Frühwirth Statistik 120/160 Unterabschnitt: Kopplung und bedingte Wahrscheinlichkeit Abschnitt 7: Bedingte Wahrscheinlichkeit Statistik Statistik R. Frühwirth R. Frühwirth Einleitung 4 Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 5 Einleitung Einleitung Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 122/160 Statistik Wir betrachten jetzt zwei Ereignisse A und B, die bei einem Experiment eintreten können. Einleitung Wahrscheinlichkeit Ereignisse Kopplung und bedingte Wahrscheinlichkeit Statistik Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 5 121/160 Kopplung und bedingte Wahrscheinlichkeit Ereignisse Einleitung Wahrscheinlichkeit R. Frühwirth R. Frühwirth 4 Ereignisse R. Frühwirth Einleitung Frage: Besteht ein Zusammenhang zwischen den Ereignissen? Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ein solcher Zusammenhang wird Koppelung genannt. Positive Koppelung: Je öfter A eintritt, desto öfter tritt tendenziell auch B ein. Wahrscheinlichkeit Negative Koppelung: Je öfter A eintritt, desto seltener tritt tendenziell auch B ein. Bedingte Wahrscheinlichkeit Statistik Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Quantifizierung von oft“ und selten“ erfolgt durch ” ” Häufigkeitstabelle. R. Frühwirth Die Häufigkeit des Eintretens von A und B kann in einer Vierfeldertafel oder Kontingenztafel zusammengefasst werden. 123/160 Beispiel: A=“Eine untersuchte Person ist weiblich“ B=“Eine untersuchte Person hat Diabetes“ Vierfeldertafel für 1000 Personen: A A0 R. Frühwirth B 19 26 45 Statistik B0 526 429 955 545 455 1000 124/160 Kopplung und bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Statistik R. Frühwirth Statistik Gewöhnliche relative Häufigkeiten werden auf den Umfang n des gesamten Datensatzes bezogen: R. Frühwirth Einleitung Einleitung h(A ∩ B) f (A ∩ B) = n Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Bedingte relative Häufigkeiten werden auf das Eintreten des anderen Merkmals bezogen: h(A ∩ B) f (A ∩ B) = f (A|B) = h(B) f (B) Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit f (A|B) heißt die bedingte relative Häufigkeit von A unter der Bedingung B. R. Frühwirth 125/160 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 526 = 0.551 955 Es ist somit zu vermuten, dass die beiden Merkmale gekoppelt sind. f (A|B) > f (A) deutet auf eine positive Koppelung, f (A|B) < f (A) auf eine negative Koppelung. R. Frühwirth R. Frühwirth Statistik 126/160 Die bedingten relativen Häufigkeiten konvergieren für n → ∞ gegen einen Grenzwert: Einleitung Ereignisse Wahrscheinlichkeitstabelle: Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen f (A|B 0 ) = Statistik Stammen die Daten aus einem Zufallsexperiment, dann besitzen die Ereigniskombinationen auch Wahrscheinlichkeiten. Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 19 = 0.422, 45 Kopplung und bedingte Wahrscheinlichkeit Statistik Einleitung f (A|B) = Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Kopplung und bedingte Wahrscheinlichkeit R. Frühwirth Die Vierfeldertafel U gibt folgende bedingte relative Häufigkeiten: A A0 Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Nach dem empirischen Gesetz der großen Zahl sind diese Wahrscheinlichkeiten die Grenzwerte der entsprechenden relativen Häufigkeiten. Statistik fn (A ∩ B) W (A ∩ B) → W (A|B) = fn (B) W (B) Wahrscheinlichkeit B B0 W (A ∩ B) W (A ∩ B 0 ) W (A) W (A0 ∩ B) W (A0 ∩ B 0 ) W (A0 ) W (B) W (B 0 ) 1 R. Frühwirth fn (A|B) = 127/160 Definition (Bedingte Wahrscheinlichkeit) W (A|B) = W (A ∩ B) W (B) heißt die bedingte Wahrscheinlichkeit von A unter der Bedingung B, sofern W (B) 6= 0. R. Frühwirth Statistik 128/160 Kopplung und bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Statistik Beispiel (Der symmetrische Würfel) W (ei ) = Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit W (e1 ∩ U ) W (e1 ) = =1 W (e1 ) W (e1 ) W (e1 ∪ e3 ) W ((e1 ∪ e3 ) ∩ U ) 2 = = W (e1 ∪ e3 |U ) = W (U ) W (U ) 3 W ((e1 ∪ e2 ) ∩ U ) W (e1 ) 1 W (e1 ∪ e2 |U ) = = = W (U ) W (U ) 3 Ereignisse W (U |e1 ) = Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente 1 , 1≤i≤6 6 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Wir definieren die folgenden Ereignisse: U = {1, 3, 5}, G = {2, 4, 6} Bedingte Wahrscheinlichkeit Beispiel (Fortsetzung) Einleitung Ist der Würfel völlig symmetrisch, werden den Elementarereignissen ei = {i} gleiche Wahrscheinlichkeiten zugeordnet: Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen R. Frühwirth Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Dann gilt zum Beispiel W (e1 ∩ U ) W (e1 ) 1 = = W (U ) W (U ) 3 W (e1 ∩ G) W (0) W (e1 |G) = = =0 W (U ) W (U ) W (e1 |U ) = R. Frühwirth Statistik 129/160 R. Frühwirth Kopplung und bedingte Wahrscheinlichkeit Statistik Aus der Definition der bedingten Wahrscheinlichkeit folgt sofort die R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Einleitung Produktformel Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 4 Einleitung 5 Ereignisse 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente W (A ∩ B) = W (A|B)W (B) = W (B|A)W (A) Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen 130/160 Unterabschnitt: Satz von Bayes Statistik R. Frühwirth Statistik Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen und die Formel für die Bedingte Wahrscheinlichkeit Inverse Wahrscheinlichkeit W (B|A) = Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit W (A|B)W (B) W (A) Beide Formeln gelten auch für relative Häufigkeiten! R. Frühwirth Statistik 131/160 R. Frühwirth Statistik 132/160 Satz von Bayes Satz von Bayes Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Definition (Zerlegung) Einleitung Die Ereignisse B1 , B2 , . . . , Bm bilden eine Zerlegung des Ereignisraums Ω, wenn gilt: 1 Unvereinbarkeit: Bi ∩ Bj = ∅, i 6= j 2 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit W (B1 ) + W (B2 ) + . . . + W (Bm ) = W (Ω) = 1 R. Frühwirth Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen R. Frühwirth Satz von Bayes Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente W (A|Bi )W (Bi ) W (Bi |A) = W (A) W (A|Bi )W (Bi ) = W (A|B1 )W (B1 ) + . . . + W (A|Bm )W (Bm ) 134/160 Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit W (Bi ) wird die a-priori Wahrscheinlichkeit von B genannt, W (Bi |A) die a-posteriori Wahrscheinlichkeit. R. Frühwirth Statistik Beispiel Ein Betrieb kauft Bauteile von zwei Anbietern, wobei der Anteil des ersten 65% beträgt. Erfahrungsgemäß ist der Ausschussanteil bei Anbieter 1 gleich 3% und bei Anbieter 2 gleich 4%. 1 Wie groß ist der totale Ausschussanteil? 2 Wie groß ist die Wahrscheinlichkeit, daß ein einwandfreier Bauteil von Anbieter 2 kommt? 3 Wie groß ist die Wahrscheinlichkeit, daß ein mangelhafter Bauteil von Anbieter 1 kommt? Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Statistik Es sei B1 , . . . , Bm eine Zerlegung. Dann gilt: Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ein Betrieb erzeugt Glühbirnen mit 40W (35% der Produktion), mit 60W (45%) und mit 100W (20%). Nach einem Jahr sind noch 98% der 40W-Birnen funktionsfähig, 96% der 60W-Birnen, und 92% der 100W-Birnen. Welcher Anteil an allen Glühbirnen ist nach einem Jahr noch funktionsfähig? Satz von Bayes Statistik Einleitung Beispiel 133/160 Satz von Bayes R. Frühwirth W (A) = W (A|B1 )W (B1 ) + . . . + W (A|Bm )W (Bm ) Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Satz Bilden die Ereignisse B1 , B2 , . . . , Bm eine Zerlegung des Ereignisraums Ω, dann gilt: Statistik Totale Wahrscheinlichkeit Ereignisse Vollständigkeit: B1 ∪ B2 ∪ . . . ∪ Bm = Ω R. Frühwirth Es sei B1 , . . . , Bm eine Zerlegung. Dann gilt: R. Frühwirth 135/160 Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 136/160 Satz von Bayes Unterabschnitt: Unabhängigkeit Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Statistik Beispiel R. Frühwirth Ein Bauteil wird von vier Firmen geliefert, und zwar kommen 20% von Firma 1, 30% von Firma 2, 35% von Firma 3, und 15% von Firma 4. Die Wahrscheinlichkeit, dass der Bauteil im Testbetreib innerhalb von 24 Stunden ausfällt, ist 0.02 für Firma 1, 0.015 für Firma 2, 0.025 für Firma 3, und 0.02 für Firma 4. Ein Bauteil fällt im Testbetrieb nach 16 Stunden aus. Die Wahrscheinlichkeit, dass er von Firma i kommt, ist mittel des Satzes von Bayes zu berechnen. Bedingte Wahrscheinlichkeit Einleitung Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 137/160 Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit 6 Wahrscheinlichkeit 7 Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik 138/160 Statistik Zwei Ereignisse sind positiv gekoppelt, wenn R. Frühwirth W (A|B) > W (A) oder W (A ∩ B) > W (A)W (B) Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Unabhängigkeit Statistik Einleitung 5 R. Frühwirth Unabhängigkeit R. Frühwirth Einleitung Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 4 Ereignisse Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Zwei Ereignisse sind negativ gekoppelt, wenn W (A|B) < W (A) oder W (A ∩ B) < W (A)W (B) Wahrscheinlichkeit Liegt weder positive noch negative Kopppelung vor, sind A und B unabhängig. Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Statistik 139/160 Definition (Unabhängigkeit) Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn W (A ∩ B) = W (A)W (B) Die Ereignisse A1 , A2 , . . . , An heißen unabhängig, wenn gilt: W (A1 ∩ . . . ∩ An ) = W (A1 ) · . . . · W (An ) Dazu genügt nicht, dass je zwei Ereignisse Ai und Aj paarweise unabhängig sind! R. Frühwirth Statistik 140/160 Unabhängigkeit Statistik R. Frühwirth Einleitung Ereignisse Beispiel Statistik Wir betrachten den zweimaligen Wurf einer Münze (Kopf/Zahl). Die möglichen Ausgänge sind Ω = {KK, KZ, ZK, ZZ}. Ferner definieren wir die Ereignisse: Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente E2 = {KK, ZK} . . . Kopf beim zweiten Wurf Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Einleitung Ereignisse Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Dann gilt für alle i 6= j Bedingte Wahrscheinlichkeit W (Ei ∩ Ej ) = Sind A und B unabhängig, gilt W (A|B) = W (A) und W (B|A) = W (B). Die Vierfeldertafel für zwei unabhängige Ereignisse: Wahrscheinlichkeit E3 = {KK, ZZ} . . . Gerade Zahl von Köpfen Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit R. Frühwirth Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente E1 = {KK, KZ} . . . Kopf beim ersten Wurf Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Unabhängigkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit 1 = W (Ei ) · W (Ej ) 4 A A0 B B0 W (A)W (B) W (A)W (B 0 ) W (A) W (A0 )W (B) W (A0 )W (B 0 ) W (A0 ) W (B) W (B 0 ) 1 aber W (E1 ∩ E2 ∩ E3 ) = R. Frühwirth 1 1 6= = W (E1 ) · W (E2 ) · W (E3 ) 4 8 Statistik R. Frühwirth 141/160 Unabhängigkeit Statistik Die Koppelung kann durch die Vierfelderkorrelation gemessen werden: R. Frühwirth Einleitung Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Ereignisse Vierfelderkorrelation Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente W (A ∩ B) − W (A)W (B) ρ(A, B) = p W (A)W (A0 )W (B)W (B 0 ) Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Das Vorzeichen von ρ(A, B) gibt die Richtung der Koppelung an. Einleitung Wahrscheinlichkeit Bedingte Wahrscheinlichkeit 142/160 Unabhängigkeit Statistik R. Frühwirth Ereignisse Statistik −1 ≤ ρ(A, B) ≤ 1 2 ρ(A, B) = 0 ⇐⇒ A und B unabhängig 3 ρ(A, B) > 0 ⇐⇒ A und B positiv gekoppelt 4 ρ(A, B) < 0 ⇐⇒ A und B negativ gekoppelt R. Frühwirth Statistik Speziell gilt: Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Eigenschaften der Vierfelderkorrelation 1 Der Betrag von ρ(A, B) gibt die Stärke der Koppelung an. Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit A = B =⇒ ρ(A, B) = 1 A = B 0 =⇒ ρ(A, B) = −1 Eine bestehende Koppelung ist kein Beweis für einen kausalen Zusammenhang! Die Koppelung kann auch durch eine gemeinsame Ursache für beide Ereignisse entstehen. 143/160 R. Frühwirth Statistik 144/160 Unabhängigkeit Unabhängigkeit Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Statistik Zwei physikalische Ereignisse können als unabhängig postuliert werden, wenn zwischen ihnen keine wie immer geartete Verbindung besteht, da dann das Eintreten des einen Ereignisses die Wahrscheinlichkeit des anderen nicht beeinflussen kann. Zwei Elementarereignisse sind niemals unabhängig, da ihre ∩-Verbindung stets das unmögliche Ereignis ist. Zwei Elementarereignisse sind sogar höchst abhängig“, weil ” das Eintreten des einen das Eintreten des anderen mit Sicherheit ausschließt. Sind E1 und E2 zwei unaghängige Ereignisse eines Wahrscheinlichkeitsraumes (Σ, W ), so sind auch E1 und E20 , E10 und E2 , sowie E10 und E20 unabhängig. R. Frühwirth Statistik R. Frühwirth Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Ei1 = ei1 ∪ ei2 ∪ . . . ∪ ei6 und analog Ej2 = e1j ∪ e2j ∪ . . . ∪ e6j Klarerweise gilt Ei1 ∩ Ej2 = eij . Kann man annehmen, dass alle Elementarereignisse gleichwahrscheinlich sind, so gilt: 1 1 , W (Ej2 ) = 6 6 1 1 2 W (Ei ∩ Ej ) = W (eij ) = = W (Ei1 ) · W (Ej2 ) 36 R. Frühwirth 145/160 Statistik 146/160 Unabhängigkeit Statistik Einleitung Es gibt 36 Elementarereignisse eij = {(i, j)}, 1 ≤ i, j ≤ 6. Das Ereignis Ei1 , beim ersten Wurf eine i zu würfeln, setzt sich so zusammen: W (Ei1 ) = Unabhängigkeit R. Frühwirth Beispiel (Wurf mit zwei unterscheidbaren Würfeln) Statistik Beispiel (Fortsetzung) R. Frühwirth In diesem Fall sind also auch die Elementarereignisse des einfachen Wurfes gleichwahrscheinlich und die beiden Teilwürfe sind unabhängig. Setzt man umgekehrt voraus, dass für beide Teilwürfe die Elementarereignisse gleichwahrscheinlich sind, und dass Ei1 und Ej2 für alle i und j unabhängig sind, so sind die eij gleichwahrscheinlich. Sind die Teilwürfe nicht unabhängig, so sind die eij trotz der Gleichwahrscheinlichkeit der ei und ej nicht mehr gleichwahrscheinlich. Ein Beispiel dafür ist der Wurf“ mit einem sehr ” großen Würfel, der jedesmal bloß um 90o gedreht werden kann. Das Elementarereignis e34 ist hier unmöglich und muss daher die Wahrscheinlichkeit 0 zugewiesen bekommen. R. Frühwirth Statistik 147/160 Einleitung Ereignisse Der Ereignisraum Die Ereignisalgebra Wiederholte Experimente Wahrscheinlichkeit Wahrscheinlichkeitsmaße Gesetz der großen Zahlen Bedingte Wahrscheinlichkeit Kopplung und bedingte Wahrscheinlichkeit Satz von Bayes Unabhängigkeit Beispiel (Wiederholung eines Alternativversuchs) Die Ereignisalgebra hat 2n Elementarereignisse, nämlich die Folgen der Form (i1 , . . . , in ), ij = 0 oder 1. Sind die Wiederholungen unabhängig, und bezeichnet p die Wahrscheinlichkeit des Eintretens von 1, ist die Wahrscheinlichkeit einer Folge W ({(i1 , . . . , in )}) = pn1 (1 − p)n0 wo n0 bzw. n1 die Anzahl des Eintretens von 0 bzw. 1 angibt. Klarerweise gilt n0 + n1 = n. R. Frühwirth Statistik 148/160