Statistik für Wirtschaftswissenschater Jürgen Dippon Institut für Stochastik und Anwendungen (ISA) Universität Stuttgart 25. Juli 2011 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 1 / 458 25. Juli 2011 2 / 458 Teil I Deskriptive Statistik Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater Deskriptive Statistik 1 Einführung 2 Deskriptive Statistik univariater Daten 3 Deskriptive Statistik multivariater Daten Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 3 / 458 25. Juli 2011 4 / 458 1. Einführung 1 Einführung 2 Deskriptive Statistik univariater Daten 3 Deskriptive Statistik multivariater Daten Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 1. Einführung Einführung Grundaufgabe der Statistik Beschreiben (Deskription) Suchen (Exploration) Schlieÿen (Induktion) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 5 / 458 1. Einführung Die deskriptive Statistik dient zur beschreibenden und graschen Aufarbeitung und Komprimierung von Daten. Beschrieben werden Merkmale oder Variablen, die gewisse Ausprägungen oder Werte besitzen. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 6 / 458 1. Einführung Unterschiedliche Typen von Variablen Zielgröÿen Einussgröÿen oder Faktoren Störgröÿen oder latente Gröÿen Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 7 / 458 1. Einführung Deskriptive Statistik wird auch zur Datenvalidierung eingesetzt: Sind die erhobenen Daten plausibel und vertrauenswürdig? Mögliche Probleme: Passt die Gröÿenordnung? Gibt es Ausreiser? Gibt es Hinweise auf Übertragungs- oder Eingabefehler? Wurden die Daten eventuell gefälscht? Deskriptive Statistik verwendet im Gegensatz zur induktiven Statistik keine Wahrscheinlichkeitstheorie. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 8 / 458 1. Einführung Die explorative Statistik sucht Strukturen oder Besonderheiten in den Daten und dient zur Hypothesengewinnung. Hypothesen können schlieÿlich in der induktiven Statistik formal mit wahrscheinlichkeitstheoretischen Methoden überprüft werden, z.B. kann mit groÿer Sicherheit geschlossen werden, dass ein in der Stichprobe gefundener Zusammenhang auch in der Grundgesamtheit vorliegt ? Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 9 / 458 1. Einführung Wichtige Grundbegrie Statistische Einheit: Objekte, an denen interessierende Gröÿen erfasst werden Grundgesamtheit, Population: Menge aller für die Fragestellung relevanten statistischen Einheiten Teilgesamtheit: Teilmenge der Grundgesamtheit Stichprobe: tatsächlich untersuchte Teilmenge der Grundgesamtheit Merkmal: interessierende Gröÿe, Variable Merkmalsausprägung: konkreter Wert des Merkmals für eine statistische Einheit Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 10 / 458 1. Einführung Charakterisierung von Merkmalen diskretes Merkmal: Menge der Merkmalsausprägung ist abzählbar stetiges Merkmal: Merkmale nehmen Werte aus einem Intervall an quasistetige Merkmale: Merkmal ist von seiner Natur her stetig, mögliche Werte aber, z.B. aufgrund des Messprozesses, abzählbar Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 11 / 458 1. Einführung Unterscheidung von Merkmalen aufgrund ihrer Skalenniveaus: 1 Nominalskala: Merkmalsausprägungen sind Namen oder Kategorien (z.B. Haarfarbe, Religion) (endliche Menge) 2 Ordinalskala: Ausprägungen können geordnet werden (z.B. Tumorstadien, Schulnoten) 3 Intervallskala: Abstände zwischen Ausprägungen können interpretiert werden (z.B. Temperatur auf der Celsius-Skala, Jahreszahlen, IQ-Skala) 4 Verhältnisskala: Quotienten zwischen Ausprägungen können interpretiert werden (z.B. Temperatur in Kelvin, Gewicht in kg, Preis in Euro) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 12 / 458 1. Einführung Weitere Unterscheidung: Qualitative Merkmale (endlich viele Ausprägungen, höchstens ordinal skaliert) versus quantitative Merkmale (spiegeln eine Intensität wider) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 13 / 458 1. Einführung Elemente der Versuchsplanung Notwendigkeit eines Versuchsplans Wie lautet das Ziel der Studie oder des Experiments ? Wie soll das Ziel erreicht werden ? Statistische Methoden Fallzahl Wie lassen sich Störvariablen kontrollieren ? (z.B. durch Homogenisierung, Randomisierung, Parallelisierung, Kontrolle der Störvariablen im Rahmen eines statistischen Modells) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 14 / 458 1. Einführung Datengewinnung kann erfolgen in einem Experiment einer Erhebung I I im Rahmen einer Vollerhebung einer Stichprobe Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 15 / 458 1. Einführung Verschiedene Methoden der Stichprobenbildung einfache Zufallsstichprobe systematische Ziehung (z.B. jeder siebte Patient) geschichtete Zufallsstichproben (z.B. ziehe je eine Zufallsstichprobe aus der Gruppe der Männer und der Frauen) Klumpenstichprobe (z.B. Vollerhebung aller Tiere aus zufällig ausgewählten Herden). mehrstuge Auswahlverfahren Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 16 / 458 1. Einführung Studiendesigns Querschnittstudie: mehrere Objekte werden zu einem Zeitpunkt beobachtet Zeitreihe: ein Objekt wird zu mehreren Zeitpunkten beobachtet Längsschnittstudie, Panel: mehrere Objekte und zwar immer die gleichen werden zu mehreren Zeitpunkten beobachtet Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 17 / 458 25. Juli 2011 18 / 458 2. Deskriptive Statistik univariater Daten 1 Einführung 2 Deskriptive Statistik univariater Daten Verteilungen und ihre Darstellungen Beschreibung von Verteilungen Lagemaÿe Quantile und Box-Plot Streuungsmaÿe Maÿzahlen für Schiefe und Wölbung Dichtekurven und Normalverteilung Konzentrationsmaÿe Relative Konzentration: Lorenzkurve und Gini-Koezient Alternative Konzentrationsmaÿe 3 Deskriptive Statistik multivariater Daten Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten Deskriptive Statistik univariater Daten In diesem Kapitel betrachten wir Merkmalsträger mit nur einem Merkmal. Im nächsten Kapitel betrachten wir auch Merkmalsträger mit mehreren Merkmalen. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 19 / 458 2.1. Verteilungen und ihre Darstellungen Häugkeitsverteilung Ein Merkmal X werde an n Untersuchungseinheiten beobachtet: x1 | , . . . , xn {z } sog. Urliste, Roh- oder Primärdaten Problem: schon bei moderatem Stichprobenumfang unübersichtlich Die dabei auftretenden verschiedenen Merkmalsausprägungen werden mit a1 , . . . , ak bezeichnet ( j ) = hj h a f (aj ) = fj = j h n , . . . , fk f1 , . . . , fk h1 Jürgen Dippon (ISA) (k ≤ n ) absolute Häugkeit der Ausprägung aj d.h. Anzahl der xi aus x1 , . . . , xn mit xi = aj relative Häugkeit von aj absolute Häugkeitsverteilung relative Häugkeitsverteilung Statistik für Wirtschaftswissenschater 25. Juli 2011 20 / 458 2. Deskriptive Statistik univariater Daten 2.1. Verteilungen und ihre Darstellungen Grasche Methoden für univariate Daten Stabdiagramm: Trage über a1 , . . . , ak jeweils einen zur x -Achse senkrechten Strich (Stab) mit Höhe h1 , . . . , hk (oder f1 , . . . , fk ) ab. Säulendiagramm: Wie Stabdiagramm, aber mit Rechtecken statt Strichen Balkendiagramm: Wie Säulendiagramm, aber mit vertikal statt horizontal gelegter x -Achse Kreisdiagramm: Flächen der Kreissektoren proportional zu den Häugkeiten: Winkel des Kreissektors j Jürgen Dippon (ISA) : fj · 360◦ Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 21 / 458 2.1. Verteilungen und ihre Darstellungen ## Anzahl der Tiere je Wurf in 12 Würfen x <- c ("2" ,"2" ,"3" ,"3" ,"3" ,"4" ,"2" ,"5" ,"5" ,"4" ,"4" ,"3") n <- length ( x ) h <- table ( x ) ## absolute Haeufigkeitsverteilung f <- h /n ## relative Haeufigkeitsverteilung ## Stabdiagramm plot ( h ) plot ( h / n ) ## Säulendiagramm barplot ( h ) barplot ( h / n ) ## Balkendiagramm barplot (h , horiz = TRUE ) ## Kreisdiagramm pie ( h ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 22 / 458 2. Deskriptive Statistik univariater Daten Jürgen Dippon (ISA) 2.1. Verteilungen und ihre Darstellungen Statistik für Wirtschaftswissenschater 25. Juli 2011 Abbildung: Grasche Methoden zur Datenvisualisierung 2. Deskriptive Statistik univariater Daten 23 / 458 2.1. Verteilungen und ihre Darstellungen Stamm-Blatt-Diagramm: Die Urliste wird bis auf Rundungen in einer dem Histogramm (s.u.) ähnlichen Darstellung reproduziert.Das Diagramm wird erzeugt mittels: x <- c (2.46 , 2.3 , 3.1 , 3.6 , 3.8 , 4.4 , 2.7 , 5.9 , 5.9 , 4.1 , 4.4 , 3.6) stem ( x ) Das ausgegebene Diagramm ist: 2 3 4 5 | | | | 357 1668 144 99 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 24 / 458 2. Deskriptive Statistik univariater Daten 2.1. Verteilungen und ihre Darstellungen Histogramm Für Datensätze mit vielen Merkmalsausprägungen sind Stab-, Säulen-, Balken- oder Kreisdiagramme ungeeignet. Ist das betrachtete Merkmal mindestens intervallskaliert, kann stattdessen ein Histogramm eingesetzt werden. Histogramm: Gruppiere die Daten in Klassen, bestehend aus benachbarten Intervallen [c0 , c1 ), [c1 , c2 ), . . . , [ck −1 , ck ) Zeichne über diesen Klassen Rechtecke mit: j = cj − cj −1 Breite : d Höhe : gleich (oder proportional zu) Fläche : gleich (oder proportional zu) Jürgen Dippon (ISA) j dj hj h bzw bzw j dj fj f Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 25 / 458 2.1. Verteilungen und ihre Darstellungen Histogramm ist so konstruiert, dass die dargestellten Flächen proportional zu den absoluten bzw. relativen Häugkeiten (Prinzip der Flächentreue). Wähle, falls möglich, die Klassenbreiten d1 , . . . , dk gleich. Faustregeln für die Klassenzahl: k √ = [ n] oder k = 2[ √ n ] oder k = [10 log10 n] ... oder nach subjektivem Empnden. Hierbei ist [x ] die gröÿte ganze Zahl kleiner gleich der reellen Zahl x . Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 26 / 458 2. Deskriptive Statistik univariater Daten 2.1. Verteilungen und ihre Darstellungen ## Normalverteilte Zufallszahlen x <- rnorm (20) ## Stamm - Blatt - Diagramm stem ( x ) ## Histogramm hist ( x ) hist (x , freq = FALSE ) ## Empirische Verteilungsfunktion F <- ecdf ( x ) plot ( F ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 27 / 458 2.1. Verteilungen und ihre Darstellungen Abbildung: Weitere Methoden zur Datenvisualisierung Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 28 / 458 2. Deskriptive Statistik univariater Daten 2.1. Verteilungen und ihre Darstellungen Viele empirische Verteilungen sind unimodal (eingipig), es sind aber auch bi- oder multimodale (zwei- oder mehrgipige) Verteilungen zu beobachten (z.B. bei geschichteten Daten) Symmetrische Verteilung linkssteile oder rechtsschiefe Verteilungen rechtssteile oder linksschiefe Verteilungen Ist das betrachtete Merkmal ordinalskaliert, so lassen sich die beobachteten Ausprägungen ordnen: a1 Jürgen Dippon (ISA) < . . . < ak Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 29 / 458 2.1. Verteilungen und ihre Darstellungen Kumulierte Häugkeitsverteilung Absolute kumulierte Häugkeitsverteilung: ∀ x ∈R ( ) = H x = Anzahl der Werte xi mit xi ( ) + . . . + h (aj ) = h a1 P i :ai ≤x hi Hierbei ist aj die gröÿte Ausprägung mit aj Jürgen Dippon (ISA) ≤x ≤x (also ist aj +1 Statistik für Wirtschaftswissenschater > x) 25. Juli 2011 30 / 458 2. Deskriptive Statistik univariater Daten 2.1. Verteilungen und ihre Darstellungen Empirische Verteilungsfunktion Wichtiger: Relative kumutierte Häugkeitsverteilung oder Verteilungsfunktion ( )= F x ( ) H x n = relativer Anzahl der Werte xi mit xi = f (a1 ) + . . . + f (aj ) = wobei aj ≤x und aj +1 Jürgen Dippon (ISA) empirische X i : ai ≤x ≤x i f > x. Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 31 / 458 2.2. Beschreibung von Verteilungen Lagemaÿe Gesucht sind Maÿzahlen oder Parameter von Verteilungen Ein Lagemaÿ (im engeren Sinne) ist eine Abbildung L : Rn → R, falls ∀ a∈R ∀ x1 ,...,xn ∈R Jürgen Dippon (ISA) ( L x1 + a, . . . , xn + a) = L(x1 , . . . , xn ) + a Statistik für Wirtschaftswissenschater 25. Juli 2011 32 / 458 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen Arithmetisches Mittel Beispiele für Lagemaÿe: Arithmetisches Mittel: x̄ = 1 n (x1 + . . . + xn ) = 1 n n X i x i =1 Für Häugkeitsdaten mit Ausprägungen a1 , . . . , ak und relativen Häugkeiten f1 , . . . , fk gilt x̄ = a1 f1 + . . . + ak fk = k X j j a f j =1 (gewichtetes Mittel) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 33 / 458 2.2. Beschreibung von Verteilungen Das arithmetische Mittel ist i.a. nur für quantitative Merkmale sinnvoll deniert. Für das arithmetische Mittel gilt (Schwerpunkteigenschaft) n X (xi − x̄ ) = 0 i =1 Stichprobe vom Umfang n , verteilt auf r Schichten mit jeweiligen Umfängen n1 , . . . , nr und arith. Mitteln x̄1 x̄ = 1 n . . . , x̄r , (n1 x̄1 + . . . + nr x̄r ) = 1 n so gilt r X i =1 i i n x̄ Beobachtung: arithmetische Mittel reagieren empndlich gegen Ausreiÿer, wohingegen der Median ein Jürgen Dippon (ISA) robustes Lagemaÿ ist. Statistik für Wirtschaftswissenschater 25. Juli 2011 34 / 458 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen Median Urliste x1 , . . . , xn geordnete Urliste x(1) ≤ . . . ≤ x(n) Median von x1 , . . . , xn Der (empirische) ( med = x 1 ( n+ 2 ) ist deniert durch für n ungerade x ( n + x( n2 +1) ) 1 x( ) 2 2 für n gerade Denition sinnvoll für ordinale Merkmale (oder besser) Eigenschaften des Medians: Mindestens 50% der Daten sind ( ≤ xmed ≥ xmed Median häug einfacher zu interpretieren als das arithmetische Mittel Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 35 / 458 2.2. Beschreibung von Verteilungen Modus Der Modus von x1 , . . . , xn ist deniert durch mod = Ausprägung x mit gröÿter Häugkeit Modus nur eindeutig, falls die Häugkeitsverteilung ein eindeutiges Maximum besitzt. Denition schon für nominalskalierte Merkmale sinnvoll. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 36 / 458 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen Lageregeln Symetrische Verteilungen x̄ Linkssteile Verteilungen x̄ Rechtssteile Verteilungen x̄ Jürgen Dippon (ISA) ≈ xmed ≈ xmod > xmed > xmod < xmed < xmod Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 37 / 458 2.2. Beschreibung von Verteilungen Im Folgenden stellen wir noch weitere Maÿe für die Lage einer Verteilung vor, die jedoch keine Lageparameter im oben genannten Sinne sind Zur Motivation ein Beispiel: Sei ri die Wachstumsrate einer Tierpopulation im i -ten Jahr Dann beträgt die Populationsgröÿe Pn im n -ten Jahr n = P0 (1 + r1 ) · . . . · (1 + rn ) n Y = P0 (1 + ri ) i =1 P Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 38 / 458 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen Geometrisches Mittel Das geometrische Mittel zu den Faktoren x1 , . . . , xn ist 1 geom = (x1 · . . . · xn ) n x Dann ist !1 n n Y (1 + ri ) i =1 der mittlere Wachstumsfaktor und n Y i =1 !1 (1 + ri ) n −1 die mittlere Wachstumsrate. Da xgeom ≤ x̄ täuscht x̄ statt xgeom überhöhte Wachstumsraten vor. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 39 / 458 2.2. Beschreibung von Verteilungen Harmonisches Mittel Das harmonische Mittel harm = x 1 Pn 1 1 n i =1 x i ist z.B. zur Ermittlung der Durchschnittsgeschwindigkeit geeignet. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 40 / 458 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen Quantile und Box-Plot Jeder Wert xp mit 0 ≤ xp < p < 1, für den mindestens ein Anteil p der Daten und mindestens ein Anteil 1 −p der Daten ≥ xp ist, heiÿt (empirisches) p -Quantil der Stichprobe. Damit gilt für das p -Quantil: p = x([np]+1) , wenn np nicht xp ∈ [x(np ) , x(np +1) ], wenn np x Dabei ist [np ] die gröÿte ganze Zahl mit ganzzahlig ganzzahlig ≤ np Speziell: x0.25 x0.5 = = x0.75 25%-Quantil = unteres Quartil 50%-Quantil = Median = 75%-Quantil = oberes Quartil Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 41 / 458 2.2. Beschreibung von Verteilungen Quantile und Box-Plot Abbildung: Darstellung der Quantile Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 42 / 458 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen Interquartilsabstand: Q = x0.75 − x0.25 d 5-Punkte-Zusammenfassung einer Verteilung: , , , , xmin x0.25 xmed x0.75 xmax Grasche Darstellung der 5-Punkte-Zusammenfassung einer Verteilung mittels eines Box-Plots Abbildung: Box-Plot Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 43 / 458 2.2. Beschreibung von Verteilungen x <- airquality$Ozone x quantile (x , probs = c (0.25 ,0.75)) ## 25% - und 75% - Quantil summary ( x ) ## 5 - Punkte - Zusammenfassung einer Verteilung boxplot ( x ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 44 / 458 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen Streuungsmaÿe Ein Streuungsmaÿ (im engeren Sinne) ist eine Abbildung S : Rn → R, für die ∀ a∈R ( ∀ x1 ,...,xn S x1 + a, . . . , xn + a) = S (x1 , . . . , xn ) Beispiele für Streuungsmaÿe: Stichprobenspannweite x(n) − x(1) Interquartilsabstand dQ = x0.75 − x0.25 Standardabweichung s̃ wobei s̃ die sog. 2 = 1 n 2 2 {(x1 − x ) + . . . + (xn − x ) } = 1 n n X i =1 (xi − x )2 empirische Varianz der Stichprobe. Beachte: s̃ ist nur für metrische Merkmale deniert! Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 45 / 458 2.2. Beschreibung von Verteilungen Im Falle von Häugkeitsdaten gilt: s̃ 2 = (a1 − x ) 2 f1 2 + . . . + (ak − x ) fk = Häug wird statt der empirischen Varianz s̃ s 2 = 1 n −1 n X i =1 2 k X j =1 auch die (aj − x )2 fj Stichprobenvarianz (xi − x )2 verwendet. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 46 / 458 2. Deskriptive Statistik univariater Daten Da 2.2. Beschreibung von Verteilungen (xn − x ) bereits durch die ersten (n − 1) festgelegt. (n − 1) ist deshalb auch die Anzahl der P (xi − x ) = 0, Abweichungen ist Freiheitsgrade. Verschiebungssatz: n X ∀ i ∈R Für c =0 i =1 n X 2 (xi − c ) = i =1 (xi − x )2 + n(x − c )2 folgt die praktische Darstellung ( s̃ 2 = n 1 X n ) 2 − x2 i x i =1 Bei linearer Transformation der Daten xi zu yi Transformationssatz 2 2 2 y = b s̃x bzw. s̃ Jürgen Dippon (ISA) = a + bxi folgt der y = |b|s̃x s̃ Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 47 / 458 2.2. Beschreibung von Verteilungen Standardabweichung und Varianz sind sehr empndlich gegen Ausreiÿer. Robuste Alternativen: Mittlere absolute Abweichung vom Median 1 n n X i =1 |xi − x0.5 | Mediane absolute Abweichung vom Median Median von {|x1 − x0.5 |, . . . , |xn − x0.5 |} Ein Streumaÿ im weiteren Sinne ist der v = Variationskoezient s̃ x welcher für Merkmale mit nichtnegativen Ausprägungen und positivem arithmetischem Mittel sinnvoll deniert ist. Der Variationskoezient liefert ein maÿstabsunabhängiges Streumaÿ. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 48 / 458 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen max ( x ) - min ( x ) ## Stichprobenspannweite IQR ( x ) ## Interquartilsabstand sd ( x ) ## Standardabweichung ( mit Nenner n -1) var ( x ) ## Stichprobenvarianz ( mit Nenner n -1) var ( x +10) ## Verschiebungsinvarianz der Varianz mean ( abs (x - median ( x ))) ## mittlere Abweichung vom Median sd ( x )/ mean ( x ) ## Variationskoeffizient Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 49 / 458 2.2. Beschreibung von Verteilungen Maÿzahlen für Schiefe und Wölbung Verteilungen können sich nicht nur hinsichtlich Lage und Schiefe, sondern auch in Bezug auf Symmetrie oder Schiefe und durch ihre Wölbung (Kurtosis) unterscheiden. (Empirischer) g Für p Bei p= Quantilskoezient der Schiefe: (x1−p − xmed ) − (xmed − xp ) x1−p − xp = 0.25 erhält man den symmetrischen linkssteilen rechtssteilen Jürgen Dippon (ISA) für ein festes p ∈ (0, 0.5) Quartilskoezienten. Verteilungen gilt p≈0 gp > 0 gp < 0 g Statistik für Wirtschaftswissenschater 25. Juli 2011 50 / 458 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen Maÿzahlen für Schiefe und Wölbung Der Nenner in gp stellt sicher, dass −1 ≤ gp ≤ 1. Quantilskoezienten sind robust im Gegensatz zum Momentenkoezient der Schiefe: g m= m3 3 s̃ mit m3 = 1 n n X i =1 (xi − x̄ )3 Interpretation wie beim Quantilskoezienten. Division mit s̃ 3 macht gm maÿstabsunabhängig. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 51 / 458 2.2. Beschreibung von Verteilungen Wölbungsmaÿ von Fisher Das (empirische) Wölbungsmaÿ von Fisher ist deniert durch γ= m4 s̃ 4 −3 mit m4 n X = (xi − x̄ )4 n i =1 1 Bei Normalverteilung gilt bei spitzeren Verteilungen gilt bei acheren Verteilungen gilt Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater γ≈0 γ>0 γ<0 25. Juli 2011 52 / 458 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen ## Herzgewicht von Katzen library ( MASS ) help ( cats ) attach ( cats ) ## ab jetzt Spalten direkt ansprechen hist ( Hwt ); density ( Hwt ) q12 <- quantile ( Hwt , c (0.25 ,0.75)) names ( q12 ) <- NULL ## Kosmetik dQ <- q12 [2] - q12 [1] ## Interquartilsabstand ## Quartilskoeeffizient für die Schiefe m <- median ( Hwt ) (( q12 [2] - m ) -(m - q12 [1]))/ dQ ## Momentenkoeffizient für die Schiefe m3 <- mean (( Hwt - mean ( Hwt ))^3) m3 / sd ( Hwt )^3 ## Daten linkssteil ## Wölbungsmaÿ von Fisher m4 <- mean (( Hwt - mean ( Hwt ))^4) m4 / sd ( Hwt )^4 -3 ## Daten spitzer als Normalverteilung Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 53 / 458 2.3. Dichtekurven und Normalverteilung Dichtekurven und Normalverteilung Zur Darstellung der Verteilung eines metrischen Merkmals kann z.B. die empirische Verteilungsfunktion oder instruktiver das Histogramm verwendet werden. Abbildung: Empirische Verteilungsfunktion Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 54 / 458 2. Deskriptive Statistik univariater Daten 2.3. Dichtekurven und Normalverteilung Nachteil: selbst bei stetigen Merkmalen ist das Histogramm eine Treppenfunktion, die u.U. groÿe Sprünge ausweist. Deshalb: Approximiere das Histogramm durch eine stetige Dichtefunktion. Eine stetige Funktion f ist eine R Rf Dichte(kurve), wenn f (x ) ≥ 0 und (x )dx = 1 Für p ∈ (0, 1) p = ist xp das p Z xp -Quantil der Dichte f , falls Z f (x )dx und 1 −p = −∞ Jürgen Dippon (ISA) xp Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten ! ∞ f (x )dx 25. Juli 2011 55 / 458 2.3. Dichtekurven und Normalverteilung Dichte der Normalverteilung Wichtiges Beispiel einer Dichtekurve: Dichte der Normalverteilung f µ∈R 1 (x |µ, σ) = √ σ 2π heiÿt Mittelwert, exp σ>0 − 1 2 x −µ σ 2 ! , x ∈R Standardabweichung von f (x |µ, σ) (genaue Denitionen dieser beiden Begrie später) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 56 / 458 2. Deskriptive Statistik univariater Daten 2.3. Dichtekurven und Normalverteilung Viele in der Anwedung auftretende Verteilungen können unter Verwendung einer Normalverteilung gut approximiert werden. Sind x1 , . . . , xn Beobachtungen eines solchen Merkmals, so wird und σ µ durch x̃ durch s̃ approximiert. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 57 / 458 2.3. Dichtekurven und Normalverteilung Ist f die Dichtekurve einer normalverteilten Variablen X mit Mittelwert und Standardabweichung σ, µ dann besitzt die standardisierte Variable Z = X −µ σ die Dichtekurve einer Normalverteilung mit µ=0 und σ=1 Standardnormalverteilung und die Variable entsprechend standardnormalverteilt. Diese Normalverteilung heiÿt Z Die zugehörige Dichtekurve wird mit φ 1 φ(z ) = √ 2π bezeichnet, also exp − z 2 2 Quantile der Standardnormalverteilung ndet man in Tabellen oder mittels Statistiksoftware. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 58 / 458 2. Deskriptive Statistik univariater Daten 2.3. Dichtekurven und Normalverteilung Quantile xp einer Normalverteilung mit Mittelwert µ und Varianz σ stehen mit den den Quantilen zp der Standardnormalverteilung über die lineare Transformation p = µ + σ zp x in Beziehung. -σ -Regel für normalverteilte Merkmale: Daraus ergibt sich die 3 68% der Beobachtungen liegen im Intervall 95% der Beobachtungen liegen im Intervall 99, 7% der Beobachtungen liegen im Intervall Jürgen Dippon (ISA) µ±σ µ ± 2σ µ ± 3σ Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 59 / 458 2.3. Dichtekurven und Normalverteilung Normal-Quantil-Plots Statt die Häugkeitsverteilung der Beobachtungen einer Variablen X direkt mit einer Normalverteilung zu vergleichen, werden bei Normal-Quantil-Plots die Quantile der Häugkeitsverteilung mit den entsprechenden Quantilen der Standardnormalverteilung verglichen: , . . . , x(n) z(1) , . . . , z(n) x(1) geordnete Stichprobe 1 n -Quantil, 1−0,5 n n -Quantil oder besser n n−0,5 -Quantil der ..., n ..., -Quantil, Standardnormalverteilung Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 60 / 458 2. Deskriptive Statistik univariater Daten Der 2.3. Dichtekurven und Normalverteilung Normal-Quantil-Plot besteht aus den Punkten (z(1) , x(1) ), . . . , (z(n) , x(n) ) im z -x -Koordinatensystem. Ist die empirische Verteilung der Beobachtung approximativ standard-normalverteilt, liegen die Punkte oder auf der Winkelhalbierenden z Jürgen Dippon (ISA) =x (z(i ) , x(i ) ) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten des NQ-Plots nahe an 25. Juli 2011 61 / 458 2.3. Dichtekurven und Normalverteilung ## Erzeugung normalverteilter ( Pseudo -) Zufallszahlen x <- rnorm (100 , mean =2 , sd =2) plot ( ecdf ( x ) , verticals = TRUE ) hist (x , freq = FALSE ) rug ( x ) ## Standardisieren z <- (x - mean ( x ))/ sd ( x ) hist (z , freq = FALSE ) ## Hinzufügen der Dichtekurve einer N (0 ,1) - Verteilung g <- seq ( -3 ,3 , by =0.01) lines (g , dnorm ( g ) , col =" blue ") ## Normal - Quantil - Plot qqnorm ( x ) qqline ( x ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 62 / 458 2. Deskriptive Statistik univariater Daten 2.4. Konzentrationsmaÿe Konzentrationsmaÿe Seien x1 , ..., xn die geordneten Messwerte eines kardinal skalierten nicht-negativen Merkmals (also 0 ≤ x1 ≤ ... ≤ xn , Dierenzen können interpretiert werden). Frage: Wie kann die Konzentration der gemessenen Werte auf die Merkmalsträger beschrieben werden? Beispiel: Marktkonzentration in den Städten A, B, C. Umsätze in 1000 EUR/Monat Anbieter Nr. A B C 1 50 170 20 2 50 10 40 3 50 10 60 4 50 10 80 In A Umsätze gleichmäÿig über Anbieter verteilt. In B Umsätze konzentriert auf Anbieter Nr. 1. In C Umsätze variieren über die Anbieter. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 63 / 458 2.4. Konzentrationsmaÿe Relative Konzentration: Lorenzkurve und Gini-Koezient Für die geordnete Uriste x1 ≤ ... ≤ xn ergibt sich die Lorenzkurve als Streckenzug durch die Punkte (0, 0), (u1 , v1 ), ..., (un , vn ) = (1, 1) mit j= u j n Pj i =1 xi vj = Pn i =1 xi Jürgen Dippon (ISA) Anteil der Merkmalsträger kumulierte relative Merkmalssumme Statistik für Wirtschaftswissenschater 25. Juli 2011 64 / 458 2. Deskriptive Statistik univariater Daten 2.4. Konzentrationsmaÿe Zum Eingangsbeispiel j i PA i i x 50 0,25 10 50 100 0,5 0,75 50 150 1 50 200 n x 1 0,25 50 2 0,5 3 4 x j v j PB i j x i PC i x j v x v 10 0,05 20 20 0,1 10 20 0,1 40 60 0,3 0,75 10 30 0,15 60 120 0,6 1 170 200 1 80 200 1 Abbildung: Lorenzkurve Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 65 / 458 25. Juli 2011 66 / 458 2.4. Konzentrationsmaÿe Eigenschaften der Lorenzkurve: Monotonie Konvexität (Wölbung nach unten) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 2.4. Konzentrationsmaÿe Gini-Koezient Der Gini-Koezient ist deniert durch G = Fläche zwischen Diagonale und Lorenzkurve Fläche zwischen Diagonale und u-Achse = 2 · Fläche zwischen Diagonale Pn ixi 2 n + 1 = Pin=1 − n n i =1 xi und Lorenzkurve Extreme Ausprägungen des Gini-Koezienten: min = 0 n −1 Gmax = n = ... = xn Konzentration x1 = ... = xn−1 = 0 bei Nullkonzentration x1 G bei maximaler und xn 6= 0 Normierter Gini-Koezient: G ∗ = G max G Jürgen Dippon (ISA) = n n −1 G mit Wertebereich [0, 1] Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 67 / 458 2.4. Konzentrationsmaÿe Gini-Koezient Zur Interpretation Gini-Koezient und Lorenzkurve sollten immer gemeinsam interpretiert werden, da zwei sehr unterschiedliche Lorenzkurven zu demselben Gini-Koezienten führen können. Lorenzkurve und Gini-Koezient zielen auf die relative Konzentration ab. Haben zwei Anbieter jeweils einen 50%igen Anteil so liefert der Gini- Koezient G = 0, also keine Konzentration. Der Gini-Koezient berücksichtigt nicht die Anzahl der Marktteilnehmer. ## Lorenzkurve und Gini - Koeffizient zum Eingangsbeispiel library ( ineq ) x <- c (20 ,40 ,60 ,80) plot ( Lc ( x )) Gini ( x ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 68 / 458 2. Deskriptive Statistik univariater Daten 2.4. Konzentrationsmaÿe Alternative Konzentrationsmaÿe Lorenzkurve und Gini-Koezient zielen auf die relative Konzentration: Wieviel Prozent der Marktteilnehmer teilen sich wieviel Prozent des Volumens? Die Konzentrationsrate CRg berücksichtigt die absolute Anzahl der Anbieter: Wieviele Marktteilnehmer teilen sich wieviel Prozent des Volumens? ∈ {1, ..., n} Für vorgegebenes g durch: CR g= n X ist die i, p i =n−g +1 Konzentrationsrate CRg deniert i i = Pn j =1 xj wobei x p den Merkmalsanteil der i-ten Einheit bezeichnet. CR g gibt also den relativen Anteil der g gröÿten Merkmalsträger in der Merkmalssumme wieder. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 2. Deskriptive Statistik univariater Daten 25. Juli 2011 69 / 458 2.4. Konzentrationsmaÿe Herndahl-Index Der Herndahl-Index ist deniert durch H = n X i =1 2 i, p wobei i i = Pn j =1 xj x p den Merkmalsanteil der i-ten Einheit bezeichnet. Extremkonstellationen: 1 min = n bei gleichen Marktanteilen, d.h. x1 max = 1 bei Monopolisten, d.h. x1 H H (also pi (also pn 1 = n) = ... = xn = ... = xn−1 = 0, xn > 0 = 1) H umso kleiner, je mehr Anbieter mit groÿem Marktanteil. Gini-Koezient in diesem Fall immer gleich Null. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 70 / 458 3. Deskriptive Statistik multivariater Daten 1 Einführung 2 Deskriptive Statistik univariater Daten 3 Deskriptive Statistik multivariater Daten Diskrete multivariate Daten Quantitative multivariate Merkmale Grasche Darstellungen quantitativer Merkmale Zusammenhangsmaÿe bei quantitativen Merkmalen Lineare Regression R Beispiel Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 71 / 458 3. Deskriptive Statistik multivariater Daten Deskriptive Statistik multivariater Daten In diesem Abschnitt stellen wir grasche und rechnerische Methoden zur Darstellung multivariater Daten vor. Insbesondere geht es um die Frage, wie eventuelle Zusammenhänge von Merkmalen erkannt werden können. Gemäÿ dem deskriptive Ansatz können wir diese Frage hier nur recht vorläug beantworten. Erst unter Verwendung von wahrscheinlichkeitstheoretischen Methoden kann im Rahmen der induktiven Statistik diese Frage zufriedenstellend gelöst werden. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 72 / 458 3. Deskriptive Statistik multivariater Daten 3.1. Diskrete multivariate Daten Diskrete multivariate Daten Eine Sonntagsfrage lieferte folgende Häugkeitstabelle oder Kontigenztafel: CDU/CSU SPD FDP Grüne Rest Männer 144 153 17 26 95 435 Frauen 200 145 30 50 71 496 344 298 47 76 166 931 Besteht ein Zusammenhang zwischen dem Geschlecht X und der Parteipräferenz Y ? Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten 25. Juli 2011 73 / 458 3.1. Diskrete multivariate Daten Kontingenztafel der absoluten Häugkeiten . . . , ak b1 , . . . , bm a1 Merkmalswerte der Variablen X Merkmalswerte der Variablen Y (k × m)-Kontingenztafel der absoluten Häugkeiten Y X b1 ... a1 h11 ... . . . . . . a k m h1m b h1· . . . h 1 k ... h·1 ... km h·m h . . . k· h n ij = h(ai , bj ) h1· , . . . , hk · h·1 , . . . , h·m absolute Häugkeit der Kombination n Stichprobenumfang h (ai , bj ) Randhäugkeiten der Variablen X (Zeilensummen) Randhäugkeiten der Variablen Y (Spaltensummen) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 74 / 458 3. Deskriptive Statistik multivariater Daten 3.1. Diskrete multivariate Daten Kontingenztafel der relativen Häugkeiten (k × m)-Kontingenztafel der relativen Häugkeiten Y X b1 ... a1 f11 ... . . . . . . a hij ij = P n m f = hi · fi · = j =1 ij n f Pk f·j f·j = fij = i =1 n Jürgen Dippon (ISA) k m f1m b f1· . . . . . . f 1 k ... f·1 ... km f·m f k· f 1 relative Häugkeit der Kombination (ai , bj ) relative Randhäugkeiten der Variablen X (Zeilensummen) relative Randhäugkeiten der Variablen Y (Spaltensummen) Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten 25. Juli 2011 75 / 458 3.1. Diskrete multivariate Daten Grasche Darstellung von (k × m)-Kontingenztafeln Säulendiagramm Säulenhöhe proportional zu hij bzw. fij Mosaikplot Flächeninhalt der Rechtecke proportional zu hij bzw. fij Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 76 / 458 3. Deskriptive Statistik multivariater Daten 3.1. Diskrete multivariate Daten h <- matrix ( c (144 ,153 ,17 ,26 ,95 ,200 ,145 ,30 ,50 ,71) , nrow =2 , byrow = TRUE ); h f <- h / sum ( h ) f dimnames ( h )[[1]] <- c (" Männer " ," Frauen ") dimnames ( h )[[2]] <- c (" CDU / CSU " ," SPD " ," FDP " ," Grüne " ," Rest ") h barplot (h , beside = TRUE ) mosaicplot (h , col = c (" black " ," red " ," yellow " ," green " ," gray ")) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten 25. Juli 2011 77 / 458 3.1. Diskrete multivariate Daten Zusammenhangsanalyse in Kontingenztafeln Wie kann ein Zusammenhang von nominalen Merkmalen quantiziert werden? Y X b1 ... a1 h11 ... . . . . . . a k m h1m b h1· . . . h 1 k ... h·1 ... km h·m h . . . k· h n Sind die beiden Merkmale X und Y unabhängig, würde man erwarten, dass die Spalten proportional zur Spalte der Zeilensummen sind. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 78 / 458 3. Deskriptive Statistik multivariater Daten 3.1. Diskrete multivariate Daten Also: ∀ j ∈{1,...,m} j h1 . . . kj ≈ proportional zu h h1· . . . k· h oder äquivalent ∀ j ∈{1,...,m} j /h·j h1 . . . kj /h·j ≈ proportional zu h / h1· n . . . k · /n h Denn dann wäre die Verteilung von X unabhängig von der Ausprägung Y = bj · Kurz: ∀ i ,j Jürgen Dippon (ISA) ij ≈ h i · · h ·j h n Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten 25. Juli 2011 79 / 458 3.1. Diskrete multivariate Daten Wir bezeichnen jetzt mit ij hi · ·h·j e hij = n h die beobachteten Häugkeiten die Häugkeiten, die zu erwarten sind, wenn kein Zusammenhang zwischen den Merkmalen X und Y vorliegt Der sog. χ2 -Koezient ist deniert durch k X m 2 X (hij − e hij ) 2 χ = e hij i =1 j =1 ∈ [0, ∞) und dient zur Messung der Diskrepanz zwischen der beobachteten Verteilung und der Verteilung, die man bei Unabhängigkeit der beiden Merkmale erwarten würde. Der Nenner dient zur Normierung. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 80 / 458 3. Deskriptive Statistik multivariater Daten Zur Interpretation des 3.1. Diskrete multivariate Daten χ2 -Koezienten: Hängen X und Y voneinander ab, sollte χ2 groÿ sein. Hängen X und Y nicht voneinander ab, sollte χ2 nahe bei Null sein. Erst die induktive Statistik stellt Methoden zur Verfügung, um zu entscheiden, ob die beobachteten Daten Anlass geben, an der Unabhängigkeit der Merkmale X und Y zu zweifeln. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten 25. Juli 2011 81 / 458 3.1. Diskrete multivariate Daten h <- matrix ( c (144 ,153 ,17 ,26 ,95 ,200 ,145 ,30 ,50 ,71) , nrow =2 , byrow = TRUE ); h f <- h / sum ( h ); f dimnames ( h )[[1]] <- c (" Männer " ," Frauen ") dimnames ( h )[[2]] <- c (" CDU / CSU " ," SPD " ," FDP " ," Grüne " ," Rest ") h z . sum <- apply (h ,1 , sum ) # Zeilensummen ; z. sum s . sum <- apply (h ,2 , sum ) # Spaltensummen ; s . sum n <- sum ( h ) htilde <- z . sum %*% t ( s . sum )/ n # erw . Häufigkeiten bei Unabh . htilde chisquare . coeff <- sum (( h - htilde )^2/ htilde ) # chi ^2 - Koeff . chisquare . coeff Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 82 / 458 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Multivariate quantitative Merkmale Zur Untersuchung quantitativer multivariater Daten sind die im letzten Abschnitt vorgestellten Methoden zur Untersuchung qualitativer multivariater Daten meist ungeeignet. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten 25. Juli 2011 83 / 458 3.2. Quantitative multivariate Merkmale Grasche Darstellungen quantitativer Merkmale Für bivariate Daten: Streudiagramme 2-dimensionale Histogramme und Dichten Für multivariate Daten: Matrix von Streudiagrammen Matrix von 2-dimensionalen Histogrammen und Dichten pairs ( trees ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 84 / 458 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Zusammenhangsmaÿe bei quantitativen Merkmalen Der Bravais-Pearson-Korrelationskoezient zur Stichprobe (x1 , y1 ), . . . , (xn , yn ) r ist deniert durch Pn (xi − x̄ )(yi − ȳ ) pPn = pPn i =1 2 2 ( xi − x̄ ) i =1 i =1 (yi − ȳ ) ∈ [−1, 1] Der Bravais-Pearson-Korrelationskoezient ist ein Maÿ für die Stärke des linearen Zusammenhangs zweier metrischer Merkmale. r >0 positive Korrelation, gleichsinniger linearer Zusammenhang r <0 negative Korrelation, gegensinniger linearer Zusammenhang =0 |r | < 0.5 0.5 < |r | < 0.8 0.8 < |r | r Jürgen Dippon (ISA) keine Korrelation, kein linearer Zusammenhang schwache Korrelation mittlere Korrelation starke Korrelation Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten 25. Juli 2011 85 / 458 3.2. Quantitative multivariate Merkmale Beispiel Obwohl der Bravais-Pearson-Koezient nur für metrische Variablen deniert ist, liefert er auch für dichotome, d.h. binäre, Variablen X und Y ein sinnvolles Ergebnis, falls man 0 und 1 als Kodierung für die Merkmalsvariable verwendet. Damit lassen sich die Ergebnisse in einer (2 × 2)-Tabelle zusammenfassen: Y X Jürgen Dippon (ISA) 0 1 0 h11 h12 h1· 1 h21 h22 h2· h·1 h·2 n Statistik für Wirtschaftswissenschater 25. Juli 2011 86 / 458 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Bemerkung In diesem Fall besteht ein Zusammenhang mit dem χ2 -Koezienten für Häugkeitstabellen: r h11 h22 = √ − h12 h21 r = h1· h2· h·1 h·2 Jürgen Dippon (ISA) χ2 n Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten 25. Juli 2011 87 / 458 3.2. Quantitative multivariate Merkmale Korrelationskoezient von Spearman Stichprobe x1 , ..., xn Geordnete Stichprobe x(1) , ..., x(n) Der Rang rg(xi ) von xi ist deniert als die Position von xi in der geordneten Stichprobe. Es gilt also: rg(x(i ) ) =i Beispiel: Stichprobe 4, 2, 5, 0 geordnete Stichprobe 0, 2, 4, 5 Ränge der Stichprobe 3, 2, 4, 1 Ränge der geordneten Stichprobe 1, 2, 3, 4 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 88 / 458 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Korrelationskoezient von Spearman Treten gewisse Werte mehrfach in der Stichprobe auf, verwendet man den mittleren Rang: Stichprobe 4, 3, 2, 3, 5 geordnete Stichprobe 2, 3, 3, 4, 5 Ränge 1, 2.5, 2.5, 4, 5 Ersetzt man im Korrelationskoezienten von Bravais-Pearson die X- und Y-Werte durch ihre Ränge und x̄ und ȳ durch die Mittelwerte der Ränge 1 (= n+ ), 2 so erhält man den Pn i =1 sp = qP n i =1 r Jürgen Dippon (ISA) Korrelationskoezient von Spearman: 1 n +1 − n+ · rg(yi ) − 2 2 q ∈ [−1, 1] Pn n +1 2 n +1 2 rg(xi ) − · i =1 rg(yi ) − 2 2 rg(xi ) Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten 25. Juli 2011 89 / 458 3.2. Quantitative multivariate Merkmale Korrelationskoezient von Spearman Der Korrelationskoezient von Spearman ist ein Maÿ für die Stärke des monotonen Zusammenhangs zweier ordinaler Merkmale. sp > 0 rsp < 0 rsp = 0 r gleichsinniger monotoner Zusammenhang gegensinniger monotoner Zusammenhang kein monotoner Zusammenhang Der Spearmansche Korrelationskoezient eignet sich oensichtlich auch für Messungen, die nur als Rangreihen vorliegen. Beispiel: Vergleich zweier Weinkenner, die zehn Weinproben der Qualität nach ordnen. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 90 / 458 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Invarianzeigenschaften Werden die ursprünglichen Merkmale x und y linear transformiert, so bleibt der Korrelationskoezient von Bravais-Pearson (betragsmäÿig) invariant. Werden die ursprünglichen Merkmale x und y mittels zweier streng monotoner (wachsender oder fallender) Transformationen transformiert, so bleibt der Korrelationskoezient von Spearman-Korrelation (betragsmäÿig) invariant. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten 25. Juli 2011 91 / 458 3.2. Quantitative multivariate Merkmale Korrelation und Kausalität Korrelation ist ein Maÿ für die Stärke des Zusammenhangs zwischen x und y. Über die Richtung der Wirkung falls überhaupt vorhanden kann damit prinzipiell keine Aussage getroen werden. Probleme Scheinkorrelation: Eine hohe Korrelation zweier Merkmale x und y entsteht dadurch, dass x und y über ein drittes Merkmal hoch korreliert sind. Beispiel: Gesundheitszustand ∼ Abstand zur Hochspannungsleitung Verdeckte Korrelation: Obwohl keine statistische Korrelation berechnet wurde, besteht sachlich eine eindeutige Korrelation. Beispiel: Blutdrucksenkung und Dosierung eines Herz-Kreislaufmittels in einer Population von gesunden und kranken Personen Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 92 / 458 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Beispiel Abbildung: Blutdrucksenkung und Dosierung Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten 25. Juli 2011 93 / 458 3.2. Quantitative multivariate Merkmale help ( trees ) attach ( trees ) ## Scatterplot - Matrix pairs ( trees ) ## Korrelation zweier Merkmale cor ( Girth , Volume , method =" pearson ") cor ( Girth , Volume , method =" spearman ") ## Korrelations - Matrizen cor ( trees , method =" pearson ") cor ( trees , method =" spearman ") Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 94 / 458 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Lineare Regression Problem: Gesucht ist eine Funktion f : R → R, welche das metrische Merkmal Y in Abhängigkeit des Merkmals X beschreibt. Y = f (X ) Im Allgemeinen existiert jedoch kein solch klarer Zusammenhang. Deshalb: Suche f so, dass obiger Zusammenhang nur ungefähr erfüllt ist: Y mit einem = f (X ) + Fehlerterm , wobei ein möglichst groÿer Anteil der Variabilität von Y durch f erklärt werden soll. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten Ein solches Modell heiÿt Bei einem 25. Juli 2011 95 / 458 3.2. Quantitative multivariate Merkmale Regressionsmodell. linearen Regressionsmodell nimmt man (X ) = α + β X f an. Für eine Stichprobe und eine Steigung β (x1 , y1 ), . . . , (xn , yn ) sind also ein y -Achsenabschnitt α gesucht, so dass + β x + i =α | {z }i i ŷi y mit möglichst kleinen Fehlern (Residuen) Jürgen Dippon (ISA) i . Statistik für Wirtschaftswissenschater 25. Juli 2011 96 / 458 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Methode der kleinsten Quadrate Wähle α und β so, dass Q (α, β) = 1 n X n 2i i =1 n 1 X = (yi − ŷi )2 n i =1 n 1 X = (yi − (α + β xi ))2 n i =1 minimal. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten 25. Juli 2011 97 / 458 3.2. Quantitative multivariate Merkmale Ermittle die Kleinste-Quadrate-Schätzer α̂ Nullstellen der partiellen Ableitung von Q β̂ von α bzw. β nach α und β : und als n ∂ Q (α, β) 2 X ! =− (yi − (α + β xi )) = 0 ∂α n i =1 n ∂ Q (α, β) 2 X ! =− (yi − (α + β xi )) xi = 0 ∂β n i =1 (1) (2) (sog. Normalengleichungen). Also 1 n n 1 X n Jürgen Dippon (ISA) i =1 n X i =1 1 i i − α̂ y x n 1 i − α̂ − β̂ y n X i =1 n 1 i − β̂ x n n X i =1 n X i =1 Statistik für Wirtschaftswissenschater i =0 (3) 2 i =0 (4) x x 25. Juli 2011 98 / 458 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale (3): Aus α̂ = ȳ − β̂x̄ Eingesetzt in (4): 1 n X n i i− y x i =1 1 n ȳ n X i =1 i+ x 1 n β̂x̄ n X 1 i − β̂ x i =1 n n X i =1 2 i =0 x Dies ist äquivalent zu n 1 X n Also i =1 1 i i − ȳ x̄ = y x n β̂ n X i =1 ! 2 2 i − nx̄ x Pn Pn 1 yi xi − ȳ x̄ s̃xy 1 (xi − x̄ )(yi − ȳ ) n i =P = β̂ = Pin=1 2 = n 1 2 2 2 s̃x i =1 xi − nx̄ n i =1 (xi − x̄ ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten 25. Juli 2011 99 / 458 3.2. Quantitative multivariate Merkmale Bestimmtheitsmaÿ und Residualanalyse Zerlegung der SQT Gesamtstreuung (sum of squares total) = = = n X i =1 n X i =1 n X i =1 (yi − ȳ )2 (yi − ŷi + ŷi − ȳ )2 (yi − ŷi )2 + n X i =1 2 i − ȳ ) + 2 (ŷ n X |i =1 (yi − ŷi )(ŷi − ȳ ) {z = 0 mit (1) und (2) } = SQR + SQE Residualstreuung (sum of squares residual) und die erklärte Streuung (sum of squares explained). in die Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 100 / 458 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Der dritte Term ist gleich Null, da n X (yi − ŷi )ȳ = ȳ n X (yi − ŷi ) = 0 mit (1) i =1 i =1 n n n X X X (yi − ŷi )ŷi = (yi − ŷi )α̂ + (yi − ŷi )β̂ xi i =1 i =1 i =1 n n X X (yi − ŷi )xi = α̂ (yi − ŷi ) +β̂ |i =1 {z } |i =1 {z } = 0 mit (1) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten Das = 0 mit (2) 25. Juli 2011 101 / 458 3.2. Quantitative multivariate Merkmale Bestimmtheitsmaÿ R 2 = SQE SQT Pn 2 i = 1 (ŷi − ȳ ) = Pn 2 i =1 (yi − ȳ ) ∈ [0, 1] gibt den relativen Anteil der erklärten Streuung an der Gesamtstreuung an. Beziehung zum Korrelationskoezienten: R Jürgen Dippon (ISA) 2 2 = rxy Statistik für Wirtschaftswissenschater 25. Juli 2011 102 / 458 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Begründung: Es gilt n X 1 ¯= ŷ n i= ŷ 1 n X n (α̂ + β̂ xi ) = α̂ + β̂x̄ i =1 i =1 = (ȳ − β̂x̄ ) + β̂x̄ mit (3) = ȳ daraus n X i − ȳ ) = (ŷ i =1 2 = n X i =1 n X 2 i − ŷ¯ ) (ŷ (α̂ + β̂ xi − α̂ − β̂x̄ )2 i =1 n X 2 = β̂ (xi − x̄ )2 i =1 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten 25. Juli 2011 103 / 458 3.2. Quantitative multivariate Merkmale und schlieÿlich R Je näher R 2 2 Pn Pn 2 2 2 (ŷi − ȳ ) β̂ i = 1 i = 1 (xi − x̄ ) = Pn = Pn 2 2 ( yi − ȳ ) i =1 i =1 (yi − ȳ ) 2 2 2 s̃xy s̃x s̃xy 2 = = = rxy 2 2 2 s̃x s̃y (s̃x ) s̃y bei 1 liegt, umso besser ist die Modellanpassung. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 104 / 458 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Graphische Methode zur Überprüfung der Modellanpassung Residualplots {(xi , ˆi ) : i ∈ {1, . . . , n}} eignen sich zur Untersuchung der Frage, ob die Daten durch ein lineares Modell hinreichend gut erklärt werden können die Residuen von der erklärenden Variablen abhängen eine Transformation einer Variablen sinnvoll sein könnte Ausreiÿer vorliegen Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 3. Deskriptive Statistik multivariater Daten 25. Juli 2011 105 / 458 3.2. Quantitative multivariate Merkmale attach ( trees ) ## Lineare Regression plot ( Volume ~ Girth , ylim = c (0 ,80)) mymodel <- lm ( Volume ~ Girth ) mymodel abline ( mymodel ) ## Bestimmtheitskoeffizient summary ( mymodel ) $r . squared ## Residualanalyse plot ( Girth , mymodel$residuals ) abline ( h =0) ## In im folgenden Fall ist das lineare Modell ungeeignet plot ( Girth ~ Height ) mymodel <- lm ( Girth ~ Height ) mymodel summary ( mymodel ) $r . squared plot ( Girth , mymodel$residuals ) abline ( h =0) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 106 / 458 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale R Beispiel Jürgen Dippon (ISA) Abbildung: Beispiel mit trees Datensatz Statistik für Wirtschaftswissenschater 25. Juli 2011 107 / 458 25. Juli 2011 108 / 458 Teil II Wahrscheinlichkeitstheorie Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater Wahrscheinlichkeitstheorie 4 Wahrscheinlichkeitsrechnung 5 Diskrete Zufallsvariablen 6 Stetige Zufallsvariablen 7 Grenzwertsätze 8 Mehrdimensionale Zufallsvariablen Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 109 / 458 4. Wahrscheinlichkeitsrechnung 4 Wahrscheinlichkeitsrechnung Denition und Begri der Wahrscheinlichkeit Laplace-Experimente Kombinatorik Modell mit Zurücklegen Modell ohne Zurücklegen Permutation Modell ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge Modell mit Zurücklegen und ohne Berücksichtigung der Reihenfolge Bedingte Wahrscheinlichkeiten Unabhängigkeit von zwei Ereignissen Totale Wahrscheinlichkeit Der Satz von Bayes Unendliche Grundgesamtheit 5 Diskrete Zufallsvariablen 6 Stetige Zufallsvariablen Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 110 / 458 4. Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Problem der Generalisierung: Besteht eine oensichtliche Korrelation zweier Merkmale (oder eine andere Eigenschaft) nur zufällig in der Stichprobe oder aber auch mit hoher Sicherheit in der Gesamtpopulation? Dieses Problem kann nur gelöst werden, wenn man in der Lage ist, zufälligen Ereignissen eine Wahrscheinlichkeit zuzuweisen. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung 25. Juli 2011 111 / 458 4.1. Denition und Begri der Wahrscheinlichkeit Denition und Begri der Wahrscheinlichkeit Ein Zufallsvorgang führt zu einem von mehreren sich gegenseitig ausschlieÿenden Ereignissen. Es ist vor der Durchführung ungewiss, welches Ergebnis tatsächlich eintreten wird. Der Ergebnisraum oder Stichprobenraum Ω ist die Menge aller Ereignisse ω des Zufallsvorgangs. Ereignisse. Die einelementigen Teilmengen ω von Ω werden als Elementarereignisse bezeichnet. Teilmengen von Ω Jürgen Dippon (ISA) heiÿen (Zufalls-) Statistik für Wirtschaftswissenschater 25. Juli 2011 112 / 458 4. Wahrscheinlichkeitsrechnung 4.1. Denition und Begri der Wahrscheinlichkeit Denition und Begri der Wahrscheinlichkeit Sei A ⊂Ω ein Ereignis. Das Ergebnis ω∈Ω werde beobachtet. Falls ω ∈ A, so sagt man, dass das Ereignis A eintritt. Falls ω ∈ Ā, so sagt man A tritt nicht ein. Falls A = ∅, ist A das unmögliche Ereignis Falls A = Ω, ist A das sichere Ereignis = Ω \ A ist das Ereignis, dass A nicht eintritt. A ∪ B ist das Ereignis, dass A oder B eintritt (im A ∩ B ist das Ereignis, dass A und B eintritt. Ā Jürgen Dippon (ISA) nichtexklusiven Sinne). Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung 25. Juli 2011 113 / 458 4.1. Denition und Begri der Wahrscheinlichkeit Denition und Begri der Wahrscheinlichkeit Beispiel: Einmaliges Werfen eines Würfels. Ω = {1, 2, 3, 4, 5, 6} A = {2, 4, 6} B = {1 , 2 } A ∩ B̄ = {4, 6} Jürgen Dippon (ISA) Grundraum, gleichzeitig das sichere Ereignis Ereignis, dass eine gerade Zahl geworfen wird Ereignis, dass eine Zahl ≤2 geworfen wird Ereignis, dass eine gerade Zahl Statistik für Wirtschaftswissenschater ≥3 geworfen wird 25. Juli 2011 114 / 458 4. Wahrscheinlichkeitsrechnung 4.1. Denition und Begri der Wahrscheinlichkeit Denition und Begri der Wahrscheinlichkeit Um den unsicheren Ausgang eines Zufallsvorganges zu bewerten, ordnet man jedem Ereignis A ⊂Ω P eine reelle Zahl ( ) zu: : {A : A ⊂ Ω} → [0, 1] 7→ A P A ∈ [0, 1] ( ) P A Wahrscheinlichkeit des Ereignisses A. heiÿt Diese Abbildung P, das sog. Wahrscheinlichkeitsmaÿ, muss die Axiome von Kolmogorov erfüllen (hier für Ω endlich) (K1) (K2) (K3) ( )≥0 P (Ω) = 1 Falls A ∩ B = ∅, P A dann gilt P (A ∪ B ) = P ( A) + P ( B ) Diese Axiome werden motiviert durch die Eigenschaften relativer Häugkeiten, die zur Interpretation der Wahrscheinlichkeit herangezogen werden. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung 25. Juli 2011 115 / 458 4.1. Denition und Begri der Wahrscheinlichkeit Beispiel Beispiel: n-malige unabhängige Wiederholung eines Würfelexperiments, das den Ergebnissraum i Ω = {1, . . . , 6} besitzt. relative Häugkeit, dass die Zahl i oben liegt f A = {eine Zahl ≤3 f (A) f (A) = f1 + f2 + f3 liegt oben} = {1, 2, 3} relative Häugkeit des Eintretens von Ereignis A Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 116 / 458 4. Wahrscheinlichkeitsrechnung 4.1. Denition und Begri der Wahrscheinlichkeit Beispiel Oder für allgemeines A f ⊂ Ω: ( A) = X i ∈A f (Ω) = fi |{z} ∈ [0, 1] ≥0 1 Für wachsendes n erwarten wir, dass sich f(A) bei einem gewissen Wert stabilisiert (empirisches Gesetz der groÿen Zahlen). Dieser Wert wird als Wahrscheinlichkeit P (A) des Eintretens von A angesehen (frequentistische oder objektivistische Interpretation des Wahrscheinlichkeitsbegris). Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung 25. Juli 2011 117 / 458 4.1. Denition und Begri der Wahrscheinlichkeit Rechenregeln für Wahrscheinlichkeiten 1 0 ≤ P (A) ≤ 1 2 P (∅) = 0 3 P A 4 P Ā 5 P A1 6 ( ) ≤ P (B ) für alle A falls A ( ) = 1 − P ( A) ⊂Ω ⊂B mit Ā und A, B ⊂Ω =Ω\A ∪ . . . ∪ An ) = P (A1 ) + . . . + P (An ) falls A1 , . . . , An paarweise disjunkt und Ai ⊂ Ω P (A ∪ B ) = P (A) + P (B ) − P (A ∩ B ) für beliebige A, B ⊂ Ω ( Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 118 / 458 4. Wahrscheinlichkeitsrechnung 4.2. Laplace-Experimente Laplace-Experimente Bei manchen Zufallsexperimenten mit endlichem Grundraum (also Ω = {1, . . . , N }) ist es sinnvoll davon auszugehen, dass alle Elementarereignisse dieselbe Wahrscheinlichkeit, die sog. Laplace-Wahrscheinlichkeit, besitzen: P 1 ({j }) = pj = = N 1 für alle j |Ω| ∈ {1, . . . , N } Unter Verwendung der 5. Rechenregel folgt für jedes Ereignis A in einem Laplace-Experiment ( ) = P A X P |A| |Ω| ({j }) = j ∈A = Anzahl der für A günstigen Ergebnisse Anzahl aller möglichen Ergebnisse Achtung: Es gibt viele Zusallsexperimente, in denen die Elementarereignisse nicht gleichwahrscheinlich sind. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung 25. Juli 2011 119 / 458 4.2. Laplace-Experimente Laplace-Experimente Beispiel: Wie groÿ ist die Wahrscheinlichkeit bei dreimaligem Münzwurf mindestens einmal Wappen zu erzielen. Ergebnisraum: Ω = {(W , W , W ), (W , W , Z ), . . . , (Z , Z , Z )} |Ω| = 8 ∀ P ({ω}) = ω∈Ω A = {mindestens einmal Wappen}, |A| ( )= P A Ā = {keinmal Wappen}, |Ā| = 1. 1 |Ω| = 7. |A| = |Ω| Jürgen Dippon (ISA) 1 8 Also 7 8 Also ( ) = 1 − P (A) = 1 − P Ā = 7 8 = Statistik für Wirtschaftswissenschater 1 8 25. Juli 2011 120 / 458 4. Wahrscheinlichkeitsrechnung 4.3. Kombinatorik Kombinatorik Modell: N Kugeln mit Nummern 1,. . . ,N benden sich in einer Urne. Ziehe in zufälliger Weise n Kugeln, entweder mit oder ohne Zurücklegen. Ergebnis: geordnetes n-Tupel (E1 , . . . , En ) mit Ei ∈ G = {1, . . . , N }. Besitzt jede dieser Stichproben vom Umfang n dieselbe Wahrscheinlichkeit, so spricht man von einer einfachen Stichprobe. Aufgabe: Bestimme diese Wahrscheinlichkeit Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung 25. Juli 2011 121 / 458 4.3. Kombinatorik Modell mit Zurücklegen Bei einer Ziehung mit Zurücklegen aus einer Grundgesamtheit vom Umfang N ist die Anzahl der möglichen Stichproben vom Umfang n gegeben als: · . . . · N} = N n | · N {z n−mal N Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 122 / 458 4. Wahrscheinlichkeitsrechnung 4.3. Kombinatorik Modell ohne Zurücklegen Bei einer Ziehung ohne Zurücklegen aus einer Grundgesamtheit vom Umfang N ist die Anzahl der möglichen Stichproben vom Umfang n gegeben als: · (N − 1) · . . . · (N − n + 1) = | {z } n−Faktoren N = Jürgen Dippon (ISA) N · (N − 1) · . . . · 1 (N − n ) · . . . · 1 ! − n)! N (N Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung 25. Juli 2011 123 / 458 4.3. Kombinatorik Permutation Werden alle N Kugeln aus der Urne ohne Zurücklegen gezogen und gemäÿ der Reihenfolge des Ziehens angeordnet, so ist Permutation der Nummern {1, . . . , N }. (E1 , . . . , EN ) eine Bei N unterscheidbaren Objekten gibt es N · (N − 1) · . . . · 1 = N ! verschiedene Permutationen. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 124 / 458 4. Wahrscheinlichkeitsrechnung 4.3. Kombinatorik Modell ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge Bei einer Ziehung ohne Zurücklegen aus einer Grundgesamtheit vom Umfang N ist die Anzahl der möglichen Stichproben vom Umfang n bei Nichtbeachten der Reihenfolge: N · (N − 1) · . . . · (N − n + 1) n! = = N n heiÿt · (N − 1) · . . . · 1 n !(N − n )! N N n Binomialkoezient und es gilt: N = 0, n N N = 1, N Jürgen Dippon (ISA) = N, 1 N 0 = 1, Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung falls N <n 25. Juli 2011 125 / 458 4.3. Kombinatorik Beispiel Ziehung der Lottozahlen Anzahl der Möglichkeiten 6 Zahlen aus 49 Zahlen zu ziehen, wobei die Reihenfolge nicht beachtet wird, 49 6 Alle diese 49 6 = 49! 43!6! = 13983816 Zahlen können als gleichwahrscheinliche Elementarereignisse angesehen werden. Damit P (6 Richtige ) = = Jürgen Dippon (ISA) Anzahl der günstigen Ergebnisse Anzahl der möglichen Ergebnisse 1 13983816 = 0.000000072 Statistik für Wirtschaftswissenschater 25. Juli 2011 126 / 458 4. Wahrscheinlichkeitsrechnung 4.3. Kombinatorik Modell mit Zurücklegen und ohne Berücksichtigung der Reihenfolge Bei einer Ziehung mit Zurücklegen aus einer Grundgesamtheit vom Umfang N ist die Anzahl der möglichen Stichprobem vom Umfang n bei Nichtbeachten der Reihenfolge gegeben durch: N +n−1 n Begründung: Durch N −1 Trennzeichen können N verschiedene Zellen voneinander abgegrenzt werden. Auf diese N Zellen werden insgesamt n Kreuze verteilt, wobei Mehrfachbesetzungen erlaubt sind. Die Anzahl der Kreuze gibt an, wieviele Kugeln vom Typ Ei in Zelle i liegen, z.B. ×|| × ×| × | . . . | × ×| Die Anzahl solcher Aufteilungen der Kreuze ist Jürgen Dippon (ISA) N +n−1. n Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung 25. Juli 2011 127 / 458 4.3. Kombinatorik Übersicht ohne Zurücklegen mit Berücksichtigen der Reihenfolge ohne Berücksichtigen der Reihenfolge Jürgen Dippon (ISA) N! (N −n)! mit Zurücklegen N n Statistik für Wirtschaftswissenschater N n N +n−1 n 25. Juli 2011 128 / 458 4. Wahrscheinlichkeitsrechnung 4.4. Bedingte Wahrscheinlichkeiten Bedingte Wahrscheinlichkeiten Analog zum (empirischen) Begri der bedingten relativen Häugkeit denieren wir den (theoretischen) Begri der bedingten Wahrscheinlichkeit eines Ereignisses A gegeben ein Ereignis B . Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung 25. Juli 2011 129 / 458 4.4. Bedingte Wahrscheinlichkeiten Beispiel: einmaliges Werfen eines Würfels A Ereignis, dass Augenzahl gerade B Ereignis, dass Augenzahl ≤3 ( )= P A 3 6 = 1 2 Wie groÿ ist die Wahrscheinlichkeit von A, wenn bekannt ist, dass Augenzahl ≤ 3? ( | )= P A B = Jürgen Dippon (ISA) Anzahl der für A und B günstigen Ergebnisse Anzahl der für B möglichen Ergebnisse 1 3 Statistik für Wirtschaftswissenschater 25. Juli 2011 130 / 458 4. Wahrscheinlichkeitsrechnung 4.4. Bedingte Wahrscheinlichkeiten Allgemein denieren wir (unter Verwendung der Beziehung zwischen relativen Häugkeiten und Wahrscheinlichkeiten): Seien A, B ⊂Ω und P (B ) > 0. Dann ist die bedingte Wahrscheinlichkeit von A unter B deniert als ( | )= P A B Jürgen Dippon (ISA) ( ∩ B) P (B ) P A Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung 25. Juli 2011 131 / 458 4.4. Bedingte Wahrscheinlichkeiten Rechenregeln für bedingte Wahrscheinlichkeiten Seien A, B ⊂Ω und P (B ) P > 0. Dann gilt bei fest gehaltenem B (·|B ) : {A : A ⊂ Ω} → [0, 1] A 7→ P (A|B ) ist wieder eine Wahrscheinlichkeit mit P (B |B ) Jürgen Dippon (ISA) =1 Statistik für Wirtschaftswissenschater 25. Juli 2011 132 / 458 4. Wahrscheinlichkeitsrechnung 4.4. Bedingte Wahrscheinlichkeiten Die Axiome von Kolmogorov gelten entsprechend für Wahrscheinlichkeiten Zu (K 3): , , A1 A2 B ( ⊂ Ω, A1 ∩ A2 = ∅, P (B ) > 0: P A1 Jürgen Dippon (ISA) bedingte ((A1 ∪ A2 ) ∩ B ) P (B ) P ((A1 ∩ B ) ∪ (A2 ∩ B )) = P (B ) P (A1 ∩ B ) + P (A2 ∩ B ) = P (B ) = P (A1 |B ) + P (A2 |B ) ∪ A2 | B ) = P Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung 25. Juli 2011 133 / 458 4.4. Bedingte Wahrscheinlichkeiten Aus der Denition der bedingten Wahrscheinlichkeit folgt sofort der Produktsatz: Seien A, B ⊂ Ω und P (B ) > 0. Dann gilt ( ∩ B ) = P (A|B ) · P (B ) P A Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 134 / 458 4. Wahrscheinlichkeitsrechnung 4.5. Unabhängigkeit von zwei Ereignissen Unabhängigkeit von zwei Ereignissen Ist die Wahrscheinlichkeit des Ereignisses A unabhängig davon, ob das Ereignis B eingetreten ist, d.h. ( | ) = P (A) (1) P A B so werden die Ereignisse A und B als stochastisch unabhängig angesehen. Da (1) ⇐⇒ ( ∩ B) = P (A) ⇐⇒ P (A ∩ B ) = P (A) · P (B ) P (B ) P A denieren wir: Zwei Ereignisse A ⊂Ω und B ⊂Ω heiÿen (stochastisch) unabhängig, falls ( ∩ B ) = P (A) · P (B ) P A Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung 25. Juli 2011 135 / 458 4.5. Unabhängigkeit von zwei Ereignissen Beispiel: Zweimaliges Würfeln Ω = {(1, 1), . . . , (1, 6), (2, 1), . . . , (6, 6)} |Ω| = 36 1 ∀ P ({ω}) = 36 ω∈Ω = {(1, 1), . . . , (1, 6)} eine 1 im ersten Wurf B = {(1, 1), . . . , (6, 1)} eine 1 im zweiten Wurf 6 P (A) = P (B ) = = 16 36 A ∩ B = {(1, 1)} eine 1 im ersten und im zweiten A Wurf ( ∩ B ) = P (A) · P (B ) {z } | {z } | {z } P A | ⇒ A 1 36 1 6 1 6 und B sind stochastisch unabhängige Ereignisse Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 136 / 458 4. Wahrscheinlichkeitsrechnung 4.5. Unabhängigkeit von zwei Ereignissen Beispiel: Urne mit den Zahlen 1, 2, 3, 4 Zweimaliges Ziehen mit Zurücklegen: Ω = {(1, 1), (1, 2), . . . , (4, 4)} mit |Ω| = 16 Zweimaliges Ziehen ohne Zurücklegen: Ω = {(1, 2), (1, 3), . . . , (4, 3)} mit |Ω| = 12 = {Die Eins wird beim ersten Mal gezogen} B = {Die Zwei wird beim zweiten Mal gezogen} A Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung ( ) P (B ) P (A) · P (B ) P (A ∩ B ) 4 16 4 16 = = 1 16 1 16 137 / 458 4.5. Unabhängigkeit von zwei Ereignissen Ziehen mit Zurücklegen P A 25. Juli 2011 Ziehen ohne Zurücklegen 1 4 1 4 3 12 3 12 = = 1 16 1 12 1 4 1 4 Also sind A und B beim Ziehen mit Zurücklegen stochastisch unabhängig, nicht jedoch beim Ziehen ohne Zurücklegen. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 138 / 458 4. Wahrscheinlichkeitsrechnung 4.6. Totale Wahrscheinlichkeit Totale Wahrscheinlichkeit Ω = A1 ∪ A2 eine disjunkte Zerlegung des (A1 ∩ A2 = ∅), so gilt für ein Ereignis B ⊂ Ω Ist B = (B ∩ A1 ) ∪ (B ∩ A2 ) wobei Ergebnisraumes Ω (B ∩ A1 ) ∩ (B ∩ A2 ) = ∅ (K 3) und mit Axiom ( ) = P (B ∩ A1 ) + P (B ∩ A2 ) P B = P (B |A1 ) · P (A1 ) + P (B |A2 ) · P (A2 ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung Etwas allgemeiner gilt der 139 / 458 4.6. Totale Wahrscheinlichkeit Satz der totalen Wahrscheinlichkeit: Sei A1 , . . . , Ak eine disjunkte Zerlegung von Dann gilt für B 25. Juli 2011 Ω. ⊂Ω ( )= P B k X i =1 Jürgen Dippon (ISA) ( | i ) · P (Ai ) P B A Statistik für Wirtschaftswissenschater 25. Juli 2011 140 / 458 4. Wahrscheinlichkeitsrechnung 4.6. Totale Wahrscheinlichkeit Beispiel: Alarmanalyse A = {Alarm}, E = {Einbruch}, ( | ) = 0, 99 P (A|Ē ) = 0, 005 P (E ) = 0, 001 Ē = {kein Einbruch} W für Alarm bei Einbruch P A E W für Fehlalarm W für Einbruch Wie groÿ ist die Wahrscheinlichkeit für einen Alarm? ( ) = P (A|E ) · P (E ) + P (A|Ē ) · P (Ē ) P A = 0, 99 · 0, 001 + 0, 005 · (1 − 0, 001) ≈ 0, 006 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung 25. Juli 2011 141 / 458 4.7. Der Satz von Bayes Der Satz von Bayes Ist A1 ∪ . . . Ak = Ω eine Zerlegung von Ereignis, so gilt für jedes j ∈ {1, . . . , k } mit P (Ai ) >0 und B ein ( j ∩ B) P (B ) P (B |Aj ) · P (Aj ) = P (B ) P (B |Aj ) · P (Aj ) = Pk i =1 P (B |Ai ) · P (Ai ) ( j |B ) = P A Ω P A wobei im letzten Schritt der Satz von der totalen Wahrscheinlichkeit verwendet wurde. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 142 / 458 4. Wahrscheinlichkeitsrechnung 4.7. Der Satz von Bayes Satz von Bayes , . . . , Ak disjunkte Zerlegung von Ω B ⊂ Ω ein Ereignis mit P (B ) > 0 Dann gilt für alle j ∈ {1, . . . , k } A1 mit P (A1 ) > 0, . . . , P (Ak ) > 0 P (B |Aj ) · P (Aj ) ( j |B ) = Pk i =1 P (B |Ai ) · P (Ai ) P A Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung 25. Juli 2011 143 / 458 4.7. Der Satz von Bayes Interpretation: Werden die Ereignisse A1 , . . . , Ak als mögliche Ursachen für das Ereignis B angesehen, so gibt P (B |Ai ) die (bedingte) Wahrscheinlichkeit an, dass bei Vorliegen von Ereignis Ai die Wirkung B eintritt. Die Formel von Bayes erlaubt jetzt einen wahrscheinlichkeitstheoretischen Rückschluss von der Wirkung B auf die mögliche Ursache Aj Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 144 / 458 4. Wahrscheinlichkeitsrechnung 4.7. Der Satz von Bayes Beispiel: Fortsetzung Alarmanalyse Wie groÿ ist die Wahrscheinlichkeit, dass ein Einbruch im Gange ist, wenn ein Alarm ertönt? ( | ) · P (E ) P (A|E ) · P (E ) + P (A|Ē ) · P (Ē ) 0, 99 · 0, 001 ≈ 0, 006 ≈ 0.165 P A E ( | )= P E A Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung 25. Juli 2011 145 / 458 4.8. Unendliche Grundgesamtheit Unendliche Grundgesamtheit Beispiel: Anzahl der Würfe eines Würfels bis zur ersten 6 Ω = {1, 2, 3, . . .}, P ({2 also |Ω| = ∞ Würfe bis zur ersten 6}) = P (1. Wurf keine 6) · P (2. Wurf eine 6|1. Wurf keine 6) = P (1. Wurf keine 6) · P (2. Wurf eine 6) = 5 6 · 1 6 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 146 / 458 4. Wahrscheinlichkeitsrechnung 4.8. Unendliche Grundgesamtheit Unendliche Grundgesamtheit Allgemeiner: i = {i-ter Wurf keine 6} Bi = {i-ter Wurf eine 6} Ci = {Spiel endet nach i Würfen} A ( i ) = P (A1 ∩ . . . ∩ Ai −1 ∩ Bi ) = P (A1 ) · P (A2 ) · . . . · P (Ai −1 ) · P (Bi ) P C = = 5 6 · 5 6 · ... · i −1 5 6 · 5 6 · 1 6 1 6 Da hier i beliebig groÿ werden kann, sollte das 3. Axiom von Kolmogorov auch für abzählbar unendliche Vereinigungen von Ereignissen verallgemeinert werden. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 4. Wahrscheinlichkeitsrechnung 25. Juli 2011 147 / 458 4.8. Unendliche Grundgesamtheit Axiome von Kolmogorov Axiome von Kolmogorov für unendliche Ergebnisräume: (K 1) (K 2) f3) (K ( ) ≥ 0 für P (Ω) = 1 P A alle Ereignisse A ⊂Ω Für paarweise disjunkte Ereignisse A ⊂Ω gilt: P∞ P (A1 ∪ A2 ∪ . . .) = i =1 P (Ai ) Alle bislang hergeleiteten Rechenregeln gelten auch für unendliche Ergebnisräume. Später werden wir sehen, dass sich die Wahrscheinlichkeit eines überabzählbaren Ereignisses nicht als Summe der Wahrscheinlichkeiten der einzelnen Ergebnisse darstellen lässt. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 148 / 458 5. Diskrete Zufallsvariablen 4 Wahrscheinlichkeitsrechnung 5 Diskrete Zufallsvariablen Zufallsvariablen Verteilungen und Parameter von diskreten Zufallsvariablen Spezielle diskrete Verteilungsmodelle Die Binomialverteilung Die hypergeometrische Verteilung Die Poisson-Verteilung 6 Stetige Zufallsvariablen 7 Grenzwertsätze 8 Mehrdimensionale Zufallsvariablen Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 149 / 458 5. Diskrete Zufallsvariablen Diskrete Zufallsvariablen In den Kapiteln 57 werden grundlegende Begrie und Eigenschaften von univariaten (d.h. eindimensionalen) Zufallsvariablen eingeführt. Insbesondere wird zwischen diskreten und stetigen Zufallsvariablen unterschieden. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 150 / 458 5. Diskrete Zufallsvariablen 5.1. Zufallsvariablen Zufallsvariablen Beispiel: 2-maliges Würfeln Ω = {(1, 1), . . . , (6, 6)}, |Ω| = 36 Summe der Augenzahlen werde beschrieben durch die Variable: X : Ω → {2, . . . , 12} ω 7→ X (ω) = i + j |{z} (i ,j ) X ist Beispiel einer Zufallsvariablen, die jedem Ergebnis ω∈Ω eine reelle Zahl zuordnet. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen 25. Juli 2011 151 / 458 5.1. Zufallsvariablen Zufallsvariablen Frage: Wie groÿ ist die Wahrscheinlichkeit, dass die Augensumme ≤4 ist? Gesucht ist also P (A) mit: A = {X ≤ 4} = {(1, 1), (1, 2), (2, 1), . . . , (1, 3), (2, 2), (3, 1)} ( ) = P ({X = 2}) + P ({X = 3}) + P ({X = 4}) = | {z } | {z } | {z } P A 1 36 Jürgen Dippon (ISA) 2 36 Statistik für Wirtschaftswissenschater 3 36 1 6 25. Juli 2011 152 / 458 5. Diskrete Zufallsvariablen 5.1. Zufallsvariablen Zufallsvariablen Eine Variable oder ein Merkmal X, dessen Werte oder Ausprägungen die Ergebnisse eines Zufallsvorgangs sind, heiÿt Die Zahl x heiÿt ∈ R, Zufallsvariable X. die X bei Durchführung des Zufallsvorgangs annimmt, Realisierung oder Wert von X. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen 25. Juli 2011 153 / 458 5.1. Zufallsvariablen Zufallsvariablen Von Interesse sind oft Ereignisse der Form: {X = x } = {ω ∈ Ω|X (ω) = x } {X 6= x } = {ω ∈ Ω|X (ω) 6= x } {X ≤ x } = {ω ∈ Ω|X (ω) ≤ x } oder allgemein für einen Bereich B ⊂ R: {X ∈ B } = {ω ∈ Ω|X (ω) ∈ B } Die Menge aller Wahrscheinlichkeiten P (X Wahrscheinlichkeitsverteilung von X. Jürgen Dippon (ISA) ∈ B) für Bereiche B nennt man Statistik für Wirtschaftswissenschater 25. Juli 2011 154 / 458 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Verteilungen und Parameter von diskreten Zufallsvariablen Eine Zufallsvariable X heiÿt diskret, falls sie nur endlich oder abzählbar unendlich viele Werte x1 , x2 , . . . annehmen kann. Die Wahrscheinlichkeitsverteilung von X ist durch die Wahrscheinlichkeiten: ( P X gegeben. Die Folge = xi ) = pi = f (xi ), (pi ) i = 1, 2, .. bzw. die Funktion f heiÿt auch Die Wertemenge von X wird auch als Zähldichte von X . Träger von X bezeichnet: T = {x1 , x2 , . . .} Ist B eine Teilmenge des Trägers von X, so folgt mit Axiom ( P X ∈ B) = X i :xi ∈B Jürgen Dippon (ISA) p i Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen f3): (K 25. Juli 2011 155 / 458 5.2. Verteilungen diskreter Zufallsvariablen Verteilungen und Parameter von diskreten Zufallsvariablen {x1 , . . . , xk } ist die (Zähldichte) p1 , . . . , pk das Bei einem endlichen Wertebereich Wahrscheinlichkeitsverteilung wahrscheinlichkeitstheoretische Analogon zur relativen Häugkeitsverteilung f1 , . . . , fk . Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 156 / 458 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Bernoulli-Verteilung Besitzt der Wertebereich von X nur zwei Werte x1 und x2 , so ist X eine binäre oder dichothome Zufallsvariable. Beispiel: X Sei A = {Kunde = 1, falls Kunde kreditwürdig 0, falls Kunde nicht kreditwürdig kreditwürdig}. Dann ( ) = P (X = 1) = p P A und ( ) = P (X = 0 ) = 1 − p P Ā Bernoulli-Variable, kurz X ∼ Bin(1, p ). Die dazugehörige Verteilung heiÿt Bernoulli-Verteilung. X ist eine Grasche Darstellung durch ein Stab- oder Säulendiagramm oder ein Wahrscheinlichkeitsdiagramm. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen 25. Juli 2011 157 / 458 5.2. Verteilungen diskreter Zufallsvariablen Verteilungsfunktion Verteilungsfunktion einer diskreten Zufallsvariable: X ( ) = P (X ≤ x ) = F x i :x i ≤ x f (xi ) Diese Verteilungsfunktion besitzt viele Eigenschaften der empirischen Verteilungsfunktion: monoton wachsende Treppenfunktion ( )→0 für x → −∞ ( )→1 für x →∞ F x F x ( ) macht Sprünge der Höhe f (xi ) ( ) rechtsstetig an den Sprungstellen F x F x = pi an xi (Die empirische Verteilungsfunktion macht Sprünge der Höhe Vielfache davon.) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 1 n oder 25. Juli 2011 158 / 458 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Abbildung: Zähldichte und Verteilungsfunktion Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen 25. Juli 2011 159 / 458 5.2. Verteilungen diskreter Zufallsvariablen Gleichverteilung Eine diskrete Zufallsvariable X heiÿt T = {x1 , . . . , xk } kurz X ∼ Unif (T ), ∀ i ∈{1,...,k } Jürgen Dippon (ISA) gleichverteilt auf dem Träger falls gilt: ( P X = xi ) = Statistik für Wirtschaftswissenschater 1 k 25. Juli 2011 160 / 458 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Geometrische Verteilung geometrisch(p)-verteilt, kurz Eine diskrete Zufallsvariable X heiÿt X ∼ Geo(p ), falls gilt: ( ∀ P X i ∈N0 = i ) = (1 − p )i −1 p Eine Geo(p )-verteilte Zufallvariable X zählt die Anzahl der Versuche in einer Folge von unabhängigen Zufallsexperimenten mit jeweiliger Erfolgswahrscheinlichkeit p A ∈ (0, 1) bis zum ersten Erfolg: = ( 0, 0, . . . , 0 , |{z} 1 ) | {z } i −1 Misserfolge 1. Erfolg ( ) = (1 − p ) · (1 − p ) · . . . · (1 − p ) · p = (1 − p )i −1 p P A Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen 25. Juli 2011 161 / 458 5.2. Verteilungen diskreter Zufallsvariablen Unabhängigkeit TX = {x1 , x2 , . . .} beliebige x ∈ TX und Zwei diskrete Zufallsvariablen X und Y mit den Trägern TY = {y1 , y2 , . . .} ∈ TY gilt: und y ( P X heiÿen unabhängig, wenn für = x , Y = y ) = P (X = x ) · P (Y = y ) Allgemeiner heiÿen n diskrete Zufallsvariablen X1 , . . . , Xn unabhängig, wenn für beliebige Werte x1 , . . . , xn aus den jeweiligen Trägern gilt: ( P X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 ) · . . . · P (Xn = xn ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 162 / 458 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Unabhängigkeit Sind zwei diskrete Zufallsvariablen X und Y unabhängig, folgt die Unabhängigkeit der Ereignisse ( P X Nachweis mit Axiom {X ∈ A} und {Y ∈ B }, d.h. ∈ A, Y ∈ B ) = P ( X ∈ A) · P ( Y ∈ B ) f3). (K Beispiel: Unabhängigkeit beim Werfen zweier Würfel X Augenzahl im 1. Wurf, Y Augenzahl im 2. Wurf ( P X | Jürgen Dippon (ISA) = i , Y = j ) = P (X = i ) · P (Y = j ) {z } | {z } | {z } 1 36 1 6 1 6 Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen 25. Juli 2011 163 / 458 5.2. Verteilungen diskreter Zufallsvariablen Lageparamter einer diskreten Verteilung Analog zum arithmetischen Mittel einer Stichprobe denieren wir: Der , Erwartungswert E (X ) einer diskreten Zufallsvariable mit den Werten x1 x2 ,... und der Wahrscheinlichkeitsverteilung p1 , p2 , . . . bzw. der Wahrscheinlichkeitsfunktion f (x ) ist deniert durch: ( )= E X = X i ≥1 X i ≥1 i i x p i (xi ) x f Der Erwartungswert einer Zufallsvariable X ist damit das mit der Wahrscheinlichkeit des Auftretens gewichtete Mittel der Werte. Beim arithmetischen Mittel x̄ einer Stichprobe wird statt pi bzw. f (xi ) die relative Häugkeit fi von xi in der Stichprobe verwendet. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 164 / 458 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Beispiel Beispiel: Erwartungswert beim Würfel Die Variable X gebe die Augenzahlen an ( )= E X X i i= x p Jürgen Dippon (ISA) 6 X i =1 i · 1 6 1 21 6 6 = (1 + . . . + 6 ) = Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen = 3, 5 25. Juli 2011 165 / 458 5.2. Verteilungen diskreter Zufallsvariablen Beispiel Beispiel: Mittlere Anzahl der Versuche bis zum 1. Erfolg bei unabhängigen Bernoulli-Versuchen mit jeweiliger Erfolgswahrscheinlichkeit p X ∼ Geo(p ), d.h. P (X ( )= E X = i ) = (1 − p )i −1 p , ∞ X i =0 = −p i −1 p = p i (1 − p ) ∞ X i =0 = −p = Jürgen Dippon (ISA) 1 p i ∈ (0, 1) ∈ {1, 2, . . .} ∞ X i (1 − p )i −1 i =0 ∞ d d X i (1 − p ) = −p (1 − p )i dp dp i =0 d 1 d 1 = −p =p· dp 1 − (1 − p ) dp p 1 p 2 >1 Statistik für Wirtschaftswissenschater 25. Juli 2011 166 / 458 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Erwartungswert Ist g (x ) eine reelle Funktion, dann gilt für die Zufallsvariable Y ( ) = E (g (X )) = E Y X ( i )pi = g x i ≥1 X i ≥1 = g (X ): ( i )f (xi ) g x Beispiel: g (x ) = x 2 ( E X 2 )= X i ≥1 2 2 2 i i = x1 p1 + x2 p2 + . . . x p Beispiel: g (x ) = ax + b ( E aX + b) = X i ≥1 (axi + b)pi = a X i i +b x p i ≥1 | {z } E (X ) X p i = aE (x ) + b i ≥1 | {z } 1 Erwartungswertbildung ist also linear. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen 25. Juli 2011 167 / 458 5.2. Verteilungen diskreter Zufallsvariablen Beispiel Beispiel: Ist die Wahrscheinlichkeitsfunktion f (x ) symmetrisch um c, so gilt: ( ) = E (X − c ) + Ec X = (xi − c )f (xi ) +c i ≥1 | {z } E X 0 =c Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 168 / 458 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Weitere Eigenschaften Die folgende Tatsache ist aufwändig zu zeigen: Für zwei diskrete Zufallsvariablen X und Y gilt: ( E X + Y ) = E (X ) + E (Y ) und allgemeiner für beliebige Konstanten a1 , . . . , an : ( E a 1 X1 + . . . + an Xn ) = a1 E (X1 ) + . . . + an E (Xn ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen 25. Juli 2011 169 / 458 5.2. Verteilungen diskreter Zufallsvariablen Produktregel Für zwei unabhängige diskrete Zufallsvariablen gilt die Produktregel: ( E X · Y ) = E (X ) · E (Y ) Beispiel: Beim 2-maligen Würfeln gilt für die Augenzahlen X (erster Wurf ) und Y (zweiter Wurf ): ( E X Jürgen Dippon (ISA) · Y ) = E (X ) · E (Y ) = 7 2 · 7 2 Statistik für Wirtschaftswissenschater = 49 4 25. Juli 2011 170 / 458 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Weitere Lageparameter Der Modus xmod ist derjenige x -Wert, der f (x ) = P (X = x ) maximal macht. Für jeden Wert p ( P X ∈ (0, 1) ist xp ein p-Quantil, falls ≤ xp ) = F (xp ) ≥ p und ( P X ≥ xp ) ≥ 1 − p Mit dieser Denition ist xp u.U. nicht eindeutig deniert. Sind mehrere Werte möglich, so kann man z.B. den mittleren Wert wählen. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen 25. Juli 2011 171 / 458 5.2. Verteilungen diskreter Zufallsvariablen Streungsparameter für eine diskrete Zufallsvariable X Die Varianz einer diskreten Zufallsvariable ist: σ 2 = Var (X ) = X i ≥1 wobei Die (xi − µ)2 f (xi ) = E ((X − µ)2 ) µ = E (X ). Standardabweichung ist: p σ = + Var (X ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 172 / 458 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Streuungsparameter für eine diskrete Zufallsvariable X Wie bei empirischen Varianzen gilt die Verschiebungsregel: ( ) = E (X 2 ) − (E (X ))2 = E (X 2 ) − µ2 Var X und für Y = aX + b ( ) = Var (aX + b) = a2 Var (X ) Var Y Jürgen Dippon (ISA) σY = |a|σX und Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen 25. Juli 2011 173 / 458 5.2. Verteilungen diskreter Zufallsvariablen Beispiel Augenzahl X beim Würfeln ( ) = E (X 2 ) − (E (X ))2 Var X = 12 · = 1 6 1 6 + 22 · 1 6 + . . . + 62 · · (12 + 22 + . . . + 62 ) − | {z } 1 6 2 − 7 2 2 7 2 91 = ... = Jürgen Dippon (ISA) 70 24 = 2, 92 Statistik für Wirtschaftswissenschater 25. Juli 2011 174 / 458 5. Diskrete Zufallsvariablen 5.3. Spezielle diskrete Verteilungsmodelle Die Binomialverteilung Folge von n unabhängigen Bernoulli-Versuchen X1 , . . . , Xn mit jeweiligen Erolgswahrscheinlichkeiten p , wobei X i= 0 mit Wahrscheinlichkeit 1 1 mit Wahrscheinlichkeit p −p Gesucht ist nun die Wahrscheinlichkeit für genau k Erfolge: 0...01...1 | {z } | {z } n −k k Wahrscheinlichkeit für genau dieses Ergebnis: Anzahl verschiedener Permutationen: (1 − p )n−k · p k n k Alle Permutatonen sind gleich wahrscheinlich. Also: P ({k Erfolge bei n Versuchen}) Jürgen Dippon (ISA) = n k p k (1 − p )n−k Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen 25. Juli 2011 175 / 458 5.3. Spezielle diskrete Verteilungsmodelle Die Binomialverteilung X = X1 + . . . + Xn sei die Anzahl der Erfolge bei n Versuchen. Dann ist: ( ) = E (X1 + . . . + Xn ) = E (X1 ) + . . . + E (Xn ) = n E X E (X ) | {z1} 0·(1−p )+1·p = np Wegen Unabhängigkeit der X1 , . . . , Xn folgt: ( ) = Var (X1 + . . . + Xn ) = Var (X1 ) + . . . + Var (Xn ) = nVar (X1 ) Var X = n(E (X12 ) − (E (X1 ))2 ) = n(02 · (1 − p ) + 12 · p − p 2 ) = np (1 − p ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 176 / 458 5. Diskrete Zufallsvariablen 5.3. Spezielle diskrete Verteilungsmodelle Die Binomialverteilung Additionseigenschaft der Binomialverteilung Sind X ∼ Bin(n, p ) und Y ∼ Bin(m, p ) X unabhängig, so gilt: + Y ∼ Bin(n + m, p ) Symmetrieeigenschaft Sei X ∼ Bin(n, p ) und Y = n − X, Y Jürgen Dippon (ISA) dann gilt ∼ Bin(n, 1 − p ) Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen 25. Juli 2011 177 / 458 5.3. Spezielle diskrete Verteilungsmodelle Beispiel Beispiel: Qualitätskontrolle In einer Zucht von Austern entstehen mit Wahrscheinlichkeit p = 0.9 fehlerfreie Perlen. Aus der Population werden n = 20 Perlen entnommen. Sei X die Anzahl der fehlerfreien Perlen, also: X ∼ Bin(20, 0.9) und Y = n − X ∼ Bin(20, 0.1) Wie groÿ ist die Wahrscheinlichkeit, dass höchstens 18 der 20 Perlen fehlerfrei sind? Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 178 / 458 5. Diskrete Zufallsvariablen 5.3. Spezielle diskrete Verteilungsmodelle Beispiel ( P X ≤ 18) = 1 − P (X = 19 oder X = 20) 20 20 19 1 20 =1− 0.9 · 0.1 − 0.9 · 0.10 19 20 = 1 − 20 · 0.919 · 0.1 − 0.920 ≈ 0.61 ( P X = 18) = 20 18 · 0.918 · 0.12 ≈ 0.285 ( ) = n · p = 20 · 0.9 = 18 E X ( ) = n · p (1 − p ) = 20 · 0.9 · 0.1 = 1.8, Var X also σ ≈ 1.34 Im Zusammenhang mit dem zentralen Grenzwertsatz werden wir sehen, dass X ungefähr normalverteilt ist mit Erwartungswert 18 und Varianz 1.8 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen 25. Juli 2011 179 / 458 5.3. Spezielle diskrete Verteilungsmodelle Die hypergeometrische Verteilung In einem Aquarium benden sich N Fische, M davon sind männlich. . . . 0} 11 . . . 1} |00 {z | {z M N −M | {z } N Es werden n Fische ohne Zurücklegen herausgezogen. Wie groÿ ist die W., genau X =k männliche Fische zu ziehen? Stichprobe 0...0 1...1 | {z } | {z } k n−k | {z } n ( P X = k) = Anzahl der günstigen Ergebnisse Anzahl der möglichen Ergebnisse M · N −M = k N n−k n Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 180 / 458 5. Diskrete Zufallsvariablen 5.3. Spezielle diskrete Verteilungsmodelle ( X kann nicht gröÿer werden als X kann nicht kleiner werden als n ≤M n > M , falls n (M , falls 0, n − (N − M ), Also gilt für den Träger von X : T = {{max (0, n − (N − M )) , . . . , min(n, M )} Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen , , kurz X 181 / 458 5.3. Spezielle diskrete Verteilungsmodelle hypergeometrisch verteilt mit Parametern Eine Zufallsvariable heiÿt n M N, 25. Juli 2011 ∼ Hyp (n, M , N ), wenn sie die Wahrscheinlichkeitsfunktion M N −M ( k )( n−k ) , falls x ∈ T (Nn ) f (k ) = 0 , sonst Es gilt ( )=n E X M N , ( )=n Var X Ist N groÿ im Vergleich yu n (Faustregel M )-verteilt Bin(N , N N 1 − M N n N ≤ 0.05), −n N − 1 N so kann X als nahezu angesehen werden. Zum Vergleich: Sei Y ∼ Bin N ( )=n E Y ( )=n Var Y Jürgen Dippon (ISA) M ,M N M N M N . Dann = E (X ) M 1− > Var (X ) N Statistik für Wirtschaftswissenschater 25. Juli 2011 182 / 458 5. Diskrete Zufallsvariablen 5.3. Spezielle diskrete Verteilungsmodelle Abbildung: Zähldichte- und Verteilungsfunktion der Jürgen Dippon (ISA) Hyp(6, 6, 10)-Verteilung Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen 25. Juli 2011 183 / 458 5.3. Spezielle diskrete Verteilungsmodelle Die Poisson-Verteilung Binomial- und hypergeometrisch verteilte Zufallsvariablen zählen, wie oft bei n -maligem Ziehen ein bestimmtes Ereignis eintritt: T = {0, 1, . . . , n} Die geometrische Verteilung zählt, wie lange man warten muss bis ein bestimmtes Ereignis zum ersten Mal eintrit: Eine T =N Poisson-verteilte Zufallsvariable zählt, wie oft ein bestimmtes Ereignis innerhalb eines (Zeit-)Intervalles eingetreten ist: T = N0 Die Poisson-Verteilung lässt sich herleiten 1 als Grenzfall der Binomial-Verteilung oder 2 aus den Poisson-Annahmen. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 184 / 458 5. Diskrete Zufallsvariablen 5.3. Spezielle diskrete Verteilungsmodelle 1): Die Wahrscheinlichkeit, dass das Erbgut eines Einzellers nach zu Röntgenbestrahlung eine Mutation aufweist, sei p In einer Kultur benden sich n = 500000 = 1 . 1000 Einzeller. Wie groÿ ist die Wahrscheinlichkeit, dass sich in der Kultur nach Röntgenbestrahlung k mutierte Individuen benden? X = Anzahl der Mutationen ( P X n = k) = = k p k (1 − p )n−k · . . . · (n − k + 1) k p (1 − p )n (1 − p )−k {z } k! | {z } »| {z1 –}np | ≈ 1 k (1−p ) p ≈ nk ! n Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen Da 1 + n1 n →e für n ( P X →∞ 25. Juli 2011 185 / 458 5.3. Spezielle diskrete Verteilungsmodelle folgt für kleines p und groÿes n und λk −λ = k) ≈ e , k! k λ = np ∈ {0, 1, . . . , n} Eine Zufallsvariable X mit der Wahrscheinlichkeitsfunktion f (k ) = P (X ( k λ −λ e = k ) = k! 0 für k ∈ N0 sonst heiÿt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X ∼ Pois(λ) Es gilt ( ) = λ, E X Jürgen Dippon (ISA) ( )=λ Var X Statistik für Wirtschaftswissenschater 25. Juli 2011 186 / 458 5. Diskrete Zufallsvariablen 5.3. Spezielle diskrete Verteilungsmodelle Finden im Zeitintervall [0, 1] zufällig Ereignisse statt, so ist die Anzahl X der in [0, 1] beobachteten Ereignisse Pois(λ)-verteilt, falls die folgenden Poisson-Annahmen gelten: Zwei Erreignisse können nicht gleichzeitig auftreten P (Anzahl der Ereignisse in [t , t + ∆t ]) ≈ λ∆t P (Anzahl der Ereignisse in [t , t + ∆t ]) Für zwei disjunkte Intervalle I1 , I2 N1 für ∆t kein nur abhängig von ⊂ [0, 1] ∆t gilt: und N2 sind zwei unabhängige Zufallsvariablen, wobei Ni = Anzahl der Ereignisse in Ii Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 5. Diskrete Zufallsvariablen 25. Juli 2011 187 / 458 5.3. Spezielle diskrete Verteilungsmodelle Ähnlich wie bei der Binomial-Verteilung gilt eine Poisson-verteilte Zufallsvariablen sind X Additionseigenschaft für ∼ Pois(λ) und Y ∼ Pois(µ) unabhängig, so gilt X + Y ∼ Pois(λ + µ) Damit lässt sich dann zeigen: Ist die Anzahl X von Ereignissen in [0, 1] Pois(λ)-verteilt, so ist die Anzahl Z von Ereignissen in [0, t ] Pois(λt )-verteilt. Beispiele für Poisson-verteilten Zufallsvariablen: Anzahl radioaktiver Zerfälle in einem gegebenen Zeitintervall Anzahl der durch Blitzschlag in einem Jahr getöteten Personen Anzahl von Morden in einer Groÿstadt Anzahl von HIV-Inzierten in einem Stadtteil Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 188 / 458 5. Diskrete Zufallsvariablen 5.3. Spezielle diskrete Verteilungsmodelle Abbildung: Zähldichte- und Verteilungsfunktion der Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater Pois (3)-Verteilung 25. Juli 2011 189 / 458 6. Stetige Zufallsvariablen 4 Wahrscheinlichkeitsrechnung 5 Diskrete Zufallsvariablen 6 Stetige Zufallsvariablen Spezielle stetige Verteilungsmodelle Gleichverteilung Exponentialverteilung Lageparameter, Quantile und Varianz von stetigen Zufallsvariablen Erwartungswert Modus, Quantil und Median Varianz und Standardabweichung Normalverteilung 7 Grenzwertsätze 8 Mehrdimensionale Zufallsvariablen Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 190 / 458 6. Stetige Zufallsvariablen Stetige Zufallsvariablen Zur Erinnerung: Eine diskrete Zufallsvariable X nimmt Werte in einer T = {x1 , x2 , . . . } endlichen oder abzählbaren, also diskreten, Menge an. Für deren Verteilungsfunktion F gilt ( ) = P (X ≤ x ) = F x X (xi ) f i : xi ≤x Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater (1) 25. Juli 2011 191 / 458 6. Stetige Zufallsvariablen Eine stetige Zufallsvariable X nimmt Werte in einer überabzählbaren kontinuierlichen Menge T, z.B. T = R, T = [0, 1] Für deren Verteilungsfunktion kann die Gleichung oder (1) T = (0, ∞) an. jetzt NICHT mehr gelten. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 192 / 458 6. Stetige Zufallsvariablen Stattdessen und genauer: Eine Zufallsvariable X heiÿt dass für jedes x stetig, wenn es eine Funktion f (t ) ≥ 0 gibt, so ∈R ( ) = P (X ≤ x ) = Z x F x f (t ) dt −∞ f (x ) heiÿt (Wahrscheinlichkeits-)Dichte von X . Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 193 / 458 6. Stetige Zufallsvariablen Für stetige Zufallsvariablen gilt: ( ≤ X ≤ b) = P (a < X < b) P a = P (a ≤ X < b) = P (a < X ≤ b) = und P (X = x) = 0 Da P (−∞ a f (t ) dt = F (b) − F (a) ∈R für jedes x < X < ∞) = 1 Z b gilt auch Z ∞ f (t ) dt = 1 −∞ Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 194 / 458 6. Stetige Zufallsvariablen Weitere Eigenschaften der Verteilungsfunktion einer stetigen Zufallsvariable: 1 F x 2 lim 3 Für Werte x , an ( ) ist stetig und monoton wachsend mit Werten in [0, 1] x →−∞ F (x ) = 0, x →∞ F (x ) = 1 denen f (x ) stetig ist, lim F Jürgen Dippon (ISA) 0 (x ) = ( ) dF x dx gilt = f (x ) Statistik für Wirtschaftswissenschater 25. Juli 2011 195 / 458 6. Stetige Zufallsvariablen Zwei stetige Zufallsvariablen X und Y sind unabhängig, wenn für alle x ∈R und y ( P X ∈R ≤ x , Y ≤ y ) = P (X ≤ x ) · P (Y ≤ y ) = FX (x ) · FY (y ) Allgemeiner: Die stetigen Zufallsvariablen X1 , . . . , Xn sind unabhängig, falls für alle x1 , . . . , xn ( P X1 ∈R ≤ x1 , . . . , Xn ≤ xn ) = P (X1 ≤ x1 ) · · · · · P (Xn ≤ xn ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 196 / 458 6. Stetige Zufallsvariablen 6.1. Spezielle stetige Verteilungsmodelle Gleichverteilung gleichverteilt auf dem Intervall [a, b], Eine stetige Zufallsvariable heiÿt kurz X ∼ Unif ([a, b]), wenn sie eine Dichte f (x ) = 1 b −a 0 für a ≤x ≤b sonst besitzt. Dazugehörige Verteilungsfunktion 0 x −a F (x ) = b −a 1 An den Knickstellen x Jürgen Dippon (ISA) =a und x =b <a a ≤ x ≤ b x > b x ist F nicht dierenzierbar. Statistik für Wirtschaftswissenschater 6. Stetige Zufallsvariablen 25. Juli 2011 197 / 458 6.1. Spezielle stetige Verteilungsmodelle Abbildung: Dichte- und Verteilungsfunktion der Gleichverteilung Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 198 / 458 6. Stetige Zufallsvariablen 6.1. Spezielle stetige Verteilungsmodelle Exponentialverteilung Die geometrische Verteilung dient zur Beschreibung der Wartezeit bis zu einem bestimmten Ereignis. Ein stetiges Analogon hierzu ist die Exponentialverteilung: Eine stetige Zufallsvariable X mit nichtnegativen Werten heiÿt exponentialverteilt mit dem Parameter λ > 0, kurz X ∼ Exp (λ), wenn sie die Dichte f (x ) = λe −λx für x 0 für x ≥0 <0 besitzt. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 6. Stetige Zufallsvariablen 25. Juli 2011 199 / 458 6.1. Spezielle stetige Verteilungsmodelle Exponentialverteilung Dazugehörige Verteilungsfunktion ( )= F x 1 − e −λx 0 für x für x ≥0 <0 Man kann zeigen, dass die Anzahl von Ereignissen in einem Zeitintervall der Länge t Pois (λt )-verteilt ist, wenn die Zeitdauern zwischen aufeinander folgenden Ereignissen unabhängig und exponentialverteilt mit Parameter λ sind. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 200 / 458 6. Stetige Zufallsvariablen 6.1. Spezielle stetige Verteilungsmodelle Abbildung: Dichte- und Verteilungsfunktion der Exponentialverteilung Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 6. Stetige Zufallsvariablen 25. Juli 2011 201 / 458 6.2. Lageparameter, Quantile und Varianz Lageparameter, Quantile und Varianz von stetigen Zufallsvariablen Approximation der Dichte f einer stetigen Zufallsvariablen X durch ein Histogramm mit Intervallbreite ( d) = E X X ∆x i i= x p zu einer diskreten Zufallsvariable Xd : X i (xi )∆x x f Z → Jürgen Dippon (ISA) xf (x ) dx für Statistik für Wirtschaftswissenschater ∆x → 0 25. Juli 2011 202 / 458 6. Stetige Zufallsvariablen 6.2. Lageparameter, Quantile und Varianz Erwartungswert Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 6. Stetige Zufallsvariablen 25. Juli 2011 203 / 458 6.2. Lageparameter, Quantile und Varianz Erwartungswert Der Erwartungswert E (X ) einer stetigen Zufallsvariable X mit Dichte f (x ) ist deshalb deniert als Z ∞ ( )= E X xf (x ) dx −∞ Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 204 / 458 6. Stetige Zufallsvariablen 6.2. Lageparameter, Quantile und Varianz Eigenschaften von Erwartungswerten 1 Ist g (x ) eine reelle Funktion, dann gilt für Y Z = g (X ) ∞ ( ) = E (g (X )) = ( ) (x ) dx E Y g x f −∞ 2 Für Y = aX + b gilt ( ) = E (aX + b) = aE (X ) + b E Y 3 Ist f symmetrisch um c , d.h. f (c − x ) = f (c + x ), so gilt ( )=c E X 4 Additivität: Für zwei Zufallsvariablen X und Y gilt ( E X 5 + Y ) = E (X ) + E (Y ) Linearität: Für beliebige Konstanten a1 , . . . , an gilt ( E a 1 X1 + . . . + a n Xn ) = a 1 E ( X1 ) + . . . + a n E ( Xn ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 6. Stetige Zufallsvariablen 25. Juli 2011 205 / 458 6.2. Lageparameter, Quantile und Varianz Beispiele 1 X gleichverteilt auf [a, b ]. Dann Z Z b ∞ ( )= E X 1 (x ) dx = x dx −∞ a b−a 2 2 1 b a (b − a)(b + a) − = = b − a 2 2 2(b − a) a + b = xf 2 2 X ∼ Exp (λ) Z ∞ ( )= E X Z xf (x ) dx = Jürgen Dippon (ISA) xe −λx dx 0 −∞ = ··· = ∞ 1 λ Statistik für Wirtschaftswissenschater 25. Juli 2011 206 / 458 6. Stetige Zufallsvariablen 6.2. Lageparameter, Quantile und Varianz Modus, Quantil und Median Ist X eine stetige Zufallsvariable mit Dichte f (x ), so heiÿt der Wert, an dem f (x ) ein (lokales) Maximum annimmt, Für 0 <p<1 Modus von X , kurz xmod . heiÿt der Wert xp mit ( p) = p F x p -Quantil von X . Der Median xmed ist das 50%-Quantil, also ( med ) = 0.5 F x Ist F streng monoton, so sind das p -Quantil und der Median eindeutig. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 6. Stetige Zufallsvariablen 25. Juli 2011 207 / 458 6.2. Lageparameter, Quantile und Varianz Varianz und Standardabweichung Die Varianz einer stetigen Zufallsvariable ist deniert als die mittlere oder erwartete quadratische Abweichung vom Erwartungswert 2 2 Z ∞ σ = Var (X ) = E ((X − µ) ) = µ = E (X ): (x − µ)2 f (x ) dx −∞ Die Standardabweichung ist p σ = + Var (X ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 208 / 458 6. Stetige Zufallsvariablen 6.2. Lageparameter, Quantile und Varianz Wie im diskreten Fall gelten ( ) = E (X 2 ) − (E (X ))2 = E ((X − c )2 ) − (µ − c )2 1 Var X 2 Var aX 3 für unabhängige Zufallsvariablen X und Y ( + b) = a2 Var (X ) ( Var X Beispiel: Sei X + Y ) = Var (X ) + Var (Y ) auf [a, b ] gleichverteilt ( )= Var X Jürgen Dippon (ISA) (b − a)2 2 2 E (X ) − (E (X )) = · · · = | {z } | {z } Rb 2 1 ( a+2 b ) a x 2 b−a dx 12 Statistik für Wirtschaftswissenschater 6. Stetige Zufallsvariablen 25. Juli 2011 209 / 458 6.3. Normalverteilung Normalverteilung Eine Zufallsvariable X mit Dichte f heiÿt X (x ) = √ 1 2πσ exp (x − µ)2 − 2σ 2 , x ∈ R, normalverteilt mit den Parametern µ ∈ R und σ 2 > 0, kurz ∼ N (µ, σ 2 ). Es gilt ( )= √ E X 1 2πσ Z ∞ x ( −µ)2 xe 2σ 2 dx = ··· = µ −∞ ( ) = E (X 2 ) − (E (X ))2 = · · · = σ 2 Var X Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 210 / 458 6. Stetige Zufallsvariablen Die Verteilungsfunktion von X ∼ N (µ, σ 2 ) ( ) = P (X ≤ x ) = √ F x −µ =P ≤ σ x − µ =Φ , σ X 6.3. Normalverteilung x 1 Z x 2πσ −µ σ Jürgen Dippon (ISA) t ( −µ)2 e 2σ 2 dt −∞ wobei =√ ∼ N (µ, σ 2 ) ⇐⇒ 1 Z x −µ σ e 2πσ Φ(z ) = √ X Z z 2π e dt 2 − t2 dt −∞ −µ ∼ N (0, 1) σ Statistik für Wirtschaftswissenschater 6. Stetige Zufallsvariablen 2 − t2 −∞ 1 Also gilt X ist gegeben durch 25. Juli 2011 211 / 458 6.3. Normalverteilung Abbildung: Dichte- und Verteilungsfunktion der Normalverteilung Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 212 / 458 7. Grenzwertsätze 4 Wahrscheinlichkeitsrechnung 5 Diskrete Zufallsvariablen 6 Stetige Zufallsvariablen 7 Grenzwertsätze Gesetz der groÿen Zahlen Der zentrale Grenzwertsatz 8 Mehrdimensionale Zufallsvariablen Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 213 / 458 7. Grenzwertsätze Grenzwertsätze Fragen: 1 Unter welchen Voraussetzungen liegt die relative Häugkeit für das Eintreten eines Ereignisses nahe bei der Wahrscheinlichkeit für das Ereignis? 2 Unter welchen Voraussetzungen kann die Verteilung einer Summe von Zufallsvariablen durch eine einfachere Verteilung approximiert werden? Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 214 / 458 7. Grenzwertsätze 7.1. Gesetz der groÿen Zahlen Gesetz der groÿen Zahlen Sei X eine binäre Zufallsvariable und A ein Ereignis mit X Also X ∼ Bin(1, p ) = mit p 1 falls A eintritt 0 falls A nicht eintritt = P (A) = P (X = 1). Wir nehmen an, dass das Zufallsexperiment n -mal und in identischer Weise wiederholt werden kann: X Klar: Xi i= 1, falls A im i -ten Versuch eintritt 0, falls A im i -ten Versuch nicht eintritt ∼ Bin(1, p ) für alle i Jürgen Dippon (ISA) ∈ {1, . . . , n} Statistik für Wirtschaftswissenschater 7. Grenzwertsätze 25. Juli 2011 215 / 458 7.1. Gesetz der groÿen Zahlen Empirisches Gesetz der groÿen Zahlen Für groÿes n liegt die relative Häugkeit fn (A) für das Eintreten von A nahe bei der Wahrscheinlichkeit von A: n (A) → P (A) f Da fn (A) = n1 Pn i =1 Xi = X̄n X̄ und P (A) i → E (X ) für n →∞ = E (X ) für n kann (1) (1) auch in die Form →∞ (2) gebracht werden. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 216 / 458 7. Grenzwertsätze 7.1. Gesetz der groÿen Zahlen Fragen: 1 Wie ist die Konvergenz in 2 Gilt (2) (1) und (2) zu verstehen? auch für nicht-binäre Zufallsvariablen? Auf beide Fragen gibt das Gesetz der groÿen Zahlen eine Antwort. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 7. Grenzwertsätze 217 / 458 7.1. Gesetz der groÿen Zahlen Sei X eine Zufallsvariable mit Erwartungswert σ 2 = Var (X ). Seien X1 , . . . , Xn 25. Juli 2011 µ = EX und Varianz unabhängige wie X verteilte Zufallsvariablen. Dann gilt E X̄ n=E ( n ) = Var Var X̄ n 1 X n ! i =1 n 1 X n i = X i =1 1 n ! X i = n X i =1 n 1 X n 2 n X n µ µ=µ i =1 ( i) = Var X i =1 Für groÿe n ist X̄n damit immer mehr um Jürgen Dippon (ISA) i= EX 1 1 n 2 n X 2 σ = i =1 σ2 n herum konzentriert. Statistik für Wirtschaftswissenschater 25. Juli 2011 218 / 458 7. Grenzwertsätze 7.1. Gesetz der groÿen Zahlen Gesetz der groÿen Zahlen Für beliebig kleines c P >0 gilt (|X̄n − µ| < c ) → 1 für n →∞ In Worten: X̄n konvergiert nach Wahrscheinlichkeit gegen µ. Zum Beweis verwenden wir die Ungleichung von Tschebyschev Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 7. Grenzwertsätze 25. Juli 2011 219 / 458 7.1. Gesetz der groÿen Zahlen Ungleichung von Tschebyschev Für jede Zufallsvariable X mit endlicher Varianz gilt ∀ P c >0 (|X − E (X )| ≥ c ) ≤ ( ) Var X c (3) 2 Beweis: Setze Y = 0, falls |X 1, falls |X − E (X )| < c − E (X )| ≥ c Damit P (|X − E (X )| ≥ c ) = E (Y ) = E (Y 2 ) |X − E (X )|2 ≤E = 2 c Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 1 c 2 ( ) Var X 25. Juli 2011 220 / 458 7. Grenzwertsätze 7.1. Gesetz der groÿen Zahlen Beweis des Gesetzes der groÿen Zahlen P (|X̄n − µ| < c ) = 1 − P | (3) (|X̄n − µ| >≥) {z } 2 ≤ 12 Var (X̄n )= 12 σn →0 c c → 1 (n → ∞) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 7. Grenzwertsätze 25. Juli 2011 221 / 458 7.1. Gesetz der groÿen Zahlen Satz von Bernoulli Spezialfall des starken Gesetzes der groÿen Zahlen: Die relative Häugkeit, mit der ein Ereignis A bei n unabhängigen Wiederholungen eines Zufallsvorgangs eintritt, konvergiert nach Wahrscheinlichkeit gegen P (A). Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 222 / 458 7. Grenzwertsätze 7.2. Der zentrale Grenzwertsatz Der zentrale Grenzwertsatz Die Zufallsvariable X sei Bin (1, p )-verteilt. Die Zufallsvariablen X1 , . . . , Xn seien unabhängig wie X verteilt. Dann n = X1 + · · · + Xn ∼ Bin(n, p ) E (Sn ) = np Var (Sn ) = np (1 − p ) S Man stellt experimentell leicht fest, dass die Dichte einer ( , )-verteilten Zufallsvariablen durch die Dichte einer N (np , np (1 − p ))-verteilten Zufallsvariablen approximiert werden Bin n p kann. Der formale Beweis ist jedoch schwierig. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 7. Grenzwertsätze 25. Juli 2011 223 / 458 7.2. Der zentrale Grenzwertsatz Approximation von Summen von Zufallsvariablen Standardisierung von Sn : Sn − E (Sn ) p = n Var (Sn ) Z Dann gilt: ( n ) = 0, E Z ( n) = Var Z 1 ( n) Var S ( n) = 1 Var S Damit kann obige Beobachtung reformuliert werden: Die Dichte von Zn kann für groÿe n gut durch die Dichte der N (0, 1)-Verteilung, Jürgen Dippon (ISA) also f (x ) = √1 2π e 2 − x2 , approximiert werden. Statistik für Wirtschaftswissenschater 25. Juli 2011 224 / 458 7. Grenzwertsätze 7.2. Der zentrale Grenzwertsatz Daraus folgt: Die Verteilungsfunktion Fn (z ) durch die Verteilungsfunktion N (0, 1)-verteilten = P (Zn ≤ z ) von Zn kann für 2 Rz − x2 1 √ Φ(z ) = −∞ 2π e dx einer groÿe n gut Zufallsvariablen approximiert werden. Diese Tatsache gilt nicht nur für Summen von unabhängigen Bin (1, p )-verteilten Zufallsvariablen, sondern unter viel allgemeineren Voraussetzungen. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 7. Grenzwertsätze 25. Juli 2011 225 / 458 7.2. Der zentrale Grenzwertsatz Zentraler Grenzwertsatz X1 , . . . , Xn seien unabhängig identisch verteilte Zufallsvariablen mit ( i) = µ E X und ( i ) = σ2 Var X Dann konvergiert die Verteilungsfunktion Fn (z ) = P (Zn ≤ z ) der standardisierten Summe n= Z für n →∞ X1 n + · · · + Xn − n µ 1 X Xi − µ √ =√ σ nσ n i =1 an jeder Stelle z ∈R gegen die Verteilungsfunktion Φ(z ) der Standardnormalverteilung F n (z ) → Φ(z ) (n → ∞) Unter den Voraussetzungen dieses Satzes gilt deshalb: n = X1 + · · · + Xn S Jürgen Dippon (ISA) ist approximativ N (n µ, n σ Statistik für Wirtschaftswissenschater 2 )-verteilt 25. Juli 2011 226 / 458 7. Grenzwertsätze 7.2. Der zentrale Grenzwertsatz Grenzwertsatz von Moivre-Laplace Als Spezialfall des zentralen Grenzwertsatzes gilt damit für die Summe von unabhängigen Bin (1, p )-verteilten Zufallsvariablen X1 , . . . , Xn der Grenzwertsatz von Moivre-Laplace ∀ z ∈R P S − np p n ≤z np (1 − p ) ! → Φ(z ) für n →∞ oder S n= Anzahl der Erfolge in n unabhänigen Bernoulli-Versuchen ist approximativ N (np , np (1 Jürgen Dippon (ISA) − p ))-verteilt Statistik für Wirtschaftswissenschater 7. Grenzwertsätze 25. Juli 2011 227 / 458 7.2. Der zentrale Grenzwertsatz Beispiel Eine Tierart trägt mit Wahrscheinlichkeit 0.1 einen Gendefekt. Es werde eine Stichprobe vom Umfang n S n = 100 der Population untersucht. sei die Anzahl der gesunden Tiere. Also Sn ∼ Bin(n, p ) = Bin(100, 0.9). Wegen np = 90, n(1 − p )=10 Jürgen Dippon (ISA) ist die Faustregel erfüllt. Statistik für Wirtschaftswissenschater 25. Juli 2011 228 / 458 7. Grenzwertsätze 7.2. Der zentrale Grenzwertsatz Beispiel Wie groÿ ist die Wahrscheinlichkeit, dass höchstens x = 90 Tiere gesund sind? ( n ≤ 90) ≈ Φ P S − 90 √ 100 · 0.9 · 0.1 90+0.5 =Φ 0.5 = Φ(0.167) = 0.567 3 Die Addition von 0.5 verbessert die Approximation (Stetigkeitskorrektur). Wie groÿ ist die Wahrscheinlichkeit, dass genau x = 90 = E (Sn ) Tiere gesund sind? ( n = 90) ≈ Φ P S 0.5 −Φ | 3 −0.5 3 {z } 1−Φ( 03.5 ) =2·Φ Jürgen Dippon (ISA) 0.5 3 − 1 = 0.134 Statistik für Wirtschaftswissenschater 25. Juli 2011 229 / 458 25. Juli 2011 230 / 458 8. Mehrdimensionale Zufallsvariablen 4 Wahrscheinlichkeitsrechnung 5 Diskrete Zufallsvariablen 6 Stetige Zufallsvariablen 7 Grenzwertsätze 8 Mehrdimensionale Zufallsvariablen Begri mehrdimensionale Zufallsvariablen Zweidimensionale diskrete Zufallsvariablen Zweidimensionale stetige Zufallsvariablen Unabhängigkeit von Zufallsvariablen Kovarianz und Korrelation Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 8. Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen In vielen Anwendungen interessiert nicht nur ein Merkmal, sondern mehrere Merkmale, welche überdies oft nicht unabhängig sind. Das Studium der Abhängigkeit ist häug von zentralem Interesse. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 8. Mehrdimensionale Zufallsvariablen 25. Juli 2011 231 / 458 8.1. Begri mehrdimensionale Zufallsvariablen Begri mehrdimensionale Zufallsvariablen Bei einer reellen, also 1-dimensionalen Zufallsvariablen, wird jedem Ergebnis ω eines Zufallsvorganges genau eine reelle Zahl X (ω) zugeordnet. Bei einer n -dimensionalen Zufallsvariablen X werden jedem Ergebnis ω eines Zufallsvorganges genau n reelle Zahlen X1 (ω), . . . , Xn (ω) zugeordnet: X = (X1 , . . . , Xn ) : Ω −→ Rn ω 7−→ (X1 (ω), . . . , Xn (ω)) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 232 / 458 8. Mehrdimensionale Zufallsvariablen 8.2. Zweidimensionale diskrete Zufallsvariablen Zweidimensionale diskrete Zufallsvariablen Seien X und Y zwei diskrete Zufallsvariablen mit Werten x1 , x2 , . . . bzw. , y1 y2 Die ,... gemeinsame Wahrscheinlichkeitsfunktion oder gemeinsame diskrete Dichte der bivariaten diskreten Zufallsvariable f (x , y ) = ( P X = x, Y = y) Jürgen Dippon (ISA) 0 sonst ( , ) = P (X ≤ x , Y ≤ y ) = 233 / 458 und Y ist gegeben durch XX xi ≤x yj ≤y Jürgen Dippon (ISA) 25. Juli 2011 8.2. Zweidimensionale diskrete Zufallsvariablen gemeinsame Verteilungsfunktion zu X F x y ∈ {x1 , x2 , . . . }, ∈ {y1 , y2 , . . . } Statistik für Wirtschaftswissenschater 8. Mehrdimensionale Zufallsvariablen Die ist bestimmt durch für x y (X , Y ) Statistik für Wirtschaftswissenschater f (xi , yj ) 25. Juli 2011 234 / 458 8. Mehrdimensionale Zufallsvariablen 8.3. Zweidimensionale stetige Zufallsvariablen Zweidimensionale stetige Zufallsvariablen Die Zufallsvariablen X und Y sind eine auf R2 gemeinsam stetig verteilt, wenn es denierte Dichtefunktion f (x , y ) gibt, so dass ( ≤ X ≤ b, c ≤ Y ≤ d ) = Z bZ d P a a f c (x , y )dxdy Diese Wahrscheinlichkeit entspricht dem Volumen des Körpers über dem Rechteck [a, b ] Die × [c , d ] bis zur durch z = f (x , y ) gemeinsame Verteilungsfunktion zu X gegebenen Fläche. und Y ist gegeben durch Z x Z y ( , )= F x y f −∞ Jürgen Dippon (ISA) (s , t )dsdt −∞ Statistik für Wirtschaftswissenschater 8. Mehrdimensionale Zufallsvariablen 25. Juli 2011 235 / 458 8.4. Unabhängigkeit von Zufallsvariablen Unabhängigkeit von Zufallsvariablen Die Zufallsvariable Y kann als unabhängig von der Zufallsvariablen X angesehen werden, falls Y |X (y |x ) = f (x , y ) = fY (y ) fX (x ) f (vorausgesetzt fX (x ) In diesem Fall gilt > 0). f (x , y ) = fX (x ) · fY (y ) Deshalb deniert man: Die Zufallsvariablen X und Y heiÿen (stochastisch) ∀∀ xy f (x , y ) = fX (x ) · fY (y ) Ansonsten heiÿen X und Y (stochastisch) Jürgen Dippon (ISA) unabhängig, falls abhängig. Statistik für Wirtschaftswissenschater 25. Juli 2011 236 / 458 8. Mehrdimensionale Zufallsvariablen 8.5. Kovarianz und Korrelation Kovarianz und Korrelation Die Wahrscheinlichkeitsfunktion f (x , y ) liefert alle Informationen über die beiden Zufallsvariablen X und Y , auch über deren mögliche Abhängigkeit. Kovarianz und Korrelation sind zwei Begrie zur Beschreibung der linearen Abhängigkeit von X und Y unter Verwendung einer einzigen Maÿzahl. Sind X und Y unabhängig, so gilt ( E X · Y ) = E (X ) · E (Y ) (ohne Beweis) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 8. Mehrdimensionale Zufallsvariablen 25. Juli 2011 237 / 458 8.5. Kovarianz und Korrelation Sind die Zufallsvariablen X und Y abhängig, so liefert die Dierenz ( E XY ) − E (X ) · E (Y ) = E [(X − E (X )) · (Y − E (Y ))] eine Maÿzahl für die Stärke der Abhängigkeit. Wir denieren deshalb: Die Kovarianz der Zufallsvariablen X und Y ist gegeben durch ( , Y ) = E ((X − E (X )) · (Y − E (Y ))) Cov X Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 238 / 458 8. Mehrdimensionale Zufallsvariablen Die Kovarianz liefert ein Maÿ für die 8.5. Kovarianz und Korrelation lineare Abhängigkeit und lässt sich berechnen durch ( ,Y) = Cov X XX i f (xi , yj )(xi − E (X ))(yj − E (Y )) f (x , y )(x − E (X ))(y − E (Y ))dxdy j falls X und Y diskret sind, bzw. Z ∞ Z ∞ ( ,Y) = Cov X −∞ −∞ falls X und Y stetig sind. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 8. Mehrdimensionale Zufallsvariablen 25. Juli 2011 8.5. Kovarianz und Korrelation e Werden die Zufallsvariablen X und Y linear transformiert zu X e und Y = cY + d , 239 / 458 = aX + b so gilt e ) = a · c · Cov (X , Y ) (e, Y Cov X Da die Kovarianz oensichtlich maÿstabsabhängig ist, wird in der Praxis der durch % = %(X , Y ) = p denierte ( ,Y) p Var (X ) · Var (Y ) Cov X Korrelationskoezient bevorzugt. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 240 / 458 8. Mehrdimensionale Zufallsvariablen 8.5. Kovarianz und Korrelation Eigenschaften des Korrelationskoezienten: −1 ≤ %(X , Y ) ≤ 1 |%(X , Y )| = 1 ⇔ Y = aX + b für Konstanten a, b e = aX + b, Y e = cY + d mit a, c 6= 0: X e, Y e )| = |%(X , Y )| |%(X Zwei Zufallsvariablen X und Y heiÿen unkorreliert, falls %(X , Y ) = 0 Ist %(X , Y ) 6= 0, so heiÿen sie korreliert. Man kann zeigen, dass zwei unabhängige Zufallsvariablen auch immer unkorreliert sind. Die Umkehrung gilt im Allgemeinen nicht. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 8. Mehrdimensionale Zufallsvariablen 25. Juli 2011 241 / 458 8.5. Kovarianz und Korrelation Varianz der Summe zweier u.U. abhängigen Zufallsvariablen: ( Var X1 2 + X2 ) = E (X1 + X2 − E (X1 ) − E (X2 )) 2 = E (X1 − E (X1 )) + 2E ((X1 − E (X1 )) (X2 − E (X2 ))) 2 + E (X2 − E (X2 )) = Var (X1 ) + Var (X2 ) + 2Cov (X1 , X2 ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 242 / 458 Teil III Induktive Statistik Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 243 / 458 25. Juli 2011 244 / 458 Induktive Statistik 9 Parameterschätzung 10 Testen von Hypothesen 11 Spezielle Tests 12 Lineare Regression 13 Zeitreihen Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater Schlieÿende Statistik Wie kann man basierend auf einer Stichprobe Informationen über die Verteilung eines interessierenden Merkmals erhalten? Schätzverfahren dienen zur näherungsweisen Ermittlung unbekannter Parameter der Verteilung Testverfahren dienen zur Überprüfung von Hypothesen über die unbekannte Verteilung Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 245 / 458 9. Parameterschätzung 9 Parameterschätzung Parameterschätzung Eigenschaften von Schätzstatistiken Erwartungstreue Erwartete mittlere quadratische Abweichung und Konsistenz Konstruktion von Schätzfunktionen Maximum-Likelihood-Schätzung Kleinste-Quadrate-Schätzung Bayes-Schätzung Intervallschätzung Kondenzintervalle für Erwartungswert und Varianz 10 Testen von Hypothesen 11 Spezielle Tests 12 Lineare Regression 13 Jürgen Dippon (ISA) Zeitreihen Statistik für Wirtschaftswissenschater 25. Juli 2011 246 / 458 9. Parameterschätzung Beispiel: Wie hoch ist der relative Anteil von Frauen unter den Hochschullehrern in Deutschland? Da eine Totalerhebung viel zu aufwändig wäre, bestimmt man den relativen Anteil der Frauen in einer Zufallsstichprobe. Dieser relative Anteil in der Stichprobe ist ein Schätzer für den wahren Anteil in der Grundgesamtheit. Da eine zweite Stichprobe einen anderen Schätzwert liefern würde, stellt sich u.a. die Frage nach der Qualität des Schätzers. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 9. Parameterschätzung 25. Juli 2011 247 / 458 9.1. Parameterschätzung Parameterschätzung Einer Schätzfunktion oder Schätzstatistik für den Parameter θ der Verteilung der Grundgesamtheit ist eine Funktion T = g (X1 , . . . , Xn ) der Stichprobenvariablen X1 , . . . , Xn . Der aus den Realisationen x1 , . . . , xn resultierende numerische Wert ( , . . . , xn ) g x1 ist der zugehörige Schätzwert. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 248 / 458 9. Parameterschätzung Beispiele: = g (X1 , . . . , Xn ) = n1 X̄ 9.1. Parameterschätzung Pn i = 1 Xi Schätzfunktion für den Erwartungswert x̄ S µ = E (X ) zugehörige Realisation der Stichprobe 2 Pn 2 i =1 (Xi − X̄ ) 2 Varianz σ = Var (X ) 1 = g (X1 , . . . , Xn ) = n− 1 Schätzfunktion für die Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 9. Parameterschätzung 25. Juli 2011 249 / 458 9.2. Eigenschaften von Schätzstatistiken Eigenschaften von Schätzstatistiken Erwartungstreue = g (X1 , . . . , Xn ) Parameter θ , falls Eine Schätzstatistik T unverzerrt für den heiÿt erwartungstreu oder ( )=θ Eθ T Sie heiÿt asymptotisch erwartungstreu für θ, falls lim Eθ (T ) n→∞ Die =θ Verzerrung oder der Bias ist deniert durch ( ) = Eθ (T ) − θ Biasθ T Das tief gestellte θ in Eθ soll andeuten, dass der Erwartungswert von T bezüglich der Verteilung berechnet werden soll, die θ als wahren Parameter besitzt. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 250 / 458 9. Parameterschätzung Beispiele: ( ) = Eµ ( n1 Eµ X̄ 9.2. Eigenschaften von Schätzstatistiken Pn Pn 1 Xi ) = µ (Xi ) = µ i =1 n i =1 E | {z } µ Also ist X̄ ein erwartungstreuer Schätzer für den Erwartungswert Pn 1 2 2 2 Eσ 2 (S ) = Eσ 2 ( n−1 i =1 (Xi − X̄ ) ) = · · · = σ Also ist S Eσ 2 S̃ ( 2 2 ein erwartungstreuer Schätzer für die Varianz ) = Eσ2 ( n1 Also ist S̃ Biasσ 2 S̃ ( 2 2 Also ist S̃ Pn n−1 2 2 i =1 (Xi − X̄ ) ) = · · · = n σ kein erwartungstreuer Schätzer für die Varianz ) = Eσ2 (S̃ 2 ) − σ 2 = − n1 σ 2 2 asymptotisch erwartungstreu für Jürgen Dippon (ISA) Frage: Wie genau schätzt X̄ ( ) = Var Var X̄ σ2 σ2 Statistik für Wirtschaftswissenschater 9. Parameterschätzung Der µ 25. Juli 2011 251 / 458 9.2. Eigenschaften von Schätzstatistiken den Erwartungswert? n 1 X n i =1 ! X i = 1 n 2 n X ( i) = Var X i =1 σ2 n Standardfehler einer Schätzstatistik ist bestimmt durch die Standardabweichung der Schätzstatistik σg = p ( ( Var g X1 , . . . , Xn )) Achtung: Der Begri des Standardfehlers ist nur sinnvoll für erwartungstreue Schätzstatistiken! Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 252 / 458 9. Parameterschätzung 9.2. Eigenschaften von Schätzstatistiken Der Standardfehler von X̄ ist damit σ σX̄ = √ n Da σ2 meist unbekannt sein dürfte, muss es geschätzt werden. Ein σX̄ von X̄ ist s Pn 1 2 i =1 (Xi − X̄ ) n −1 = Schätzer für den Standardfehler r σ̂X̄ = Jürgen Dippon (ISA) S 2 n n Statistik für Wirtschaftswissenschater 9. Parameterschätzung 25. Juli 2011 253 / 458 9.2. Eigenschaften von Schätzstatistiken Erwartete mittlere quadratische Abweichung und Konsistenz Die erwartete mittlere quadratische Abweichung (mean squared error) ist bestimmt durch MSE =E (T − θ)2 =E (T − E (T ) + E (T ) − θ)2 =E ((T − E (T ))2 + 2 E ((T − E (T )) ((E (T ) − θ)) {z } | =0 2 + E ((E (T ) − θ) )) =Var (T ) + (Bias (T ))2 Diese Zerlegung des MSE zeigt, dass der Standardfehler nur dann ein brauchbares Vergleichsmaÿ für die Güte eines Schätzers ist, wenn der Schätzer erwartungstreu ist, d.h. Bias (T ) Jürgen Dippon (ISA) = 0. Statistik für Wirtschaftswissenschater 25. Juli 2011 254 / 458 9. Parameterschätzung Eine Schätzstatistik heiÿt MSE und 9.2. Eigenschaften von Schätzstatistiken konsistent im quadratischen Mittel, falls = E ((T − θ)2 ) → 0 für n →∞ für n →∞ schwach konsistent, falls ∀ P ε>0 (|T − θ| ≥ ε) → 0 Konsistenz im quadratischen Mittel impliziert schwache Konsistenz. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 9. Parameterschätzung 25. Juli 2011 255 / 458 9.2. Eigenschaften von Schätzstatistiken Beispiel: Arithmetisches Mittel X1 , . . . , Xn ∼ N (µ, σ 2 ) unabhängige Zufallsvariablen Schätzen des Erwartungswertes µ X̄ Da E X̄ = · · · = µ, Da Var (X̄ ) Mittel. mittels = 1 n n X i =1 i ist X̄ erwartungstreu. 2 = · · · = σn → 0 (n → ∞) Ferner gilt X̄ Jürgen Dippon (ISA) X ist X̄ konsistent im quadratischen σ2 ∼ N µ, n Statistik für Wirtschaftswissenschater 25. Juli 2011 256 / 458 9. Parameterschätzung 9.2. Eigenschaften von Schätzstatistiken Also P ! X̄ − µ ε σ ≤ σ √ √n n (|X̄ − µ| ≤ ε) = P ε =Φ ! −Φ − √σ n =2 Φ ε √σ ε ! √σ n ! n {z } →1 für n → ∞ −1 | →1 für n →∞ Damit ist X̄ auch schwach konsistent. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 9. Parameterschätzung 25. Juli 2011 257 / 458 9.3. Konstruktion von Schätzfunktionen Konstruktion von Schätzfunktionen Wir diskutieren vier Ideen zur Konstruktion von Schätzfunktionen: Maximum-Likelihood-Schätzung Kleinste-Quadrate-Schätzung Bayes-Schätzung Intervallschätzung Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 258 / 458 9. Parameterschätzung 9.3. Konstruktion von Schätzfunktionen Maximum-Likelihood-Schätzung Beispiel: Gesucht ist die Wahrscheinlichkeit p für das Auftreten eines Ereignisses A im Rahmen eines Experiments ( X = 0 falls A nicht eintritt 1 falls A eintritt Die Ausgänge von n unabhängigen Wiederholungen des Experimentes werden dann beschrieben durch die n unabhängigen wie X verteilten Zufallsvariablen X1 , . . . , Xn Klar: Pn i =1 Xi ∼ Bin(n, p ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 9. Parameterschätzung 25. Juli 2011 259 / 458 9.3. Konstruktion von Schätzfunktionen Hierbei ist n natürlich bekannt, nicht jedoch die Erfolgswahrscheinlichkeit p ( )=P L p n X i =1 ! i =k X = n k p k (1 − p )n−k Das Maximum-Likelihood-Prinzip wählt als Schätzwert p̂ für die unbekannte Wahrscheinlichkeit p den Wert, welcher L(p ) maximiert. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 260 / 458 9. Parameterschätzung Allgemein: Sei θ 9.3. Konstruktion von Schätzfunktionen der gesuchte ein- oder mehrdimensionale Parameter einer (diskreten oder stetigen) Dichte f (x |θ). Dann ist die gemeinsame Dichte von n unabhängigen identischen Wiederholungen gegeben durch f (x1 , . . . , xn |θ) = f (x1 |θ) · . . . · f (xn |θ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 9. Parameterschätzung 25. Juli 2011 261 / 458 9.3. Konstruktion von Schätzfunktionen Anstatt diese Dichte als eine Funktion zu beliebigen Werten x1 , . . . , xn und einem festen Parameter Likelihoodfunktion θ zu interpretieren, interpretieren wir die sog. (θ) = f (x1 , . . . , xn |θ) L als eine Funktion von θ zu den gegebenen festen Realisationen x1 , . . . , xn und wählen als Parameterschätzung denjenigen Parameter θ, für welchen die Likelihood maximal ist, d.h. (θ̂) = max L(θ) L Eine so konstruierte Schätzfunktion T Maximum-Likelihood-Schätzer. Jürgen Dippon (ISA) θ = θ̂(x1 , . . . , xn ) Statistik für Wirtschaftswissenschater heiÿt 25. Juli 2011 262 / 458 9. Parameterschätzung 9.3. Konstruktion von Schätzfunktionen Das Maximum bestimmt man meist durch Ableiten und Nullsetzen der Ableitung. Häug ist es jedoch geschickter, die sog. ln L(θ) = n X i =1 in θ Log-Likelihood ln f (xi |θ) zu maximieren, welche an denselben Stellen maximal wird, da die Logarithmusfunktion ln eine streng monoton wachsende Funktion ist. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 9. Parameterschätzung 25. Juli 2011 263 / 458 9.3. Konstruktion von Schätzfunktionen Beispiel: Poisson-Verteilung Gesucht: Parameter λ einer Pois (λ)-verteilten Zufallsgröÿe X Gegeben: Realisationen x1 , . . . , xn von unabhängigen identisch wie X verteilten Zufallsvariablen X1 , . . . , Xn Likelihoodfunktion (λ) = e L −λ λ x1 x1 ! · ... · e xn −λ λ n! x Log-Likelihoodfunktion ln L(λ) = ∂ ln L(λ) = ∂λ n X i =1 n X ln e −λ λ (−1 + xi i! x = n X i =1 (−λ + xi ln λ − ln (xi !)) i )=0 λ̂ x iP =1 n x i =⇒ λ̂ = i =1 = x̄ n Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 264 / 458 9. Parameterschätzung 9.3. Konstruktion von Schätzfunktionen Beispiel: Normalverteilung Gesucht: Parameter X1 , . . . , Xn µ, σ einer N (µ, σ 2 )-verteilten Zufallsgröÿe X unabhängige Wiederholungen einer wie X -verteilten Zufallsgröÿe. Likelihoodfunktion zu den Realisierungen L (µ, σ) = √ ln L(µ, σ) = = 1 2πσ (x −µ) − 1 2 2σ e n X ln i =1 n X − ln √ Jürgen Dippon (ISA) · ... · √ 1 2πσ √ i =1 2 1 2πσ (xi − µ)2 − 2σ 2 9. Parameterschätzung µ und ( xn −µ)2 2 2σ (xi − µ)2 2π − ln σ − 2σ 2 Statistik für Wirtschaftswissenschater Partielles Dierenzieren nach e − σ 25. Juli 2011 9.3. Konstruktion von Schätzfunktionen und Nullsetzen n ∂ ln L(µ, σ) X xi − µ̂ = =0 ∂µ σ̂ 2 i =1 n 2 ∂ ln L(µ, σ) X 1 2(xi − µ̂) = − + =0 ∂σ σ̂ 2σ̂ 3 i =1 Jürgen Dippon (ISA) 265 / 458 Statistik für Wirtschaftswissenschater 25. Juli 2011 (1) (2) 266 / 458 9. Parameterschätzung Aus (1): n X 9.3. Konstruktion von Schätzfunktionen i − nµ̂ = 0, x i =1 also µ̂ = x̄ Aus (2): n 2 X 2(xi − µ̂) − + =0 σ̂ 2σ̂ 3 i =1 n also v v u n u n u1 X u1 X 2 t (xi − µ̂) = t (xi − x̄ )2 σ̂ = n n i =1 i =1 Oensichtlich erhält man die bereits bekannten Schätzstatistiken X̄ und S̃ . Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 9. Parameterschätzung 25. Juli 2011 267 / 458 9.3. Konstruktion von Schätzfunktionen Kleinste-Quadrate-Schätzung Prinzip der kleinsten Quadrate: Wähle den Parameter so, dass die Summe der quadrierten Abweichungen zwischen Beobachtungswert und geschätztem Wert minimal wird. Wichtig im Rahmen der Regressionsanalyse. Beispiel: Schätze den Lageparameter µ so, dass Q (µ) := n X (Xi − µ)2 minimal i =1 n X dQ =2 (Xi − µ̂) = 0 dµ i =1 n 1 X =⇒ µ̂ = Xi = X̄ n i =1 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 268 / 458 9. Parameterschätzung 9.3. Konstruktion von Schätzfunktionen Bayes-Schätzung Im Gegensatz zur klassischen oder in der frequentistischen Statistik geht man Bayes-Statistik davon aus, dass der Parameter θ einer Zufallsvariablen Θ selber Realisierung mit einer vorgegebenen a-priori-Verteilung ist. Unter Verwendung einer Bayes-Formel wird dann, basierend auf einer Stichprobe, die a-posteriori-Verteilung von θ Θ bestimmt. Als Schätzwert für wählt man dann häug den Erwartungswert, Median oder Modus der a-posteriori-Verteilung von Jürgen Dippon (ISA) Θ. Statistik für Wirtschaftswissenschater 9. Parameterschätzung 25. Juli 2011 269 / 458 9.3. Konstruktion von Schätzfunktionen Wir betrachten zunächst den Fall, dass nur eine Beobachtung x der diskreten oder stetigen Zufallsvariablen X vorliegt. Benötigte Bezeichnungen: f (x , θ) f (θ) a-priori-Dichte von f (x ) Randverteilung von X f (θ|x ) gemeinsame Dichte von X und (x |θ) (Randdichte von a-posteriori-Dichte von Beobachtung X f Θ Θ Θ (bedingte Dichte von Θ, gegeben die = x) die bedingte Dichte von X , gegeben Jürgen Dippon (ISA) Θ) Θ=θ Statistik für Wirtschaftswissenschater 25. Juli 2011 270 / 458 9. Parameterschätzung Dann gilt folgende Form des (θ|x ) = f = 9.3. Konstruktion von Schätzfunktionen Satzes von Bayes (x , θ) f (x |θ)f (θ) = f (x ) f (x ) f (x |θ)f (θ) P falls Θ i f (x |θi )f (θi ) f R f (x |θ)f (θ) f (x |θ)f (θ)d θ falls Θ diskret stetig (x1 , . . . , xn ) vor, ersetzen Dichte f (x1 , . . . , xn |θ). Sind die Liegt statt einer Beobachtung x eine Stichprobe wir f (x |θ) durch die bedingte gemeinsame Variablen X1 , . . . , Xn unabhängig und identisch verteilt, so gilt f (x1 , . . . , xn |θ) = f (x1 |θ) · . . . · f (xn |θ) = L(θ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 9. Parameterschätzung Die a-posteriori-Dichte von θ vorausgesetzt, (Ist Θ Θ 271 / 458 9.3. Konstruktion von Schätzfunktionen zur Stichprobe durch f 25. Juli 2011 (θ|x1 , . . . , xn ) = R (x1 , . . . , xn ) ist dann gegeben (θ)f (θ) L(θ)f (θ)d θ L ist eine stetige Zufallsvariable. diskret, muss das Integral im Nenner sinngemäÿ durch eine Summe ersetzt werden.) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 272 / 458 9. Parameterschätzung 9.3. Konstruktion von Schätzfunktionen Daraus können dann verschiedene Bayes-Schätzer abgeleitet werden: A-posteriori-Erwartungswert: θ̂p = E (θ|x1 , . . . , xn ) = (falls θ Z θf (θ|x1 , . . . , xn )d θ stetig) A-posteriori-Modus oder Maximum-a-posteriori-Schätzer: wähle denjenigen Parameterwert θ̂MAP , für den die a-posteriori-Dichte maximal wird, d.h. (θ̂MAP )f (θ̂MAP ) = max L(θ)f (θ) L θ oder äquivalent ln L(θ̂MAP ) Jürgen Dippon (ISA) + ln f (θ̂MAP ) = max {ln L(θ) + ln f (θ)} θ Statistik für Wirtschaftswissenschater 9. Parameterschätzung 25. Juli 2011 273 / 458 9.3. Konstruktion von Schätzfunktionen Bemerkungen Das Integral im Nenner der a-posteriori-Dichte ist nur in speziellen Fällen explizit zu berechnen und muss deshalb häug approximiert werden, z.B. mit Monte-Carlo-Methoden. Für die Berechnung des Maximum-a-posteriori-Schätzers genügt die Maximierung des Zählers. Je acher die a-priori-Dichte von Θ, d.h. je geringer die (angenommene) Kenntnis über die Lage des wahren Parameters θ, umso mehr stimmt der MAP-Schätzer mit dem Maximum-Likelihood-Schätzer überein. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 274 / 458 9. Parameterschätzung 9.3. Konstruktion von Schätzfunktionen Beispiel X1 , . . . , Xn unabhängige Wiederholungen von X gesucht und σ2 ∼ N (µ, σ 2 ), wobei µ bekannt sei. µ: N (µ0 , σ02 ) mit bekanntem µ0 und σ02 Likelihoodfunktion zu x1 , . . . , xn |µ: 1 (x1 − µ)2 1 (xn − µ)2 L(µ) = √ exp − · ... · √ exp − 2σ 2 2σ 2 2πσ 2πσ A-priori-Verteilung von A-posteriori-Dichte von f µ|x1 , . . . , xn (µ|x1 , . . . , xn ) = R (µ)f (µ) L(µ)f (µ)d µ L = ··· = Jürgen Dippon (ISA) Dichte der N (µ̃, σ̃ 2 Statistik für Wirtschaftswissenschater 9. Parameterschätzung )-Verteilung 25. Juli 2011 275 / 458 9.3. Konstruktion von Schätzfunktionen mit a-posteriori-Erwartungswert σ02 σ2 µ̃ = x̄ + µ 2 2 2 2 0 nσ + σ nσ + σ 0 0 n und a-posteriori-Varianz σ2 2 σ̃ = n + σ2 σ02 Extremfälle: Für Für σ02 → 0 (exaktes Vorwissen) folgt µ̃ → µ0 und σ̃ 2 → 0 2 σ02 → ∞ (kein Vorwissen) folgt µ̃ → x̄ und σ̃ 2 → σn Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 276 / 458 9. Parameterschätzung 9.4. Intervallschätzung Intervallschätzung Wie der Name schon sagt, liefert die Punktschätzung einen (zufälligen) Wert θ̂ für den gesuchten Parameter θ, der aber in den meisten Fällen mit dem gesuchten Wert nicht übereinstimmt. Ist der Schätzer erwartungstreu, liefert der Standardfehler ein sinnvolles Maÿ für die Präzision des Schätzverfahrens. Ein alternatives Vorgehen steht in Form der Intervallschätzung zur Verfügung, welches ein (zufallsabhängiges) Intervall angibt, in dem der gesuchte Parameter mit einer vorgegebenen (Mindest-)Wahrscheinlichkeit liegt: Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 9. Parameterschätzung Zu vorgegebener 25. Juli 2011 277 / 458 9.4. Intervallschätzung Irrtumswahrscheinlichkeit α werden aus den Stichprobenvariablen X1 , . . . , Xn Schätzstatistiken G u = gu (X1 , . . . , Xn ) ≤ Go = go (X1 , . . . , Xn ) so konstruiert, dass P (θ ∈ [Gu , Go ]) ≥ 1 − α d.h. P (Gu ≤ θ ≤ Go ) ≥ 1 − α. Dann heiÿt [Gu , Go ] (1 − α)-Kondenzintervall (oder (1 − α)-Vertrauensintervall) für den unbekannten Parameter θ. Typische Werte für Jürgen Dippon (ISA) α: 0.1, 0.05, 0.01. Statistik für Wirtschaftswissenschater 25. Juli 2011 278 / 458 9. Parameterschätzung Setzt man prinzipiell Gu X1 , . . . , Xn ) = −∞ erhält man ein 9.4. Intervallschätzung oder Go = ∞ (für alle Werte von einseitiges (1 − α)-Kondenzintervall P (θ ≤ Go ) ≥ 1 − α mit der oberen Kondenzschranke Go , bzw. ( u ≤ θ) ≥ 1 − α P G mit der unteren Kondenzschranke Gu . Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 9. Parameterschätzung 25. Juli 2011 279 / 458 9.4. Intervallschätzung Ist x1 , . . . , xn eine Realisation von X1 , . . . , Xn , so ergibt sich durch [gu (x1 , . . . , xn ), go (x1 , . . . , xn )] ein realisiertes Kondenzintervall, das den unbekannten Parameter θ entweder enthält oder nicht enthält. (1 − α)-Kondenzintervall [Gu , Go ] für θ muss so interpretiert werden, dass [Gu , Go ] in (1 − α) · 100% der Fälle, in denen Kondenzintervalle geschätzt werden, die resultierenden Kondenzintervalle den wahren Wert θ Das enthalten. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 280 / 458 9. Parameterschätzung 9.4. Intervallschätzung Kondenzintervalle für Erwartungswert und Varianz X1 , . . . , Xn unabhängige Wiederholungen von X ∼ N (µ, σ 2 ). Gesucht: Kondenzintervalle für den unbekannten Erwartungswert µ. 1. Fall: σ 2 bekannt X̄ ist ein Schätzer für µ X̄ −µ X̄ √σ n Jürgen Dippon (ISA) σ2 ∼ N µ, n ∼ N (0, 1) Statistik für Wirtschaftswissenschater 9. Parameterschätzung Sei z1− α das 2 (1 − α2 )-Quantil 25. Juli 2011 281 / 458 9.4. Intervallschätzung der N (0, 1)-Verteilung. Dann gilt 1 −α=P −z1− α2 ≤ =P X̄ [Gu , Go ] = n ≤ z1− α2 n σ σ − z1− α2 √ ≤ µ ≤ X̄ + z1− α2 √ n X̄ (1 − α)-Kondenzintervall Jürgen Dippon (ISA) √σ n Damit ist ein −µ σ σ −z1− α2 √ ≤ X̄ − µ ≤ z1− α2 √ =P X̄ ! n σ σ − z1− α2 √ , X̄ + z1− α2 √ n für n µ. Statistik für Wirtschaftswissenschater 25. Juli 2011 282 / 458 9. Parameterschätzung n → ∞: α → 1: Breite von [Gu , Go ] Breite von [Gu , Go ] 9.4. Intervallschätzung →0 →∞ In ähnlicher Weise ndet man die einseitigen Kondenzintervalle für − ∞, X̄ Jürgen Dippon (ISA) σ i + z1− α √ 2 n h bzw. X̄ σ − z1− α2 √ , ∞ n Statistik für Wirtschaftswissenschater 9. Parameterschätzung µ: 25. Juli 2011 283 / 458 9.4. Intervallschätzung Beispiel: Proteingehalt eines Biolms in mg/g Trockenmasse Modellannahme: Proteingehalt ist N (µ, σ 2 )-verteilt Stichprobe (n=80) x <- c (321 ,334 ,356 ,398 ,376 ,343 ,312 ,334 ,365 ,376 ,334 ,355 ,388 , 322 ,311 ,388 ,339 ,350 ,354 ,334 ,324 ,323 ,345 ,376 ,352 ,383 , 326 ,327 ,334 ,385 ,332 ,312 ,385 ,360 ,398 ,399 ,360 ,310 ,334 , 323 ,335 ,372 ,383 ,372 ,382 ,389 ,389 ,311 ,325 ,327 ,373 ,382 , 314 ,315 ,317 ,318 ,311 ,390 ,380 ,370 ,385 ,392 ,399 ,373 ,335 , 336 ,335 ,335 ,335 ,335 ,334 ,335 ,334 ,336 ,334 ,331 ,339 ,335 , 331 ,338) µ: µ̂ = x̄ = 349.25 σ̂ 2 = s 2 = 27.12 Punktschätzung für den unbekannten Erwartungswert Punktschätzung für die unbekannte Varianz σ2: (Stichprobenvarianz) Schätzer für den Standardfehler von x̄ : Jürgen Dippon (ISA) σ̂x̄ = q s 2 = 3.03 n Statistik für Wirtschaftswissenschater 25. Juli 2011 284 / 458 9. Parameterschätzung 9.4. Intervallschätzung 95%-Kondenzintervall für den Erwartungswert bei bekannter Standardabweichung (die hier nicht bekannt ist, deshalb nehmen wir mal σ = 27 an): σ σ x̄ − z1− α √ , x̄ + z1− α √ 2 2 n n 27 27 = 349.25 − 1.96 · √ , 349.25 + 1.96 · √ 80 80 = [343.31, 355.19] Berechnung des konkreten 95%-Kondenzintervalles in R: > mean ( x ) - qnorm (0.975)* sd ( x )/ sqrt ( length ( x )) [1] 343.3061 > mean ( x )+ qnorm (0.975)* sd ( x )/ sqrt ( length ( x )) [1] 355.1939 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 9. Parameterschätzung 25. Juli 2011 285 / 458 9.4. Intervallschätzung In einer kleinen Simulationsstudie überprüfen wir, ob das oben angegebene (theoretische) Kondenzintervall das vorgeschriebene Niveau einhält: in . conf . int <- rep ( FALSE ,1000) for (i in 1:1000){ x <- rnorm (80 , mean =350 , sd =27) lower <- mean ( x ) - qnorm (0.975)* sd ( x )/ sqrt ( length ( x )) upper <- mean ( x )+ qnorm (0.975)* sd ( x )/ sqrt ( length ( x )) cat (" i =" ,i ,":" , c ( lower , upper ), "\ n ") if ( lower <= 350 & 350 <= upper ){ in . conf . int [ i ] <- TRUE } } table ( in . conf . int )/1000 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 286 / 458 9. Parameterschätzung 9.4. Intervallschätzung 2. Fall: σ 2 unbekannt Da σ2 wird unbekannt ist, ist auch die Verteilung von σ durch S v u u =t n X 1 n −1 i =1 X̄ −µ σ √ n unbekannt. Deshalb (Xi − X̄ )2 geschätzt. Die Zufallsvariable X̄ −µ √S n ist jetzt allerdings nicht mehr normalverteilt, sondern tn−1 - verteilt mit (n − 1) Freiheitsgraden. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 9. Parameterschätzung 25. Juli 2011 287 / 458 9.4. Intervallschätzung Sind Z , Z1 , . . . , Zn unabhängige N (0, 1)-verteilte Zufallsvariablen, dann heiÿt die Verteilung von T t =q Z Z12 +···+Zn2 n - oder Student-verteilt mit n Freiheitsgraden. Die Tails (Flanken) der Dichten fallen nur ∼ x −n und nicht ∼ exp(− x2 ) 2 wie bei der Normalverteilung. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 288 / 458 9. Parameterschätzung t n−1,1− α2 sei das (1 − α2 )-Quantil Konstruktion eines 1 9.4. Intervallschätzung der tn−1 -Verteilung. (1 − α)-Kondenzintervalles −tn−1,1− α2 ≤ −α=P =P X̄ −µ ≤ tn−1,1− α2 √S n X̄ für den Erwartungswert µ: ! S S − tn−1,1− α2 √ ≤ µ ≤ X̄ + tn−1,1− α2 √ n n Damit ist [Gu , Go ] = ein X̄ S S − tn−1,1− α2 √ , X̄ + tn−1,1− α2 √ (1 − α)-Kondenzintervall n für den Erwartungswert µ, n falls σ2 unbekannt ist. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 9. Parameterschätzung 25. Juli 2011 289 / 458 9.4. Intervallschätzung Da für groÿe Stichprobenumfänge n das arithmetische Mittel X̄ approximativ N (µ, σ2 n )-verteilt ist, kann man zeigen, dass für S S [Gu , Go ] = X̄ − z1− α2 √ , X̄ + z1− α2 √ n ein approximatives falls σ 2 (1 − α)-Kondenzintervall n ≥ 30 n für den Erwartungswert µ ist, unbekannt ist. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 290 / 458 9. Parameterschätzung Konstruktion eines 9.4. Intervallschätzung (1 − α)-Kondenzintervalles für die Varianz bei normalverteilter Grundgesamtheit: σ2 kann mittels S 2 geschätzt werden. Sind Z1 , . . . , Zn unabhängige N (0, 1)-verteilte Zufallsvariablen, so besitzt 2 + · · · + Zn2 Z1 eine so genannte χ2 -Verteilung Man kann zeigen, dass n Jürgen Dippon (ISA) mit n Freiheitsgraden. −1 2 2 S ∼ χn−1 2 σ Statistik für Wirtschaftswissenschater 9. Parameterschätzung Seien mit χ2n−1, α (n − 1) 2 und χ2n−1, 1−α 2 die α 2 25. Juli 2011 291 / 458 9.4. Intervallschätzung - bzw. (1 − α2 )-Quantile der χ2 -Verteilung Freiheitsgraden. Dann gilt: 2 1 − α = P χn−1, α ≤ 2 (n − 1)S 2 χ2n−1,1− α =P 2 Also ist ein " 2 −1 2 2 S ≤ χ n−1,1− α2 2 σ ! 2 (n − 1)S ≤ σ2 ≤ χ2n−1, α n (n − 1)S (n − 1)S , χ2n−1,1− α χ2n−1, α 2 2 (1 − α)-Kondenzintervall 2 2 # für die Varianz bei einer normalverteilten Grundgesamtheit. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 292 / 458 9. Parameterschätzung 9.4. Intervallschätzung Bei einem dichotomen Merkmal X wird die Auftretenswahrscheinlichkeit = P (X = 1) p bei Vorliegen der Stichprobe X1 , . . . , Xn von unabhängigen Bin (1, p )-verteilten Zufallsvariablen mittels p̂ geschätzt. Da 1 = n Pn i =1 Xi ∼ Bin(n, p ), n X X i =1 i ist nach dem zentralen Grenzwertsatz p̂ − p − E (X̄ ) p =q p(1−p) Var (X̄ ) n X̄ approximativ N (0, 1)-verteilt. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 9. Parameterschätzung 25. Juli 2011 293 / 458 9.4. Intervallschätzung Da p unbekannt ist, wird p durch p̂ geschätzt. Dann gilt 1 −p ≤ z1− α2 p̂(1−p̂) n p̂ − α ∼ P −z1− α2 ≤ q r =P p̂ − z1− α2 p̂ (1 − p̂ ) n r ≤ p ≤ p̂ + z1− α2 p̂ (1 − p̂ ) ! n Also ist " [Gu , Go ] = ein approximatives r p̂ − z1− α2 p̂ (1 − p̂ ) n r , p̂ + z1− α2 (1 − α)-Kondenzintervall p̂ (1 − p̂ ) # n für die Wahrscheinlichkeit p in einer Bernoulli-verteilten Grundgesamtheit. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 294 / 458 9. Parameterschätzung 9.4. Intervallschätzung Beispiel: Sonntagsfrage Von n = 496 befragte Frauen zeigten = Unionsparteien. Also ist p̂ 200 . 496 Pn i =1 Xi = 200 Bei einer Sicherheitswahrscheinlichkeit von 1 p = P (X = 1 ) eine Präferenz für die − α = 0.95 erhält man für ein approximatives 95%-Kondenzintervall " r − z1− α2 p̂ p̂ (1 − p̂ ) " = n r 0.403 − 1.96 r , p̂ + z1− α2 0.403 · 0.597 496 p̂ (1 − p̂ ) # n # ,··· + ... = [0.360, 0.446] Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 295 / 458 10. Testen von Hypothesen 9 10 Parameterschätzung Testen von Hypothesen Binomial- und Gauÿ-Test Approximativer Binomialtest Gauÿ-Test Prinzipien des Testens Fehlentscheidungen Zusammenhang zwischen statistischen Tests und Kondenzintervallen Überschreitungswahrscheinlichkeit Gütefunktion Durchführung eines Tests mit R 11 Spezielle Tests 12 Lineare Regression 13 Zeitreihen Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 296 / 458 10. Testen von Hypothesen Testen von Hypothesen Neben dem Schätzen von Parametern theoretischer Verteilungen ist es oft von Interesse, Vermutungen über einen Parameter oder eine Verteilung in der Grundgesamtheit zu überprüfen. Die Vermutung wird in Bezug auf die Grundgesamtheit aufgestellt, deren Überprüfung jedoch unter Verwendung einer Stichprobe durchgeführt. Inwieweit der Schluss von der Stichprobe auf die Grundgesamtheit zulässig ist, ist Teil des statistischen Tests. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 10. Testen von Hypothesen 25. Juli 2011 297 / 458 10.1. Binomial- und Gauÿ-Test Binomial- und Gauÿ-Test Beispiel: Eine Klausur besteht aus n = 30 Aufgaben, bei der jeweils eine von zwei Antworten auszuwählen ist. Ein Student beantwortet 19 Fragen korrekt und 11 Fragen falsch. Frage: Hat der Student geraten oder tatsächlich etwas gewusst? X X1 , ..., X30 Also ist S i= 1, falls i -te Antwort des Studenten richtig 0, sonst seien unabhängige Bin (1, p )-verteilte Zufallsvariablen. = P30 i = 1 Xi Bin (30, p )-verteilt. Wenn der Student nichts weiÿ, ist p = 1 . 2 Besitzt der Student gewisse Kenntnisse, so ist p Jürgen Dippon (ISA) > Statistik für Wirtschaftswissenschater 1 2 25. Juli 2011 298 / 458 10. Testen von Hypothesen Auf Grundlage der Daten Nullhypothese (S = 19) 10.1. Binomial- und Gauÿ-Test wollen wir uns zwischen der o :p= H und der 1 2 Alternativhypothese H1 :p> 1 2 entscheiden. Ist die Prüfgröÿe oder Teststatistik S = 30 X i =1 gröÿer als ein X i kritischer Wert c , entscheiden wir uns für H1 . Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 10. Testen von Hypothesen 25. Juli 2011 299 / 458 10.1. Binomial- und Gauÿ-Test Wie ist der kritische Wert c nun zu wählen? c = 16, c = 17, c = 18, . . .? c wird so gewählt, dass H0 höchstens mit Wahrscheinlichkeit fälschlicherweise abgelehnt wird: α = 0.05 > P ( > c} | {z S α = 0.05 |H0 ) H0 wird abgelehnt = 1 − P (S ≤ c |H0 ) 30−i c i X 30 1 1 =1− 1− i 2 2 i =0 Es ist also die kleinste natürliche Zahl c gesucht, so dass c 30 X 30 1 i =0 Jürgen Dippon (ISA) i 2 > 0.95 Statistik für Wirtschaftswissenschater 25. Juli 2011 300 / 458 10. Testen von Hypothesen 10.1. Binomial- und Gauÿ-Test Bestimmung des kritischen Wertes c mittels R: > qbinom (0.95 , size =30 , prob =0.5) > 19 Damit wählen wir c Da S = 19, = 19 als kritischen Wert. können wir H0 nicht ablehnen, wenn wir sicherstellen wollen, dass H0 höchstens mit Wahrscheinlichkeit Niveau, fälschlicherweise abgelehnt wird. Jürgen Dippon (ISA) α = 0.05, Statistik für Wirtschaftswissenschater 10. Testen von Hypothesen dem sogenannten 25. Juli 2011 301 / 458 10.1. Binomial- und Gauÿ-Test Abbildung: Binomialverteilung Erstellung der Graken mittels: plot ( dbinom (0:30 , size =30 , prob =0.5) , type =" h "); plot ( pbinom (0:30 , size =30 , prob =0.5) , type =" s "); Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 302 / 458 10. Testen von Hypothesen 10.1. Binomial- und Gauÿ-Test In unserem Beispiel wird {0, 1, . . . , 19} {20, 21, . . . , 30} als Annahmebereich als Ablehnungsbereich bezeichnet. Der so konstruierte statistische Hypothesentest heiÿt Binomialtest. exakter Da der kritische Wert c für groÿe Stichprobenumfänge n aufwändig zu berechnen ist, verwendet man stattdessen den approximativen Binomialtest. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 10. Testen von Hypothesen 25. Juli 2011 303 / 458 10.1. Binomial- und Gauÿ-Test Approximativer Binomialtest Beispiel: statistische Qualitätskontrolle Bei der Produktion von Speicherchips entstehen 10% unbrauchbare Chips. Anhand einer Stichprobe mit Umfang n = 1000 soll überprüft werden, ob der Produktionsprozess sich verschlechtert hat, also mehr als 10% Ausschuss entsteht. Wie oben seien i= X 1, falls i -tes Stichprobenelement Ausschuss ist 0, sonst und X1 , ..., Xn unabhängige Bin (1, p )-verteilte Zufallsvariablen. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 304 / 458 10. Testen von Hypothesen Dann ist S = n X X i =1 10.1. Binomial- und Gauÿ-Test i ∼ Bin(n, p ) und nach dem zentralen Grenzwertsatz von Moivre-Laplace =p Z S − np np (1 − p ) ungefähr N (0, 1)-verteilt Das Testproblem ist: H0 : p = p0 = 0.1 gegen H1 : p > p0 = 0.1 Der eigentlich interessierende Sachverhalt wird durch die Alternativhypothese ausgedrückt. Wir lehnen H0 ab, falls S bzw. Z zu groÿ ist. Dabei soll sichergestellt werden, dass die Abweichung von S zu E (S ) = np0 bei Vorliegen der Nullhypothese nicht alleine durch den Zufall erklärt werden kann. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 10. Testen von Hypothesen 25. Juli 2011 305 / 458 10.1. Binomial- und Gauÿ-Test Hierbei ist es günstig, den kritischen Wert für Z anstatt für S zu ermitteln: 0.05 Also ist c = z1−α , = α > P ( |Z {z > c} |H0 ) H0 ablehnen ≈ 1 − Φ(c ), da Z ∼ N (0, 1) das (1 − α)-Quantil unter H0 der N (0, 1)-Verteilung, als kritischer Wert zu wählen. Daraus ergibt sich der Ablehnungsbereich = (z1−α , ∞) c H0 α wird also zum Niveau Z abgelehnt, falls =p S − np0 np0 Jürgen Dippon (ISA) (1 − p0 ) > z1−α Statistik für Wirtschaftswissenschater 25. Juli 2011 306 / 458 10. Testen von Hypothesen 10.1. Binomial- und Gauÿ-Test Abbildung: Kritischer Bereich Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 10. Testen von Hypothesen Für n = 1000, p = 0.1, α = 0.05 Z = 25. Juli 2011 307 / 458 10.1. Binomial- und Gauÿ-Test wird H0 abgelehnt, falls S − 100 √ > 1.64 90 d.h. S Jürgen Dippon (ISA) > 115.56 Statistik für Wirtschaftswissenschater 25. Juli 2011 308 / 458 10. Testen von Hypothesen 10.1. Binomial- und Gauÿ-Test Soll überprüft werden, ob sich der Produktionsprozess hinsichtlich der Ergebnisqualität verbessert hat, ist das Testproblem: H0 : p = p0 gegen H1 : p < p0 zu betrachten. Der dazugehörige kritische Bereich lautet c = (−∞, −z1−α ) = (−∞, zα ) Soll überprüft werden, ob sich der Produktionsprozess hinsichtlich der Ergebnisqualität verändert hat, ist das Testproblem: H0 : p = p0 gegen H1 : p 6= p0 zu betrachten. Der dazugehörige kritische Bereich lautet c Jürgen Dippon (ISA) = (−∞, zα/2 ) ∪ (z1−α/2 , ∞) Statistik für Wirtschaftswissenschater 10. Testen von Hypothesen 25. Juli 2011 309 / 458 10.1. Binomial- und Gauÿ-Test Abbildung: Beidseitiger kritischer Bereich Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 310 / 458 10. Testen von Hypothesen 10.1. Binomial- und Gauÿ-Test Zusammenfassung: Approximativer Binomialtest Gegeben seien folgende Testprobleme über den Parameter p in einer ( , )-Verteilung: Bin n p (a) (b) (c ) : p = p0 H0 : p = p0 H0 : p = p0 gegen H0 gegen gegen : p 6= p0 H1 : p < p0 H1 : p > p0 H1 Basierend auf der Prüfgröÿe Z =p S − np0 np0 (1 − p0 ) welche unter H0 näherungsweise N (0, 1)-verteilt ist, und dem vorgegebenen Niveau α entscheidet man sich für H1 im Testproblem (a), (b), (c ), Jürgen Dippon (ISA) falls falls falls |z | > z1−α/2 z < −z1−α z > z1−α Statistik für Wirtschaftswissenschater 10. Testen von Hypothesen 25. Juli 2011 311 / 458 10.1. Binomial- und Gauÿ-Test Gauÿ-Test Beispiel: Kontrollkarten Es sei bekannt, dass ein Produktionsprozess Bleistifte produziert, deren Längen X approximativ N (µ, σ µ = 17[cm] und bekannter 2 )-verteilt sind mit Erwartungswert 2 2 Varianz σ = 2.25[cm ] Um zu überprüfen, ob die produzierten Bleistifte dem Sollwert (mit erlaubter zufälliger Abweichung) entsprechen, d.h. EX = µ0 = 17, betrachtet man das Testproblem H0 : µ = µ0 = 17 gegen H1 : µ 6= 17 Dazu entnimmt man der laufenden Produktion Bleistifte mit Längen X1 , ..., Xn ∼ N (µ, σ 2 ) und untersucht die Prüfgröÿe X̄ oder die standardisierte Prüfgröÿe Z = X̄ − µ0 √ n σ welche unter H0 N (0, 1)-verteilt ist. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 312 / 458 10. Testen von Hypothesen H0 wird dann zum Niveau α 10.1. Binomial- und Gauÿ-Test abgelehnt, falls |Z | > z1−α/2 Zahlenbeispiel: n = 5, x̄ = 18.1, α = 0.01 z = x̄ − 17 √ 5 = 1.64 1.5 − µ0 √ n = σ 18.1 z1−α/2 Da |z | ≤ z1−α/2 = 2.5758 kann H0 zum Niveau α = 0.01 nicht abgelehnt werden. Ein Eingri in den Produktionsprozess ist also nicht nötig. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 10. Testen von Hypothesen 25. Juli 2011 313 / 458 10.1. Binomial- und Gauÿ-Test In der statistischen Qualitätskontrolle werden für jede Stichprobe die Mittelwerte x̄ über der Stichprobennummer in einer Grak eingetragen und mit den Kontrollgrenzen σ µ0 − z1−α/2 · √ n und σ µ0 + z1−α/2 · √ n verglichen. Bendet sich x̄ auÿerhalb dieses dadurch denierten horizontalen Streifens, gilt der Prozess als statistisch auÿer Kontrolle. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 314 / 458 10. Testen von Hypothesen 10.1. Binomial- und Gauÿ-Test Zusammenfassung: Gauÿ-Test Unabhängige Zufallsvariablen X1 , ...Xn jeweils N (µ, σ bekannter Varianz σ2 oder, falls n groÿ (Faustregel: stetiger Verteilung, E (Xi ) = µ, Var (Xi ) = σ 2 . 2 )-verteilt mit n ≥ 30) mit beliebiger Betrachte folgende Testprobleme: (a ) (b ) (c ) Unter H0 (d.h. Z = X̄ : µ = µ0 H0 : µ = µ0 H0 : µ = µ0 H0 µ = µ0 ) − µ0 √ n σ N gegen : µ 6= µ0 H1 : µ < µ0 H1 : µ > µ0 H1 gegen gegen ist (0, 1)-verteilt bzw. näherungsweise N (0, 1)-verteilt Basierend auf der Prüfgröÿe Z fällt die Entscheidung für H1 im Testproblem (a), (b), (c ), Jürgen Dippon (ISA) falls falls falls |z | > z1−α/2 z < −z1−α z > z1−α Statistik für Wirtschaftswissenschater 10. Testen von Hypothesen 25. Juli 2011 315 / 458 10.2. Prinzipien des Testens Prinzipien des Testens 1. Schritt: Quantizierung der Fragestellung 2. Schritt: Formulierung der Modellannahmen 3. Schritt: Festlegung der Null- und Alternativhypothese 4. Schritt: Wahl des Signikanzniveaus 5. Schritt: Wahl einer Prüfgröÿe (Teststatistik), die in der Lage ist, zwischen H0 und H1 zu dierenzieren. Bestimmung der Verteilung der Prüfgröÿe unter der Nullhypothese. Konstruktion des Ablehnungsbereiches. 6. Schritt: Berechnung des Wertes der Prüfgröÿe für die konkrete Stichprobe 7. Schritt: Testentscheidung Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 316 / 458 10. Testen von Hypothesen 10.2. Prinzipien des Testens Falls Abweichungen nach oben und unten interessieren, wie im Fall (a) im Gauÿ-Test, heiÿt das Testproblem zweiseitig, falls nur Abweichungen in eine Richtung interessieren, wie im Fall (b) und (c) im Gauÿ-Test, heiÿt das Testproblem einseitig. Besteht die Hypothese H0 oder H1 nur aus einem Punkt, nennt man H0 bzw. H1 einfach, sonst zusammengesetzt Tests, die keine genaueren Annahmen über die Verteilung der Zufallsvariablen X1 , ... Xn machen, heiÿen nichtparametrisch. Werden Annahmen über den Verteilungstyp gemacht, so heiÿen die Tests parametrisch. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 10. Testen von Hypothesen 25. Juli 2011 317 / 458 10.2. Prinzipien des Testens Fehlentscheidungen Bei einem statistischen Testproblem H0 gegen H1 und einem geeigneten statistischen Test spricht man von einem Fehler 1. Art, wenn H0 Fehler 2. Art, wenn H0 verworfen wird, obwohl H0 wahr ist beibehalten wird, obwohl H1 wahr ist Es sind dehalb folgende Ausgänge bei einem statistischen Test denkbar: Entscheidung für H0 H1 falsch H0 wahr richtig Fehler 1. Art (α-Fehler) falsch H1 wahr Fehler 2. Art richtig (β -Fehler) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 318 / 458 10. Testen von Hypothesen 10.2. Prinzipien des Testens Test zum Signikanzniveau α (wobei 0 < α < 1) oder Signikanztest, falls: Ein statistischer Test heiÿt ( P H1 annehmen |H0 wahr) ≤α d.h. P (Fehler 1. Art) Typische Werte für das Signikanzniveau α ≤α sind 0.1, 0.05, 0.01. Interpretation: Es werden 100 Stichproben vom Umfang n gezogen und es gelte die Nullhypothese. Bei 100 Tests zum Niveau α wird die Nullhypothese dann im Mittel höchstens in 5% der Fälle (fälschlicherweise) abgelehnt werden. Im Falle einer Ablehnung der Nullhypothese sagt man, dass das Ergebnis statistisch signikant zum Niveau α sei. Die Wahrscheinlichkeit für einen Fehler 2. Art kann man meist nicht kontrollieren. Diese Ungleichbehandlung der Fehler 1. und 2. Art ist der Grund dafür, dass die zu sichernde Behauptung als Alternativhypothese formuliert wird. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 10. Testen von Hypothesen 25. Juli 2011 319 / 458 10.2. Prinzipien des Testens Zusammenhang zwischen statistischen Tests und Kondenzintervallen Beispiel Gauÿ-Test √ 0 n > z |z | = x̄ −µ σ 1−α/2 x̄ − µ0 √ |z | = n ≤ z1−α/2 σ | {z } σ ⇔ |x̄ − µ0 | ≤ z1−α/2 · √n h i σ σ ⇔ µ0 ∈ x̄ − z1−α/2 · √n , x̄ + z1−α/2 · √n Verwerfe H0 , falls Behalte H0 , falls Damit ist H0 genau dann beizubehalten, wenn (1 − α)-Kondenzintervall für µ µ0 im liegt. Allgemein: Ein 2-seitiges (1 − α)-Kondenzintervall entspricht dem Annahmebereich des zugehörigen 2-seitigen Signikanztests zum Niveau Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 α. 320 / 458 10. Testen von Hypothesen 10.2. Prinzipien des Testens Überschreitungswahrscheinlichkeit Der p-Wert oder die Überschreitungswahrscheinlichkeit ist deniert als die Wahrscheinlichkeit den beobachteten Prüfgröÿenwert oder einen in Richtung der Alternative extremeren Wert zu beobachten: Ist der p-Wert kleiner oder gleich dem vorgegebenen Signikanzniveau, wird H0 verworfen, andernfalls beibehalten. Fortsetzung des Beispiels zum Gauÿ-Test: Dort wurde die Teststatistik |z | betrachtet, welche für die Stichprobe den Wert z = 1.64 lieferte. Der p-Wert ist jetzt gegeben durch p = P (|Z | ≥ 1, 64|H0 ) = 2(1 − Φ(1.64)) ≈ 0.1 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 10. Testen von Hypothesen 25. Juli 2011 321 / 458 10.2. Prinzipien des Testens Abbildung: P-Wert (Inhalt der hellgrauen Fläche beträgt α − p . Inhalt der dunkleren Fläche ist p ) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 322 / 458 10. Testen von Hypothesen 10.2. Prinzipien des Testens Gütefunktion Für vorgegebenes Signikanzniveau die α und festen Stichprobenumfang n gibt Gütefunktion g die Wahrscheinlichkeit für einen statistischen Test an, die Nullhypothese zu verwerfen: g (µ) = P (H0 verwerfen| µ |{z} ) wahrer Parameter Ist Ist µ ∈ H0 , µ ∈ H1 , ≤α 1 − g (µ) die so ist g (µ) so ist Jürgen Dippon (ISA) Wahrscheinlichkeit für den Fehler 2. Art Statistik für Wirtschaftswissenschater 10. Testen von Hypothesen 25. Juli 2011 323 / 458 10.2. Prinzipien des Testens Abbildung: Verlauf der idealen Gütefunktion, die aber praktisch nicht möglich ist. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 324 / 458 10. Testen von Hypothesen 10.2. Prinzipien des Testens Abbildung: Verlauf der Gütefunktion beim einseitigen Gauÿ-Test. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 10. Testen von Hypothesen 25. Juli 2011 325 / 458 10.2. Prinzipien des Testens Berechnung der Gütefunktion für den einseitigen Gauÿ-Test: g (µ) = = = = = Jürgen Dippon (ISA) ( P H0 verworfen | µ) − µ0 √ P n > z1−α µ σ X̄ − µ + µ − µ0 √ P n > z1−α µ σ X̄ − µ √ µ − µ0 √ P n > z1−α − n µ σ σ | {z } ∼N (0,1) µ − µ0 √ 1 − Φ z1−α − n σ X̄ Statistik für Wirtschaftswissenschater 25. Juli 2011 326 / 458 10. Testen von Hypothesen 10.2. Prinzipien des Testens Abbildung: Verlauf der Gütefunktion beim zweiseitigen Gauÿ-Test. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 10. Testen von Hypothesen 25. Juli 2011 327 / 458 10.2. Prinzipien des Testens Eigenschaften der Gütefunktionen eines statistischen Tests Für Werte aus H1 heiÿt die Gütefunktion Trennschärfe oder Macht Für Werte aus H0 ist die Gütefunktion kleiner oder gleich α Für wachsendes n wird die Macht eines Tests gröÿer, d.h. die Gütefunktion wird steiler Für wachsendes α wird die Macht eines Tests gröÿer Für einen wachsenden Abstand zwischen Werten aus H1 und H0 wird die Macht eines Tests gröÿer. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 328 / 458 10. Testen von Hypothesen 10.3. Durchführung eines Tests mit R Durchführung eines Tests mit R Beispiel: Eine Klausur besteht aus n = 30 Aufgaben, bei der jeweils eine von zwei Antworten auszuwählen ist. Ein Student beantwortet 19 Fragen korrekt und 11 Fragen falsch. > binom . test ( x =19 , n =30 , p =0.5 , alternative =" greater ") Exact binomial test data : 19 and 30 number of successes = 19 , number of trials = 30 , p - value = 0.1002 alternative hypothesis : true probability of success is greater than 95 percent confidence interval : 0.4669137 1.0000000 sample estimates : probability of success 0.6333333 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 329 / 458 25. Juli 2011 330 / 458 11. Spezielle Tests 9 Parameterschätzung 10 Testen von Hypothesen 11 Spezielle Tests Überblick Einstichprobentests Zweistichprobentests Zusammenhangsanalyse 12 Lineare Regression 13 Zeitreihen Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests 11.1. Überblick Überblick Statistische Tests gibt es wie Sand am Meer. Im Folgenden beschränken wir uns auf einige Testverfahren zu ausgewählten Standardproblemen. Einteilung der nachfolgenden Testverfahren 1 Einstichprobenfall: Untersuchung einer Verteilung eines eindimensionalen Merkmals, z.B. H0 : Die zu erwartende Quadratmiete in einem bestimmten 2 Wohnviertel beträgt 8 Euro/m . 2 H0 : Die Nettomiete ist normalverteilt. H0 : Die zu erwartende Nettomiete in den Wohnvierteln A und B ist Zweistichprobleme: Vergleich von Parametern aus zwei Populationen. identisch. H0 : Das zu erwartende Einkommen männlicher und weiblicher Arbeitnehmer (in vergleichbarer Position einer Branche) ist gleich. 3 Zusammenhangsanalyse, z.B. H0 : Die Korrelation zwischen Mietpreis und Quadratzahl beträgt 0.8. H0 : Geschlecht und Parteipräferenz sind unabhängig. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 331 / 458 11.1. Überblick Konstruktion von Tests θ sei ein interessierender Parameter. Es soll ein Test zu Hypothesen der Form H0 : θ = θ0 konstruiert werden. Tests basieren häug auf Schätzern für Parameter. Die Schätzer werden unter Verwendung des Nullhypothesenwertes θ0 zu einer Teststatistik T standardisiert bzw. transformiert, so dass die Verteilung von T nicht mehr von unbekannten Gröÿen abhängt. T wird gewöhnlich so konstruiert, dass T groÿe bzw. kleine Werte eher unter der Alternative annimmt. Der Ablehnungsbereich des Tests wird unter Verwendung von Quantilen von T unter H0 so festgelegt, dass die Nullhypothese für groÿe bzw. kleine Werte abgelehnt wird. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 332 / 458 11. Spezielle Tests 11.2. Einstichprobentests Einstichprobentests Beispiel: Mietspiegel. 2 Die Quadratmetermiete für Wohnungen in einer Stadt A unter 50 m , die nach 1983 gebaut wurden, soll untersucht werden. Eine Teilstichprobe von n = 11 Wohnungen ergab 1 2 3 4 5 6 x 13.22 6.81 10.22 14.03 8.04 10.16 i 7 8 9 10 11 9.43 13.07 13.63 5.05 11.63 i i i x 2 In der Stadt B liegt der Durchschnittswert bei 8 Euro/m . Es soll überprüft werden, ob der Quadratmeterpreis in Stadt A signikant gröÿer ist als in Stadt B . Die Quadratmetermieten werden als normalverteilt angesehen. Der Erwartungswert µ ist der interessierende Parameter, Jürgen Dippon (ISA) σ sei nicht bekannt. Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 333 / 458 11.2. Einstichprobentests : Die Forschungshypothesen ordnen wir der Alternativen zu. H0 : µ ≤ 8 = µ0 gegen H1 : µ > 8 = µ0 Ansatz : Schätzen von µ mit √ X n − µ0 √ X n − 8 σ2 Xn ∼ N µ, und T := n = 11 ∼ t10 = tn−1 n Sn Sn Hypothesen µ = µ0 = 8 ist, wobei t10 die t -Verteilung mit 10 Freiheitsgraden X n − µ0 ≈ µ − µ0 (für groÿe n ) erwarten wir groÿe Werte der wenn Mit ist. Teststatistik unter der Alternative und kleine Werte unter der Nullhypothese. Für µ = µ0 = 8 P gilt (T > tn−1,1−α ) = 1 − FT (tn−1,1−α ) = 1 − (1 − α) = α Wenn wir H0 ablehnen, wenn t erhalten wir einen Test zum Niveau > tn−1,1−α α. Allgemein lassen sich folgende Tests konstruieren: Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 334 / 458 11. Spezielle Tests 11.2. Einstichprobentests Einstichproben-t-Test Seien X1 , . . . , Xn unabhängig N (µ, σ 2 )-verteilte Zufallsvariablen. Wir betrachten folgende Testprobleme über den Parameter 1 H0 : µ = µ0 gegen H1 : µ 6= µ0 , 2 H0 : µ ≥ µ0 gegen H1 : µ < µ0 , 3 H0 : µ ≤ µ0 gegen H1 : µ > µ0 . µ: Basierend auf der Teststatistik T √ X n − µ0 X n − µ0 = n = p 2 Sn Sn /n (Beachte: und dem vorgegebenen Signikanzniveau α T ∼ tn−1 , falls µ = µ0 ) wird die Nullhypothese abgelehnt, 1 falls |T | 2 falls T < −tn−1,1−α , 3 falls T > tn−1,1−α . > tn−1,1−α/2 , Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 335 / 458 11.2. Einstichprobentests Es wird ein t -Test zum Signikanzniveau α = 0.05 durchgeführt. Hypothese: H0 : µ ≤ 8 = µ0 Teststatistik: T gegen H1 : µ > 8. X n − µ0 = p 2 S /n Berechnung des Wertes der Teststatistik: x̄ s 2 = = 1 n −1 1 n n X i =1 n X i =1 n X i= x t Jürgen Dippon (ISA) 11 (13.22 + 6.81 + . . . + 11.63) = 10.4809 , 2 2 2 i = (13.22 + . . . + 11.63 ) = 1296.587 , ! x 2 i − n · x̄ x i =1 1 2 = √ n x̄ = 1 10 (1296.5871 − 11 · 10.48092 ) = 8.8245 . − µ0 √ 10.4809 − 8 √ = 11 √ = 2.77 2 8.8245 s Statistik für Wirtschaftswissenschater 25. Juli 2011 336 / 458 11. Spezielle Tests Der kritische Wert ist zum Niveau 11.2. Einstichprobentests α = 0.05 n−1,1−α = t10,0.95 = 1.8125. Testentscheidung: Da t = 2.77 > 1.8125 gleich t ist, wird die Nullhypothese abgelehnt. Wenn die Stichprobe groÿ genug ist, kann man auf die Normalverteilungsvoraussetzungen auch verzichten. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 337 / 458 11.2. Einstichprobentests Einstichproben-t-Test mit R > x <- c (13.22 ,6.81 ,10.22 ,14.03 ,8.04 ,10.16 ,9.43 ,13.07 ,13.63 , 5.05 ,11.63) > t . test (x , mu =8 , alternative =" greater ") One Sample t - test data : x t = 2.7699 , df = 10 , p - value = 0.009895 alternative hypothesis : true mean is greater than 8 95 percent confidence interval : 8.857557 Inf sample estimates : mean of x 10.48091 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 338 / 458 11. Spezielle Tests 11.2. Einstichprobentests Beispiel: Getreideockenabfüllung. Ein Hersteller von Zerealien möchte die Qualität seiner Abfüllmaschine testen. Die Maschine soll 300g pro Packung abfüllen. Der Hersteller will feststellen, ob es systematische Abweichungen vom Normwert gibt. Dazu werden 100 Packungen zufällig der Produktion entnommen und gewogen. Es wird ein mittleres Gewicht von 296g festgestellt und eine 2 2 Stichprobenvarianz von 12.5 g . Stellen Sie mit einem Test zum Signikanzniveau α = 0.05 fest, ob das eine signikante Abweichung vom Normwert ist. Die Abfüllgewichte X1 , . . . , Xn seien u.i.v., aber nicht notwendigerweise normalverteilt. Dann gilt nach zentralem Grenzwertsatz X − µ pn 2 Sn /n Jürgen Dippon (ISA) ist asymptotisch N (0, 1)-verteilt. Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 339 / 458 11.2. Einstichprobentests Approximativer Gauÿ-Test (beliebige Verteilung) Seien X1 , . . . , Xn unabhängig und identisch verteilt mit n Wir betrachten folgende Testprobleme über den 1 H0 : µ = µ0 gegen H1 : µ 6= µ0 , 2 H0 : µ ≥ µ0 gegen H1 : µ < µ0 , 3 H0 : µ ≤ µ0 gegen H1 : µ > µ0 . > 30. Parameter µ: Basierend auf der Teststatistik T X n − µ0 = p 2 Sn /n (Beachte: T und dem vorgegebenen Niveau ist asymptotisch N (0, 1) verteilt, falls α µ = µ0 ) fällt die Entscheidung für H1 im Testproblem, 1 falls |T | 2 falls T < −z1−α 3 falls T > z1−α > z1−α/2 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 340 / 458 11. Spezielle Tests 11.2. Einstichprobentests Der Test wird genauso durchgeführt wie ein Gauÿ-Test, aber es ist nur ein α, d.h. µ = µ0 . approximativer Test zum Niveau näherungsweise gleich α für der Fehler 1. Art ist nur Beispiel (fortgesetzt): Getreideockenabfüllung. Hypothesen: H0 Teststatistik: : µ = 300 = µ0 gegen H1 : µ 6= 300 . 296 − 300 x̄ − µ0 =p =p = −3.2 2 sn /n 12.52 /100 Nullhypothese: α = 0.01, z1−α/2 = z0.995 = 2.57. t Ablehnung der H0 Entscheidung: Da |t | ablehnen, wenn |t | = 3.2 > 2.57 > 2.57 ist, ist die Nullhypothese zum Signikanzniveau 0.01 abzulehnen. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 341 / 458 25. Juli 2011 342 / 458 11.2. Einstichprobentests Approximativer Gauÿ-Test mit R Für obiges Beispiel ergibt sich: > xbar <- 296 > mu <- 300 > s <- 12.5 > n <- 100 > t <- ( xbar - mu )/ sqrt ( s ^2/ n ) > t [1] -3.2 > abs ( t ) > qnorm (0.995) [1] TRUE Berechnung des p -Wertes: > p . value <- pnorm ( t )/2 > p . value [1] 0.000343569 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests 11.2. Einstichprobentests χ2 -Test für kategoriale Merkmale Merkmale sind die Eigenschaften, für die wie uns bei Untersuchungsobjekten interessieren. Kategoriale Merkmale nehmen nur endliche viele verschiedene Werte (Ausprägungen) an und werden mit diskreten Zufallsvariablen beschrieben. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 343 / 458 11.2. Einstichprobentests Beispiel: Parteipräferenz. In einem Land gingen bei der letzten Wahl 40% der Stimmen an Partei A, 35% an Partei B und 25% an Partei C . Eine Woche vor der aktuell anstehenden Wahl ergab eine Stichprobenbefragung vom Umfang n = 500 folgende Verteilung: 42% für Partei A, 38% für Partei B und 20% für Partei C . Hat sich die Wahlpräferenz gegenüber der letzten Wahl (signikant) verändert? Aufgabe: Vergleiche zweier diskreter Verteilungen, nämlich der Stimmenverteilung bei der letzten Wahl mit der Verteilung, die sich aus der Stichprobenbefragung ergibt. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 344 / 458 11. Spezielle Tests Wahlergebnis im Jahr 2000 11.2. Einstichprobentests Umfrage im Jahr 2004 Partei i 1 2 3 Partei i 1 2 3 πi 0.40 0.35 0.25 f i 0.42 0.38 0.20 Die Nullhypothese ist hierbei, dass sich die Verteilung der Stimmen im Vergleich zur Vorwahl nicht verändert hat. Dann sollten unter der Nullhypothese die relativen Häugkeiten fi relativ gut mit den Wahrscheinlichkeiten πi übereinstimmen. Geben die beobachteten Abweichungen zwischen fi und πi Anlass, anzunehmen, dass sich die Verteilung der Wählergunst verschoben hat? ... X diskrete Zufallsvariable, die gewählte Partei angibt (i ( P X X1 , . . . , Xn = i ) = pi , i = 1, 2, 3), = 1, 2, 3 . u.i.v wie X . Hypothese: H0 : p1 = π1 Jürgen Dippon (ISA) und p2 = π2 und p3 i gegen H1 : H0 ist falsch. Statistik für Wirtschaftswissenschater 11. Spezielle Tests N = π3 25. Juli 2011 345 / 458 11.2. Einstichprobentests sei die Anzahl der Wähler der Stichprobe, die sich für Partei i entschieden haben. ⇒ Ni ∼ Bin(500, pi ) Dann sind die relativen Häugkeiten p̂i = Ni /n geeignete Schätzer für pi . Es kann gezeigt werden (ohne Herleitung): 3 3 3 2 X X X (Ni − nπi )2 (Ni /n − πi )2 (p̂i − πi ) χ = =n =n ∼ χ22 , n πi πi πi i =1 i =1 i =1 2 falls H0 wahr ist. Es gilt: Groÿe Werte von χ2 treten auf bei groÿen Abweichungen zwischen den Wahrscheinlichkeiten πi und den relativen Häugkeiten Ni /n . Bei groÿer Übereinstimmung sind die Werte von Jürgen Dippon (ISA) χ2 Statistik für Wirtschaftswissenschater dagegen klein. 25. Juli 2011 346 / 458 11. Spezielle Tests Anmerkung: Wegen N1 11.2. Einstichprobentests + N2 + N3 = 500 sind die Ni nicht unabhängig! Falls sie unabhängig wären, würde unter H0 gelten: N − n πi p i n πi (1 − πi ) asymp. N (0, 1)-verteilt 3 X (Ni − nπi )2 ⇒χ = n π (1 − πi ) i =1 i 2 Jürgen Dippon (ISA) asymp. χ23 -verteilt. Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 347 / 458 11.2. Einstichprobentests χ2 -Anpassungstest Seien X1 , . . . , Xn u.i.v. wie X , wobei X diskret mit Träger T = {1, . . . , k }. Wir betrachten folgendes Testproblem ( = i ) = πi , i = 1, . . . , k H1 :P (X = i ) 6= πi , für mindestens H0 :P X gegen ein i ∈T. (In H0 kann implizit eine hypothetische Verteilung enthalten sein!) χ2 ∼ χ2k −1 , falls H0 wahr ist. Die Approximation ist anwendbar, n πi ≥ 1 für alle i und n πi ≥ 5 für mindestens 80% des Trägers ist. Beachte: falls Basierend auf der Teststatistik k X (ni − nπi )2 2 χ = n πi i =1 und dem vorgegebenen Niveau α fällt die Entscheidung für H1 , falls χ2 > χ2k −1,1−α , wobei χ2k −1,1−α das Jürgen Dippon (ISA) (1 − α)-Quantil der χ2k −1 -Verteilung Statistik für Wirtschaftswissenschater bezeichnet. 25. Juli 2011 348 / 458 11. Spezielle Tests 11.2. Einstichprobentests Beispiel: Parteipräferenz. X1 , . . . , X500 unabhängig und identisch verteilt wie X Testproblem: H0 : P (X = i ) = πi gegen H1 : P (X = i ) 6= πi für mindestens ein i 3 X (Ni − nπi )2 2 Teststatistik: χ = ∼ χ22 , falls H0 wahr ist. n πi i =1 Signikanzniveau: α = 0.05 2 Kritischer Wert: c = χ2,0.95 = 5.99 2 Testprozedur: Falls χ > 5.99, verwerfe H0 , sonst nicht. Wert der Teststatistik 2 χ = ⇒ H0 (210 − 200)2 200 + (190 − 175)2 175 + (100 − 125)2 125 = 6.79 > 5.99 wird verworfen, d.h., das Wahlverhalten hat sich signikant verändert. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 349 / 458 11.2. Einstichprobentests χ2 -Anpassungstest mit R Mit den Zahlen des obigen Beispiels: > x <- c (210 ,190 ,100) > p <- c (200 ,175 ,125) > chisq . test (x , p ) # Verteilung im Jahr 2004 # Verteilung im Jahr 2000 Pearson ' s Chi - squared test data : x and p X - squared = 6 , df = 4 , p - value = 0.1991 Warnmeldung : In chisq . test (x , p ) : Chi - Quadrat - Approximation kann inkorrekt sein Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 350 / 458 11. Spezielle Tests 11.3. Zweistichprobentests Zweistichprobentests Beispiel: Autopreise. US-Behörden haben japanischen Autoherstellern vorgeworfen, ihre Autos in Japan teurer zu verkaufen als in den USA und auf diese Weise die US-Verkäufe zu subventionieren. Ein Ökonom hat die Verkaufspreise (in Tausend US-$) von vergleichbaren Autos ausgewertet. x1 , . . . , x50 bezeichnen die Verkaufspreise an 50 Standorten aus den USA und y1 , . . . , y30 die Verkaufspreise an 30 Standorten in Japan. Dann ergaben sich folgende Werte x̄ = = ȳ 1 n 1 m n X i =1 m X i =1 i = 16.596, sX = x n −1 1 2 i = 17.250, sY = y n X 1 2 m −1 2 (xi − x̄ ) , sX = i =1 m X i =1 2 q 2 X = 1.981 s (yi − ȳ ) , sY = q s 2 Y = 1.865 Unterschiede in den Mittelwerten sind festzustellen. Können diese Unterschiede auch zufällig zustande gekommen sein oder sprechen sie für niedrigere Verkaufspreise in den USA? Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 351 / 458 11.3. Zweistichprobentests Statistisches Modell: . . . Verkaufspreis in den USA, Y . . . Verkaufspreis in Japan. X Zu vergleichen sind ( ) = µX E (Y ) = µY . . . Durchschnittspreis in den USA und E X Die n = 50 . . . Durchschnittspreis in Japan. Beobachtungen x1 , . . . , xn zu den USA-Preisen werden mit Zufallsvariablen X1 , . . . , Xn beschrieben, die m y1 , . . . , ym = 30 Beobachtungen zu den Japan-Preisen werden mit Zufallszahlen Y1 , . . . , Ym beschrieben. Annahmen bzgl. der Verteilung der Xi , Yj : , . . . , Xn ∼ N (µX , σX2 ) 2 Y1 , . . . , Ym ∼ N (µY , σ ) Y X1 , . . . , Xn , Y1 , . . . , Ym stochastisch X1 unabhängig. Da die X1 , . . . , Xn bzw. Y1 , . . . , Ym unterschiedlich verteilt sind, spricht man von einem Zweistichprobenproblem. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 352 / 458 11. Spezielle Tests 11.3. Zweistichprobentests Ziel der Untersuchung: Vergleich der Erwartungswerte. Ist ∆ = µX − µY gleich Null, gröÿer oder kleiner Null oder nimmt die Dierenz einen bestimmten Wert an? Schätzen von ˆ = X̄n − Ȳm . ∆: ∆ ˆ Für den Schätzer gilt: E (∆) = E (X̄n − Ȳm ) = µX − µY σX2 σY2 ˆ Var (∆) = Var (X̄n − Ȳm ) = + n m Der Schätzer ist als Linearkombination von unabhängigen normalverteilten Zufallsvariablen wieder normalverteilt. 2 2 σ σ ˆ = X̄n − Ȳm ∼ N µX − µY , X + Y ⇒∆ n X̄ ⇒Z = m − (µX − µY ) n − Ȳ qm 2 ∼ N (0, 1) 2 σX σY n + m (Standardisierung) Ausgehend von dieser Verteilungsaussage lassen sich Tests konstruieren. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 353 / 458 11.3. Zweistichprobentests Einige Vorüberlegungen: Von Interesse: Z.B.: Falls δ0 = 0 µX − µY = δ0 ? (sind Durchschnittspreise gleich?) µX − µY = δ0 , gilt: Z X̄n − Ȳm − δ0 = q 2 ∼ N (0, 1) 2 σX σY n + m Es gilt: Groÿe bzw. kleine Werte von Z sprechen gegen µX − µY = δ0 , Werte nahe 0 nicht. Wie im Einstichprobenfall können analog einseitige Testprobleme der Form µ X − µY ≥ δ 0 bzw. Jürgen Dippon (ISA) µX − µY ≤ δ0 behandelt werden. Statistik für Wirtschaftswissenschater 25. Juli 2011 354 / 458 11. Spezielle Tests 11.3. Zweistichprobentests Zweistichproben-Gauÿ-Test (bekannte Varianz) 2 Seien X1 , . . . , Xn unabhängig N (µX , σX )-verteilt und Y1 , . . . , Ym 2 unabhängig N (µY , σY )-verteilt. Auÿerdem seien X1 , . . . , Xn , Y1 , . . . , Ym unabhängig. Wir betrachten folgende Testprobleme über den Parameter 1 H0 2 3 gegen H1 H0 : µX − µY = δ0 : µX − µY ≥ δ0 H0 : µX − µY ≤ δ0 gegen H1 gegen H1 Basierend auf der Teststatistik Z Niveau α : µX − µY = 6 δ0 , : µX − µY < δ0 , : µX − µY > δ0 . 0 = √X̄n2−Ȳm −δ 2 /m und σX /n+σY dem vorgegebenen fällt die Entscheidung für H1 im Testproblem, 1 falls |z | 2 falls z < −z1−α , 3 falls z > z1−α . > z1−α/2 , Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests Problem: ∆ = µ X − µY : σX2 und σY2 25. Juli 2011 355 / 458 11.3. Zweistichprobentests in der Regel unbekannt 1. Lösungsansatz: Approximatives Vorgehen bei groÿen Stichproben Angenommen n , m > 30, falls T µX − µY = δ0 , dann ist X̄n − Ȳm − δ0 = q 2 SX SY2 n + m asymptotisch N (0, 1)-verteilt, wobei S 1 2 X = n −1 Jürgen Dippon (ISA) n X i =1 (Xi − X̄n ) 2 und m X SY = (Yi − Ȳm )2 m − 1 i =1 2 1 Statistik für Wirtschaftswissenschater 25. Juli 2011 356 / 458 11. Spezielle Tests 11.3. Zweistichprobentests 2. Lösungsansatz: Unbekannte, aber gleiche Varianzen. Zusätzliche Annahme: σX2 = σY2 , T falls µX − µY = δ0 , S dann ist X̄n − Ȳm − δ0 = q ∼ tn+m−2 1 1 2 ( n + m )SP wobei 1 2 p= n +m−2 (n − 1)SX2 + (m − 1)SY2 (gepoolte Schätzung der Varianz) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 357 / 458 11.3. Zweistichprobentests Approximativer Zweistichproben-Gauÿ-Test (beliebige Varianz) Seien X1 , . . . , Xn u.i.v. wie X und Y1 , . . . , Ym u.i.v. wie Y . Auÿerdem seien X1 , . . . , Xn , Y1 , . . . , Ym unabhängig und n , m > 30. Die zu überprüfenden Hypothesen seien wie beim Zweistichproben-Gauÿ-Test bzw. Zweistichproben-t-Test. Basierend auf der Teststatistik Z X̄n − Ȳm − δ0 =q σX2 /n + σY2 /m bzw. (bekannte Varianzen) Und dem vorgegebenen Niveau T X̄n − Ȳm − δ0 = q 2 SX SY2 + n m (unbekannte Varianzen) α fällt die Entscheidung für H1 im Testproblem, 1 falls |z | 2 falls z 3 falls z > z1−α/2 bzw. |t | > z1−α/2 , < −z1−α bzw. t < −z1−α , > z1−α bzw. t > z1−α . Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 358 / 458 11. Spezielle Tests 11.3. Zweistichprobentests Zweistichproben-t-Test, unbekannte aber gleiche Varianzen Annahmen und Hypothesen im Fall bekannter Varianzen mit der zusätzlichen Annahme σX2 = σY2 . Basierend auf der Teststatistik T S X̄n − Ȳm − δ0 = q ( n1 + m1 )SP2 2 p= = 1 n +m−2 1 n +m−2 wobei ! n m X X (Xi − X̄n )2 + (Yi − Ȳm )2 i =1 i =1 (n − 1)SX2 + (m − 1)SY2 und dem vorgegebenen Niveau α fällt die Entscheidung für H1 im Testproblem, 1 falls |t | 2 falls t 3 falls t > tn+m−2,1−α/2 , < −tn+m−2,1−α , > tn+m−2,1−α . Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests Falls n , m > 30, 25. Juli 2011 359 / 458 11.3. Zweistichprobentests kann dieser Test auch für beliebige Verteilungen verwendet werden. Man ersetze dafür die t -Quantile durch Normalverteilungsquantile. Beispiel: Autopreise Wir gehen davon aus, die Daten sind näherungsweise normalverteilt mit gleichen Varianzen (die entsprechenden Schätzer sind nahezu gleich groÿ). , . . . , Xn st.u. ∼ N (µX , σX2 ), X1 , . . . , Xn , Y1 , . . . , Ym st.u. X1 Hypothesen: H0 : µX − µY ≥ 0 Y1 , . . . , Ym gegen H1 st.u. ∼ N (µY , σY2 ), : µX − µ Y < 0 Teststatistik 1 2 p= s Jürgen Dippon (ISA) (n − 1)sX2 + (m − 1)sY2 +m−2 2 2 49 · 1.981 + 29 · 1.865 = = 3.7585 49 + 29 n Statistik für Wirtschaftswissenschater 25. Juli 2011 360 / 458 11. Spezielle Tests t x̄ − ȳ 16.596 − 17.250 =q =q = −1.4607 1 1 1 1 ( n + m )sP2 3.7585 · ( + 30 ) 50 Signikanzniveau: Kritischer Wert: α = 0.05 −t78,0.95 ≈ −z0.95 = −1.64 Testprozedur: Falls t H0 11.3. Zweistichprobentests < −1.64, verwerfe H0 , sonst nicht. wird nicht verworfen, d.h. ein signikanter Preisunterschied bei den Autopreisen ist nicht nachweisbar. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 361 / 458 11.3. Zweistichprobentests Verbundene Stichproben Beispiel: Pupillometer Mit einem Pupillometer kann man die Erweiterung (Dilatation) der Pupillen des Auges messen. Studien haben einen Zusammenhang zwischen Dilatation und Interesse am beobachteten Objekt festgestellt. 10 repräsentativ für die untersuchte Zielgruppe ausgewählten Personen werden zwei Besteck-Muster gezeigt und die Pupillendilatation gemessen. Die Tabelle gibt die Messwerte der 10 Personen an. Es ist davon auszugehen, dass die einzelnen Personen individuell zu unterschiedlich starken Pupillendilatationen neigen. Gibt es einen signikanten (α = 0.05) Unterschied der Reaktion der Kunden auf die Muster? Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 362 / 458 11. Spezielle Tests Jürgen Dippon (ISA) No. Muster 1 Muster 2 1 1 0.8 2 0.97 0.66 3 1.45 1.22 4 1.21 1 5 0.77 0.81 6 1.32 1.11 7 1.81 1.3 8 0.91 0.32 9 0.98 0.91 10 1.46 1.1 Statistik für Wirtschaftswissenschater 11. Spezielle Tests Es wurden Paare an Daten ( Xi , Yi ) 11.3. Zweistichprobentests (xi , yi ) 25. Juli 2011 363 / 458 11.3. Zweistichprobentests erhoben, die mit Zufallsvariablen beschrieben werden. Es soll überprüft werden, ob im Mittel für beide Muster eine gleiche Reaktion gemessen wurde. Die Annahme X1 , . . . , Xn u.i.v. bzw. Y1 , . . . , Yn u.i.v. ist aber nicht mehr angemessen, da dem individuellen Dilatationspotential nicht Rechnung getragen wird. Stattdessen betrachten wir i = Xi − Yi Z und gehen davon aus, dass die individuellen Schwankungen wegsubtrahiert werde. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 364 / 458 11. Spezielle Tests 11.3. Zweistichprobentests Ansatz: Statistisches Modell: Zi ∼ N (∆, σ 2 ) u.i.v. Dass die Dierenzen Zi u.i.v. sein sollen, ist auch eine Modellvereinfachung, die aber oft als akzeptabel angesehen wird. Die unterschiedlichen Mustereinüsse werden im Mittel durch den Erwartungswert ∆ der Dierenzen erfasst. Ein groÿer Vorteil dieses Ansatzes: Hypothesen über dem Gauÿ-Test bei bekanntem σ2 σ2, ∆ kann man mit mit dem t-Test bei unbekanntem und mit dem approximativen Gauÿ-Test bei groÿen Stichproben durchführen. Beispiel: σ 2 unbekannt ⇒ Jürgen Dippon (ISA) Einstichproben-t-Test Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 11.3. Zweistichprobentests t-Test für verbundene Stichproben Es seien Zi = Xi − Yi 365 / 458 und Z1 , . . . , Zn unabhängig N (∆, σ 2 )-verteilte Zufallsvariablen. Wir betrachten folgende Testprobleme über den Parameter 1 H0 2 H0 3 H0 : ∆ = ∆0 : ∆ ≥ ∆0 : ∆ ≤ ∆0 gegen H1 gegen H1 gegen H1 ∆: : ∆ 6= ∆0 : ∆ < ∆0 : ∆ > ∆0 Basierend auf der Teststatistik T = nq− ∆0 √ Z̄n − ∆0 = n SZ SZ2 n Z̄ (T ∼ tn−1 , falls ∆ = ∆0 ), 2 wobei SZ die Stichprobenvarianz der Zi bezeichnet, und dem vorgegebenen Signikanzniveau 1 falls |T | 2 falls T 3 falls T Analog: σ2 α wird die Nullhypothese abgelehnt, > tn−1,1− α2 < −tn−1,1−α > tn−1,1−α bekannt: Gauÿ-Test; n groÿ: approximativer Gauÿ-Test Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 366 / 458 11. Spezielle Tests 11.3. Zweistichprobentests Beispiel: Pupillendilatation. Wir gehen davon aus, die Dierenzen Zi normalverteilt, und führen für die No. zi 1 0.2 Hypothese: H0 Hilfsgröÿen: n Teststatistik: t 2 0.31 3 0.23 4 0.21 : ∆ = ∆0 = 0 = 10, z̄ = Xi − Yi sind näherungsweise z1 , . . . , z10 einen t-Test durch. 5 -0.04 gegen H1 6 0.21 7 0.51 8 0.59 9 0.07 10 0.36 : ∆ 6= 0 = 0.265, sz2 = 0.03547. 0 = = z̄nq−∆ 2 sz n Kritischer Wert tn−1,1− α 2 Jürgen Dippon (ISA) 0.265−0 q 0.03547 10 = 4.45. = t10−1,1− 0.05 = t9,0.975 = 2.2622 2 Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 367 / 458 11.3. Zweistichprobentests Ablehnungsbereich: C = (−∞, −tn−1,1− α2 ) ∪ (tn−1,1− α2 , ∞) = (−∞, −2.2622) ∪ (2.2622, ∞) Testentscheidung: Da |t | Niveau > t9,0.975 bzw. t ∈C wird H0 abgelehnt zum α = 0.05. Es gibt eine signikant unterschiedliche Reaktion auf beide Besteck-Muster. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 368 / 458 11. Spezielle Tests 11.3. Zweistichprobentests t-Test für verbundene Stichproben mit R Mit den Zahlen des obigen Beispiels: > Muster .1 <- c (1 ,0.97 ,1.45 ,1.21 ,0.77 ,1.32 ,1.81 ,0.91 ,0.98 ,1.46) > Muster .2 <- c (0.8 ,0.66 ,1.22 ,1 ,0.81 ,1.11 ,1.3 ,0.32 ,0.91 ,1.1) > t . test ( Muster .1 , Muster .2 , paired = TRUE ) Paired t - test data : Muster .1 and Muster .2 t = 4.4494 , df = 9 , p - value = 0.001602 alternative hypothesis : true difference in means is not equal to 0 95 percent confidence interval : 0.1302692 0.3997308 sample estimates : mean of the differences 0.265 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 369 / 458 11.4. Zusammenhangsanalyse Zusammenhangsanalyse Unabhängigkeit von diskreten Merkmalen Wie kann man die Unabhängigkeit von zweidimensionalen diskreten Zufallsvariablen nachprüfen? Beispiel: Sonntagsumfrage Im Rahmen einer Sonntagsumfrage wurden 931 Personen bzgl. ihrer Parteienpräferenz befragt. CDU/CSU SPD FDP Grüne Rest Summe Männer 144 153 17 26 95 435 Frauen 200 145 30 50 71 496 Summe 344 298 47 76 166 931 Besitzen Männer und Frauen eine unterschiedliche Parteienpräferenz oder kann man die Abweichungen auch durch Zufall erklären? Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 370 / 458 11. Spezielle Tests 11.4. Zusammenhangsanalyse Vorüberlegungen: Von jeder Person (Untersuchungsklassenobjekt k ) werden das Geschlecht (xk ) und die Parteienpräferenz (yk ) erfasst. Wir erfassen (x1 , y1 ), . . . , (xn , yn ). also Datenpaare Die Datenpaare werden statistisch beschrieben mit zweidimensionalen diskreten u.i.v. Zufallsvektoren (Xk , Yk ). verteilt wie (X1 , Y1 ), . . . , (Xn , Yn ). (X , Y ) sei Die Merkmale Geschlecht und Partei werden hierbei durch Zahlen kodiert. Beschreibung der Verteilung mit Einzelwahrscheinlichkeiten: ( P X = i , Y = j ) = pij , i = 1, 2, j = 1, . . . , 5 Die Randverteilungen sind dann gegeben durch ( P X = i ) = pi · , ( P Y = j ) = p·j mit p i · = pi 1 + · · · + pi 5 Jürgen Dippon (ISA) und j Unabhängigkeit von X = 1, . . . , 5 p· j = p1j + p2j Statistik für Wirtschaftswissenschater 11. Spezielle Tests Es soll und 25. Juli 2011 371 / 458 11.4. Zusammenhangsanalyse und Y überprüft werden, d.h. für i = 1, 2 muss gelten ( P X = i , Y = j ) = P (X = i ) · P (Y = j ) ij = pi · · p·j p Plausibilitätsbetrachtungen zur Konstruktion eines Tests: Nach obigen Überlegungen würde ein Ausdruck der Form 2 X 5 X i =1 j =1 (pij − pi · p·j )2 Null werden im Falle der Unabhängigkeit und sonst gröÿer als Null sein. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 372 / 458 11. Spezielle Tests 11.4. Zusammenhangsanalyse Wir ersetzen pij , pi · , p·j durch Schätzer: ij = (zufällige) Anzahl des Auftretens von (i , j ) als Wert von (Xk , Yk ), k = 1, . . . , n, Ni · = (zufällige) Anzahl des Auftretens von i als Wert von Xk , k = 1, . . . , n , N·j = (zufällige) Anzahl des Auftretens von j als Wert von Yk , k = 1, . . . , n N Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests ( P X 25. Juli 2011 11.4. Zusammenhangsanalyse = i , Y = j ) = pij ⇒ Nij ∼ B (n, pij ) ⇒ p̂ij = P X ( = i ) = pi · ⇒ Ni · ∼ B (n, pi · ) ⇒ p̂i · = ( = j ) = p·j ⇒ N·j ∼ B (n, p·j ) ⇒ p̂·j = P Y 373 / 458 ij N n i· N n N· j n Mit geeigneter Normierung lässt sich die folgende Aussage zeigen: Ni · N·j X X (p̂ij − p̂i · p̂·j )2 X X Nij − n χ2 = n · = Ni · N·j p̂i · p̂·j i =1 j =1 i =1 j =1 n 2 5 asymptotisch Jürgen Dippon (ISA) 2 5 2 χ2(2−1)(5−1) = χ24 -verteilt Statistik für Wirtschaftswissenschater 25. Juli 2011 374 / 458 11. Spezielle Tests 11.4. Zusammenhangsanalyse χ2 -Unabhängigkeitstest Seien (X1 , Y1 ), . . . , (Xn , Yn ) u.i.v. zweidimensionale diskrete Zufallsvektoren gruppiert in einer (k × m)-Kontingenztafel, d.h. die X1 nehmen k verschiedene Wert an und die Y1 m verschiedene Werte. Wir betrachten das Testproblem H0 : X1 und Y1 sind stochastisch unabhängig H1 : X1 und Y1 sind nicht stochastisch unabhängig. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests gegen 25. Juli 2011 375 / 458 11.4. Zusammenhangsanalyse Basierend auf der Teststatistik k X m Nij − Ni · N·j X n χ2 = Ni · N·j i =1 j =1 n und dem vorgegebenen Signikanzniveau α 2 fällt die Entscheidung für H1 , falls χ2 > q(k −1)(m−1),1−α , wobei q(k −1)(m−1),1−α das (1 − α)-Quantil der χ2(k −1)(m−1) -Verteilung bezeichnet. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 376 / 458 11. Spezielle Tests 11.4. Zusammenhangsanalyse Bemerkung: Gemäÿ der Plausibilitätsüberlegungen nimmt χ2 im Falle der Abhängigkeit von X1 und Y1 groÿe Werte an. Beispiel: Sonntagsumfrage. X bezeichne das Geschlecht und Y die Parteienpräferenz. Hypothesen: H0 : X H1 : H0 und Y sind stochastisch unabhängig ist falsch Teststatistik: Ni · N·j X X Nij − n χ2 = Ni · N·j i =1 j =1 n 2 5 Jürgen Dippon (ISA) 2 Nij Hij Eij = Ni · N·j /n ⇒ 25. Juli 2011 SPD 153 145 298 FDP 17 30 47 Grüne 26 50 76 Rest 95 71 166 160.73 183.27 139.24 158.76 21.96 25.04 35.51 40.49 77.56 88.44 1.74 1.53 1.36 1.19 1.12 0.98 2.55 2.23 3.92 3.44 χ2 = 20.26 = P ij E 377 / 458 11.4. Zusammenhangsanalyse CDU/CSU 144 200 344 = (Nij − Hij )2 /Hij Hier ist χ24 -verteilt Statistik für Wirtschaftswissenschater 11. Spezielle Tests Männer Frauen Summe asymptotisch Summe 435 496 931 wobei der Quantilwert 9.49 beträgt. Es besteht ein signikanter Zusammenhang zwischen Geschlecht und Parteienpräferenz. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 378 / 458 11. Spezielle Tests 11.4. Zusammenhangsanalyse χ2 -Unabhängigkeitstest mit R Mit den Zahlen des letzten Beispiels: > men <- c (144 ,153 ,17 ,26 ,95) > women <- c (200 ,145 ,30 ,50 ,71) > chisq . test ( cbind ( men , women )) Pearson ' s Chi - squared test data : cbind ( men , women ) X - squared = 20.065 , df = 4 , p - value = 0.0004849 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 379 / 458 11.4. Zusammenhangsanalyse Test auf Unkorreliertheit und zweidimensionale Normalverteilung Beispiel: Blutdruckdaten. Für 15 zufällig ausgewählte Frauen wurde das Alter (xi ) festgestellt und der Blutdruck (yi ) gemessen. Gibt es einen Zusammenhang zwischen diesen beiden Merkmalen? i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Jürgen Dippon (ISA) xi ) Alter ( 47 52 30 35 59 44 63 38 49 41 32 55 46 51 63 Blutdruck 129 139 112 119 145 133 152 117 145 136 115 137 134 141 157 (yi ) Statistik für Wirtschaftswissenschater 25. Juli 2011 380 / 458 11. Spezielle Tests 11.4. Zusammenhangsanalyse Wir haben den Korrelationskoezienten als lineares Zusammenhangsmaÿ zwischen zwei Zufallsvariablen kennen gelernt. (x1 , y1 ), . . . , (xn , yn ) als Realisierung der Zufallsvektoren (X1 , Y1 ), . . . , (Xn , Yn ) auf. Wie Wir fassen die Datenpaare zweidimensionalen u.i.v. schätzen wir den Korrelationskoezienten? 1. Schritt: Schätzen der Kovarianz. Nach der Verschiebungsregel gilt σxy = Cov (X , Y ) = E (XY ) − E (X )E (Y ) Erwartungswerte kann man gut durch arithmetische Mittel schätzen, also M̂ XY = 1 n n X i i, X Y i =1 Jürgen Dippon (ISA) M̂ X = 1 n X n X i =1 i, Y = M̂ 1 n Statistik für Wirtschaftswissenschater 11. Spezielle Tests n X Y i =1 i. 25. Juli 2011 381 / 458 11.4. Zusammenhangsanalyse Damit ist die Analogie zur so genannten Momentenschätzmethode S̃ ein XY = M̂XY − M̂X · M̂Y = Schätzer für ( , Y ). Cov X 1 n n X i =1 (Xi − X̄n )(Yi − Ȳn ) Durch Änderung des Vorfaktors wird der Schätzer erwartungstreu, S xy = 1 n −1 n X i =1 Jürgen Dippon (ISA) (Xi − X̄n )(Yi − Ȳn ) = 1 n −1 n X i =1 Statistik für Wirtschaftswissenschater ! i i − n · X̄n · Ȳn X Y 25. Juli 2011 382 / 458 11. Spezielle Tests 11.4. Zusammenhangsanalyse 2. Schritt Schätzen des Korrelationskoezienten. Ausgehend von der Denition %XY = p ( ,Y) Cov X ( ) · Var (Y ) Var X setzen wir für die Kovarianz und die Varianzen Schätzer ein: R mit SXY q = XY 2 2 S S X Y n X (Xi − X̄n )2 , SX = n − 1 i =1 1 2 Jürgen Dippon (ISA) S 1 2 Y = n −1 Statistik für Wirtschaftswissenschater 11. Spezielle Tests n X i =1 (Yi − Ȳn ) 25. Juli 2011 383 / 458 11.4. Zusammenhangsanalyse D.h. R SXY XY = q 2 2 S S X Y Pn n−1 i =1 (Xi − X̄n )(Yi − Ȳn ) =q Pn Pn 1 1 2 2 ( Xi − X̄n ) · n−1 i =1 n−1 i =1 (Yi − Ȳn ) Pn (Xi − X̄n )(Yi − Ȳn ) = qP i =1 n (X − X̄ )2 · Pn (Y − Ȳ )2 n n i =1 i i =1 i 1 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 384 / 458 11. Spezielle Tests 11.4. Zusammenhangsanalyse Beispiel: Blutdruckdaten. Für den angegebenen Datensatz bekommen wir folgenden Schätzwert für den Korrelationskoezienten: x̄ = 47, ȳ X = 134.07, i X i 2 i = 272175, y X i 2 i = 34685 x i i = 96387 x y P 2 2 2 x − n x̄ 34685 − 15 · 47 2 i i sX = = = 110.714, n − 1 14 P 2 2 2 y − n ȳ 272175 − 15 · 134.07 2 i i sY = = = 182.395, n − 1 14 P i xi yi − nx̄ ȳ = 96387 − 15 · 47 · 134.07 = 133.404, sXY = n − 1 14 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests r 25. Juli 2011 385 / 458 11.4. Zusammenhangsanalyse sXY 133.404 q √ = = = 0.939 XY 2 2 110 . 714 · 182 . 395 s s X Y Der Schätzwert spricht für einen starken positiven Zusammenhang. Ist der Korrelationskoezient signikant von Null verschieden oder könnte dieser Wert auch zufällig zustande gekommen sein? Um derartige Fragen beantworten zu können, brauchen wir eine geeignete Beschreibung der gemeinsamen Verteilung von X und Y , siehe Abschnitt über die 2-dimensionale Normalverteilung. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 386 / 458 11. Spezielle Tests 11.4. Zusammenhangsanalyse Korrelationstest Seien (X1 , Y1 ), . . . , (Xn , Yn ) gemeinsam normalverteilte, u.i.v. Zufallsvektoren. Wir betrachten folgende Testprobleme über die Korrelation 1 H0 2 H0 3 H0 : ρXY = 0 : ρXY ≥ 0 : ρXY ≤ 0 gegen H1 gegen H1 gegen H1 : ρXY = 6 0, : ρXY < 0, : ρXY > 0. Basierend auf der Teststatistik T =q und dem vorgegebenen Niveau ∼ tn−2 Testproblem (hier gilt T 1 falls |T | 2 falls T 3 falls T α R 1 √ xy n 2 R −2 − xy fällt die Entscheidung für H1 im falls ρXY = 0), > tn−2,1− α2 , < −tn−2,1−α , > tn−1,1−α . Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 11. Spezielle Tests 25. Juli 2011 387 / 458 11.4. Zusammenhangsanalyse Beispiel: Blutdruckdaten. Für den angegebenen Datensatz bekommen wir folgenden Schätzwert für den Korrelationskoezienten rXY Hypothese: H0 : ρXY = 0 Teststatistik: t = √ n gegen H1 r − 2 √ xy 1− Kritischer Wert: tn−2,1− α 2 Testentscheidung: Da |t | = 0.939. rxy2 = : ρXY 6= 0 √ 15 − 2 √10−.939 = 9.82 0.9392 = t15−2,1− 0.01 = t13,0.995 = 3.0123. 2 = 9.82 > 3.0123 ist die Nullhypothese der Unkorreliertheit abzulehnen. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 388 / 458 11. Spezielle Tests 11.4. Zusammenhangsanalyse χ2 -Unabhängigkeitstest mit R Mit den Zahlen des letzten Beispiels: > Alter <- c (47 ,52 ,30 ,35 ,59 ,44 ,63 ,38 ,49 ,41 ,32 ,55 ,46 ,51 ,63) > Blutdruck <- c (129 ,139 ,112 ,119 ,145 ,133 ,152 ,117 ,145 ,136 ,115 , 137 ,134 ,141 ,157) > plot ( Alter , Blutdruck ) > cor . test ( Alter , Blutdruck ) Pearson ' s product - moment correlation data : Alter and Blutdruck t = 9.7131 , df = 13 , p - value = 2.519 e -07 alternative hypothesis : true correlation is not equal to 0 95 percent confidence interval : 0.8181349 0.9794044 sample estimates : cor 0.937494 Numerische Unterschiede zu den auf den vorhergehenden Seiten durchgeführten Rechnungen sind auf Rundungen zurückzuführen. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 389 / 458 25. Juli 2011 390 / 458 12. Lineare Regression 9 Parameterschätzung 10 Testen von Hypothesen 11 Spezielle Tests 12 Lineare Regression Einfache lineare Regression Methode der kleinsten Quadrate Gütemaÿ für die Anpassung der Geraden Stochastisches Modell 13 Zeitreihen Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 12.1. Einfache lineare Regression Einfache lineare Regression Beispiel: Rohöl und Benzinpreise Die folgenden Daten geben die mittleren Rohöl-Preise xi (in Dollar/Barrel) und Benzinpreise yi (in Cent/Gallone) wieder: Jürgen Dippon (ISA) i i i Jahr i y x 1 1980 125 28.07 2 1981 138 35.24 3 1982 129 31.87 . . . . . . . . . . . . 21 2000 151 28.26 22 2001 146 22.96 Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 391 / 458 12.1. Einfache lineare Regression Zu diesen Daten stellen sich einige Fragen: Ist ein Zusammenhang zwischen Rohölpreis und Benzinpreis feststellbar? Welchen Benzinpreis würde man im Mittel anhand der Daten prognostizieren, wenn der Rohölpreis auf 50$ pro Barerel steigt? In welchem Bereich würde der Benzinpreis nicht nur sein Erwartungswert mit groÿer Wahrscheinlichkeit liegen? Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 392 / 458 12. Lineare Regression 12.1. Einfache lineare Regression Schritt 1: Veranschaulichung mit Hilfe eines Streudiagramms Abbildung: Darstellung der Daten als Streudiagramm Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 393 / 458 12.1. Einfache lineare Regression Schritt 2: Vermutung über Zusammenhang anstellen. Nicht unerwartet korrespondieren gröÿere Ölpreise mit höheren Benzinpreisen. Man könnte näherungsweise einen linearen Zusammenhang mutmaÿen. Seien (xi , yi ) die Datenpaare, wobei xi den Rohölpreisen und yi den Benzinpreisen entspricht, dann gilt: i = a + bxi + ei y wobei die ei die Abweichungen von der Gerade a + bx beschreiben. Schritt 3: Ermittlung einer Geraden, die den Zusammenhang zwischen den Daten möglichst gut beschreibt.Dazu wird die Methode der kleinsten Quadrate verwendet. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 394 / 458 12. Lineare Regression 12.1. Einfache lineare Regression Methode der kleinsten Quadrate Ausgehend von der Beziehung: i = a + bxi + ei , y i = yi − (a + bxi ) e Fehler (Residuum) sucht man nach einer Gerade, für die alle Fehlerterme (error) ei möglichst klein werden. Das erreicht man z.B. in dem man ( , ) := Q a b n X i =1 2 i = e n X i =1 [yi − (a + bxi )]2 minimiert. Wir gehen im Folgenden davon aus, dass die xi nicht alle identisch sind. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 395 / 458 12.1. Einfache lineare Regression Abbildung: Darstellung der Fehlerquadrate Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 396 / 458 12. Lineare Regression 12.1. Einfache lineare Regression Das Minimierungsproblem ist: ( , )= Q a b n X i =1 [yi − (a + bxi )]2 → Min Die kritischen Stellen werden ermittelt: n X ∂Q (a, b) = 2 · [yi − (a + bxi )] · (−1) ∂a i =1 n X ∂Q (a, b) = 2 · [yi − (a + bxi )] · (−xi ) ∂b i =1 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 397 / 458 12.1. Einfache lineare Regression Die Lösung des linearen Gleichungssystems ∂Q (a, b) = 0 ∂a ∂Q (a, b) = 0 ∂b führt auf genau eine Lösung â, b̂ , die Q minimiert: b̂ Jürgen Dippon (ISA) Pn 1 xi yi − n x̄ ȳ = Pi = n x 2 − nx̄ 2 , i =1 i â = ȳ − b̂x̄ Statistik für Wirtschaftswissenschater 25. Juli 2011 398 / 458 12. Lineare Regression 12.1. Einfache lineare Regression Einfache lineare Regression und Kleinste-Quadrate-Methode Gegeben seien die reellwertigen Beobachtungswerte (x1 , y1 ), ..., (xn , yn ). Dann heiÿt i = a + bxi + ei , y i = 1, ..., n einfache lineare Regressionsgleichung wobei a den Achsenabschnitt, b den Steigungsparameter und ei die Residuen (Fehler) bezeichnen. Unter der 2 Annahme sX >0 sind die Kleinste-Quadrate-Koezienten für a und b gegeben durch: â Die = ȳ − b̂x̄ , b̂ Pn Pn 1 1 (xi − x̄ )(yi − ȳ ) n−1 i =P 1 xi yi − n x̄ ȳ = Pi = = n x 2 − nx̄ 2 n 1 2 i =1 i n−1 i =1 (xi − x̄ ) Kleinste-Quadrate-Gerade (KQ-Gerade) ergibt sich durch ( ) = â + b̂x . ŷ x Die Werte yˆi = â + b̂xi und eˆi KQ-gettete Werte bzw. KQ-Residuen. Jürgen Dippon (ISA) = yi − yˆi bezeichnen wir als Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 399 / 458 12.1. Einfache lineare Regression Eigenschaften Die KQ-Gerade geht durch den Mittelpunkt (x̄ , ȳ ). = ȳ − b̂x̄ ⇒ ȳ = â + b̂x̄ = ŷ /(x̄ ). â Die Summe der KQ-Residuen ist gleich 0: n X i =1 i =0 e ¯ = ȳ ŷ Wenn alle Punkte (xi , yi ) â = a, auf der Geraden a b̂ = b, + bx ˆi = yi , y liegen, dann sind: ˆi = 0 e Eine Prognose wird mit der KQ-Geraden vorgenommen. Für einen Wert x prognostiziert man den y-Wert: ( ) = â + b̂x ŷ x Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 400 / 458 12. Lineare Regression 12.1. Einfache lineare Regression Gütemaÿ für die Anpassung der Geraden Wie gut lassen sich die Daten mit einer Geraden beschreiben? Streuungszerlegung der Regression n n n X X X 2 2 (yi − ȳ ) = (yˆi − ȳ ) + (yi − yˆi )2 i =1 i =1 i =1 Ansatz: Die Residualstreuung ist die Summe der verbliebenen quadrierten Fehler nach Anpassung der Geraden. Die Anpassung ist gut, falls der Anteil der erklärten Streuung an der Gesamtstreuung groÿ ist: R 2 Pn ˆi − ȳ )2 i = 1 (y = Pn = 2 ( yi − ȳ ) i =1 Jürgen Dippon (ISA) Erklärte Streuung Gesamtstreuung Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 401 / 458 12.1. Einfache lineare Regression Bestimmtheitsmaÿ Gegeben seien die reellwertigen Beobachtungswerte 2 X >0 s Dann ist das und (x1 , y1 ), ..., (xn , yn ) mit 2 Y >0 s Bestimmtheitsmaÿ der KQ-Regression gegeben durch: R 2 Pn Pn 2 ˆ ˆi )2 ( y − ȳ ) i = 1 i i = 1 (yi − y = Pn = 1 − Pn 2 2 ( yi − ȳ ) i =1 i =1 (yi − ȳ ) Eigenschaften ≤ R2 ≤ 1 2 2 R = r XY 2 R = 1 genau dann, wenn alle Punkte (xi , yi ) 2 R = 0 genau dann, wenn sXY = 0 ist. 0 auf einer Geraden liegen. Eine gute Beschreibung der Daten durch eine Gerade liegt bei groÿen Werten von R 2 (nahe 1) vor, eine schlechte bei kleinen Werten von R 2 (nahe 0). Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 402 / 458 12. Lineare Regression 12.1. Einfache lineare Regression Beispiel (fortgesetzt): Ölpreise Direkte Berechnung der Regressionsgeraden: x̄ = 21.572, X = 117.635, ȳ i X i X 2 = Y 2 = XY = s s s 2 i = 309218, y X 2 i = 11078.277 x i i = 57284.35 x y i P 2 2 2 i xi − nx̄ = 11078.277 − 22 · 21.572 = 40.026 n − 1 21 P 2 2 2 i yi − nȳ = 57284.35 − 22 · 117.636 = 227.475 21 P n−1 i xi yi − nx̄ ȳ = 57284.35 − 22 · 21.572 · 117.636 = 69.342 n − 1 21 Daher: b̂ xy s = 2 X s = 69.342 40.026 = 1.732, Jürgen Dippon (ISA) â = ȳ − b̂x̄ = 117.636 − 1.732 · 21.572 = 80.273 Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 403 / 458 12.1. Einfache lineare Regression Und für das Bestimmtheitsmaÿ ergibt sich: sXY 69.342 =√ = 0.727, XY = q 2 2 40 . 026 · 227 . 475 s s X Y r Prognose für x = 50 R 2 2 = rXY = 0.529 durch Einsetzen in KQ-Gleichung ( ) = â + b̂x , ŷ x x = 50 ergibt ŷ (50) Jürgen Dippon (ISA) ≈ 166.9. Statistik für Wirtschaftswissenschater 25. Juli 2011 404 / 458 12. Lineare Regression 12.1. Einfache lineare Regression In R lässt sich die Regressionsgerade mit eine paar einfachen Kommandos berechnen und in das Streudiagramm einzeichnen: plot ( oelpreis , benzinpreis ) ## Scatterplot myregression <- lm ( benzinpreis ~ oelpreis ) myregression ## zeigt Ergebnis der Regressionsrechnung an abline ( myregression ) ## zeichnet Regressionsgerade Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 405 / 458 12.1. Einfache lineare Regression Abbildung: Streudiagramm mit Regressionsgeraden Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 406 / 458 12. Lineare Regression 12.1. Einfache lineare Regression Beispiel (fortsetzung): Blutdruckdaten Die Berechnung der KQ-Daten und des Bestimmtheitsmaÿes wird R überlassen. Abbildung: Regression zu Blutdruckdaten Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression Der Fit der Geraden ist hier besser: R ŷ 25. Juli 2011 407 / 458 12.1. Einfache lineare Regression 2 ist gröÿer als im vorigen Beispiel. (45) = 77.363 + 1.2065 · 45 = 131.6 ≈ 132 Im Mittel würde man bei einer 45-jährigen Frau einen Blutdruck von 132 erwarten. Wie genau ist der Wert und wie groÿ ist der normale Schwankungsbereich dieses Wertes für einzelne Frauen? Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 408 / 458 12. Lineare Regression 12.2. Stochastisches Modell Stochastisches Modell (xi , yi ), i = 1, ..., n, für die man lineare zwischen den xi und yi -Werten vermutet, Um für Datenpaare Zusammenhänge Wahrscheinlichkeitsaussagen ableiten zu können, muss man sie mit einem geeigneten statistischen Modell breschreiben. Wie im letzten Abschnitt sollen die Daten durch eine Geradenbeziehung i = α + β xi + ei y beschrieben werden. Wenn die yi funktional beschrieben werden durch die xi bezeichnet man i xi y abhängige oder endogene Variablen als unabhängige oder exogene Variablen oder Regressoren und als die i e als latente Variablen oder Störvariablen. Die ei können nicht beobachtet werden und die Parameter α und β sind unbekannt. Wo gibt es im Modell zufällige Komponenten? Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 409 / 458 12.2. Stochastisches Modell Beispiel: College-Absolventen Die folgenden Daten geben die Anzahl der Absolventen eines kleinen Colleges an, die im Jahr (xi ) ihres Abschlusses einen Job gefunden haben. Die Anzahl (yi ) der Absolventen soll über die Jahre etwa gleich groÿ gewesen sein. Jahr Berufseinsteiger 1 2 3 4 5 6 121 138 115 162 160 174 Die Jahre xi sind nichtzufällig, während die konkreten Berufseinsteigerzahlen yi nicht vorhersehbar waren und als zufällig interpretiert werden können. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 410 / 458 12. Lineare Regression 12.2. Stochastisches Modell Streudiagramm Abbildung: Berufseinsteiger Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 411 / 458 12.2. Stochastisches Modell Modell mit deterministischen Regressoren i x Y i sind deterministisch und yi sind als Realisierungen von Zufallsvariablen aufzufassen. Dann sind aber auch die ei Realisierungen von Zufallsvariablen = yi − α − β xi als εi = Yi − α − β xi aufzufassen. Modellansatz: Y Jürgen Dippon (ISA) i = α + β xi + εi Statistik für Wirtschaftswissenschater 25. Juli 2011 412 / 458 12. Lineare Regression 12.2. Stochastisches Modell Beispiel(fortgesetzt): Blutdruckdaten Im Rahmen der Datenerhebung wurden 15 Frauen ausgewählt. Im Vorfeld der Erhebung ist i.A. sowohl das Alter (xi ) als auch der Blutdruck (yi ) nicht bekannt und muss als Realisierung von Zufallsvariablen Xi bzw. Yi aufgefasst werden. Modell mit stochastischen Regressoren: Das zufällige Verhalten der Beobachtung xi und yi sowie ei werden beschrieben mit Zufallsvariablen Xi , Yi und εi , die in folgender Beziehung stehen: Y i = α + β Xi + εi Dabei wird die Zusatzannahme getroen, dass X i und εi unabhängig sind. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 413 / 458 12.2. Stochastisches Modell Beide Regressionsmodelle haben groÿe Gemeinsamkeiten: Die Schätzer für die Parameter α und β werden mit den gleichen Formeln berechnet, s.u. Die bedingte Verteilung von Yi gegeben Xi = xi ist gleich der Verteilung, die sich aus dem deterministischen Ansatz ergibt. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 414 / 458 12. Lineare Regression 12.2. Stochastisches Modell Wir beschränken uns im Folgenden auf die nähere Untersuchung des Modells mit deterministischen Regressoren. Standardmodell der linearen Einfachregression x1 , . . . , xn seien reelle Zahlen und Y1 , . . . , Yn seien reelle Zufallsvariablen. Die Vektoren (x1 , Y1 ), . . . , (xn , Yn ) Einfachregression mit den Parametern Y εi 2 Var (εi ) = σ gilt, wobei erfüllen das Standardmodell der linearen i = α + β xi + εi , α, β und i σ 2 > 0, wenn = 1, . . . , n u.i.v. Zufallsvariablen sind, für die E (εi ) =0 und gilt. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 415 / 458 12.2. Stochastisches Modell Anmerkungen: Die Zufallsvariablen εi können nicht beobachtet werden. Sie beschreiben die Abweichungen der Yi -Werte von der Regressionsgeraden α + βx . Die xi -Werte sind entweder als einstellbare deterministische, d.h. nicht zufällige, Regressoren oder als Realisierungen von Zufallsvariablen Xi aufzufassen. β beschreibt die lineare Abhängigkeit der yi β = 0, gibt es keine (lineare) Abhängigkeit. Der Parameter i -Werten. x Ist Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 von den 416 / 458 12. Lineare Regression 12.2. Stochastisches Modell Die Schätzer im Standardmodell berechnen wir wie oben durch Minimierung von Q (α, β) := n X i =1 [Yi − (α + β · xi )]2 → Minα,β Als Ergebnis erhalten wir in Analogie zu oben: 2 Wenn sX >0 ergeben sich als Schätzer α̂ und β̂ im Standardmodell α̂ = Ȳn − β̂ · x̄ , Pn Pn 1 SXY i −1 (xi − x̄ )(Yi − Ȳn ) n −1 i =1 xi Yi − nx̄ Ȳn P β̂ = = = . P n x 2 − nx̄ 2 n (x − x̄ )2 1 2 s i i =1 i X n−1 i =1 α̂ und β̂ sind erwartungstrue für das Schätzen von E (α̂) = α und E α bzw. β, d.h. (β̂) = β . Anmerkung zur Bezeichnung: Wie in der Literatur gebräuchlich bezeichnen α̂ und β̂ i.F. sowohl die Schätzer als auch die Schätzwerte für α und β. Die jeweilige Bedeutung erschlieÿt sich aus dem Kontext. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 417 / 458 12.2. Stochastisches Modell Beispiel (fortgesetzt): College-Absolventen. x̄ = 3.5, ȳ = 145, X i 2 i = 91, x X i 2 i = 129030, y X i i i = 3234 x y P 2 2 2 x − n · x̄ 91 − 6 · 3.5 2 i i sX = = = 3.5 n − 1 5 P 2 2 2 y − n · ȳ 29030 − 6 · 145 2 i i sY = = = 576 n − 1 5 P i xi yi − n · x̄ · ȳ = 3234 − 6 · 3.5 · 145 = 37.8 sXY = n − 1 5 Daher XY = 37.5 = 10.8 2 3.5 s X α̂ = ȳ − β̂ · x̄ = 145 − 10.8 · 3.5 = 107.2 sXY 37.5 rXY = q =√ = 0.8419 2 2 3 . 5 · 576 s X · sY β̂ = s Jürgen Dippon (ISA) R 2 2 = rXY = 0.84192 = 0.788. Statistik für Wirtschaftswissenschater 25. Juli 2011 418 / 458 12. Lineare Regression 12.2. Stochastisches Modell Abbildung: Streudiagramm mit Regressionsgeraden Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 419 / 458 12.2. Stochastisches Modell Zur näheren Beschreibung der Verteilung von α̂ und β̂ kann man die Varianzen berechnen. Dazu macht man sich zunutze, dass β̂ = β + n X i =1 mit i εi c und α̂ = α + n X 1 i =1 n − ci x̄ εi xi − x̄ i = Pn 2 i =1 (xi − x̄ ) c gilt. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 420 / 458 12. Lineare Regression 12.2. Stochastisches Modell Die Varianzen berechnen sich als σ2 Var (β̂) = σ = Pn 2 β̂ xi − x̄ ) i =1 (P σ 2 ni=1 xi2 2 Pn Var (α̂) = σα̂ = 2 n · i =1 (xi − x̄ ) 2 Die Varianzen kann man nicht direkt berechnen, da sie vom unbekannten Parameter Aber: α̂ σ2 bzw. abhängen. β̂ sind MSE- und schwach konsistent für Konsistenzbedingung n X (xi − x̄ )2 → ∞ i =1 für n α bzw. β, wenn die →∞ gilt. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 421 / 458 12.2. Stochastisches Modell Ausgehend von der Denition des Bestimmtheitsmaÿ kann man die Berechnung von σ̂ 2 auf bekannte Gröÿen zurückführen: R ⇒ n X i =1 2 2 P2 2 i = 1 (yi − ŷi ) = 1 − Pn 2 i =1 (yi − ȳ ) 2 (yi − ŷi ) = (1 − R ) n X i =1 (yi − ȳ )2 = (1 − R 2 )(n − 1)sY2 . Also −1 σ̂ 2 = (1 − R 2 )sY2 = n − 1 n −1 n − 2 n 2 2 XY Y − s2 X s s mit R 2 2 = RXY . Beispiel (fortgesetzt): College-Daten. Es ist dann σ̂ 2 = −1 2 2 sY (1 − R ) = n − 2 n Jürgen Dippon (ISA) 5 4 576 · (1 − 0.7088) = 209.664. Statistik für Wirtschaftswissenschater 25. Juli 2011 422 / 458 12. Lineare Regression Mit dem Schätzer für α̂ und β̂ σ2 12.2. Stochastisches Modell kann man die Varianzen bzw. Standardfehler von schätzen Pn 2 2 σ̂ 2 i = 1 xi Pn σ̂α̂ = 2 n · i =1 (xi − x̄ ) σ̂ 2 2 σ̂β̂ = Pn 2 i =1 (xi − x̄ ) q σ̂α̂ = σ̂α̂2 q σ̂β̂ = σ̂ 2 β̂ Unter präziseren Verteilungsannahmen kann auch die Verteilung der Schätzer genauer beschrieben werden und es können Tests konstruiert werden. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 423 / 458 12.2. Stochastisches Modell Normalverteilungsannahme: Die Störvariablen sind normalverteilt, also εi u.i.v. und εi ∼ N (0, σ 2 ). Unter der Normalverteilungsannahme gilt α̂ und β̂ sind gemeinsam normalverteilt. (n − 2) · σ̂ 2 /σ 2 α̂ und σ̂ 2 bzw. Jürgen Dippon (ISA) ist β̂ χ2 -verteilt und σ̂ 2 mit n −2 Freiheitsgraden. sind unabhängig. Statistik für Wirtschaftswissenschater 25. Juli 2011 424 / 458 12. Lineare Regression 12.2. Stochastisches Modell Aus der Normalverteilungsannahme und der Denition der t -Verteilung folgt σ̂α̂ α̂ − α σ̂ = σα̂ σα̂ σ s s 2 2 α̂ − α (n − 2)σ̂ W = =Z ∼ tn−2 σα̂ σ 2 (n − 2) (n − 2) α̂ − α α̂ − α = σ̂α̂ σα̂ mit Z α̂ = ∼ N (0, 1), σα̂ Eine analoge Aussage gilt für W 2 (n − 2)σ̂ 2 = ∼ χ2n−1 . 2 σ β̂ Unter der Normalverteilungsannahme gilt α̂ − α ∼ tn−2 σ̂α̂ und β̂ − β ∼ tn−2 σ̂β̂ Mit Hilfe dieser Aussagen lassen sich Tests für Jürgen Dippon (ISA) α β und konstruieren: Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 425 / 458 12.2. Stochastisches Modell Tests für die Regressionskoezienten Gegeben sei das Standardmodell der linearen Einfachregression mit 2 Normalverteilungsvorraussetzung sowie sX Testprobleme über die Parameter 6 α0 = H1 :α < α0 H1 :α > α0 und Wir betrachten folgende β: gegen H1 :α , d) H0 :β gegen H1 :β b) gegen , e) gegen , f) gegen = β0 H0 :β ≥ β0 H0 :β ≤ β0 6= β0 , H1 :β < β0 , H1 :β > β0 . a) H0 :α c) = α0 H0 :α ≥ α0 H0 :α ≤ α0 α > 0. gegen Basierend auf der Teststatistik T α0 α̂ − α0 = q σ̂α̂2 bzw. Tβ0 β̂ − β0 = q σ̂ 2 β̂ und dem vorgegebenen Signikanzniveau α∗ fällt die Entscheidung für H1 im Testproblem > tn−2,1−α∗ /2 , Tα0 < −tn−2,1−α∗ , Tα0 > tn−2,1−α∗ , a) , falls |Tα0 | b) , falls c ) , falls Jürgen Dippon (ISA) d) , falls |Tβ0 | > tn−2,1−α∗ /2 e) , falls Tβ0 < −tn−2,1−α∗ f ) , falls Tβ0 > tn−2,1−α∗ Statistik für Wirtschaftswissenschater 25. Juli 2011 426 / 458 12. Lineare Regression Insbesondere der Test H0 : β=0 12.2. Stochastisches Modell ist wichtig, da hiermit überprüft wird, ob es einen linearen Zusammenhang zwischen den yi - und xi -Werten gibt. Beispiel (fortgesetzt) College-Daten. Wir wollen überprüfen, ob β=0 α∗ = 0.05. β̂ . ist. Das Signikanzniveau sei Dazu berechnen wir den Schätzer für den Standardfehler von σ̂ 2 σ̂ 2 = σ̂β̂ = Pn = 2 2 ( xi − x̄ ) ( n − 1 ) s i =1 X 2 209.664 5 · 3.5 10.8 −0 = 11.9808 ⇒ σ̂β̂ = 3.4613. Damit ist t β̂ − β0 = q = 2 σ̂ 3.4613 = 3.12. β̂ Der kritische Wert ist tn−2,1−α∗ /2 ist die Nullhypothese β=0 = t4,0.975 = 2.7764. Wegen 3.12 > 2.7 abzulehnen. Es gibt also einen signikanten linearen Trend bei den Berufseinsteigerzahlen. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 427 / 458 12.2. Stochastisches Modell Statistische Tests für die Regressionsparameter mit R > > > > x <- 1:6 y <- c (121 ,138 ,115 ,162 ,160 ,174) mymodel <- lm (y ~ x ) summary ( mymodel ) Call : lm ( formula = y ~ x ) Residuals : 1 2 3 3.0 9.2 -24.6 4 11.6 5 -1.2 6 2.0 Coefficients : Estimate Std . Error t value Pr ( >| t |) ( Intercept ) 107.200 13.481 7.952 0.00135 ** x 10.800 3.462 3.120 0.03553 * Residual standard error : 14.48 on 4 degrees of freedom Multiple R - squared : 0.7087 , Adjusted R - squared : 0.6359 F - statistic : 9.734 on 1 and 4 DF , p - value : 0.03553 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 428 / 458 12. Lineare Regression 12.2. Stochastisches Modell Kondenzintervalle für die Regressionsparameter Ausgehend von der Verteilungsaussage zu Kondenzintervalle für α und β α̂ β̂ und kann man herleiten: Gegeben sei das Standardmodell der linearen Einfachregression mit Normalverteilungsvorraussetzung. Dann sind bzw. α̂ − tn−2,1−α∗ /2 σ̂α̂ , α̂ + tn−2,1−α∗ /2 σ̂α̂ i h β̂ − tn−2,1−α∗ /2 σ̂β̂ , β̂ + tn−2,1−α∗ /2 σ̂β̂ (1 − α∗ )-Kondenzintervalle für die Parameter α bzw. β. Anmerkung: Diese Struktur von Kondenzintervallen ist sehr typisch. θ̂ sei ein Parameterschätzer für einen Parameter θ und σθ̂ sein Standardfehler. θ̂ − θ ∼ N (0, 1) für alle zulässigen θ σθ̂ h i ⇒ θ̂ − z1−α/2 σθ̂ , θ̂ + z1−α/2 σθ̂ ist (1 − α)-Kondenzintervall Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression für 25. Juli 2011 θ 429 / 458 12.2. Stochastisches Modell Beispiel: Kondenzintervall für µ bei bekanntem σ 2 . X1 , . . . , Xn ∼ N (µ, σ 2 ). ( n ) = σ 2 /n : q q X̄n − z1−α/2 σ 2 /n, X̄n + z1−α/2 σ 2 /n Dann gilt für den Schätzer X̄n für = θ̂ X̄ µ: Var X̄ n − z1−α/2 σX̄n , X̄ + z1−α/2 σX̄n sei ein Parameterschätzer für einen Parameter θ und σ̂θ̂ ein Schätzer für seinen Standardfehler. θ̂ − θ ∼ tm für alle zullässigen θ σ̂θ̂ h i ⇒ θ̂ − tm,1−α/2 σ̂θ̂ , θ̂ + tm,1−α/2 σ̂θ̂ Jürgen Dippon (ISA) ist (1 − α)-Kondenzintervall Statistik für Wirtschaftswissenschater 25. Juli 2011 für θ 430 / 458 12. Lineare Regression Anmerkung: i.A. m =n 12.2. Stochastisches Modell Anzahl der geschätzten Parameter. Beispiel: Kondenzintervall für µ bei unbekanntem σ 2 . , . . . , Xn ∼ N (µ, σ 2 ). Dann gilt für den µ : Var (X̄n ) = σ 2 /n und σ̂X̄2 = Sn2 /n, X1 Schätzer X̄n für n X̄ n − tn−1,1−α/2 = Jürgen Dippon (ISA) X̄ q S 2 n /n, X̄n + tn−1,1−α/2 q S 2 n /n n − t−1,1−α/2 σ̂X̄n , X̄n + tn−1,1−α/2 σ̂X̄n Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 431 / 458 12.2. Stochastisches Modell Viele Statistikprogramme liefern als Ergebnis von komplexeren statistischen Modellen Schätzwerte für die Parameter und Standardfehler. Wenn die zugehörigen standardisierten Schätzer t -verteilt oder asymptotisch normal verteilt sind, kann man obige Kondenzintervallkonstruktion direkt verwenden. Beispiel: College-Absolventen. β . σ̂β̂ = 3.4613 und β̂ = 10.8 bereits früher berechnet. Mit tn−2,1−α∗ = t4,0.975 = 2.7764 gilt h i β̂ − tn−2,1−α∗ /2 σ̂β̂ , β̂ + tn−2,1−α∗ /2 σ̂β̂ Wir berechnen ein 0.95-Kondenzintervall für wurde = [10.8 − 2.7764 · 3.4613, 10.8 + 2.7764 · 3.4613] = [1.19, 20.41] Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 432 / 458 12. Lineare Regression Falls die Normalverteilungsannahme 12.2. Stochastisches Modell εi ∼ N (0, σ 2 ) verletzt, aber die Konsistenzbedingung n X (xi − x̄ )2 → ∞ i =1 für n →∞ erfüllt ist, gelten die Verteilungsaussagen für die standardisierten Schätzer auch approximativ. Dann gelten auch die angegebenen Tests und Kondenzintervalle approximativ. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 433 / 458 12.2. Stochastisches Modell Beispiel (Fortsetzung): College-Daten. Die nächste Tabelle bezieht sich auf die Streuungszerlegung bei der linearen Regression, n n n X X X 2 2 (yi − ȳ ) = (ŷi − ȳ ) + (yi − ŷi )2 |i =1 {z } |i =1 {z } |i =1 {z } Gesamtstreuung (SQT) Jürgen Dippon (ISA) Erklärte Streuung (SQE) Reststreuung Statistik für Wirtschaftswissenschater (SQR) 25. Juli 2011 434 / 458 12. Lineare Regression 12.2. Stochastisches Modell Kondenzintervalle für die Regressionsparameter mit R > x <- 1:6 > y <- c (121 ,138 ,115 ,162 ,160 ,174) > mymodel <- lm (y ~ x ) > confint ( mymodel ) 2.5 % 97.5 % ( Intercept ) 69.770472 144.62953 x 1.188984 20.41102 Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 435 / 458 12.2. Stochastisches Modell Prognose Ausgehend vom Regressionsmodell Y i = α + β xi + εi interessiert man sich für die Regressionsgerade ( ) = α + βx y x für einen Vorgabewert x . Schätzung von y (x ) : Ŷ (x ) = α̂ + β̂ · x Dann gilt ( (x )) = E (α̂ + β̂ · x ) = E (α̂) + E (β̂) · x = α + β · x = y (x ) 2 1 ( x − x̄ ) σŶ2 (x ) = Var (Ŷ (x )) = Var (α̂ + β̂ · x ) = . . . = σ 2 +P . 2 n ( xi − x̄ ) i E Ŷ Ŷ (x ) ist also erwartungstreu und MSE- bzw. schwach konsistent. Die Varianz können wir schätzen mit σ̂Ŷ2 (x ) = σ̂ 2 Jürgen Dippon (ISA) 1 n (x − x̄ )2 +P 2 i (xi − x̄ ) Statistik für Wirtschaftswissenschater . 25. Juli 2011 436 / 458 12. Lineare Regression 12.2. Stochastisches Modell Prognose für y(x): Ŷ (x ) = α̂ + β̂ · x ist der Schätzer für y (x ). Unter der Normalverteilungsannahme ist h ein Ŷ (x ) − tn−2,1−α∗ /2 σ̂Ŷ (x ) , Ŷ (x ) + tn−2,1−α∗ /2 σ̂Ŷ (x ) (1 − α)-Kondenzintervall ( ) y x0 i für y (x ). beschreibt nur die Mittellage einer Zufallsvariable Y0 , die zu einem Regressor x0 erhoben wird. Interessant ist häug der Wertebereich, in dem wir Y0 mir groÿer Wahrscheinlichkeit nden. Dazu muss nicht nur die Mittellage y (x0 ), sondern auch der Schwankung um diese Mittellage mit einem Störterm ε0 Rechnung getragen werden. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 437 / 458 12.2. Stochastisches Modell Ansatz: Ỹ0 wobei = α̂ + β̂ · x0 + ε0 = Ŷ (x0 ) + ε0 , ε0 unabhängig von E (ε0 ) = 0, Var (ε0 ) = σ 2 , ε1 , . . . , ε n . Damit ist ( Var Ỹ0 ) = Var (Ŷ (x0 )) + Var (ε0 ) = σ 2 1 + 1 n (x0 − x̄ )2 P + 2 i (xi − x̄ ) und σ̂Ỹ2 = σ̂ 2 0 Jürgen Dippon (ISA) 1 + 1 n (x0 − x̄ )2 +P 2 i (xi − x̄ ) . Statistik für Wirtschaftswissenschater 25. Juli 2011 438 / 458 12. Lineare Regression Prognose für Y0 zu gegebenen x0 12.2. Stochastisches Modell : Unter der Normalverteilungsannahme ist h ein Ŷ (x0 ) − tn−2,1−α∗ /2 σ̂Ŷ0 , Ŷ (x0 ) + tn−2,1−α∗ /2 σ̂Ŷ0 (1 − α)-Kondenz- i oder Prognoseintervall für Y0 . Beispiel: College-Absolventen. Wir berechnen ein 0.95-Kondenzintervall für y (x0 ) und Y0 zu x0 x̄ = 3.5, 2 x = 3.5, σ̂ = 14.461, s t4,0.975 = 7. Aus = 2.7764 ergibt sich σ̂Ŷ2 (7) = σ̂ 2 1 n (x0 − x̄ )2 +P 2 i (xi − x̄ ) σ̂Ỹ2 = σ̂ 2 + σ̂Ŷ2 (7) = 391.44, 0 Jürgen Dippon (ISA) = 209.7 · 6 (7 − 3.5)2 + 5 · 3.5 σ̂Ŷ (7) = 13.4811, = 181.74. σ̂Ỹ0 = 19.7848. Statistik für Wirtschaftswissenschater 12. Lineare Regression Damit sind Ŷ (7) 1 25. Juli 2011 439 / 458 12.2. Stochastisches Modell = α̂ + β̂ · 7 = 107.2 + 10.8 · 7 = 182.8, t4,0.975 = 2.7764, und h i (7) − tn−2,1−α∗ /2 σ̂Ŷ (7) , Ŷ (7) + tn−2,1−α∗ /2 σ̂Ŷ (7) = [145.37, 220.23] h i bzw. Ŷ (7) − tn−2,1−α∗ /2 σ̂ , Ŷ (7) + tn−2,1−α∗ /2 σ̂ Ỹ0 Ỹ0 = [127.87, 237.73] Ŷ die gesuchten Kondenzintervalle. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 440 / 458 12. Lineare Regression 12.2. Stochastisches Modell Abbildung: Prognose und Kondenzintervalle Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 12. Lineare Regression 25. Juli 2011 441 / 458 12.2. Stochastisches Modell In das Streudiagramm der College-Absolventen wurde in der obenstehenden Abbildung die geschätzte Regressionsgerade Ŷ (x ) und zu jedem x0 die Kondenzintervalle zu Ŷ (x0 ) und Ỹ0 eingezeichnet. Der rote Punkt kennzeichnet den Prognosenpunkt zu x0 = 7. Die Kondenzintervalle werden gröÿer, je weiter x0 von x̄ Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater = 3.5 entfernt ist. 25. Juli 2011 442 / 458 12. Lineare Regression 12.2. Stochastisches Modell Kondenz- und Prognosestreifen mit R x <- 1:6; y <- c (121 ,138 ,115 ,162 ,160 ,174) plot (x ,y , xlim = c (0 ,8.5) , ylim = c (50 ,260) , xlab =" Jahr " , ylab =" Berufseinsteiger " , col =" blue ") mymodel <- lm ( y ~ x ) y0 <- sum ( mymodel$coefficients * c (1 ,0)) y8 <- sum ( mymodel$coefficients * c (1 ,8)) lines ( matrix ( c (0 , y0 ,8 , y8 ) , byrow = TRUE , ncol =2)) newx <- data . frame (x = seq (0 ,8 , by =0.1)) predEY <- predict ( mymodel , newx , interval =" confidence ") lines ( data . matrix ( newx ) , data . matrix ( predEY [ ,2]) , col =" red ") lines ( data . matrix ( newx ) , data . matrix ( predEY [ ,3]) , col =" red ") predY <- predict ( mymodel , newx , interval =" prediction ") lines ( data . matrix ( newx ) , data . matrix ( predY [ ,2]) , col =" green ") lines ( data . matrix ( newx ) , data . matrix ( predY [ ,3]) , col =" green ") points (7 , predict ( mymodel , data . frame ( x =7)) , col =" red " , pch =15) Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 443 / 458 25. Juli 2011 444 / 458 13. Zeitreihen 9 Parameterschätzung 10 Testen von Hypothesen 11 Spezielle Tests 12 Lineare Regression 13 Zeitreihen Indizes Komponentenmodelle Globale Regressionsansätze Lokale Ansätze Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 13. Zeitreihen Zeitreihen Wird ein Merkmal Y zu aufeinander folgenden Zeitpunkten t erfasst, so bilden die Beobachtungen y1 , . . . , yn eine Diese Beobachtungen können jeweils als = 1, . . . , n Zeitreihe. eine Realisierung von Zufallsvariablen Y1 , . . . , Yn interpretiert werden. Beispiele: Aktienkurse, Umsätze, Preisindizes, Niederschlagsmessungen,... Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 445 / 458 13. Zeitreihen Häug interessante Fragen: Liegt der Zeitreihe ein Trend in Form einer globalen Funktion in der Zeit zugrunde? Gibt es regelmäÿig wiederkehrende saisonale Schwankungen? Wie hängen zeitlich unterschiedliche Beobachtungen voneinander ab (Korrelation)? Wie kann eine Prognose über den zukünftigen Verlauf der Zeitreihe erstellt werden? Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 446 / 458 13. Zeitreihen 13.1. Indizes Indizes Ein Preisindex soll die zeitliche Preisentwicklung einer groÿen Menge von einzelnen Gütern (aus einem sog. Warenkorb) wiedergeben. t (i ) Preis von Gut i t (i ) verbrauchte Menge von Gut i zum Zeitpunkt t p q ∈ {1, . . . , I } zum Zeitpunkt t ∈ {0, 1, . . . } Preisindex von Laspeyres I X pt (i ) L Pt = g0 (i ) p0 (i ) i =1 Jürgen Dippon (ISA) mit Statistik für Wirtschaftswissenschater 13. Zeitreihen pt (i ) p0 (i ) p0 (i )q0 (i ) ( ) = PI j =1 p0 (j )q0 (j ) g0 i 25. Juli 2011 447 / 458 13.1. Indizes relative Preisänderung von Gut i zum Zeitpunkt t in Bezug auf die Basisperiode 0 () g0 i Anteil der Ausgaben für Gut i im Verhältnis zu den Gesamtausgaben in der Basisperiode Werden die relativen Preisänderungen mit den relativen Ausgaben zum aktuellen Zeitpunkt t gewichtet, erhält man den Preisindex von Paasche P Pt = I X pt (i ) gt (i ) p0 (i ) i =1 Jürgen Dippon (ISA) mit g pt (i )qt (i ) t (i ) = PI j =1 pt (j )qt (j ) Statistik für Wirtschaftswissenschater 25. Juli 2011 448 / 458 13. Zeitreihen 13.1. Indizes Durch Kürzen durch p0 (i ) erhält man die Aggregatformeln PI L i =1 pt (i )q0 (i ) Pt = P I p (i )q (i ) 0 i =1 0 , PI P i =1 pt (i )qt (i ) Pt = P I p (i )q (i ) t i =1 0 Der Preisindex von Laspeyres gibt jene Preisänderungen an, die sich bei konstant gehaltenen Verbrauchsmengen aus der Basisperiode ergeben hätten. Der Preisindex von Paasche bezieht sich auf die Verbrauchsmengen in der Berichtsperiode. Werden die Rollen von Preisen und Mengen vertauscht, erhält man Mengenindizes. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 13. Zeitreihen 25. Juli 2011 449 / 458 13.2. Komponentenmodelle Komponentenmodelle Ziel: Zerlegung der Zeitreihe in systematische Komponenten und eine irreguläre Restkomponente Additives Trend-Saison-Modell t = gt + st + εt , y t = 1, . . . , n t glatte Komponente: Trend, langfristige systematische Veränderung t saisonale Komponente (z.B. tages- oder jahreszeitlich bedingte g s Schwankungen) εt irreguläre Restkomponente Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 450 / 458 13. Zeitreihen 13.2. Komponentenmodelle Multiplikatives Modell t = gt · st · εt y Kann durch Logarithmusfunktion auf ein additives Modell zurückgeführt werden: t = log yt = log gt + log st + log εt ỹ Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 13. Zeitreihen 25. Juli 2011 451 / 458 13.3. Globale Regressionsansätze Globale Regressionsansätze Wir betrachten zunächst ein reines additives Trendmodell, t = g t + εt y und schätzen die Trendkomponente gt . Populäre globale Trendmodelle: t = β0 + β1 t 2 gt = β0 + β1 t + β2 t q gt = β0 + β1 t + · · · + βq t gt = β0 exp (β1 t ) β0 gt = β1 + exp (−β2 t ) g Jürgen Dippon (ISA) linearer Trend quadratischer Trend polynomialer Trend exponentieller Trend logistische Sättigungskurve Statistik für Wirtschaftswissenschater 25. Juli 2011 452 / 458 13. Zeitreihen Die Parameter β0 , β1 , . . . 13.3. Globale Regressionsansätze werden mit der Methode der kleinsten Quadrate bestimmt: n X t =1 (yt − gt )2 → min Soll zusätzlich noch eine Saisonkomponente geschätzt werden, wird die Zeitreihe zunächst trendbereinigt t = yt − gt , ỹ und für ỹt , t = 1, . . . , n , t = 1, . . . , n die saisonale Komponente bestimmt. Beispiel: Monatsdaten mit Jahreszyklen Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 13. Zeitreihen 25. Juli 2011 453 / 458 13.3. Globale Regressionsansätze Saisonmodell mit Dummyvariablen t = β1 s1 (t ) + · · · + β12 s12 (t ), s t = 1, . . . , n mit Dummyvariablen j (t ) = s 1 falls t zum Monat j gehört 0 sonst Das Saisonmuster für aufeinander folgende Jahre wird also als identisch angenommen (starre Saisongur). Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 454 / 458 13. Zeitreihen Die Monatseekte β1 , . . . , β12 13.3. Globale Regressionsansätze werden dann nach dem KQ-Prinzip geschätzt: n X 2 t − st ) = (ỹ t =1 n X 2 t − β1 s1 (t ) − · · · − β12 s12 (t )) → min (ỹ t =1 Alternativ kann die Saisonkomponente auch mittels eines trigonometrischen Polynoms ermittelt werden: t = β0 + s 6 X k =1 βk cos Hierbei werden die Koezienten 2π k 12 t + 5 X k =1 γk sin β0 , . . . , β6 , γ1 , . . . , γ5 2π k 12 t mittels KQ-Methode geschätzt. Anstatt die Zeitreihe zunächst trendzubereinigen und dann die Saisonkomponente zu schätzen, können Trend- und Saisonkomponenten simultan nach dem KQ-Prinzip geschätzt werden. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 13. Zeitreihen 25. Juli 2011 455 / 458 13.4. Lokale Ansätze Lokale Ansätze Globale Ansätze sind für längere Zeitreihen oft zu starr, da sich zeitlich verändernde Strukturen schwierig zu berücksichtigen sind. Zur Schätzung des Trends gt einer Zeitreihe zum Zeitpunkt t wird ein lokales arithmetisches Mittel von Zeitreihenwerten um den Zeitpunkt t herum gebildet: t= ĝ 2q + 1: 1 2q +1 (yt −q + · · · + yt + · · · + yt +q ), t = q + 1, . . . , n − q Ordnung des Durchschnitts Anschlieÿend kann für die trendbereinigte Zeitreihe ỹt = yt − ĝt die Saisonkomponente st (evtl. lokal in einem gleitenden Zeitfenster) geschätzt werden. Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 456 / 458 13. Zeitreihen 13.4. Lokale Ansätze Abbildung: Gleitender Durchschnitt von Zinsdaten Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 13. Zeitreihen 25. Juli 2011 457 / 458 13.5. R Beispiel Abbildung: Lineare und exponentielle Trendfunktion Jürgen Dippon (ISA) Statistik für Wirtschaftswissenschater 25. Juli 2011 458 / 458