Tutorium SS 09 Wirtschaftsstatistik Prof. Dr. E. Spodarev / W. Karcher 1. Tutorium am 05.05.09/06.05.09 und 07.05.09 (Wiederholung grundlegender Begriffe aus der Stochastik) Aufgabe 1 Es soll zu jedem Begriff ein Beispiel mit Würfeln gefunden werden. Grundlegende Begriffe aus der Stochastik Wahrscheinlichkeitsraum Elementarereignis ω – ein einzelnes Versuchsergebnis Stichprobenraum Ω – Menge aller möglichen Versuchsergebnisse Ereignis A – Teilmenge aus dem Stichprobenraum σ-Algebra F – Familie von Teilmengen von Ω mit folgenden Eigenschaften: • A ∈ F ⇒ Ac ∈ F • A1 , A2 ∈ F ⇒ A1 ∪ A2 ∈ F ∞ S • A1 , A2 , . . . ∈ F ⇒ Ai ∈ F i=1 Wahrscheinlichkeitsmaß – Abbildung P : F → [0, 1] mit folgenden Eigenschaften: • P(Ω) = 1 ∞ ∞ S P • P Ai = P(Ai ) i=1 für paarweise disjunkte Ai i=1 Wahrscheinlichkeitsraum – (Ω, F, P) Zufallsvariablen und ihre Verteilung Zufallsvariable – Seien (Ω, F, P) und (Ω , F , P ) zwei Wahrscheinlichkeitsräume. Dann 0 0 ist X : Ω → Ω mit {ω : ω ∈ Ω, X(ω) ∈ B} ∈ F, ∀B ∈ F , eine Zufallsvariable. 0 X ist eine F-F -meßbare Abbildung. 0 Die Verteilung von X ist PX (B) = P {ω : ω ∈ Ω, X(ω) ∈ B} , ∀B ∈ F . 0 0 1 0 0 Verteilungsfunktion – Abbildung FX : Ω → [0, 1] und FX (x) = P (X ≤ x) mit 0 folgenden Eigenschaften (sei X : Ω → R =: Ω ): • Asymptotik im Unendlichen: FX (−∞) = lim FX (x) = 0 x→−∞ und FX (∞) = lim FX (x) = 1. x→∞ • Monotonie: FX (x) ≤ FX (x + h), ∀x ∈ R, h ≥ 0. • Rechtsstetigkeit: lim FX (x+hn ) = FX (x), ∀x ∈ R, hn ≥ 0 und lim hn = 0. n→∞ n→∞ Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit – Seien A und B beliebige Ereignisse mit P[B] > 0, dann ist die bedingte Wahrscheinlichkeit von A unter der Bedingung B definiert [A∩B] durch P[A|B] = PP . [B] Formel von der totalen Wahrscheinlichkeit: P (A) = n P P (Bj )P (A|Bj ). j=1 Bayssche Formel: P (Bi |A) = P (Bi )P (A|Bi ) . n P P (Bj )P (A|Bj ) j=1 Stochastische Unabhängigkeit Unabhängige Ereignisse – Die Ereignisse A, B ∈ F heißen unabhängig, falls P (A ∩ B) = P (A)P (B). Unabhängige Zufallsvariablen – Die Zufallsvariablen X und Y heißen unabhängig, wenn für ihre gemeinsame Verteilung FX,Y gilt: FX,Y (x, y) = FX (x)FY (y), ∀x, y ∈ R. Transformation von Zufallsvariablen Lineare Transformation – Sei Y = aX + b, dann gilt: fY (y) = FY (y) = FX y−b . a Faltung – Sei Z = X + Y , dann gilt: fX+Y (z) = R∞ 1 f |a| X f(X,Y ) (t, z − t)dt, y−b a bzw. ∀z ∈ R. −∞ Falls X und Y unabhängig sind, gilt: fX+Y (z) = R∞ fX (t)fY (z − t)dt, ∀z ∈ R. −∞ Momente von Zufallsvariablen Erwartungswert E [X] – Der Erwartungswert einer diskreten(stetigen) Zufalssvariable R∞ P X : Ω → R ist gegeben durch E [X] = xP (X = x) = xfX (x)dx . x∈A⊂R −∞ Varianz V ar(X) – Die Varianz gibt die erwartete quadratische Abweichung vom Erwartungswert an. Es gilt: V ar(X) = E [(X − E [X])2 ]. Kovarianz Cov(X, Y ) – Die Kovarianz beschreibt den Zusammenhang zwischen den Zufallsvariablen. Es gilt: Cov(X, Y ) = E [(X − E [X])(Y − E [Y ])]. 2 Korrelation ρ – Der Korrelationskoeffizient beschreibt den Grad des linearen stochastischen Zusammenhangs der Zufallsvariablen. Es gilt: ρ = √ Cov(X,Y ) . V ar(X)V ar(Y ) Grenzwertsätze iid – iid steht für independent and identically distributed“ (unabhängig und identisch ” verteilt). Schwaches Gesetz der großen Zahlen – Seien Xi iidmit E [Xi ] = µ und existierenn P der Varianz, dann gilt für das arithmetische Mittel Yn = n1 Xi : i=1 lim P (|Yn − µ| > ) = 0. Das arithmetische Mittel konvergiert stochastisch gegen µ n→∞ (man spricht auch von Konvergenz in Verteilung). Starkes Gesetz der großen Zahlen – Seien Xi iid i ] =µ und existierender mit E [X n P Xi : Varianz, dann gilt für das arithmetische Mittel Yn = n1 i=1 P lim Yn = µ = 1. Das arithmetische Mittel konvergiert fast sicher gegen µ. n→∞ Zentraler Grenzwertsatz – Seien Xi iid mit E [Xi ] = µ und existierender Varianz σ 2 , dann gilt: n P Xi −nµ lim P i=1σ√n n→∞ ≤ x = Φ(x), ∀x ∈ R. Dabei bezeichnet Φ(x) die Verteilungs- funktion der Standardnormalverteilung. Konfidenzintervalle Stichprobenmittel – Das Stichprobenmittel ist wie folgt definiert: X n = 1 n n P Xi . i=1 Stichprobenvarianz – Die Stichprobenvarianz beschreibt die quadratische Abweichung n 2 P 1 von X n . Es gilt: Sn2 = n−1 Xi − X n . i=1 Konfidenzintervalle – Sei θ ein Parameter (z.B. Mittelwert, Varianz) der gegebenen Verteilungsfunktion. Das Konfidenzintervall ist das Intervall (a, b) mit: Pθ (a ≤ θ ≤ b) ≥ γ. Dabei bezeichnet γ das vorgegebene Signifikanzniveau, a und b sind Stichprobenfunktionen mit a < b. Asymptotisches Konfidenzintervall Beispiel – Es soll das Konfidenzintervall für den Erwartungswert eines unbekannt verteilten Merkmals mit unbekannter Varianz gefunden werden. Dabei verwenden wir den zentralen Grenzwertsatz und das starke Gesetz der großen Zahlen. Es gilt: √ lim P −z1− α2 ≤ n XSnn−µ ≤ z1− α2 = 1 − α. n→∞ z1− α z1− α Das Konfidenzintervall ist dann X n − √n2 Sn , X n + √n2 Sn . 3 Wahrscheinlichkeitsraum Elementarereignis Die Elementarereignisse ωi beim Würfeln sind {1}, {2}, {3}, {4}, {5} und {6}. Stichprobenraum Ω = {1, 2, 3, 4, 5, 6}. Ereignis z.B. Augenzahl größer als 3: A = {4, 5, 6}. σ-Algebra Die von A erzeugte σ-Algebra: σ(A) = {∅, Ω, {1, 2, 3}, {4, 5, 6}}. Wahrscheinlichkeitsmaß P[ωi ] = 61 , ∀i = 1, . . . , 6. Zufallsvariablen und ihre Verteilung ( 1 für ωi > 3 0 0 0 Zufallsvariable z.B. X(ωi ) = mit Ω = {0, 1}, F = {∅, Ω , {0}, {1}} 0 für ωi ≤ 3 1 und P[X = x] = 2 . 0 für x < 0 Verteilungsfunktion FX (x) = P[X ≤ x] = 21 für 0 ≤ x < 1 1 für x ≥ 1 Bedingte Wahrscheinlichkeit Formel von der totalen Wahrscheinlichkeit Betrachte zusätzlich einen Würfel mit der Augenzahl 1 auf 3 Seiten und der Augenzahl 2 auf den übrigen 3 Seiten. Es soll nun zufällig einer der Würfel ausgewählt werden und damit ein Mal gewürfelt werden. A beschreibt die gewürfelte Augenzahl (1 bis 6), B beschreibt den Würfel (1 entspricht dem alten Würfel, 2 dem neuen Würfel). Wie groß ist die Wahrscheinlichkeit, eine 1 zu Würfeln? P[A = 1] = P[B = 1]· P[A = 1|B = 1]+ P[B = 2]· P[A = 1|B = 2] = 21 · 16 + 21 · 12 = 31 . Bayssche Formel Wie groß ist die Wahrscheinlichkeit, dass mit dem neuen Würfel gewürfelt wurde, wenn die Augenzahl 1 war? 1 1 · [A=1|B=2] P[B = 2|A = 1] = P[B=2]·PP[A=1] = 2 1 2 = 34 . 3 Stochastische Unabhängigkeit Die Augenzahl beim zweiten Wurf des gleichen Würfels ist stochastisch unabhängig von der Augenzahl beim ersten Wurf. Transformation von Zufallsvariablen Lineare Transformation Sei X die oben definierte ZV. Betrachte folgendes Spiel: Der Spieler muss jede Runde einen Euro einzahlen und bekommt 2 Euro, wenn er eine 4 oder höher würfelt. Die Zufallsvariable Y = 2X − 1, die den Gewinn des Spiels in . einer Runde beschreibt hat folgende Verteilungsfunktion: FY (y) = FX y+1 2 4 Faltung Betrachte die Summe der Augen bei gleichzeitigem Wurf obiger Würfel. Die Augenzahl liegt zwischen 2 und 8. Sei Z die Zufallsvariable Z = X +Y , dann hat sie die 0 für z < 2 1 für 2 ≤ z < 3 (kumulierte) Verteilungsfunktion FZ (z) = 12 1 k−2 + 6 für k ≤ z < k + 1, k = 3, . . . , 7 12 1 für z ≥ 8 Momente von Zufallsvariablen Erwartungswert Die erwartete Augenzahl beim einmaligen Würfeln eines normalen Würfels ist: E [Augenzahl] = 1 · 16 + 2 · 61 + 3 · 16 + 4 · 61 + 5 · 61 + 6 · 16 = 3.5. Varianz Die Varianz der Augenzahl ist: V ar(Augenzahl) = E [Augenzahl2 ]−E [Augenzahl]2 = 12 · 16 + 22 · 61 + 32 · 61 + 42 · 61 + 52 · 16 + 62 · 16 − 3.52 = 2.916667 Konfidenzintervalle Stichprobenmittel Betrachte folgende Stichprobe vom Umfang n = 10: {5, 2, 6, 1, 2, 4, 4, 3, 6, 3}. Dann ist das Stichprobenmittel X 10 = 3.6. Stichprobenvarianz Die Stichprobenvarianz errechnet sich dann wie folgt: 2 S10 = 91 ((5 − 3.6)2 + (2 − 3.6)2 + (6 − 3.6)2 + (1 − 3.6)2 + (2 − 3.6)2 + (4 − 3.6)2 + (4 − 3.6)2 +(3 − 3.6)2 + (6 − 3.6)2 + (3 − 3.6)2 ) = 2.9333. Die Standardabweichung ist somit S10 = 1.7127. Asymptotisches Konfidenzintervall Das Konfidenzintervall soll zum Signifikanzni 1.96 1.96 √ veau α = 5% bestimmt werden: Es gilt: 3.6 − √ 1.7127, 3.6 + 1.7127 = (2.5385, 4.6615). 10 10 5 2. Tutorium am 12.05.09/13.05.09 und 14.05.09 (Grundlegende Techniken mit R Commander) Installation - siehe Installationshinweise auf der Vorlesungshomepage Starten von R Commander - R starten und library(Rcmdr) in R-Console eingeben Menü-Übersicht Datei Öffnen und Speichern von Skriptdateien (für Programme), Ausgabe- und Datendateien Bearbeiten Bearbeiten (Kopieren, Ausschneiden etc.) im Skript- und Ausgabefenster Datenmanagement Einlesen und Bearbeiten von Datenmatrizen Statistik Durchführen einer Auswahl an grundlegenden statistischen Methoden und Analysen für eine (zuvor ausgewählte, aktive) Datenmatrix Grafiken Erstellen einer Auswahl an statistischen Grafiken für eine (zuvor ausgewählte, aktive) Datenmatrix Modelle Erstellen von Analysen, Grafiken etc. für ein (zuvor ausgewähltes, aktives) statistische Modell Verteilungen Erzeugen von stochastischen Werten, Grafiken und Stichproben von bekannten Wahrscheinlichkeitsverteilungen Extras Laden von R-Paketen und Auswahl an System- und Anzeigeoptionen Hilfe Manualseiten zu allen R-Commander-Funktionen und Einführungsskript (nur auf Englisch) Beachte: Es gibt auch Hilfe-Buttons in allen Dialogfenstern des Menüs. Aufgabe 1 Lese die Daten miete03.asc (siehe Homepage und 1. Übungsblatt) ein. → Menü: Datenmanagement → Importiere Daten . aus Textdatei oder Zwischenablagen... → Dialogfenster: Gewünschten Namen für den Datensatz eingeben. Auf richtige Einstellungen bei Datei enthält Variablennamen, Datenfeldtrennzeichen und Dezimaltrennzeichen achten! → Dateiverzeichnis: Datei am Speicherort suchen und doppelklicken → Button Datenmatrix betrachten (im Hauptfenster unterhalb der Menüleiste) Hinweise zu den Feldern unterhalb der Menüleiste: - Durch Drücken des Buttons Datenmatrix bearbeiten öffnet sich ein Fenster Dateneditor, wo die Daten sich von Hand bearbeiten lassen. - Durch Drücken auf das Feld rechts neben Datenmatrix: lässt sich unter allen bisher eingelesenen Datenmatrizen die gewünschte aktive auswählen 6 Aufgabe 2 Gebe die summary-Statistiken aller Spalten aus. → Menü: Statistik → Deskriptive Statistik . Aktive Datenmatrix Frage: Was bedeuten die ausgegebenen Werte anschaulich, wie sind sie definiert? - (vgl. Vorlesung) Aufgabe 3 Erstelle einen Boxplot der Nettomieten (nm). → Menü: Grafiken → Boxplot ... → Dialogfenster: Variable nm auswählen und OK drücken Frage: Wie kann der angezeigte Boxplot interpretiert werden? - Mittlere Linie der Box entspricht dem Median, äußere Linien der Box entsprechen den Quartilen. - Achtung: Die Bedeutung der Antennen“ und Ausreißer“ ist nicht einheitlich definiert ” ” (siehe z.B. Manualseite)! Aufgabe 4 Stelle die Abhängigkeit der Nettomieten (nm) vom Baujahr (bj) und der Wohnfläche (wfl) in einem dreidimensionalen Histogramm dar und zeichne eine Regressionsebene als Näherung ein. Sortiere zuvor die Wohnungen ohne Zentralheizung (zh0=1) aus. → Menü: Datenmanagement → Aktive Datenmatrix . Teilmenge der aktiven Datenmatrix... → Dialogfenster: Alle Variablen verwenden angekreuzt lassen, bei Anweisung für die Teilmenge zh0==0“ eingeben und Namen für die neue Matrix eingeben. ” → Menü: Grafiken → 3D-Grafik . 3D-Streudiagramm... → Dialogfenster: Bei Abhängige Variable nm“ auswählen, bei Unabhängige Variablen ” bj“ und wfl“ auswählen und unter Surfaces to fit die Auswahl Lineare Kleinstquadrate ” ” ankreuzen. → Die Grafik kann durch Gedrückthalten der Maus und Bewegen gedreht werden. Frage: Wie kann das Histogramm anschaulich interpretiert werden? - Nettomiete steigt sowohl mit steigender Wohnfläche als auch mit steigendem Baujahr. Hinweise zur Mehrfachauswahl und zur Eingabe von Bedingungen in R: - Müssen aus einer Liste mehrere Elemente mit der Maus ausgewählt werden, so muss ab dem 2. Klicken Ctrl (Steuerung) gedrückt werden, da sonst die bisherige Auswahl wieder aufgehoben wird. - Müssen in ein Feld Bedingungen eingegeben werden, so gelten für die Operatoren folgende Zeichen: Operator Zeichen gleich kleiner kleiner oder gleich == < <= 7 größer größer oder gleich und oder > >= & | Aufgabe 5 a) Erzeuge 10000 Zufallsstichproben, die Bin(3000, 0.001)-verteilt sind, plotte das Ergebnis in ein Histogramm (mit Dichteskala) und speichere die Grafik. b) Zeichne die Zähldichte einer P oi(3)-Verteilung. Vergleiche mit dem Ergebnis aus a). a) → Menü: Verteilungen → Diskrete Verteilungen . Binomial-Verteilung . Zufallsstichprobe aus einer Binomial-Verteilung... → Dialogfenster: Gib bei Binomial trials 3000“, Probability of success 0.001“, ” ” bei Anzahl der Stichproben 10000“, bei Anzahl der Beobachtungen 1“ ein. ” ” → Menü: Grafiken → Histogramm ... → Dialogfenster: Kreuze bei Skalierung der Achse Dichten“ an. ” → Menü: Grafiken → Speichere Abbildung in Datei . als Bitmap → Dialogfenster: Gewünschte Einstellungen vornehmen und OK drücken → Dateiverzeichnis: Gewünschten Ordner auswählen und speichern b) → Menü: Verteilungen → Diskrete Verteilungen . Poisson-Verteilung . Grafik der Poisson-Verteilung → Dialogfenster: Gib bei Arithmetisches Mittel 3“ ein und wähle Plot probability ” mass function (=(Zähl-)Dichte). Bemerkung: Für sehr großes“ n und sehr kleines“ p nähert sich die Bin(n, p)-Verteilung der P oi(λ)” ” Verteilung an mit n ∗ p = λ. *Aufgabe 6 a) Lese die Daten BMW data (Aktienkurs der BMW-Aktie vom 20.11.2006 - 10.11.2008 mit Tagesrenditen) ein, prüfe auf Vollständigkeit der Daten und entferne ggf. Zeilen mit fehlenden Werten. b) Berechne das Stichprobenmittel der Tagesrenditen, teste, ob die Hypothese, dass die erwartete Tagesrendite gleich Null ist, zum Signifikanzniveau α = 5% haltbar ist und bestimme das entsprechende Konfidenzintervall. a) → Menü: Datenmanagement → Importiere Daten . from Excel, Access or dBate data set... → Dialogfenster: Gewünschten Namen für den Datensatz eingeben → Dateiverzeichnis: Datei am Speicherort suchen und doppelklicken → Tabellenauswahl: Gewünschtes Tabellenblatt auswählen → Button Datenmatrix betrachten (im Hauptfenster unterhalb der Menüleiste) → Menü: Datenmanagement → Aktive Datenmatrix . Fälle mit fehlenden Werten entfernen ... → Dialogfenster: Alle Variablen verwenden angekreuzt lassen und OK drücken b) → Menü: Statistik → Deskriptive Statistik . Zusammenfassungen numerischer Variablen ... → Dialogfenster: Bei Variablen daily returns“ auswählen und darauf achten, dass ” Arithmetisches Mittel angekreuzt ist. 8 → Menü: Statistik → Mittelwerte vergleichen . t-Test für eine Stichprobe... → Dialogfenster: Bei Variable daily returns“ auswählen, bei Alternativhypothese er” ste Möglichkeit ankreuzen, bei Nullhypothese: mu = 0“ und bei Niveau des Konfidenzintervalls: ” .95“ eingeben. ” Interpretation der Ausgabe: √ 0 . - t = −0.9335 ist der Wert der Testgröße n X nS−µ n - Der Schwellenwert, mit dem verglichen werden soll, ist das (1 − α2 )-Quantil der tVerteilung mit n − 1 Freiheitsgraden. Es gilt tn−1,1− α2 = 1.965. - Da | − 0.9335| < 1.965 wird die Nullypothese nicht abgelehnt (was mit mind. 95%-iger Wahrscheinlichkeit korrekt ist). - Achtung: Das heißt nicht, dass die Nullhypothese stimmen muss, also dass der Erwartungswert der den Daten zu Grunde liegenden Verteilung Null sein muss! Vielmehr heißt es nur, dass die Daten nicht ausreichen, um die Hypothese definitiv abzulehnen. - Der p-Wert 0.351 gibt das kleinste Signifikanzniveau wieder, bei dem die Nullhypothese abgelehnt werden würde. - Dass die Hypothese nicht abgelehnt wird, erkennt man auch daran, dass Null im 95%Konfidenzintervall (−0.003065347, 0.001090654) liegt. Bei Fragen zu R und R-Commander? - Hilfemenü - Internetforen (z.B. http://www.nabble.com/R-f13819.html) - Und natürlich jederzeit die Tutoren 9 3. Tutorium am 19.05.09/20.05.09 und 21.05.09 (Beschreibende Statistik) Zufallsstichprobe Zentrale Annahme: Gegeben ein Datenvektor (x1 , ..., xn ) (idR xi ∈ R, i = 1, ..., n) aus einer Beobachtung von Merkmalen. Wir nehmen an, dass diese Daten Realisierung eines stochastischen Modells sind und zwar sollen die Daten x1 , ..., xn Realisierung einer Folge von unabhängigen und identisch verteilten (iid) Zufallsvariablen X1 , ..., Xn : Ω → R, die über einem gemeinsamen Wahrscheinlichkeitsraum (Ω, F, P) definiert sind, sein, d.h. Xi (ω) = xi , i = 1, ..., n (ω ∈ Ω). Ziel: Aus den beobachteten Daten x1 , ..., xn Schlußfolgerungen über die unbekannte Verteilung der Stichprobenvariablen X1 , ..., Xn ziehen, wobei wegen der identischen Verteid lung gilt: Xi = X, i = 1, ..., n. Definitionen: (i) (x1 , ..., xn ) heißt (konkrete) Stichprobe (ii) (X1 , ..., Xn ) heißt Zufallsstichprobe (iii) Es gilt: (x1 , ..., xn ) ∈ Rn , deswegen nennen wir Rn Stichprobenraum. Alternativ: B := (X1 , ..., Xn )(Ω) (Bild) Stichprobenraum (iv) n = dim((x1 , ..., xn )) heißt Stichprobenumfang Verteilungen und ihre Darstellungen Empirische Häufigkeiten - Schätzung der Zähldichte (diskreter Fall) bzw. Dichte (absolutstetiger Fall) aus den Beobachtungen: • diskret: X → {a1 , ..., ak } ⊂ R. Gesucht ist die Zähldichte von X, d.h. pi = P(X = ai ) (i = 1, ..., k). Diese wird geschätzt durch: pi = P(X = ai ) ≈ ni , n (n groß) wobei ni die absolute Häufigkeit (siehe unten) ist, mit der die Stichprobe die Klasse i getroffen hat. • absolutstetig: X → A ⊂ R (A ist überabzählbar). Gesucht ist die Dichte f von X. In diesem Fall muss zur Schätzung der Wertebereich R in k + 1 Klassen (Teilintervalle) unterteilt werden: c0 := −∞ < c1 < ... < ck < ∞ =: ck+1 . Dann wird die Dichte geschätzt durch (i = 2, ..., k): R ci f (x)dx P(X ∈ (ci−1 , ci ]) ni /n c f (x) ≈ i−1 = ≈ x ∈ (ci−1 , ci ] ci − ci−1 ci − ci−1 ci − ci−1 10 Definitionen: (i) ni := # {xj , j = 1, ..., n : xj = ai } (diskreter Fall) bzw. ni := # {xj , j = 1, ..., n : xj ∈ (ci−1 , ci ]} (absolutstetiger Fall) heißt absolute Häufigkeit des Werts ai bzw. der Klasse (ci−1 , ci ] (i = 1, ..., k + 1). (ii) fi := nni heißt relative Häufigkeit des Werts ai bzw. der Klasse (ci−1 , ci ] (i = 1, ..., k + 1). Visualisierungen - Grafische Darstellung der relativen Häufigkeiten bzw. der Dichte durch Diagramme: • Histogramme – Stabdiagramm – Säulendiagramm – Balkendiagramm • Kreisdiagramme Empirische Verteilungsfunktion - Schätzung der kumulierten Verteilungsfunktion aus den Beobachtungen Definition: Die Abbildung F̂n : Rn+1 → [0, 1] mit F̂n (x) := # {xi : xi ≤ x, i = 1, ..., n} n heißt empirische Verteilungsfunktion der Stichprobe (x1 , ..., xn ). Es gilt: 1 für x ≥ x(n) F̂n (x) = ni für x(i) ≤ x < x(i+1) (i = 1, ..., n) 0 für x < x . (1) Beschreibung von Verteilungen Lagemaße • Mittelwerte P – arithmetisch: xn := n1 ni=1 xi , x1 , ..., xn ∈ R √ – geometrisch: xgn := n x1 · ... · xn , x1 , ..., xn > 0 −1 P – harmonisch: xhn := n1 ni=1 x−1 , x1 , ..., xn 6= 0 i • Ordnungsstatistiken und Quantile – Ordnungsstatistiken: x(i) := min {xj : # {k : xk ≤ xj } ≥ i} , ( x([nα]+1) nα ∈ /N – Quantile: xα = 1/2 x([nα]) + x([nα]+1) nα ∈ N – Spezialfall Median: xmed := x0.5 • Modus: xmod := xm mit m := argmax {fi , i = 1, ..., n} 11 i = 1, ..., n Streuungsmaße • Spannweite: r := x(n) − x(1) • Empirische Varianz: s̄2n := Pn 1 2 i=1 (xi − x̄n ) n P n 1 2 i=1 (xi − x̄n ) n−1 n = n−1 s̄2n p p • Empirische Standardabweichungen: s̄n := s̄2n , sn := s2n • Stichprobenvarianz: s2n := • Empirischer Variationskoeffizient: γn := sn , x̄n x̄n > 0 Konzentrationsmaße • Lorenzkurve L: Zweidimensionale Kurve bestehend aus denPPunkten j x(i) (0, 0), (u1 , v1 ), ..., (un , vn ), (1, 1), wobei uj := j/n und vj := Pi=1 n x(i) i=1 P 2 n i=1 ix(i) P n n i=1 xi • Gini-Koeffizient: G = Diagramm der Lorenzkurve) − n+1 n (anschaulich: Quotient zweier Flächen im P • Konzentrationsrate: CRg := ni=n−g+1 pi , wobei pi := P • Herfindahl-Index: H := ni=1 p2i 12 x Pn (i) j=1 xj Aufgaben Eine Umfrage unter 52 Arbeitnehmern nach der Anzahl von Krankheitstagen in einem Jahr ergab folgendes Bild: Krankheitstage 12 13 14 15 16 17 18 Anzahl 1 4 4 6 3 4 5 19 20 21 22 23 24 8 6 3 4 0 2 25 2 Aufgabe 1 (a) Bestimme die relativen Häufigkeiten der Krankheitstage und visualisiere sie in einem Stabdiagramm. Sind die relativen Häufigkeiten als Schätzungen für die Zähldichte geeignet? (b) Bestimme folgende Lageparameter: Arithmetisches, geometrisches und harmonisches Mittel; die 1., 10., 25., 50. Ordnungsstatistik; das 25% und 75% Quantil, sowie den Median. (c) Bestimme alle Streuungsmaße (Konzentrationsrate für g = 10). (d) Bestimme alle Konzentrationsmaße. In einer Befragung im Jahr 1999 wurde bei 22100 Privathaushalten das Monatseinkommen (in DM) ermittelt. Die folgende Tabelle enthält das Ergebnis: Einkommen < 1200 1200 - 1800 1800 - 3000 3000 - 5000 5000 - 10000 > 10000 Anzahl 4500 5200 5000 2700 3400 1300 Aufgabe 2 (a) Bestimme die relativen Häufigkeiten der Einkommen und darauf aufbauend eine (grobe) Approximation der Dichte der Einkommen. Unterstelle dabei, dass Einkommen nichtnegativ sind und dass eine Einkommensobergrenze von 100000 DM gilt. (b) Visualisiere das Ergebnis in jeweils einem Histogramm mit (a) der absoluten Häufigkeit auf der y-Achse (b) der relativen Häufigkeit auf der y-Achse (c) der Dichte auf der y-Achse (Maßstab passend wählen!) 13 Lösung 1) a) Bezeichne i die Klasse mit i Krankheitstagen, d.h. Zeile 2 der Tabelle enthält die absolute Häufigkeit ni der Klasse i. n= 25 X ni = 52; i=12 1 1 1 4 4 f12 = 52 ; f13 = 52 = 13 ; f14 = 52 = 13 ; f15 = 4 1 5 8 2 6 = 13 ; f18 = 52 ; f19 = 52 = 13 ; f20 = 52 = 52 0 2 1 2 1 1 ; f = = 0; f = = ; f = = ; 23 24 25 13 52 52 26 52 26 6 52 3 ; 26 = 3 ; 26 f21 3 f16 = 52 ; f17 = 3 4 = 52 ; f22 = 52 = 0.10 0.08 0.02 0.04 0.06 Häufigkeit 0.12 0.14 Das ergibt folgendes Schaubild: 12 14 16 18 20 22 24 Krankheitstage 1 b) x̄52 = 52 · 937 = 18.01923; xg52 = 17.71630; xh52 = 17.41243; x(1) = 12; x(10) = min{15, 16, ..., 25} = 15; x(25) = min{18, 19, ..., 25} = 18; min{24, 25} = 24; x0.25 = 1/2(x([ 52 ]) + x([ 52 ]+1) ) = 1/2(x(13) + x(14) ) = 1/2(15 + 15) = 15; 4 4 x0.75 = 1/2(x([ 52·3 ]) + x([ 52·3 ]+1) ) = 1/2(x(39) + x(40) ) = 1/2(20 + 20) = 20; 4 4 xmed = x(0.5) = 1/2(x([ 52 ]) + x([ 52 ]+1) ) = 1/2(x(26) + x(27) ) = 1/2(18 + 18) = 18 2 x(50) = 2 52 2 c) r = x(52) −x(1) = 25−12 = 13; s̄252 = 10.82655; s252 = 51 ·s̄52 = 11.03884; s̄52 = p p √ √ 2 2 s̄52 = 10.82655 = 3.29037; s52 = s52 = 11.03884 = 3.32248; γ52 = 3.32248 = 0.18439 18.01923 14 − d) G = 2·27359 52·937 0.01987 53 52 = 0.10379; CR10 = P52 i=43 pi = 0.24333; H = P52 i=1 p2i = 2) (a) Die absoluten Häufigkeiten ni (i = 1, ..., 52) sind bereits in der zweiten Zeile der Tabelle gegeben. (b) Wir nummerieren die 6 Bereiche von links nach rechts durch und erhalten die Klassen i = 1, ..., 6. Deren relative Häufigkeiten sind gegeben durch: 4500 5200 5000 f1 = 22100 = 0.20362; f2 = 22100 = 0.23529; f3 = 22100 = 0.22624; f4 = 2700 3400 1300 = 0.12217; f5 = 22100 = 0.15385; f6 = 22100 = 0.05882 22100 (c) Analog zu b) nummerieren wir die Klassen von 1-6 durch und erhalten eine (grobe) Approximation der Dichtefunktion durch: fˆ(x) = 0 f1 = 1.6969 · 10−4 1200−0 f2 = 3.9216 · 10−4 1800−1200 f3 = 1.8854 · 10−4 3000−1800 f4 = 0.61086 · 10−4 5000−3000 f5 = 0.30769 · 10−4 10000−5000 f6 = 0.0065369 · 10−4 100000−10000 0 für für für für für für für für x≤0 0 < x ≤ 1200 1200 < x ≤ 1800 1800 < x ≤ 3000 3000 < x ≤ 5000 5000 < x ≤ 10000 10000 < x ≤ 100000 x > 100000 3) Wir erhalten folgende Histogramme: 3000 2000 1000 0 Absolute Häufigkeit 4000 5000 Histogramm 1 (rechts gekürzt) 0 2000 4000 6000 15 8000 10000 12000 0.15 0.10 0.00 0.05 Relative Häufigkeit 0.20 Histogramm 2 (rechts gekürzt) 2000 4000 6000 8000 10000 12000 0 2000 4000 6000 8000 10000 12000 2 1 0 x10^−4 3 4 0 16 4. Tutorium am 26.05.09/27.05.09 und 28.05.09 (Anwendungsbeispiele) Aufgabe 1 - Guthaben von Versicherungsverträgen Betrachte die Grafik Boxplot-Gesamtguthaben. (a) Wie lassen sich die stark verschiedenen Guthaben der Versicherungsverträge erklären? (b) Welches Produkt ist empfehlenswert, wenn ein möglichst hohes garantiertes Guthaben gewünscht ist? (c) Welches Produkt ist empfehlenswert, wenn eine möglichst hohe erwartete Rendite erwirtschaftet werden soll? (d) Wie lautet die Antwort zu (c), wenn zusätzlich zumindest das eingezahlte Kapital garantiert werden soll? (e) Gibt es Produkte, die nicht empfehlenswert sind? Aufgabe 2 - Marktkonzentration Betrachte die folgenden zwei Märkte: • Markt A: Zwei Unternehmen mit einem Marktanteil von jeweils 50%. • Markt B: Vier Unternehmen mit einem Marktanteil von jeweils 25%. Berechne den Gini-Koeffizienten und den Herfindahl-Index für beide Märkte und interpretiere das Ergebnis. Aufgabe 3 - Risiko Betrachte die folgenden zwei Investments: • Investment A: Bei einer Investition von 100 GE sind folgende Returns (mit gleicher Wahrscheinlichkeit) möglich: 90 GE, 100 GE, 110 GE und 120 GE. • Investment B: Bei einer Investition von 100 GE sind folgende Returns (mit gleicher Wahrscheinlichkeit) möglich: 80 GE, 105 GE, 120 GE und 130 GE. (a) Berechne den erwarteten Return, die Varianz und die Standardabweichung. (b) Wie können die Investments miteinander verglichen werden? (c) Berechne den empirischen Variationskoeffizienten. 17 Boxplot-Gesamtguthaben 450.000 400.000 350.000 300.000 250.000 200.000 150.000 100.000 50.000 0 Fondsgebunden ohne Garantie Höchststandsfonds 5% - 95% Mittelwert Mehrtopfhybrid Dynamisches Hybrid Produkt (monatlich) 25% - 75% Median 18 Dynamisches Hybrid Produkt mit jährlichem Fonds Statisches Hybrid Produkt Klassisches Produkt Summe Bruttobeiträge Minimum Lösung Aufgabe 1 - Guthaben von Versicherungsverträgen (a) Die Versicherungsprodukte unterscheiden sich in ihrer Portfoliostruktur. Je breiter gestreut das Guthaben, desto größer der Anteil von Aktien am Portfolio. Ein hoher Aktienanteil führt zu einer hohen erwarteten Rendite (durch Risikoprämien) aber auch zu einem höheren Risiko. (b) Das klassische Produkt hat das höchste minimale Guthaben. (c) Das fondsgebundene Produkt ohne Garantien hat die höchste erwartete Rendite. (d) Das dynamische Hybridprodukt (monatlich) hat die höchste erwartete Rendite bei minimalem Guthaben in Höhe des eingezahlten Kapitals. (e) Der Höchststandsfonds ist dem Mehrtopfhybrid in jedem Fall unterlegen genauso wie das jährliche dem monatlichen dynamischen Hybridprodukt. Aufgabe 2 - Marktkonzentration Der Gini-Koeffizient ist für beide Märkte 0 (es herrscht in beiden Märkten perfect equa” lity“). 2 2 2 2 Der Herfindahl-Index für Markt A ist HA = 12 + 12 = 12 und HB = 14 + 14 + 2 1 2 + 14 = 14 für Markt B. 4 In der Tat ist das Marktgleichgewicht (Preise usw.) in einem Duopol anders als in einem Oligopol (→ Reaktionskurven). Beide Konzentrationsmaße fassen eine Stichprobe zu einer einzigen Kennzahl zusammen, was mit einem Informationsverlust verbunden ist und in manchen Situationen zu unzureichenden Aussagen führen kann. Aufgabe 3 - Risiko (a) • Investment A: erw. Return: 105; Varianz: 125; Standardabweichung: 11.18. • Investment B: erw. Return: 108.75; Varianz: 354.69; Standardabweichung: 18.83. (b) Investment B bietet einen höheren Return als Investment A, aber auch ein höheres Risiko. Ein Vergleich beider Investments kann aber nur subjektiv erfolgen (risikoneutraler oder risikoaverser Investor?). Der empirische Variationskoeffizient kann als Entscheidungshilfe dienen. (c) • Investment A: 0.11. • Investment B: 0.17. 19 5. Tutorium am 09.06.09/10.06.09 und 12.06.09 (Quantilplots und Wiederholung ausgewählter Aufgaben) Quantilplots • Mit Quantilplots soll graphisch anschaulich untersucht werden, mit welcher uns bekannten Verteilung der untersuchte Datensatz (x1 , ..., xn ) gut übereinstimmt. • Wir nehmen also eine Verteilung, von der wir vermuten, dass sie gut zu dem Datensatz passen könnte. Sei F die Verteilungsfunktion dieser Verteilung. • Wir berechnen dann die Quantile F −1 ( nk ) der Verteilung an den Stellen k/n, die Ordnungsstatistiken unseres Datensatzes x(k) und zeichnen die Punkte (F −1 ( nk ), x(k) ), k = 1, ..., n in ein Schaubild. k • Praktischer ist es oft, F −1 ( n+1 ) anstatt F −1 ( nk ) (k = 1, ..., n) zu verwenden, da für viele Verteilungen F −1 ( nn ) = F −1 (1) = ∞ gilt. • Falls die Punkte nahezu auf einer Geraden y = ax + b liegen, kann man sagen, dass ) folgen. die untersuchten Daten näherungsweise der Verteilungsfunktion F ( x−a b • Dabei setzt man voraus, dass der Stichprobenumfang n ausreichend groß ist, damit der untersuchte Datensatz die tatsächliche Verteilung gut genug repräsentiert (vgl. Satz von Gliwenko-Cantelli). Aufgabe 1 Gegeben sind die Monatsschlusskurse der Daimler-Aktie im Mai der letzten 10 Jahre: Datum 31.05.99 31.05.00 31.05.01 31.05.02 30.05.03 31.05.04 Kurs 83,16 58,30 53,96 52,54 26,75 36,66 Datum 31.05.05 31.05.06 31.05.07 30.05.08 29.05.09 Kurs 32,61 41,00 68,15 48,92 25,85 Berechne die jährlichen Renditen der Daimler-Aktie im Mai. Erstelle einen Quantilplot, der die Renditen mit der Normalverteilung vergleicht. Wähle Stichprobenmittel und -varianz der Renditen als Parameter für die Normalverteilung. Wiederholung ausgewählter Aufgaben Aufgabe 2 (vgl. Skript Statistik I, Übungsaufgabe 2.1.1) Zeige, dass die empirische Verteilungsfunktion F̂n (x) := ten einer Verteilungsfunktion erfüllt: #{xi :xi ≤x,i=1,...,n} n die Eigenschaf- • Asymptotisches Verhalten im Unendlichen: F̂n (−∞) = lim F̂n (x) = 0 x→−∞ und F̂n (∞) = lim F̂n (x) = 1. x→∞ • Monotonie: F̂n (x) ≤ F̂n (x + h), ∀x ∈ R, h ≥ 0. 20 • Rechtsstetigkeit: lim F̂n (x + hm ) = F̂n (x), m→∞ ∀x ∈ R, hm ≥ 0 und lim hm = 0. m→∞ Aufgabe 3 (vgl. ÜB 2, Aufgabe 1) In der Datei claims.dat sind 10.000 Schadensfälle eines Sturmversicherungsbestandes gegeben. 1.) Erstelle Quantilplots mit (a) der Gamma-Verteilung mit den Parametern a = 1 und λ1 = 4429, (b) der Lognormal-Verteilung mit den Parametern µ = 8 und σ = 1 mit Hilfe von R. Beurteile das Ergebnis. Im folgenden nehmen wir nun an, dass das Versicherungsunternehmen die Schäden mit den Verteilungen aus (a) bzw. (b) modelliert. Beantworte für beide Fälle: 2.) Das Versicherungsunternehmen hat für einen möglichen Schaden 25.000 Euro reserviert. Wie hoch ist die Wahrscheinlichkeit, dass diese Reserve nicht ausreicht? 3.) Wie hoch müsste die Reserve sein, dass sie mit 99, 9%-iger Wahrscheinlichkeit ausreicht? Warum ist es folglich äußerst wichtig, dass mit der richtigen Verteilung modelliert wird? Aufgabe 4 (vgl. ÜB 2, Aufgabe 3) In einem Land gebe es acht Supermarktketten. Diese hatten 2007 folgende Umsätze (in Mio. Euro): REVE ALKI Nord 32 41 ALKI Süd LIGL 55 77 MINUS 8 NORMAAL 13 NEDDO SKI 18 6 1. Bestimme und zeichne die Lorenzkurve. Berechne den Gini-Koeffizient. 2. Durch schwere Managementfehler ging der Umsatz vom Marktführer LIGL im darauffolgenden Jahr um vier Siebtel zurück. Außerdem schlossen sich ALKI Nord und ALKI Süd zusammen und SKI ist vom Markt verschwunden. Bestimme jetzt Lorenzkurve und Gini-Koeffizient. 21 Lösungen Aufgabe 1 siehe auch Excel-Datei Daimler Durch die bekannten Formeln erhalten wir: Stichprobenmittel xn = −0, 046; Stichprobenvarianz s2n = 0, 141 Die Quantile der N (µ, σ 2 ) = N (xn , s2n )-Verteilung können wir durch Statistik-Programme oder Quantiltabellen erhalten: k 1 2 3 4 5 6 7 8 9 10 k Quantile F −1 ( n+1 ) -0,548 -0,388 -0,274 -0,178 -0,089 -0,004 0,085 0,181 0,295 0,455 x(k) -0,491 -0,472 -0,299 -0,282 -0,110 -0,074 -0,026 0,257 0,370 0,662 Die Punkte liegen nicht auf einer Geraden. Folglich lassen sich die Renditen nicht sehr gut mit der Normalverteilung modellieren. Aufgabe 2 • Für x → −∞ gilt: #{xi : xi ≤ x, i = 1, ..., n} → 0 ⇒ F̂n (x) → 0 Für x → ∞ gilt: #{xi : xi ≤ x, i = 1, ..., n} → n ⇒ F̂n (x) → 1 • Es gilt stets #{xi : xi ≤ x, i = 1, ..., n} ≤ #{xi : xi ≤ x + h, i = 1, ..., n}, da h ≥ 0. ⇒ F̂n (x) ≤ F̂n (x + h), ∀x ∈ R, h ≥ 0 • Für hm ≥ 0 und hm → 0, m → ∞ gilt stets #{xi : xi ≤ x + hm , i = 1, ..., n} → #{xi : xi ≤ x, i = 1, ..., n}, da es kein xi geben kann, für das xi > x, aber xi ≤ x + hm ∀m ∈ N gilt. ⇒ lim F̂n (x + hm ) = F̂n (x), ∀x ∈ R, hm ≥ 0 und lim hm = 0 m→∞ m→∞ Aufgabe 3 1.) Einlesen der Daten: → Menü: Datenmanagement → Importiere Daten . aus Textdatei oder Zwischenablagen...... Achtung: Datei enthält keine Variablennamen! Erstellen der Grafiken: → Menü: Grafiken → Quantile-comparison plot... → Dialogfenster: Bei Verteilung Anderes ankreuzen und dann folgendes angeben: 22 Abbildung 1: Quantilplots Gamma-Verteilung Lognormal-Verteilung Angeben: gamma lnorm Parameter: shape=1, scale=4429 meanlog=8, sdlog=1 Da der Quantilplot mit der gegebenen Lognormal-Verteilung nahezu eine Gerade y = x zeigt, wird die Verteilung der Daten durch diese Lognormal-Verteilung gut modelliert. Der Quantilplot mit der Gamma-Verteilung weicht stark von einer Geraden ab und damit eignet sich die Gamma-Verteilung nicht zur Modellierung. 2.) • → Menü: Verteilungen → Stetige Verteilungen . ... • Entsprechende Verteilung und dann Wahrscheinlichkeiten der ...-Verteilung ... wählen. • Wert (25000) und entsprechende Parameter eingeben. 3.) • → Menü: Verteilungen → Stetige Verteilungen . ... • Entsprechende Verteilung und dann Quantile der ...-Verteilung ... wählen. • Wahrscheinlichkeit (0.999) und entsprechende Parameter eingeben. Ergebnisse von 2.) 3.) 1 − F (25000) 99.9%-Quantil Gamma(1,4429) 0.0035365 ≈ 0, 35% 30594 Lognormal(8,1) 0.0167254 ≈ 1, 67% 65528 Wählt man die Gamma- anstatt der Lognormal-Verteilung wird weniger als die Hälfte reserviert um 99, 9% der möglichen Schäden abzudecken. Reserviert man jedoch nur 30.000 Euro, während die Schäden jedoch Lognormal-verteilt sind, werden nur“ ca. 98, 9% der ” möglichen Schäden abgedeckt. Das Versicherungsunternehmen hätte also immerhin 11mal häufiger zu wenig reserviert. Dieses Risiko ist für eine Versicherung zu hoch. 23 Aufgabe 4 Sei xi der Umsatz der i-ten Supermarktkette. Sei vi = der i kleinsten Marktteilnehmer. i 1 2 3 4 5 6 7 8 P xi 32 41 55 77 8 13 18 6 250 Pi x(i) 6 8 13 18 32 41 55 77 j=1 x(j) 6 14 27 45 77 118 173 250 vi 0,024 0,056 0,108 0,18 0,308 0,472 0,692 1 ui = ni 0,125 0,25 0,375 0,5 0,625 0,75 0,875 1 ix(i) 6 16 39 72 160 246 385 616 1540 Pi x(j) Pj=1 n i=1 xi Name REVE ALKI LIGL MINUS NORMAAL NEDDO Abbildung 2: Markt 2007 i 1 2 3 4 5 6 P der relative Marktanteil xi 32 96 33 8 13 18 200 x(i) 8 13 18 32 33 96 Pi j=1 x(j) 8 21 39 71 104 200 vi 0,04 0,105 0,195 0,355 0,52 1 Abbildung 3: Markt 2008 Abbildung 4: Lorenzkurven Die Gini-Koeffizienten ergeben sich durch die Formel aus der Vorlesung: G = n+1 . Also gilt für die beiden Aufgabenteile: n 1. G = 2∗1540 8∗250 2. G = 2∗957 6∗200 − − 9 8 7 6 = 0, 415 = 0, 4283 Die Konzentration hat also zugenommen. 24 P 2 n i=1 ix(i) P n n i=1 xi − ui = ni 0,167 0,333 0,5 0,667 0,833 1 ix(i) 8 26 54 128 165 576 957 6. Tutorium am 16.06.09/17.06.09 und 18.06.09 (Kontingenztafeln) Kontingenztafeln • In diesem Zusammenhang betrachten wir immer zwei (konkrete) Stichproben mit gleichem Stichprobenumfang n: (x1 , ..., xn ) als Realisierungen von X und (y1 , ..., yn ) als Realisierungen von Y . • X und Y sind dabei immer endliche diskrete Zufallsvariablen. Bei Vorliegen von absolutstetigen Merkmalen besteht lediglich die Möglichkeit durch Klassenbildung (endlich viele) die Zufallsvariablen zu diskretisieren. Die Realisierungen von X seien dabei in der (endlichen) Menge {c1 , ..., ck1 } und die Realisierungen von Y in der (endlichen) Menge {d1 , ..., dk2 }. • Kontingenztafeln liefern einen tabellarischen Überblick über die absoluten und relativen Häufigkeiten aller möglichen Ausprägungskombinationen. Definitionen: (i) hij := h(ci , dj ) = # {(xk , yk ); k = 1, ..., n : xk = ci ∧ yk = dj } die absolute Häufigkeit der Ausprägungskombination (ci , dj ) in den Stichprobenpaaren (xk , yk ) der Doppelstichprobe ((x1 , y1 ), ..., (xn , yn )). h (ii) fij := f (ci , dj ) = nij die relative Häufigkeit der Ausprägungskombination (ci , dj ) in den Stichprobenpaaren (xk , yk ) der Doppelstichprobe ((x1 , y1 ), ..., (xn , yn )). P2 P2 fij , i = 1, ..., k1 hij bzw. fi. := kj=1 (iii) hi. := kj=1 Pk1 Pk1 h.j := i=1 hij bzw. f.j := i=1 fij , j = 1, ..., k2 heißen (relative) Randhäufigkeiten P1 P2 P 1 Pk2 (iv) h.. := ki=1 hi. = kj=1 h.j (= ki=1 j=1 hij = n) Kontingenztafeln haben folgende Gestalt: c1 c2 .. . ck1 d1 h11 h21 .. . ··· ··· ··· dk 2 h1k2 h2k2 .. . h1. h2. .. . hk1 h.1 ··· ··· hk1 k2 h.k2 hk1 . h.. = n bzw. c1 c2 .. . ck 1 d1 f11 f21 .. . ··· ··· ··· dk2 f1k2 f2k2 .. . f1. f2. .. . fk 1 f.1 ··· ··· fk1 k2 f.k2 fk 1 . f.. = 1 25 Aufgabe 1 100 weibliche Patienten sind mit einer konventionellen Therapie behandelt worden. Dabei wurden 85 Patientinnen geheilt und 15 sind gestorben. Von 81 Patientinnen, die mit einer neuen Therapie behandelt wurden, konnten 77 geheilt entlassen werden und 4 sind gestorben. (a) Erstelle aus den Angaben eine 2x2 Kontingenztafel. (b) Wie groß sind die erwarteten Häufigkeiten, wenn diese proportional zu den Randhäufigkeiten sein sollen? (c) Berechne den χ2 -Koeffizienten. Aufgabe 2 Bei 300 Personen wurden Geschlecht und Haarfarbe notiert. Beim Geschlecht wurden männlich und weiblich unterschieden, bei der Haarfarbe schwarz, braun, blond und rot. Folgende Häufigkeiten wurden gefunden: weiblich/schwarz: 55 weiblich/blond: 64 männlich/schwarz: 32 männlich/blond: 16 weiblich/braun: 65 weiblich/rot: 16 männlich/braun: 43 männlich/rot: 9 (a) Erstelle aus den Angaben eine geeignete Kontingenztafel mit den absoluten Randhäufigkeiten. (b) Erstelle eine Kontingenztafel mit den relativen Häufigkeiten. (c) Bestimme die bedingten relativen Häufigkeiten der Haarfarbe, gegeben das Geschlecht. (d) Stelle mit Hilfe der bedingten relativen Häufigkeiten eine Vermutung an, ob und inwieweit zwischen Haarfarbe und Geschlecht ein Zusammenhang besteht. (e) Teste die Vermutung, dass ein Zusammenhang besteht mit Hilfe des korrigierten Kontingenzkoeffizienten Aufgabe 3 - Linearer Zusammenhang Bei 14 zufällig ausgewählten Männern wurden jeweils Schuhgröße x (in cm) und Körpergröße y (in cm) gemessen. Das ergab folgendes Bild: x 42.0 45.0 42.5 45.5 43.0 39.0 42.0 41.0 41.5 42.5 42.0 40.0 42.0 45.0 y 175 188 178 189 182 169 182 171 175 179 173 174 176 184 (a) Erstelle ein Streudiagramm (Scatterplot) der Daten. (b) Besteht optisch ein Zusammenhang zwischen den beiden Merkmalen? Falls ja, versuche den Zusammenhang mit Hilfe einer Geraden im Streudiagramm darzustellen. (c) Berechne die empirische Kovarianz sowie den Pearson-Korrelationskoeffizienten. 26 Lösung 1.) (a) Wir erhalten folgende Kontingenztafel: konventionelle Therapie neue Therapie geheilt 85 77 162 gestorben 15 100 4 81 19 181 162 (b) Feld(konventionell/geheilt) = 181 · 100 = 89.50 19 Feld(konventionell/gestorben) = 181 · 100 = 10.50 162 Feld(neu/geheilt) = 181 · 81 = 72.50 19 Feld(neu/gestorben) = 181 · 81 = 8.50 Das ergibt die folgende Tabelle: konventionelle Therapie neue Therapie (c) T = n(h11 h22 −h12 h21 )2 (h11 +h12 )(h11 +h21 )(h12 +h22 )(h21 +h22 ) = geheilt 89.5 72.5 162 gestorben 10.5 100 8.5 81 19 181 181·(85·4−15·77)2 (85+15)(85+77)(15+4)(77+4) = 4.82 2.) a) Wir erhalten folgende Kontingenztafel: schwarz braun blond rot weiblich 55 65 64 16 200 männlich 32 87 43 108 16 80 9 25 100 300 b) Wir erhalten folgende Kontingenztafel: schwarz braun blond rot weiblich 18.33% 21.66% 21.33% 5.33% 66.66% männlich 10.66% 29% 14.33% 36% 5.33% 26.66% 3% 8.33% 33.33% 1 c) Sei i die i. Haarfarbe (schwarz, braun, blond, rot) und j das j. Geschlecht (weiblich, männlich). h ges.: f (i|j) = hij.j , i = 1, ..., 4; j = 1, ..., 2 55 65 f (1|1) = hh11 = 200 = 27.5%; f (2|1) = hh21 = 200 = 32.5%; f (3|1) = hh31 = .1 .1 .1 h41 64 16 = 32%; f (4|1) = h.1 = 200 = 8%; 200 32 43 16 f (1|2) = hh12 = 100 = 32%; f (2|2) = hh22 = 100 = 43%; f (3|2) = hh32 = 100 = .2 .2 .2 h42 9 16%; f (4|2) = h.2 = 100 = 9%; d) Aufgrund der beobachteten bedingten relativen Häufigkeiten vermuten wir, dass ein Zusammenhang zwischen Haarfarbe und Geschlecht besteht. Wir vermuten, dass bei Frauen relativ häufiger die Haarfarbe blond vorkommt und relativ weniger 27 die Farben schwarz und braun als bei Männern. Die Haarfarbe rot ist bei beiden Geschlechtern in etwa gleich häufig vertreten. e) Wir berechnen zunächst den χ2 -Koeffizienten: 2 2 2 2 2 Pk1 Pk2 hij − hi.nh.j (32− 87·100 (65− 108·200 (43− 108·100 (55− 87·200 300 ) 300 ) 300 ) 300 ) + 87·100 + 108·200 + 108·100 + T = i=1 j=1 = 87·200 hi. h.j n 2 (64− 80·200 300 ) 300 2 2 (16− 80·100 300 ) 300 2 (16− 25·200 300 ) 300 300 (9− 25·100 300 ) + + + 25·100 = 0.155 + 0.310 + 0.681 + 1.361 + 80·100 25·200 300 300 300 2.133 + 4.267 + 0.027 + 0.053 = 8.987 Der korrigierte q ergibt dann: q qKontingenzkoeffizient q 80·200 300 T∗ = T / n+T kmin −1 kmin 8.987 300+8.987 = 2−1 2 = 0.241 3.) (a) Wir erhalten folgendes Streudiagramm: ● 185 ● ● ● 180 Körpergröße ● ● ● 175 ● ● ● ● ● 170 ● ● 39 40 41 42 43 44 45 Schuhgröße (b) Aufgrund der Lage der Punkte vermuten wir einen (linearen) Zusammenhang zwischen den Merkmalen. 1 (c) xn = 14 ·(42+45+42.5+45.5+43+39+42+41+41.5+42.5+42+40+42+45) = 1 · 593 = 42.36; 14 1 y n = 14 · (175 + 188 + 178 + 189 + 182 + 169 + 182 + 171 + 175 + 179 + 173 + 174 + 1 176 Pn + 184) = 14 · 2495 = 178.21; i=1 xi yi = (42 · 175 + 45 · 188 + 42.5 · 178 + 45.5 · 189 + 43 · 182 + 39 · 169 + 42 · 182 + 41 Pn· 1712+ 41.5 · 175 + 42.5 · 179 + 42 · 173 + 40 · 174 + 42 · 176 + 45 · 184) = 105814.5; xi = 25162; Pi=1 n 2 i=1 yi = 445127; Damit erhalten P wir: 1 1 s2xy = n−1 ( ni=1 xi yi − n · x · y) = 13 · (105814.5 − 14 · 42.36 · 178.21) = 9.91; ρxy = √ Pn ( (n−1)s2xy Pn 2 2 i=1 xi −nx̄n )( i=1 2) yi2 −nȳn = √ 0.90 28 128.84 (25162−14·42.362 )(445127−14·178.212 ) = 128.84 143.41 = 7. Tutorium am 23.06.09/24.06.09 und 25.06.09 (Zusammenhangsmaße) Stochastik • Zusammenhangsmaße beschreiben die Abhängigkeit von Zufallsvariablen (hier: die Merkmale X und Y) • Der Zusammenhang von zwei Zufallsvariablen wird durch die Kovarianz und die Korrelation (normierte Kovarianz) beschrieben. Es gilt: • Cov(X, Y ) = E [(X − E [X])(Y − E [Y ])] Cov(X,Y ) • Cor(X, Y ) = ρ(X, Y ) = √ √ V ar(X) V ar(Y ) • V ar(X) = E [(X − E [X])2 ] = E [X 2 ] − (E [X])2 (analog für Y) Statistik • Für die Zusammenhangsmaße stehen die folgenden Schätzer zur Verfügung. • Schätzer für die Kovarianz (empirischeKovarianz): n n P P 1 1 2 sxy = n−1 (xi − xn ) (yi − y n ) = n−1 xi yi − nxn y n i=1 i=1 • Schätzer für die Varianz: n P 1 s2xx = n−1 (xi − xn )2 = i=1 1 n−1 n P x2i − nx2n (analog für syy ) i=1 • Schätzer für die Korrelation: – Bravis-Pearson-Korrelationskoeffizient: n ρxy = s2xy sxx syy P = i=1 s n P i=1 xi yi −nxn y n x2i −nx2n n P i=1 yi2 −ny 2n – Spearman-Korrelationskoeffizient: n P (rg(xi )−rg x )(rg(yi )−rg y ) i=1 ρsp = s P n n P 2 (rg(xi )−rg x )2 (rg(yi )−rgy ) i=1 i=1 mit rg(xi ) = rg(x(j) ) = j, falls xi 6= xj für i 6= j und für alle i, sowie rg x = rg y = n+1 2 29 Aufgabe 1 Betrachte die Schaubilder und versuche den Korrelationskoeffizienten abzuschätzen. Aufgabe 2 Berechne den Rang folgender Stichprobe (x1 , . . . , x15 ) mit folgenden Werten: x1 5 x2 7 x3 8 x4 1 x5 9 x6 2 x7 6 x8 8 x9 7 x10 5 x11 7 x12 3 x13 4 x14 1 x15 8 Aufgabe 3 Ein Versicherer möchte den Zusammenhang zwischen Sach- und Personenschäden bei der Kfz-Versicherung anhand folgender Stichprobe untersuchen: Sachschaden Personenschaden Sachschaden Personenschaden 2000 9800 550 1500 3300 200 5500 4800 3000 500 550 30000 0 1500 0 0 10000 7000 500 0 2600 500 1200 3900 600 0 0 1000 0 0 (a) Berechne die mittlere Schadensgröße, Varianz und Standardabweichung für Sachsowie Personenschäden. (b) Erstelle ein Streudiagramm. (c) Berechne die empirische Kovarianz sowie den Bravis-Pearson-Korrelationskoeffizienten. Verwende dazu folgende Zwischenergebnisse (mit Sachschaden = X und Personen15 15 P P schaden = Y): x15 = 2663.333, y 15 = 3370, yi2 = 1052802500 x2i = 200082500, i=1 und 15 P xi yi = 388650000. i=1 (d) Berechne den Spearman-Korrelationskoeffizienten. 30 i=1 Lösungen Aufgabe 1 ●● ● 4 ● ● ● ● ● 2 ● ● y ● ● −2 −1 −3 −2 ● ● ● −4 2 1 0 ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ●● ●●● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ●●● ● ●● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●●●●● ● ●● ● ●●●● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ●●●● ●● ●●●●●● ●● ● ● ●● ● ●●●● ●● ●● ● ● ● ● ●● ● ● ●●●●●● ● ● ●● ● ● ● ● ●● ●● ●●● ●●●●●● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ●● ●● ● ● ● ● ● ●● ● ●●● ● ●●●● ● ● ● ● ●●●● ● ● ● ●● ● ●● ● ● ● ●● ● ●● ● ●●● ●● ●● ● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ●● ●● ● ● ● ●●● ●●● ● ● ● ● ●● ● ●● ●● ● ●● ●● ● ● ●● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●●●●● ● ● ●● ●● ● ●● ●● ● ●● ● ● ●● ●●●● ●● ● ● ●● ● ●● ● ● ●● ● ● ●●● ●● ●● ● ●● ● ● ●● ● ● ● ● ● ● ●● ●●●● ● ● ●● ●● ● ● ●● ● ● ● ●●● ● ● ●● ● ● ● ●● ●●● ●●●●●● ● ● ●● ●● ● ● ●● ●● ●● ● ●● ● ● ● ●●● ● ●● ●● ● ●● ● ●● ●● ● ●● ● ●● ● ● ● ●●●● ●● ● ●● ●●●● ● ● ● ● ●●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ●● ● ● ●● ● ● ● ● ●● ● ● ● ●●●●● ●● ● ●●● ● ●● ●●● ● ●● ● ●● ●● ● ●● ● ● ●● ● ●● ● ●● ● ●● ● ● ●● ● ●● ● ● ● ● ● ●●● ● ● ●● ●● ●● ● ● ●●● ● ● ●● ● ●● ●●●● ● ●●● ●● ●● ●●●●●●● ●●● ● ●● ● ● ● ●●● ●● ● ● ●●● ● ● ● ●●● ● ● ● ●● ● ● ● ●● ●● ●●●● ● ● ●● ● ● ●●●● ●●● ●● ●●●● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ●● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ●●●● ●● ● ●●●●●● ●●●●● ● ● ● ● ● ● ●●● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● y ● ● ● 0 3 ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ●● ● ● ●●● ● ● ●●● ● ● ● ● ● ●● ● ●● ● ● ●●● ● ● ● ● ● ● ●●● ● ●●● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●●●●● ● ●● ● ● ● ●●●● ● ● ● ●●● ● ● ● ● ● ● ●● ●● ●● ● ● ●● ●● ● ● ●● ●●●● ● ●● ●●● ● ● ●●●● ● ●● ● ● ● ●● ●● ●● ●● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●● ● ● ●●● ●● ● ● ● ● ●● ●● ●● ●●●● ● ●● ● ● ● ● ● ● ●●●● ● ●●● ●● ●●● ●●●● ●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ●●●●●●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ●● ● ●● ● ●● ●● ●●● ●●● ● ●● ●● ●● ● ● ●●● ● ● ● ●● ● ● ●●● ● ● ●● ●● ●●●● ●● ●● ● ●● ● ● ● ● ● ● ●● ●● ● ● ●●● ●● ●● ● ● ●● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ●● ● ●●●● ● ● ●● ● ●● ●● ●● ● ●●● ● ● ● ●● ● ●●● ●● ● ●● ● ● ● ●● ●● ●●● ● ●● ●● ●● ●●●● ●●● ● ● ●● ● ● ● ●● ● ●● ● ● ●●● ● ●● ●●● ● ●● ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ●● ●●●●● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ● ● ● ●●● ● ●● ● ●● ● ●● ●●● ● ●● ● ● ● ●● ● ● ●● ● ●● ● ● ●●● ●●●● ● ● ● ●● ● ● ●● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ●● ● ● ● ●● ● ●● ●● ●● ● ● ●● ● ●● ●● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ●● ●● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●●●●●● ● ●●●● ●● ● ●● ● ● ●● ● ● ●●● ● ● ●●● ●● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●●● ●●● ●● ● ● ● ● ●● ●●●● ● ● ●● ●● ●● ● ● ● ● ●● ● ● ●●● ● ● ●●●●●●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ● ● ● ● ● ●●●● ●● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −4 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 ● 3 ● ● 4 ●● ●● ● ●● ● ● ●●●● ●● ●● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ●●● ● ● ● ●● ● ●● ● ●● ● ● ● ● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●●● ●● ●● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ●● ● ●●●● ● ●● ● ●● ● ●●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ●●●●● ●● ●● ● ●● ●● ● ● ●● ● ● ●● ● ● ●●● ●● ● ● ● ● ●● ● ●● ● ●● ●● ● ●● ● ● ●● ● ● ●● ● ● ●● ● ●● ● ●● ●● ●● ●●●●● ●● ●●● ●● ●● ●●● ● ●● ● ● ● ●●● ● ● ●● ● ● ● ●●●● ●●●● ● ● ● ●●● ● ●●●●● ● ● ●● ●●● ● ●● ● ●● ● ●● ● ●● ● ● ● ●● ●●● ● ●●● ● ●● ● ● ●● ● ● ● ● ●●●● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ●● ●●●●●● ● ● ●●● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ●●● ●● ● ● ● ● ●● ● ●● ● ● ● ●● ● ●● ● ● ●●● ● ● ●●● ● ●● ●● ●●● ●● ● ● ●● ● ●● ●●●●●●● ● ● ● ● ●● ●●●● ● ●● ●● ●● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●●●● ●●● ● ●●●●● ●● ● ●●●● ● ● ● ●●● ● ● ● ●● ●● ●● ● ● ●●● ●●●● ●● ●● ●● ●● ● ● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ● ●●● ●●● ● ●● ●● ● ●●● ●● ● ● ●● ●● ●●● ●●● ● ● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ●● ● ●● ● ● ● ● ● ●● ●● ● ● ●●● ● ● ● ● ● ●● ●●● ●●●● ● ● ● ● ●● ● ● ●● ● ● ● ●●●● ●●●● ●● ●● ●● ●●● ● ● ● ●●● ● ● ● ● ● ● ● ●● ● ●● ● ●●● ● ●● ●● ● ● ●● ●●● ●● ●● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ●● ●●●●●●● ● ●●●● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ● ●● ● ●● ● ● ● ●● ● ●● ●● ● ●● ● ● ● ●● ●●● ●● ● ● ● ● ● ● ●● ● ●●● ● ● ● ●● ●●● ● ●● ●●●● ● ● ● ● ● ● ● ●● ● ●●● ●●● ● ●● ●● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●●●● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● 2 ●● 0 y ● −2 ● ● ● ●● ● ● ●● −3 ● ● x Korrelationskoeffizient = 0.72082 −4 3 y −2 −1 0 1 2 ● ●● ● ●● ● ●● ● x Korrelationskoeffizient = −0.00279 ● ● −2 −1 0 1 ● ● 2 −3 x Korrelationskoeffizient = −0.99878 −2 −1 0 1 2 3 x Korrelationskoeffizient = −0.65184 Aufgabe 2 Berechne den Rang folgender Stichprobe (x1 , . . . , x15 ) mit folgenden Werten: xi rg(xi ) 5 7 8 1 9 2 6 8 7 5 7 3 4 6.5 10 13 1.5 15 3 8 13 10 6.5 10 4 5 1 8 1.5 13 Dabei sind die Werte für rg(xi ) für die Stichprobenwerte 1, 5, 7, 8 jeweils das arithmetische Mittel der in Frage kommenden Rangwerte. 31 Aufgabe 3 (a) Es ergeben sich folgende Werte: Mittelwert Varianz Standardabweichung Sachschäden 2663.333 6691595 2586.812 Personenschäden 3370 63032071 7939.274 30000 (b) Wir erhalten folgendes Streudiagramm: 20000 15000 10000 Personenschäden 25000 ● ● 5000 ● ● 0 ● ● ● ● 0 ● ● ● ● ● 2000 ● 4000 6000 8000 10000 Sachschäden (c) Für die Kovarianz gilt: n P 1 s2xy = n−1 xi yi − nxn y n = i=1 1 15−1 (388650000 − 15 · 2663.333 · 3370) = 18144179 Für den Bravis-Pearson-Korrelationskoeffizienten gilt: ρxy = s2xy sxx syy n P = i=1 s n P i=1 xi yi −nxn y n x2i −nx2n n P i=1 yi2 −ny 2n = √ 0.8834698 32 14·18144179 (200082500−15·2663.3332 )(1052802500−15·33702 ) = (d) Der Spearman-Korrelationskoeffizient kann wie folgt berechnet werden: n P (rg(xi )−rg x )(rg(yi )−rg y ) i=1 ρsp = s P n n P 2 (rg(xi )−rg x )2 (rg(yi )−rgy ) i=1 Es gilt: rg x = rg y = Sachschaden Rang Personenschaden Rang Sachschaden Rang Personenschaden Rang i=1 n+1 2 = 8 und 2000 9800 550 8 15 4 550 30000 0 10 15 4.5 2600 500 1200 9 2.5 6 0 0 1000 4.5 4.5 11 Durch einsetzen erhält man: ρsp = 1500 7 1500 12 3900 12 0 4.5 √ 11.53571 19.96429·17 33 3300 200 5500 4800 3000 500 11 1 14 13 10 2.5 0 0 10000 7000 500 0 4.5 4.5 14 13 9 4.5 600 5 0 4.5 = 0.6261713 8. Tutorium am 30.06.09/01.07.09 und 02.07.09 (Einfache lineare Regression) Einfache lineare Regression Gegeben zwei Datensätze (x1 , x2 , . . . , xn ) Ausgangsvariable und (y1 , y2 , . . . , yn ) Zielvariable. Vermutung: Es besteht ein linearer Zusammenhang zwischen x und y: yi = α + βxi + εi wobei εi unbekannte Störgrößen mit Eεi = 0, V ar(εi ) = σ 2 unkorreliert. ∀i = 1, ..., n und ε1 , ..., εn Aufgaben zur einfachen linearen Regression: (i) Zeichne (xi , yi ) in ein Diagramm ein ( Streuungsdiagramm“). ” (ii) Berechne die MKQ-Schätzer α̂, β̂ für α und β: Bekannt ist: der Vektor (α̂, β̂), mit s2xy β̂ = 2 , sxx α̂ = ȳn − β̂ x̄n minimiert den mittleren quadratischen Fehler n e(α, β) = wobei n 1X x̄n = xi , n i=1 1X (yi − α − βxi )2 , n i=1 n 1X ȳn = yi n i=1 (Stichprobenmittel) und n s2xx = 1 X (xi − x̄n )2 n − 1 i=1 (Stichprobenvarianz von x) n s2xy 1 X = (xi − x̄n )(yi − ȳn ) (Stichprobenkovarianz von (x, y)) n − 1 i=1 s2yy 1 X = (yi − ȳn )2 n − 1 i=1 n (Stichprobenvarianz von y). (iii) Zeichne die Gerade ( Ausgleichsgerade“) ” y = α̂ + β̂x ins Diagramm ein. 34 (iv) Prognostiziere die Zielgröße y0 für einen bestimmten Ausgangswert x0 durch ŷ0 = α̂ + β̂x0 . (v) Berechne die Quadratsummenzerlegung und das Bestimmtheitsmaß R2 : Bekannt ist: Gesamtstreuung (SQT) = erklärte Streuung (SQE) + Residualstreuung (SQR) n X n n X X 2 (yi − ȳn ) = (ŷi − ȳn ) + (yi − ŷi )2 2 i=1 i=1 i=1 mit ŷi = α̂ + β̂xi ∀i = 1, ..., n ∈ [0, 1] Bestimmtheitsmaß R2 = SQE SQT 4 2 Faustregel: Gilt R > n+2 , besteht ein linearer Zusammenhang. 5 Im folgenden wird angenommen, dass εi i.i.d. Zufallsvariablen ∼ N (0, σ 2 ) ∀i = 1, ..., n. (vi) Teste Hypothesen für α bzw. β: Es gilt: H0 : α = α0“; ” bzw. H0 : β = β0“; ” α̂ − α p Pn ∼ tn−2 S ( i=1 x2i ) /(n(n − 1)s2xx ) β̂ − β p ∼ tn−2 , S/ (n − 1)s2xx wobei n 1 X S = (yi − ŷi )2 . n − 2 i=1 2 und tn−2 die t-Verteilung mit n − 2 Freiheitsgraden. 0.4 Dichte der t−Verteilung 2 0.2 WS: γ 0.1 Dichte der t−Verteilung 0.3 q = t1−−(1−−γ) 1−γ WS: 2 1−γ 2 0.0 WS: −4 −q−2 0 2 q 4 Aus der Graphik erkennen wir : Mit Wahrscheinlichkeit γ ist −tn−2,1− 1−γ ≤ 2 α̂ − α p Pn ≤ tn−2,1− 1−γ 2 S ( i=1 x2i ) /(n(n − 1)s2xx ) 35 (1) und ebenso −tn−2,1− 1−γ ≤ 2 wobei tn−2,1− 1−γ das (1 − 2 β̂ − β p ≤ tn−2,1− 1−γ 2 S/ (n − 1)s2xx 1−γ )-Quantil 2 (2) der t-Verteilung mit n − 2 Freiheitsgraden. Hieraus ergeben sich die t-Tests: • Hypothese H0 : α = α0“ wird zum Niveau 1 − γ abgelehnt, falls ” |α̂ − α0 | p Pn > tn−2,1− 1−γ ; 2 S ( i=1 x2i ) /(n(n − 1)s2xx ) • Hypothese H0 : β = β0“ wird zum Niveau 1 − γ abgelehnt, falls ” |β̂ − β0 | p > tn−2,1− 1−γ . 2 S/ (n − 1)s2xx Bestimme Konfidenzintervalle für α und β. Aus (1) bzw. (2) lässt sich herleiten: Mit Wahrscheinlichkeit γ gilt: • s P n s P n 2 i=1 xi < n(n − 1)s2xx α S β̂ − tn−2,1− 1−γ p < 2 (n − 1)s2xx β α̂ − tn−2,1− 1−γ S 2 < α̂ + tn−2,1− 1−γ S 2 x2i n(n − 1)s2xx i=1 • 36 S < β̂ + tn−2,1− 1−γ p . 2 (n − 1)s2xx Aufgabe: Eine Speditionsfirma will anhand von 10 zufällig ausgewählten LKW-Lieferungen untersuchen, ob ein bzw. welcher Zusammenhang zwischen der Länge des Transportweges (in km) und der Lieferzeit (in Tagen) von der Abholbereitstellung bis zum Eintreffen der Lieferung beim Empfänger besteht. Es wurden die folgenden Daten erhoben: Nummer der Lieferung Weglänge (in km) Lieferzeit (in Tagen) 1 2 825 215 3.5 1.0 3 4 5 6 7 8 9 1070 550 480 920 1350 325 670 4.0 2.0 1.0 3.0 4.5 1.5 3.0 10 1215 5.0 (a) Zeichne ein Streuungsdiagramm für die Weglänge x in km (Ausgangsvariable) und die Lieferzeit y in Tagen (Zielvariable). (b) Berechne für das Modell yi = α + βxi + εi , εi i.i.d. N (0, σ 2 ) die MKQ-Schätzer (α̂, β̂). (c) Zeichne die Ausgleichsgerade ins Diagramm von (a) ein. (d) Stelle eine Prognose für die Lieferzeit bei einer Weglänge von 1500 km auf. (e) Berechne das Bestimmtheitsmaß R2 und die Residualstreuung (SQR). (f) Teste, ob überhaupt ein signifikanter Zusammenhang zwischen der Länge des Transportweges und der Lieferzeit besteht, d.h. teste die Hypothese H0 : β = 0“ ” zum Niveau 1 − γ = 0.05. Hinweis: t8,0.975 = 2.306. (g) Bestimme 95%-Konfidenzintervalle für α und β. 37 Lösung: 3 1 2 Weglänge (in km) 4 5 (a) (siehe Grafik) 200 400 600 800 1000 1200 Lieferzeit (in Tagen) Abbildung 5: Streuungsdiagramm mit Regressionsgerade (b) x̄10 = 762, ȳ10 = 2.85, s2xx = 144206.7, s2xy = 517 ⇒ β̂ = 0.003585132 und α̂ = 0.1181291 (c) Ausgleichsgerade (siehe Grafik): y = α̂ + β̂x = 0.1181291 + 0.003585132 · x (d) Prognostizierte Lieferzeit bei Weglänge 1500 km: ŷ0 = α̂ + β̂x0 = 0.1181291 + 0.003585132 · 1500 = 5.4958 ≈ 5.5 (e) Nr. 1 2 3 4 5 6 7 8 9 10 yi 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0 ŷi 3.076 0.889 3.954 2.090 1.839 3.416 4.958 1.283 2.520 4.474 38 SQT = (n − 1)s2yy = 9 · 2.0583̄ = 18.525, SQE = 16.68162128 ⇒ R2 = 16.68162128 = 0.900492377 und SQR = 18.525 − 16.68162128 = 1.843378716 18.525 4 2 Es gilt: R = 0.900492377 > 0.3̄ = 10+2 ⇒ Nach der Faustregel besteht ein linearer Zusammenhang. p SQR = 0.482 (f) x̄10 = 762, 9· s2xx = 1139.24, S 2 = 10−2 Somit: |β̂| 0.0036 0.0036 p = = = 9.00. 0.48/1139.24 0.0004 S/ 9· s2xx Andererseits gilt t8,0.975 = 2.306 und somit wird die Hypothese H0 : β = 0“ zum ” Niveau 5% abgelehnt, d.h. es besteht ein signifikanter Zusammenhang zwischen der Länge des Transportweges und der Lieferzeit. (g) • sP t8,0.975 S 10 i=1 x2i = 2.306· 0.48· 10· 9· s2xx r 7104300 = 0.8189 90· 144206.7 Somit gilt mit Wahrscheinlichkeit 95% −0.7008 = 0.1181 − 0.8189 < α < 0.1181 + 0.8189 = 0.9370. 95%-Konfidenzintervall für α: (-0.7008 , 0.9370) • 0.48 S t8,0.975 p = 2.306· √ = 0.0009716 2 9· 144206.7 (n − 1)sxx Somit gilt mit Wahrscheinlichkeit 95% 0.0026135 = 0.0035851 − 0.0009716 < β < 0.0035851 + 0.0009716 = 0.0045567. 95%-Konfidenzintervall für β: (0.0026135 , 0.0045567) 39 9. Tutorium am 07.07.09/08.07.09 und 09.07.09 (Einfache lineare Regression) Hypothesentests • Hypothese H0 : α = α0“ wird zum Niveau 1 − γ abgelehnt, falls ” |α̂ − α0 | p Pn > tn−2,1− 1−γ ; 2 S ( i=1 x2i ) /(n(n − 1)s2xx ) • Hypothese H0 : β = β0“ wird zum Niveau 1 − γ abgelehnt, falls ” |β̂ − β0 | p > tn−2,1− 1−γ . 2 S/ (n − 1)s2xx Konfidenzintervalle Ein Konfidenzintervall für α bzw. β zum Konfidenzniveau γ ist gegeben durch: • s P n α̂ − tn−2,1− 1−γ S 2 n(n 2 i=1 xi − 1)s2xx s P n < α < α̂ + tn−2,1− 1−γ S 2 x2i n(n − 1)s2xx i=1 • β̂ − tn−2,1− 1−γ p 2 S (n − 1)s2xx < β S < β̂ + tn−2,1− 1−γ p . 2 (n − 1)s2xx Aufgabe: Ein Autohändler will untersuchen, ob ein Zusammenhang besteht zwischen der Zahl der wöchentlich verkauften Autos und der Anzahl der (durchschnittlich) diensthabenden Autoverkäufer in der Verkaufshalle. Dazu protokolliert er an ausgewählten Wochen die Anzahl der verkauften Autos und die diensthabenden Mitarbeiter mit folgendem Ergebnis: Anzahl verkaufter Autos (y) Anzahl der Verkäufer (x) 20 18 6 6 10 6 11 4 2 3 (a) Erstelle ein Streudiagramm für die Daten. (b) Unterstelle die Gültigkeit eines linearen Zusammenhangs und berechne die Schätzer für die Modellparameter α (y-Abschnitt) und β (Steigung). (c) Zeichne die Regressionsgerade in das Streudiagramm ein. (d) Schätze auf Basis des erhaltenen linearen Modells mit wievielen Autoverkäufen der Händler rechnen kann, wenn er im Schnitt 5 Verkäufer an jedem Tag einsetzt. (e) Berechne die angepassten Verkaufszahlen für jede beobachtete Anzahl an eingesetzten Verkaufsmitarbeitern. Berechne anschließend die zugehörigen (realisierten) Residuen. 40 (f) Schätze die Varianz der Residuen (g) Teste die Hypothese, dass kein Zusammenhang zwischen der Zahl verkaufter Autos und der eingesetzten Mitarbeiterzahl besteht auf einem 5% Konfidenzniveau. (h) Berechne ein Konfidenzintervall zum Niveau 10% für den Parameter α. (i) Wiederhole die Lösung dieser Aufgabe unter Verwendung des Computerprogramms R. 41 Lösung 20 ● 14 12 ● 10 Anzahl verkaufter Autos 16 ● 18 (a) (siehe Grafik) 6 8 ● ● 2 3 4 5 6 Anzahl eingesetzter Verkäufer (b) x̄5 = 4.2, ȳ5 = 13, s2xx = 3.2, s2xy = 10 ⇒ β̂ = 3.125 und α̂ = −0.125 (c) y = −0.125 + 3.125x (siehe Grafik) (d) ŷ0 = −0.125 + 3.125x0 = −0.125 + 3.125 · 5 = 15.5, d.h. bei Einsatz von 5 Verkäufern vermuten wir, dass in einer Woche mindestens 15 Autos verkauft werden. (e) Die Tabelle enthält die gesuchten Werte: Anzahl der Verkäufer (xi ) Angepasste Verkaufszahl (ŷi ) eingetretene Abweichung (i ) 6 6 4 2 3 18.625 18.625 12.375 6.125 9.25 1.375 -0.625 -2.375 -0.125 1.75 ŷi = −0.125 + 3.125xi i = yi − ŷi Pn 1 2 (f) S 2 = n−2 i=1 (yi − ŷi ) 1 = 3 ((20 − 18.625)2 + (18 − 18.625)2 + (10 − 12.375)2 + (6 − 6.125)2 + (11 − 9.25)2 ) = 13 11 = 11 3 (g) Hypothese H0 : β = 0“ (kein Zusammenhang) wird zum Niveau 5% abgelehnt, falls ” |β̂| p > tn−2,1− 1−γ , 2 S/ (n − 1)s2xx 42 d.h. H0 : β = 0“ (kein Zusammenhang) wird zum Niveau 5% abgelehnt, falls ” |3.125| q √ > t3,0.975 ⇔ 5.8387 > 3.182. 11 4 · 3.2 / 3 Diese Bedingung ist erfüllt, d.h. wir lehnen die Behauptung, dass kein Zusammenhang besteht auf diesem Sicherheitsniveau ab. P (h) 5i=1 x2i = 111 Ein Konfidenzniveau für α zum Niveau 10% ist gegeben durch: s P s P n n 2 2 x i=1 i i=1 xi 1−γ S α̂ − tn−2,1− 1−γ S < α < α̂ + t n−2,1− 2 2 n (n − 1) s2xx n (n − 1) s2xx Es gilt: s tn−2,1− 1−γ S 2 Pn 2 i=1 xi = t3,0.95 n (n − 1) s2xx r 11 3 r 11 · 101 = 5.66 3 · 5 · 4 · 3.2 = 2.353 ⇒ −0.125 − 5.66 < ⇔ −5.785 < α α r r 101 11 · 101 = 2.353 5 · 4 · 3.2 3 · 5 · 4 · 3.2 < −0.125 + 5.66 < 5.535 (i) (a) R Commander starten (b) → Menü: Datenmanagement → Neue Datenmatrix → Dialogfenster: Namen eingeben → Daten aus Tabelle eingeben (c) → Menü: Grafiken . Streudiagramm ... → Dialogfenster: x-Variable wählen (var2), y-Variable wählen (var1), Haken bei Kleinst-Quadrate-Linie setzen (d) → Menü: Statistik → Regressionsmodelle . Lineare Regression ... → Dialogfenster: Namen eingeben, abhängige Variable wählen (var1), unabhängige Variable wählen (var2) 43 Ergebnis: Von der R-Ausgabe sind für uns die folgenden Ergebnisse relevant: • Die “Residuals” (rotes Rechteck) liefern uns die (realisierten) Abweichungen i (i ∈ {1, . . . , 5}) der beobachteten Daten yi (i ∈ {1, . . . , 5}) von den prognostizierten Werten ŷi (i ∈ {1, . . . , 5}) • Die Spalte “Estimate“ enthält die geschätzten Parameterwerte α̂ (in der Zeile “Intercept”) und β̂ (in der Zeile “var2”) • Die Spalte “t-value” enthält die Testgrößen für die Hypothesen α = 0 und β = 0 in der jeweiligen Zeile. Wir interessieren uns insbesondere für die Testgröße zu β (roter Kringel) • “Residual standard error” liefert uns den geschätzten Wert σ̂, der den unbekannten Modellparameter σ (Standardabweichung der Residuen) erwartungstreu abschätzt. Entsprechend liefert das Quadrat dieses Wertes den geschätzten Wert von σ 2 (Varianz der Residuen) • Die Angabe “degrees of freedom” liefert uns die Anzahl der Freiheitsgrade, die wir zum Schätzen von R (bzw. R2 ) hatten. Diese Größe ist gleichzeitig auch der Parameter “Freiheitsgrade” zur Bestimmung des t-Quantils für Tests und Konfidenzintervalle. • Zuletzt liefert die Größe “Multiple R-squared“ das (realisierte) Bestimmtheitsmaß R2 , mit dessen Hilfe eine Einschätzung der Modellgüte möglich ist Teilaufgabe (a) kann nun mit Hilfe des R-Commanders gelöst werden, indem ein Scatterplot der Daten gemacht wird und dabei die “Ausgleichsgerade” (optional) mit ausgegeben wird. (siehe Grafik). Die Lösung von Teilaufgabe (b) kann man in der Spalte “Estimate” ablesen und Teilaufgabe (c) lässt sich mit diesen Werten ebenfalls lösen. Teilaufgabe (d) 44 kann nicht aus der R-Ausgabe direkt abgelesen werden, kann aber manuell leicht berechnet werden mit Hilfe von Teilaufgabe (c). Die angepassten Verkaufszahlen von Teilaufgabe (e) können aus der R-Ausgabe nicht abgelesen werden und auch manuell nicht berechnet werden, wenn der Datensatz nicht zur Verfügung steht; die eingetretenen Abweichungen können jedoch der R-Ausgabe entnommen werden (rotes Rechteck). In Teilaufgabe (f) soll die Größe S 2 berechnet werden, das ist aber gerade der geschätzte Wert für σ 2 und kann somit durch einfaches Quadrieren der Größe “Residual standard error” aus der RAusgabe gewonnen werden. Die benötigte Testgröße für Teilaufgabe (g) kann in Zeile “var2” und Spalte “t-value” (roter Kringel aus der R-Ausgabe abgelesen werden, das zugehörige t-Quantil, mit dem man diesen Wert vergleichen muss jedoch separat (z.B. in einer Tabelle) besorgt werden. (Für Insider: Die Aussage, ob das Testkriterium erfüllt ist, lässt sich auch aus dem p-Wert (spalte “P r(> |t|)” ablesen). Teilaufgabe (h) lässt sich anhand der R-Ausgabe nur lösen, wenn die fehlende Größe s2xx angegeben wird, ansonsten nicht. 45 10. Tutorium am 14.07.09/15.07.09 und 16.07.09 (Multiple lineare Regression) Multiple lineare Regression Gegeben m Datensätze mit Stichprobenumfang von jeweils n: (x12 , x22 , . . . , xn2 ), . . . , (x1m , x2m , . . . , xnm ) Ausgangsvariablen (y1 , y2 , . . . , yn ) Zielvariable Vermutung: Es besteht ein linearer Zusammenhang zwischen x.i (i = 2, . . . , m) und y: yi = β1 + β2 xi2 + . . . + βm xim + i wobei i unbekannte Störgrößen mit E [i ] = 0, Var(i ) = σ 2 1 , ..., n unkorreliert. (∀i ∈ {1, . . . , n}) und Aufgabe: Ein Unternehmen interessiert sich dafür, ob und wie der Wasserverbrauch eines seiner Fabriken von bestimmten Größen abhängt. Dazu werden jeweils 17 Messungen vorgenommen, die den Wasserverbrauch der Produktionseinrichtungen (USAGE in gallons/100) in Abhängigkeit von der monatlichen Durchschnittstemperatur (TEMP in ◦ F!), der Produktionsmenge (PROD in einer angemessenen Einheit), der Anzahl der Betriebstage im Monat (DAYS), der Anzahl der Mitarbeiter auf der monatlichen Lohnliste (PAYR) und der Anzahl der Stunden, in der die Produktion für Wartungsarbeiten stillstand (HOUR), ermitteln. Dazu wird mit R eine multiple lineare Regression durchgeführt, mit folgendem Ergebnis: (a) Teste die Hypothese, dass der Wasserverbrauch nicht (linear) von der Produktionsmenge (PROD) abhängt auf einem 5% Konfidenzniveau. 46 (b) Teste, auf einem 10% Konfidenzniveau, die Hypothese, dass der Wasserverbrauch unabhängig von der monatlichen Durchschnittstemperatur (TEMP) ist. (c) Beurteile, ob dieses Modell gut geeignet ist, um die Abhängigkeit des Wasserverbrauchs von den gegebenen Größen zu beschreiben. 47 Lösung = 2.5%, d.h. wir lehnen die Hypothese, dass kein Zusammenhang (a) 1 − γ = 5% ⇔ 1−γ 2 zwischen Wasserverbrauch und Produktionsmenge besteht, auf diesem Sicherheitsniveau ab, falls T1 > tn−m,1− 1−γ ⇔ T1 > t11,0.975 ⇔ 3.091 > 2.201. 2 Diese Bedingung ist erfüllt, also vermuten wir, dass zwischen Wasserverbrauch und Produktionsmenge ein Zusammenhang besteht. (b) 1 − γ = 10% ⇔ 1−γ = 5%, d.h. wir lehnen die Hypothese, dass kein Zusammen2 hang zwischen Wasserverbrauch und Durchschnittstemperatur besteht, auf diesem Sicherheitsniveau ab, falls T1 > tn−m,1− 1−γ ⇔ T1 > t11,0.95 ⇔ 1.390 > 1.796. 2 Diese Bedingung ist nicht erfüllt, also können wir auf diesem Niveau nicht ausschließen, dass zwischen Wasserverbrauch und Durchschnittstemperatur wirklich kein Zusammenhang besteht. (c) R2 = 0.6446 lässt auf eine ausreichende Modellgüte schließen 48 Klausurvorbereitung am 14.07.09/15.07.09 und 16.07.09 (Zusatzaufgaben zur Probeklausur von 2003) Aufgabe 1: Quantilplots Die Lebensdauer (in Jahren) von Laptops eines bestimmten Typs soll untersucht werden. Dazu wurde eine Stichprobe von 100 Exemplaren gezogen, anhand derer eine passende Verteilung bestimmt werden soll. Nachfolgend sind Quantilplots für folgende Verteilungen abgebildet: • X ∼ N (µ = 5, σ = 2.5) • X ∼ U (1, 12) • X ∼ Gamma(λ = 1, n = 5) • X ∼ Lognormal(µ = 1.6, σ = 0.5) wobei für • X ∼ Gamma(λ, n) mit λ ∈ R, n ∈ N gilt: FX (x) = 1 − e−λx n−1 X (λx)i i=0 i! ! 1x≥0 • X ∼ Lognormal(µ, σ) mit µ, σ ∈ R, σ > 0 gilt: Z x 1 1 (ln t − µ)2 FX (x) = √ exp{− }dt 1x≥0 2σ 2 2πσ 0 t (a) Beurteile und begründe anhand der Quantilplots, welche Verteilung am besten die Lebensdauer der Laptops repräsentiert. (b) Berechne anhand der passenden Verteilung, wieviel Geld der Hersteller für Garantiefälle reservieren muss, wenn der Hersteller eine 3-jährige Garantie auf den Laptop gibt, jeder Garantiefall 1.000 Euro kostet und 7.000 Exemplare verkauft wurden. 49 50 Lösung (a) Damit man davon sprechen kann, dass die Daten gut zu der Verteilung passen, müssen 2 Kriterien erfüllt sein: (a) Die Punkte müssen nahezu auf einer Geraden liegen (b) Möglichst keine Punkte dürfen außerhalb der beiden Konfidenzbänder liegen. (Ein geringer Anteil von Ausnahmen kann akzeptiert werden.) Die Gammaverteilung erfüllt diese Kriterien am besten. Mit ihr kann man also die Daten am besten modellieren. (b) Wir nehmen nun an, dass die Zufallsvariable X mit X ∼ Gamma(λ = 1, n = 5) die Laptoplebensdauer (in Jahren) beschreibt. Zunächst wollen wir wissen, wie groß die Wahrscheinlichkeit ist, dass ein Laptop vor Ablauf von 3 Jahren kaputt geht. Wir berechnen: ! n−1 5−1 X X (λ3)i (1 · 3)i −λ3 −1·3 FX (3) = 1 − e 13≥0 = 1 − e i! i! i=0 i=0 −3 =1−e · 1 3 9 27 81 + + + + 1 1 2 6 24 = 1 − 0, 04979 · 16, 375 = 0, 18473 Mit 7.000 verkauften Laptops und 1.000 Euro pro Garantiefall müssen somit 0, 18473 · 7.000 · 1.000 = 1.293.110 Euro für Garantiefälle reserviert werden. 51