Wirtschaftsstatistik Tutorium SS 09 1. Tutorium am 05.05.09/06.05

Werbung
Tutorium
SS 09
Wirtschaftsstatistik
Prof. Dr. E. Spodarev / W. Karcher
1. Tutorium am 05.05.09/06.05.09 und 07.05.09
(Wiederholung grundlegender Begriffe aus der Stochastik)
Aufgabe 1
Es soll zu jedem Begriff ein Beispiel mit Würfeln gefunden werden.
Grundlegende Begriffe aus der Stochastik
Wahrscheinlichkeitsraum
Elementarereignis ω – ein einzelnes Versuchsergebnis
Stichprobenraum Ω – Menge aller möglichen Versuchsergebnisse
Ereignis A – Teilmenge aus dem Stichprobenraum
σ-Algebra F – Familie von Teilmengen von Ω mit folgenden Eigenschaften:
• A ∈ F ⇒ Ac ∈ F
• A1 , A2 ∈ F ⇒ A1 ∪ A2 ∈ F
∞
S
• A1 , A2 , . . . ∈ F ⇒
Ai ∈ F
i=1
Wahrscheinlichkeitsmaß – Abbildung P : F → [0, 1] mit folgenden Eigenschaften:
• P(Ω) = 1
∞ ∞
S
P
• P
Ai =
P(Ai )
i=1
für paarweise disjunkte Ai
i=1
Wahrscheinlichkeitsraum – (Ω, F, P)
Zufallsvariablen und ihre Verteilung
Zufallsvariable – Seien (Ω, F, P) und (Ω , F , P ) zwei Wahrscheinlichkeitsräume. Dann
0
0
ist X : Ω → Ω mit {ω : ω ∈ Ω, X(ω) ∈ B} ∈ F, ∀B ∈ F , eine Zufallsvariable.
0
X ist eine F-F -meßbare Abbildung.
0
Die Verteilung von X ist PX (B) = P {ω : ω ∈ Ω, X(ω) ∈ B} , ∀B ∈ F .
0
0
1
0
0
Verteilungsfunktion – Abbildung FX : Ω → [0, 1] und FX (x) = P (X ≤ x) mit
0
folgenden Eigenschaften (sei X : Ω → R =: Ω ):
• Asymptotik im Unendlichen: FX (−∞) = lim FX (x) = 0
x→−∞
und FX (∞) = lim FX (x) = 1.
x→∞
• Monotonie: FX (x) ≤ FX (x + h),
∀x ∈ R, h ≥ 0.
• Rechtsstetigkeit: lim FX (x+hn ) = FX (x),
∀x ∈ R, hn ≥ 0 und lim hn = 0.
n→∞
n→∞
Bedingte Wahrscheinlichkeit
Bedingte Wahrscheinlichkeit – Seien A und B beliebige Ereignisse mit P[B] > 0,
dann ist die bedingte Wahrscheinlichkeit von A unter der Bedingung B definiert
[A∩B]
durch P[A|B] = PP
.
[B]
Formel von der totalen Wahrscheinlichkeit: P (A) =
n
P
P (Bj )P (A|Bj ).
j=1
Bayssche Formel: P (Bi |A) =
P (Bi )P (A|Bi )
.
n
P
P (Bj )P (A|Bj )
j=1
Stochastische Unabhängigkeit
Unabhängige Ereignisse – Die Ereignisse A, B ∈ F heißen unabhängig,
falls P (A ∩ B) = P (A)P (B).
Unabhängige Zufallsvariablen – Die Zufallsvariablen X und Y heißen unabhängig,
wenn für ihre gemeinsame Verteilung FX,Y gilt:
FX,Y (x, y) = FX (x)FY (y), ∀x, y ∈ R.
Transformation von Zufallsvariablen
Lineare Transformation – Sei Y = aX + b, dann gilt: fY (y) =
FY (y) = FX y−b
.
a
Faltung – Sei Z = X + Y , dann gilt: fX+Y (z) =
R∞
1
f
|a| X
f(X,Y ) (t, z − t)dt,
y−b
a
bzw.
∀z ∈ R.
−∞
Falls X und Y unabhängig sind, gilt: fX+Y (z) =
R∞
fX (t)fY (z − t)dt,
∀z ∈ R.
−∞
Momente von Zufallsvariablen
Erwartungswert E [X] – Der Erwartungswert einer diskreten(stetigen) Zufalssvariable
R∞
P
X : Ω → R ist gegeben durch E [X] =
xP (X = x) =
xfX (x)dx .
x∈A⊂R
−∞
Varianz V ar(X) – Die Varianz gibt die erwartete quadratische Abweichung vom Erwartungswert an. Es gilt: V ar(X) = E [(X − E [X])2 ].
Kovarianz Cov(X, Y ) – Die Kovarianz beschreibt den Zusammenhang zwischen den
Zufallsvariablen. Es gilt: Cov(X, Y ) = E [(X − E [X])(Y − E [Y ])].
2
Korrelation ρ – Der Korrelationskoeffizient beschreibt den Grad des linearen stochastischen Zusammenhangs der Zufallsvariablen. Es gilt: ρ = √ Cov(X,Y ) .
V ar(X)V ar(Y )
Grenzwertsätze
iid – iid steht für independent and identically distributed“ (unabhängig und identisch
”
verteilt).
Schwaches Gesetz der großen Zahlen – Seien Xi iidmit E [Xi ] = µ
und existierenn
P
der Varianz, dann gilt für das arithmetische Mittel Yn = n1
Xi :
i=1
lim P (|Yn − µ| > ) = 0. Das arithmetische Mittel konvergiert stochastisch gegen µ
n→∞
(man spricht auch von Konvergenz in Verteilung).
Starkes Gesetz der großen Zahlen – Seien Xi iid
i ] =µ und existierender
mit E [X
n
P
Xi :
Varianz, dann gilt für das arithmetische Mittel Yn = n1
i=1
P lim Yn = µ = 1. Das arithmetische Mittel konvergiert fast sicher gegen µ.
n→∞
Zentraler Grenzwertsatz – Seien Xi iid mit E [Xi ] = µ und existierender Varianz σ 2 ,
dann gilt:


n
P
Xi −nµ
lim P  i=1σ√n
n→∞
≤ x = Φ(x),
∀x ∈ R. Dabei bezeichnet Φ(x) die Verteilungs-
funktion der Standardnormalverteilung.
Konfidenzintervalle
Stichprobenmittel – Das Stichprobenmittel ist wie folgt definiert: X n =
1
n
n
P
Xi .
i=1
Stichprobenvarianz – Die Stichprobenvarianz beschreibt die quadratische Abweichung
n
2
P
1
von X n . Es gilt: Sn2 = n−1
Xi − X n .
i=1
Konfidenzintervalle – Sei θ ein Parameter (z.B. Mittelwert, Varianz) der gegebenen
Verteilungsfunktion. Das Konfidenzintervall ist das Intervall (a, b) mit:
Pθ (a ≤ θ ≤ b) ≥ γ. Dabei bezeichnet γ das vorgegebene Signifikanzniveau, a und b
sind Stichprobenfunktionen mit a < b.
Asymptotisches Konfidenzintervall Beispiel – Es soll das Konfidenzintervall für den
Erwartungswert eines unbekannt verteilten Merkmals mit unbekannter Varianz gefunden werden. Dabei verwenden wir den zentralen Grenzwertsatz und das starke
Gesetz der großen Zahlen. Es gilt: √
lim P −z1− α2 ≤ n XSnn−µ ≤ z1− α2 = 1 − α.
n→∞
z1− α
z1− α
Das Konfidenzintervall ist dann X n − √n2 Sn , X n + √n2 Sn .
3
Wahrscheinlichkeitsraum
Elementarereignis Die Elementarereignisse ωi beim Würfeln sind {1}, {2}, {3}, {4}, {5}
und {6}.
Stichprobenraum Ω = {1, 2, 3, 4, 5, 6}.
Ereignis z.B. Augenzahl größer als 3: A = {4, 5, 6}.
σ-Algebra Die von A erzeugte σ-Algebra: σ(A) = {∅, Ω, {1, 2, 3}, {4, 5, 6}}.
Wahrscheinlichkeitsmaß P[ωi ] = 61 ,
∀i = 1, . . . , 6.
Zufallsvariablen und ihre Verteilung
(
1 für ωi > 3
0
0
0
Zufallsvariable z.B. X(ωi ) =
mit Ω = {0, 1}, F = {∅, Ω , {0}, {1}}
0 für ωi ≤ 3
1
und P[X = x] = 2 .


0 für x < 0
Verteilungsfunktion FX (x) = P[X ≤ x] = 21 für 0 ≤ x < 1

1 für x ≥ 1
Bedingte Wahrscheinlichkeit
Formel von der totalen Wahrscheinlichkeit Betrachte zusätzlich einen Würfel mit
der Augenzahl 1 auf 3 Seiten und der Augenzahl 2 auf den übrigen 3 Seiten. Es
soll nun zufällig einer der Würfel ausgewählt werden und damit ein Mal gewürfelt
werden. A beschreibt die gewürfelte Augenzahl (1 bis 6), B beschreibt den Würfel
(1 entspricht dem alten Würfel, 2 dem neuen Würfel). Wie groß ist die Wahrscheinlichkeit, eine 1 zu Würfeln?
P[A = 1] = P[B = 1]· P[A = 1|B = 1]+ P[B = 2]· P[A = 1|B = 2] = 21 · 16 + 21 · 12 = 31 .
Bayssche Formel Wie groß ist die Wahrscheinlichkeit, dass mit dem neuen Würfel
gewürfelt wurde, wenn die Augenzahl 1 war?
1 1
·
[A=1|B=2]
P[B = 2|A = 1] = P[B=2]·PP[A=1]
= 2 1 2 = 34 .
3
Stochastische Unabhängigkeit
Die Augenzahl beim zweiten Wurf des gleichen Würfels ist stochastisch unabhängig von
der Augenzahl beim ersten Wurf.
Transformation von Zufallsvariablen
Lineare Transformation Sei X die oben definierte ZV. Betrachte folgendes Spiel: Der
Spieler muss jede Runde einen Euro einzahlen und bekommt 2 Euro, wenn er eine
4 oder höher würfelt. Die Zufallsvariable Y = 2X − 1, die den Gewinn des Spiels in
.
einer Runde beschreibt hat folgende Verteilungsfunktion: FY (y) = FX y+1
2
4
Faltung Betrachte die Summe der Augen bei gleichzeitigem Wurf obiger Würfel. Die Augenzahl liegt zwischen 2 und 8. Sei Z die Zufallsvariable
Z = X +Y , dann hat sie die

0
für z < 2



1
für 2 ≤ z < 3
(kumulierte) Verteilungsfunktion FZ (z) = 12
1
k−2

+ 6
für k ≤ z < k + 1, k = 3, . . . , 7


 12
1
für z ≥ 8
Momente von Zufallsvariablen
Erwartungswert Die erwartete Augenzahl beim einmaligen Würfeln eines normalen
Würfels ist: E [Augenzahl] = 1 · 16 + 2 · 61 + 3 · 16 + 4 · 61 + 5 · 61 + 6 · 16 = 3.5.
Varianz Die Varianz der Augenzahl ist: V ar(Augenzahl) = E [Augenzahl2 ]−E [Augenzahl]2 =
12 · 16 + 22 · 61 + 32 · 61 + 42 · 61 + 52 · 16 + 62 · 16 − 3.52 = 2.916667
Konfidenzintervalle
Stichprobenmittel Betrachte folgende Stichprobe vom Umfang n = 10: {5, 2, 6, 1, 2, 4, 4, 3, 6, 3}.
Dann ist das Stichprobenmittel X 10 = 3.6.
Stichprobenvarianz Die Stichprobenvarianz errechnet sich dann wie folgt:
2
S10
= 91 ((5 − 3.6)2 + (2 − 3.6)2 + (6 − 3.6)2 + (1 − 3.6)2 + (2 − 3.6)2 + (4 − 3.6)2 + (4 − 3.6)2
+(3 − 3.6)2 + (6 − 3.6)2 + (3 − 3.6)2 ) = 2.9333. Die Standardabweichung ist somit
S10 = 1.7127.
Asymptotisches Konfidenzintervall Das Konfidenzintervall soll zum Signifikanzni
1.96
1.96
√
veau α = 5% bestimmt werden: Es gilt: 3.6 − √
1.7127,
3.6
+
1.7127
= (2.5385, 4.6615).
10
10
5
2. Tutorium am 12.05.09/13.05.09 und 14.05.09
(Grundlegende Techniken mit R Commander)
Installation - siehe Installationshinweise auf der Vorlesungshomepage
Starten von R Commander - R starten und library(Rcmdr) in R-Console eingeben
Menü-Übersicht
Datei Öffnen und Speichern von Skriptdateien (für Programme), Ausgabe- und Datendateien
Bearbeiten Bearbeiten (Kopieren, Ausschneiden etc.) im Skript- und Ausgabefenster
Datenmanagement Einlesen und Bearbeiten von Datenmatrizen
Statistik Durchführen einer Auswahl an grundlegenden statistischen Methoden und
Analysen für eine (zuvor ausgewählte, aktive) Datenmatrix
Grafiken Erstellen einer Auswahl an statistischen Grafiken für eine (zuvor ausgewählte,
aktive) Datenmatrix
Modelle Erstellen von Analysen, Grafiken etc. für ein (zuvor ausgewähltes, aktives)
statistische Modell
Verteilungen Erzeugen von stochastischen Werten, Grafiken und Stichproben von bekannten Wahrscheinlichkeitsverteilungen
Extras Laden von R-Paketen und Auswahl an System- und Anzeigeoptionen
Hilfe Manualseiten zu allen R-Commander-Funktionen und Einführungsskript (nur auf
Englisch)
Beachte: Es gibt auch Hilfe-Buttons in allen Dialogfenstern des Menüs.
Aufgabe 1
Lese die Daten miete03.asc (siehe Homepage und 1. Übungsblatt) ein.
→ Menü: Datenmanagement → Importiere Daten . aus Textdatei oder Zwischenablagen...
→ Dialogfenster: Gewünschten Namen für den Datensatz eingeben. Auf richtige Einstellungen bei Datei enthält Variablennamen, Datenfeldtrennzeichen und Dezimaltrennzeichen
achten!
→ Dateiverzeichnis: Datei am Speicherort suchen und doppelklicken
→ Button Datenmatrix betrachten (im Hauptfenster unterhalb der Menüleiste)
Hinweise zu den Feldern unterhalb der Menüleiste:
- Durch Drücken des Buttons Datenmatrix bearbeiten öffnet sich ein Fenster Dateneditor,
wo die Daten sich von Hand bearbeiten lassen.
- Durch Drücken auf das Feld rechts neben Datenmatrix: lässt sich unter allen bisher
eingelesenen Datenmatrizen die gewünschte aktive auswählen
6
Aufgabe 2
Gebe die summary-Statistiken aller Spalten aus.
→ Menü: Statistik → Deskriptive Statistik . Aktive Datenmatrix
Frage:
Was bedeuten die ausgegebenen Werte anschaulich, wie sind sie definiert?
- (vgl. Vorlesung)
Aufgabe 3
Erstelle einen Boxplot der Nettomieten (nm).
→ Menü: Grafiken → Boxplot ...
→ Dialogfenster: Variable nm auswählen und OK drücken
Frage:
Wie kann der angezeigte Boxplot interpretiert werden?
- Mittlere Linie der Box entspricht dem Median, äußere Linien der Box entsprechen den
Quartilen.
- Achtung: Die Bedeutung der Antennen“ und Ausreißer“ ist nicht einheitlich definiert
”
”
(siehe z.B. Manualseite)!
Aufgabe 4
Stelle die Abhängigkeit der Nettomieten (nm) vom Baujahr (bj) und der Wohnfläche
(wfl) in einem dreidimensionalen Histogramm dar und zeichne eine Regressionsebene als
Näherung ein. Sortiere zuvor die Wohnungen ohne Zentralheizung (zh0=1) aus.
→ Menü: Datenmanagement → Aktive Datenmatrix . Teilmenge der aktiven Datenmatrix...
→ Dialogfenster: Alle Variablen verwenden angekreuzt lassen, bei Anweisung für
die Teilmenge zh0==0“ eingeben und Namen für die neue Matrix eingeben.
”
→ Menü: Grafiken → 3D-Grafik . 3D-Streudiagramm...
→ Dialogfenster: Bei Abhängige Variable nm“ auswählen, bei Unabhängige Variablen
”
bj“ und wfl“ auswählen und unter Surfaces to fit die Auswahl Lineare Kleinstquadrate
”
”
ankreuzen.
→ Die Grafik kann durch Gedrückthalten der Maus und Bewegen gedreht werden.
Frage:
Wie kann das Histogramm anschaulich interpretiert werden?
- Nettomiete steigt sowohl mit steigender Wohnfläche als auch mit steigendem Baujahr.
Hinweise zur Mehrfachauswahl und zur Eingabe von Bedingungen in R:
- Müssen aus einer Liste mehrere Elemente mit der Maus ausgewählt werden, so muss
ab dem 2. Klicken Ctrl (Steuerung) gedrückt werden, da sonst die bisherige Auswahl
wieder aufgehoben wird.
- Müssen in ein Feld Bedingungen eingegeben werden, so gelten für die Operatoren folgende Zeichen:
Operator
Zeichen
gleich kleiner kleiner oder gleich
==
<
<=
7
größer größer oder gleich und oder
>
>=
&
|
Aufgabe 5
a) Erzeuge 10000 Zufallsstichproben, die Bin(3000, 0.001)-verteilt sind, plotte das Ergebnis in ein Histogramm (mit Dichteskala) und speichere die Grafik.
b) Zeichne die Zähldichte einer P oi(3)-Verteilung. Vergleiche mit dem Ergebnis aus a).
a)
→ Menü: Verteilungen → Diskrete Verteilungen . Binomial-Verteilung . Zufallsstichprobe
aus einer Binomial-Verteilung...
→ Dialogfenster: Gib bei Binomial trials 3000“, Probability of success 0.001“,
”
”
bei Anzahl der Stichproben 10000“, bei Anzahl der Beobachtungen 1“ ein.
”
”
→ Menü: Grafiken → Histogramm ...
→ Dialogfenster: Kreuze bei Skalierung der Achse Dichten“ an.
”
→ Menü: Grafiken → Speichere Abbildung in Datei . als Bitmap
→ Dialogfenster: Gewünschte Einstellungen vornehmen und OK drücken
→ Dateiverzeichnis: Gewünschten Ordner auswählen und speichern
b)
→ Menü: Verteilungen → Diskrete Verteilungen . Poisson-Verteilung . Grafik
der Poisson-Verteilung
→ Dialogfenster: Gib bei Arithmetisches Mittel 3“ ein und wähle Plot probability
”
mass function (=(Zähl-)Dichte).
Bemerkung:
Für sehr großes“ n und sehr kleines“ p nähert sich die Bin(n, p)-Verteilung der P oi(λ)”
”
Verteilung an mit n ∗ p = λ.
*Aufgabe 6
a) Lese die Daten BMW data (Aktienkurs der BMW-Aktie vom 20.11.2006 - 10.11.2008
mit Tagesrenditen) ein, prüfe auf Vollständigkeit der Daten und entferne ggf. Zeilen mit
fehlenden Werten.
b) Berechne das Stichprobenmittel der Tagesrenditen, teste, ob die Hypothese, dass die
erwartete Tagesrendite gleich Null ist, zum Signifikanzniveau α = 5% haltbar ist und
bestimme das entsprechende Konfidenzintervall.
a)
→ Menü: Datenmanagement → Importiere Daten . from Excel, Access or dBate
data set...
→ Dialogfenster: Gewünschten Namen für den Datensatz eingeben
→ Dateiverzeichnis: Datei am Speicherort suchen und doppelklicken
→ Tabellenauswahl: Gewünschtes Tabellenblatt auswählen
→ Button Datenmatrix betrachten (im Hauptfenster unterhalb der Menüleiste)
→ Menü: Datenmanagement → Aktive Datenmatrix . Fälle mit fehlenden Werten
entfernen ...
→ Dialogfenster: Alle Variablen verwenden angekreuzt lassen und OK drücken
b)
→ Menü: Statistik → Deskriptive Statistik . Zusammenfassungen numerischer
Variablen ...
→ Dialogfenster: Bei Variablen daily returns“ auswählen und darauf achten, dass
”
Arithmetisches Mittel angekreuzt ist.
8
→ Menü: Statistik → Mittelwerte vergleichen . t-Test für eine Stichprobe...
→ Dialogfenster: Bei Variable daily returns“ auswählen, bei Alternativhypothese er”
ste Möglichkeit ankreuzen, bei Nullhypothese: mu = 0“ und bei Niveau des Konfidenzintervalls:
”
.95“ eingeben.
”
Interpretation der Ausgabe:
√
0
.
- t = −0.9335 ist der Wert der Testgröße n X nS−µ
n
- Der Schwellenwert, mit dem verglichen werden soll, ist das (1 − α2 )-Quantil der tVerteilung mit n − 1 Freiheitsgraden. Es gilt tn−1,1− α2 = 1.965.
- Da | − 0.9335| < 1.965 wird die Nullypothese nicht abgelehnt (was mit mind. 95%-iger
Wahrscheinlichkeit korrekt ist).
- Achtung: Das heißt nicht, dass die Nullhypothese stimmen muss, also dass der Erwartungswert der den Daten zu Grunde liegenden Verteilung Null sein muss! Vielmehr heißt
es nur, dass die Daten nicht ausreichen, um die Hypothese definitiv abzulehnen.
- Der p-Wert 0.351 gibt das kleinste Signifikanzniveau wieder, bei dem die Nullhypothese
abgelehnt werden würde.
- Dass die Hypothese nicht abgelehnt wird, erkennt man auch daran, dass Null im 95%Konfidenzintervall (−0.003065347, 0.001090654) liegt.
Bei Fragen zu R und R-Commander?
- Hilfemenü
- Internetforen (z.B. http://www.nabble.com/R-f13819.html)
- Und natürlich jederzeit die Tutoren
9
3. Tutorium am 19.05.09/20.05.09 und 21.05.09
(Beschreibende Statistik)
Zufallsstichprobe
Zentrale Annahme: Gegeben ein Datenvektor (x1 , ..., xn ) (idR xi ∈ R, i = 1, ..., n) aus
einer Beobachtung von Merkmalen. Wir nehmen an, dass diese Daten Realisierung eines
stochastischen Modells sind und zwar sollen die Daten x1 , ..., xn Realisierung einer Folge
von unabhängigen und identisch verteilten (iid) Zufallsvariablen X1 , ..., Xn : Ω → R, die
über einem gemeinsamen Wahrscheinlichkeitsraum (Ω, F, P) definiert sind, sein, d.h.
Xi (ω) = xi ,
i = 1, ..., n (ω ∈ Ω).
Ziel: Aus den beobachteten Daten x1 , ..., xn Schlußfolgerungen über die unbekannte Verteilung der Stichprobenvariablen X1 , ..., Xn ziehen, wobei wegen der identischen Verteid
lung gilt: Xi = X, i = 1, ..., n.
Definitionen:
(i) (x1 , ..., xn ) heißt (konkrete) Stichprobe
(ii) (X1 , ..., Xn ) heißt Zufallsstichprobe
(iii) Es gilt: (x1 , ..., xn ) ∈ Rn , deswegen nennen wir Rn Stichprobenraum.
Alternativ: B := (X1 , ..., Xn )(Ω) (Bild) Stichprobenraum
(iv) n = dim((x1 , ..., xn )) heißt Stichprobenumfang
Verteilungen und ihre Darstellungen
Empirische Häufigkeiten - Schätzung der Zähldichte (diskreter Fall) bzw. Dichte (absolutstetiger Fall) aus den Beobachtungen:
• diskret: X → {a1 , ..., ak } ⊂ R. Gesucht ist die Zähldichte von X, d.h. pi =
P(X = ai ) (i = 1, ..., k). Diese wird geschätzt durch:
pi = P(X = ai ) ≈
ni
,
n
(n groß)
wobei ni die absolute Häufigkeit (siehe unten) ist, mit der die Stichprobe die
Klasse i getroffen hat.
• absolutstetig: X → A ⊂ R (A ist überabzählbar). Gesucht ist die Dichte f von
X. In diesem Fall muss zur Schätzung der Wertebereich R in k + 1 Klassen
(Teilintervalle) unterteilt werden: c0 := −∞ < c1 < ... < ck < ∞ =: ck+1 . Dann
wird die Dichte geschätzt durch (i = 2, ..., k):
R ci
f (x)dx
P(X ∈ (ci−1 , ci ])
ni /n
c
f (x) ≈ i−1
=
≈
x ∈ (ci−1 , ci ]
ci − ci−1
ci − ci−1
ci − ci−1
10
Definitionen:
(i) ni := # {xj , j = 1, ..., n : xj = ai } (diskreter Fall) bzw.
ni := # {xj , j = 1, ..., n : xj ∈ (ci−1 , ci ]} (absolutstetiger Fall) heißt absolute Häufigkeit
des Werts ai bzw. der Klasse (ci−1 , ci ] (i = 1, ..., k + 1).
(ii) fi := nni heißt relative Häufigkeit des Werts ai bzw. der Klasse (ci−1 , ci ] (i =
1, ..., k + 1).
Visualisierungen - Grafische Darstellung der relativen Häufigkeiten bzw. der Dichte
durch Diagramme:
• Histogramme
– Stabdiagramm
– Säulendiagramm
– Balkendiagramm
• Kreisdiagramme
Empirische Verteilungsfunktion - Schätzung der kumulierten Verteilungsfunktion aus
den Beobachtungen
Definition: Die Abbildung F̂n : Rn+1 → [0, 1] mit
F̂n (x) :=
# {xi : xi ≤ x, i = 1, ..., n}
n
heißt empirische Verteilungsfunktion der Stichprobe (x1 , ..., xn ). Es gilt:


1 für x ≥ x(n)
F̂n (x) = ni für x(i) ≤ x < x(i+1) (i = 1, ..., n)

0 für x < x .
(1)
Beschreibung von Verteilungen
Lagemaße
• Mittelwerte
P
– arithmetisch: xn := n1 ni=1 xi , x1 , ..., xn ∈ R
√
– geometrisch: xgn := n x1 · ... · xn , x1 , ..., xn > 0
−1
P
– harmonisch: xhn := n1 ni=1 x−1
, x1 , ..., xn 6= 0
i
• Ordnungsstatistiken und Quantile
– Ordnungsstatistiken: x(i) := min {xj : # {k : xk ≤ xj } ≥ i} ,
(
x([nα]+1)
nα ∈
/N
– Quantile: xα =
1/2 x([nα]) + x([nα]+1)
nα ∈ N
– Spezialfall Median: xmed := x0.5
• Modus: xmod := xm mit m := argmax {fi , i = 1, ..., n}
11
i = 1, ..., n
Streuungsmaße
• Spannweite: r := x(n) − x(1)
• Empirische Varianz: s̄2n :=
Pn
1
2
i=1 (xi − x̄n )
n
P
n
1
2
i=1 (xi − x̄n )
n−1
n
= n−1
s̄2n
p
p
• Empirische Standardabweichungen: s̄n := s̄2n , sn := s2n
• Stichprobenvarianz: s2n :=
• Empirischer Variationskoeffizient: γn :=
sn
,
x̄n
x̄n > 0
Konzentrationsmaße
• Lorenzkurve L: Zweidimensionale Kurve bestehend aus denPPunkten
j
x(i)
(0, 0), (u1 , v1 ), ..., (un , vn ), (1, 1), wobei uj := j/n und vj := Pi=1
n
x(i)
i=1
P
2 n
i=1 ix(i)
P
n n
i=1 xi
• Gini-Koeffizient: G =
Diagramm der Lorenzkurve)
−
n+1
n
(anschaulich: Quotient zweier Flächen im
P
• Konzentrationsrate: CRg := ni=n−g+1 pi , wobei pi :=
P
• Herfindahl-Index: H := ni=1 p2i
12
x
Pn (i)
j=1
xj
Aufgaben
Eine Umfrage unter 52 Arbeitnehmern nach der Anzahl von Krankheitstagen in einem
Jahr ergab folgendes Bild:
Krankheitstage 12 13 14 15 16 17 18
Anzahl
1 4 4 6 3 4 5
19 20 21 22 23 24
8 6 3 4 0 2
25
2
Aufgabe 1
(a) Bestimme die relativen Häufigkeiten der Krankheitstage und visualisiere sie in einem
Stabdiagramm. Sind die relativen Häufigkeiten als Schätzungen für die Zähldichte
geeignet?
(b) Bestimme folgende Lageparameter: Arithmetisches, geometrisches und harmonisches
Mittel; die 1., 10., 25., 50. Ordnungsstatistik; das 25% und 75% Quantil, sowie den
Median.
(c) Bestimme alle Streuungsmaße (Konzentrationsrate für g = 10).
(d) Bestimme alle Konzentrationsmaße.
In einer Befragung im Jahr 1999 wurde bei 22100 Privathaushalten das Monatseinkommen (in DM) ermittelt. Die folgende Tabelle enthält das Ergebnis:
Einkommen < 1200 1200 - 1800 1800 - 3000 3000 - 5000 5000 - 10000 > 10000
Anzahl
4500
5200
5000
2700
3400
1300
Aufgabe 2
(a) Bestimme die relativen Häufigkeiten der Einkommen und darauf aufbauend eine (grobe) Approximation der Dichte der Einkommen. Unterstelle dabei, dass Einkommen
nichtnegativ sind und dass eine Einkommensobergrenze von 100000 DM gilt.
(b) Visualisiere das Ergebnis in jeweils einem Histogramm mit
(a) der absoluten Häufigkeit auf der y-Achse
(b) der relativen Häufigkeit auf der y-Achse
(c) der Dichte auf der y-Achse (Maßstab passend wählen!)
13
Lösung
1) a) Bezeichne i die Klasse mit i Krankheitstagen, d.h. Zeile 2 der Tabelle enthält die
absolute Häufigkeit ni der Klasse i.
n=
25
X
ni = 52;
i=12
1
1
1
4
4
f12 = 52
; f13 = 52
= 13
; f14 = 52
= 13
; f15 =
4
1
5
8
2
6
= 13 ; f18 = 52 ; f19 = 52 = 13 ; f20 = 52
=
52
0
2
1
2
1
1
;
f
=
=
0;
f
=
=
;
f
=
=
;
23
24
25
13
52
52
26
52
26
6
52
3
;
26
=
3
;
26
f21
3
f16 = 52
; f17 =
3
4
= 52 ; f22 = 52
=
0.10
0.08
0.02
0.04
0.06
Häufigkeit
0.12
0.14
Das ergibt folgendes Schaubild:
12
14
16
18
20
22
24
Krankheitstage
1
b) x̄52 = 52
· 937 = 18.01923; xg52 = 17.71630; xh52 = 17.41243;
x(1) = 12; x(10) = min{15, 16, ..., 25} = 15; x(25) = min{18, 19, ..., 25} = 18;
min{24, 25} = 24;
x0.25 = 1/2(x([ 52 ]) + x([ 52 ]+1) ) = 1/2(x(13) + x(14) ) = 1/2(15 + 15) = 15;
4
4
x0.75 = 1/2(x([ 52·3 ]) + x([ 52·3 ]+1) ) = 1/2(x(39) + x(40) ) = 1/2(20 + 20) = 20;
4
4
xmed = x(0.5) = 1/2(x([ 52 ]) + x([ 52 ]+1) ) = 1/2(x(26) + x(27) ) = 1/2(18 + 18) = 18
2
x(50) =
2
52 2
c) r = x(52) −x(1) = 25−12 = 13; s̄252 = 10.82655; s252 = 51
·s̄52 = 11.03884; s̄52 =
p
p
√
√
2
2
s̄52 = 10.82655 = 3.29037; s52 = s52 = 11.03884 = 3.32248; γ52 =
3.32248
= 0.18439
18.01923
14
−
d) G = 2·27359
52·937
0.01987
53
52
= 0.10379;
CR10 =
P52
i=43
pi = 0.24333;
H =
P52
i=1
p2i =
2) (a) Die absoluten Häufigkeiten ni (i = 1, ..., 52) sind bereits in der zweiten Zeile der
Tabelle gegeben.
(b) Wir nummerieren die 6 Bereiche von links nach rechts durch und erhalten die
Klassen i = 1, ..., 6. Deren relative Häufigkeiten sind gegeben durch:
4500
5200
5000
f1 = 22100
= 0.20362; f2 = 22100
= 0.23529; f3 = 22100
= 0.22624; f4 =
2700
3400
1300
= 0.12217; f5 = 22100 = 0.15385; f6 = 22100 = 0.05882
22100
(c) Analog zu b) nummerieren wir die Klassen von 1-6 durch und erhalten eine (grobe)
Approximation der Dichtefunktion durch:
fˆ(x) =

0



f1


= 1.6969 · 10−4

1200−0


f2

= 3.9216 · 10−4


1800−1200

 f3
= 1.8854 · 10−4
3000−1800
f4

= 0.61086 · 10−4

5000−3000


f5

= 0.30769 · 10−4


10000−5000


f6

= 0.0065369 · 10−4

100000−10000


0
für
für
für
für
für
für
für
für
x≤0
0 < x ≤ 1200
1200 < x ≤ 1800
1800 < x ≤ 3000
3000 < x ≤ 5000
5000 < x ≤ 10000
10000 < x ≤ 100000
x > 100000
3) Wir erhalten folgende Histogramme:
3000
2000
1000
0
Absolute Häufigkeit
4000
5000
Histogramm 1 (rechts gekürzt)
0
2000
4000
6000
15
8000
10000
12000
0.15
0.10
0.00
0.05
Relative Häufigkeit
0.20
Histogramm 2 (rechts gekürzt)
2000
4000
6000
8000
10000
12000
0
2000
4000
6000
8000
10000
12000
2
1
0
x10^−4
3
4
0
16
4. Tutorium am 26.05.09/27.05.09 und 28.05.09
(Anwendungsbeispiele)
Aufgabe 1 - Guthaben von Versicherungsverträgen
Betrachte die Grafik Boxplot-Gesamtguthaben.
(a) Wie lassen sich die stark verschiedenen Guthaben der Versicherungsverträge erklären?
(b) Welches Produkt ist empfehlenswert, wenn ein möglichst hohes garantiertes Guthaben gewünscht ist?
(c) Welches Produkt ist empfehlenswert, wenn eine möglichst hohe erwartete Rendite
erwirtschaftet werden soll?
(d) Wie lautet die Antwort zu (c), wenn zusätzlich zumindest das eingezahlte Kapital
garantiert werden soll?
(e) Gibt es Produkte, die nicht empfehlenswert sind?
Aufgabe 2 - Marktkonzentration
Betrachte die folgenden zwei Märkte:
• Markt A: Zwei Unternehmen mit einem Marktanteil von jeweils 50%.
• Markt B: Vier Unternehmen mit einem Marktanteil von jeweils 25%.
Berechne den Gini-Koeffizienten und den Herfindahl-Index für beide Märkte und interpretiere das Ergebnis.
Aufgabe 3 - Risiko
Betrachte die folgenden zwei Investments:
• Investment A: Bei einer Investition von 100 GE sind folgende Returns (mit gleicher
Wahrscheinlichkeit) möglich: 90 GE, 100 GE, 110 GE und 120 GE.
• Investment B: Bei einer Investition von 100 GE sind folgende Returns (mit gleicher
Wahrscheinlichkeit) möglich: 80 GE, 105 GE, 120 GE und 130 GE.
(a) Berechne den erwarteten Return, die Varianz und die Standardabweichung.
(b) Wie können die Investments miteinander verglichen werden?
(c) Berechne den empirischen Variationskoeffizienten.
17
Boxplot-Gesamtguthaben
450.000
400.000
350.000
300.000
250.000
200.000
150.000
100.000
50.000
0
Fondsgebunden
ohne Garantie
Höchststandsfonds
5% - 95%
Mittelwert
Mehrtopfhybrid
Dynamisches
Hybrid Produkt
(monatlich)
25% - 75%
Median
18
Dynamisches
Hybrid Produkt mit
jährlichem Fonds
Statisches Hybrid
Produkt
Klassisches
Produkt
Summe Bruttobeiträge
Minimum
Lösung
Aufgabe 1 - Guthaben von Versicherungsverträgen
(a) Die Versicherungsprodukte unterscheiden sich in ihrer Portfoliostruktur. Je breiter
gestreut das Guthaben, desto größer der Anteil von Aktien am Portfolio. Ein hoher
Aktienanteil führt zu einer hohen erwarteten Rendite (durch Risikoprämien) aber
auch zu einem höheren Risiko.
(b) Das klassische Produkt hat das höchste minimale Guthaben.
(c) Das fondsgebundene Produkt ohne Garantien hat die höchste erwartete Rendite.
(d) Das dynamische Hybridprodukt (monatlich) hat die höchste erwartete Rendite bei
minimalem Guthaben in Höhe des eingezahlten Kapitals.
(e) Der Höchststandsfonds ist dem Mehrtopfhybrid in jedem Fall unterlegen genauso wie
das jährliche dem monatlichen dynamischen Hybridprodukt.
Aufgabe 2 - Marktkonzentration
Der Gini-Koeffizient ist für beide Märkte 0 (es herrscht in beiden Märkten perfect equa”
lity“).
2
2
2
2
Der Herfindahl-Index für Markt A ist HA = 12 + 12 = 12 und HB = 14 + 14 +
2
1 2
+ 14 = 14 für Markt B.
4
In der Tat ist das Marktgleichgewicht (Preise usw.) in einem Duopol anders als in einem
Oligopol (→ Reaktionskurven). Beide Konzentrationsmaße fassen eine Stichprobe zu einer einzigen Kennzahl zusammen, was mit einem Informationsverlust verbunden ist und
in manchen Situationen zu unzureichenden Aussagen führen kann.
Aufgabe 3 - Risiko
(a)
• Investment A: erw. Return: 105; Varianz: 125; Standardabweichung: 11.18.
• Investment B: erw. Return: 108.75; Varianz: 354.69; Standardabweichung: 18.83.
(b) Investment B bietet einen höheren Return als Investment A, aber auch ein höheres
Risiko. Ein Vergleich beider Investments kann aber nur subjektiv erfolgen (risikoneutraler oder risikoaverser Investor?). Der empirische Variationskoeffizient kann als
Entscheidungshilfe dienen.
(c)
• Investment A: 0.11.
• Investment B: 0.17.
19
5. Tutorium am 09.06.09/10.06.09 und 12.06.09
(Quantilplots und Wiederholung ausgewählter Aufgaben)
Quantilplots
• Mit Quantilplots soll graphisch anschaulich untersucht werden, mit welcher uns bekannten Verteilung der untersuchte Datensatz (x1 , ..., xn ) gut übereinstimmt.
• Wir nehmen also eine Verteilung, von der wir vermuten, dass sie gut zu dem Datensatz passen könnte. Sei F die Verteilungsfunktion dieser Verteilung.
• Wir berechnen dann die Quantile F −1 ( nk ) der Verteilung an den Stellen k/n, die Ordnungsstatistiken unseres Datensatzes x(k) und zeichnen die Punkte (F −1 ( nk ), x(k) ), k =
1, ..., n in ein Schaubild.
k
• Praktischer ist es oft, F −1 ( n+1
) anstatt F −1 ( nk ) (k = 1, ..., n) zu verwenden, da für
viele Verteilungen F −1 ( nn ) = F −1 (1) = ∞ gilt.
• Falls die Punkte nahezu auf einer Geraden y = ax + b liegen, kann man sagen, dass
) folgen.
die untersuchten Daten näherungsweise der Verteilungsfunktion F ( x−a
b
• Dabei setzt man voraus, dass der Stichprobenumfang n ausreichend groß ist, damit
der untersuchte Datensatz die tatsächliche Verteilung gut genug repräsentiert (vgl.
Satz von Gliwenko-Cantelli).
Aufgabe 1
Gegeben sind die Monatsschlusskurse der Daimler-Aktie im Mai der letzten 10 Jahre:
Datum 31.05.99 31.05.00 31.05.01 31.05.02 30.05.03 31.05.04
Kurs
83,16
58,30
53,96
52,54
26,75
36,66
Datum 31.05.05 31.05.06 31.05.07 30.05.08 29.05.09
Kurs
32,61
41,00
68,15
48,92
25,85
Berechne die jährlichen Renditen der Daimler-Aktie im Mai.
Erstelle einen Quantilplot, der die Renditen mit der Normalverteilung vergleicht. Wähle
Stichprobenmittel und -varianz der Renditen als Parameter für die Normalverteilung.
Wiederholung ausgewählter Aufgaben
Aufgabe 2 (vgl. Skript Statistik I, Übungsaufgabe 2.1.1)
Zeige, dass die empirische Verteilungsfunktion F̂n (x) :=
ten einer Verteilungsfunktion erfüllt:
#{xi :xi ≤x,i=1,...,n}
n
die Eigenschaf-
• Asymptotisches Verhalten im Unendlichen: F̂n (−∞) = lim F̂n (x) = 0
x→−∞
und F̂n (∞) = lim F̂n (x) = 1.
x→∞
• Monotonie: F̂n (x) ≤ F̂n (x + h),
∀x ∈ R, h ≥ 0.
20
• Rechtsstetigkeit: lim F̂n (x + hm ) = F̂n (x),
m→∞
∀x ∈ R, hm ≥ 0 und lim hm = 0.
m→∞
Aufgabe 3 (vgl. ÜB 2, Aufgabe 1)
In der Datei claims.dat sind 10.000 Schadensfälle eines Sturmversicherungsbestandes
gegeben.
1.) Erstelle Quantilplots mit
(a) der Gamma-Verteilung mit den Parametern a = 1 und λ1 = 4429,
(b) der Lognormal-Verteilung mit den Parametern µ = 8 und σ = 1
mit Hilfe von R. Beurteile das Ergebnis.
Im folgenden nehmen wir nun an, dass das Versicherungsunternehmen die Schäden mit
den Verteilungen aus (a) bzw. (b) modelliert.
Beantworte für beide Fälle:
2.) Das Versicherungsunternehmen hat für einen möglichen Schaden 25.000 Euro reserviert. Wie hoch ist die Wahrscheinlichkeit, dass diese Reserve nicht ausreicht?
3.) Wie hoch müsste die Reserve sein, dass sie mit 99, 9%-iger Wahrscheinlichkeit ausreicht? Warum ist es folglich äußerst wichtig, dass mit der richtigen Verteilung modelliert
wird?
Aufgabe 4 (vgl. ÜB 2, Aufgabe 3)
In einem Land gebe es acht Supermarktketten. Diese hatten 2007 folgende Umsätze (in
Mio. Euro):
REVE ALKI Nord
32
41
ALKI Süd LIGL
55
77
MINUS
8
NORMAAL
13
NEDDO SKI
18
6
1. Bestimme und zeichne die Lorenzkurve. Berechne den Gini-Koeffizient.
2. Durch schwere Managementfehler ging der Umsatz vom Marktführer LIGL im darauffolgenden Jahr um vier Siebtel zurück. Außerdem schlossen sich ALKI Nord und
ALKI Süd zusammen und SKI ist vom Markt verschwunden. Bestimme jetzt Lorenzkurve und Gini-Koeffizient.
21
Lösungen
Aufgabe 1
siehe auch Excel-Datei Daimler
Durch die bekannten Formeln erhalten wir:
Stichprobenmittel xn = −0, 046; Stichprobenvarianz s2n = 0, 141
Die Quantile der N (µ, σ 2 ) = N (xn , s2n )-Verteilung können wir durch Statistik-Programme
oder Quantiltabellen erhalten:
k
1
2
3
4
5
6
7
8
9
10
k
Quantile F −1 ( n+1
)
-0,548
-0,388
-0,274
-0,178
-0,089
-0,004
0,085
0,181
0,295
0,455
x(k)
-0,491
-0,472
-0,299
-0,282
-0,110
-0,074
-0,026
0,257
0,370
0,662
Die Punkte liegen nicht auf einer Geraden. Folglich lassen sich die Renditen nicht sehr
gut mit der Normalverteilung modellieren.
Aufgabe 2
• Für x → −∞ gilt: #{xi : xi ≤ x, i = 1, ..., n} → 0 ⇒ F̂n (x) → 0
Für x → ∞ gilt: #{xi : xi ≤ x, i = 1, ..., n} → n ⇒ F̂n (x) → 1
• Es gilt stets #{xi : xi ≤ x, i = 1, ..., n} ≤ #{xi : xi ≤ x + h, i = 1, ..., n}, da h ≥ 0.
⇒ F̂n (x) ≤ F̂n (x + h), ∀x ∈ R, h ≥ 0
• Für hm ≥ 0 und hm → 0, m → ∞ gilt stets #{xi : xi ≤ x + hm , i = 1, ..., n} →
#{xi : xi ≤ x, i = 1, ..., n}, da es kein xi geben kann, für das xi > x, aber xi ≤
x + hm ∀m ∈ N gilt. ⇒ lim F̂n (x + hm ) = F̂n (x), ∀x ∈ R, hm ≥ 0 und lim hm = 0
m→∞
m→∞
Aufgabe 3
1.)
Einlesen der Daten:
→ Menü: Datenmanagement → Importiere Daten . aus Textdatei oder Zwischenablagen......
Achtung: Datei enthält keine Variablennamen!
Erstellen der Grafiken:
→ Menü: Grafiken → Quantile-comparison plot...
→ Dialogfenster: Bei Verteilung Anderes ankreuzen und dann folgendes angeben:
22
Abbildung 1: Quantilplots
Gamma-Verteilung
Lognormal-Verteilung
Angeben:
gamma
lnorm
Parameter:
shape=1, scale=4429
meanlog=8, sdlog=1
Da der Quantilplot mit der gegebenen Lognormal-Verteilung nahezu eine Gerade y = x
zeigt, wird die Verteilung der Daten durch diese Lognormal-Verteilung gut modelliert.
Der Quantilplot mit der Gamma-Verteilung weicht stark von einer Geraden ab und damit
eignet sich die Gamma-Verteilung nicht zur Modellierung.
2.)
• → Menü: Verteilungen → Stetige Verteilungen . ...
• Entsprechende Verteilung und dann Wahrscheinlichkeiten der ...-Verteilung
... wählen.
• Wert (25000) und entsprechende Parameter eingeben.
3.)
• → Menü: Verteilungen → Stetige Verteilungen . ...
• Entsprechende Verteilung und dann Quantile der ...-Verteilung ... wählen.
• Wahrscheinlichkeit (0.999) und entsprechende Parameter eingeben.
Ergebnisse von
2.)
3.)
1 − F (25000)
99.9%-Quantil
Gamma(1,4429) 0.0035365 ≈ 0, 35%
30594
Lognormal(8,1) 0.0167254 ≈ 1, 67%
65528
Wählt man die Gamma- anstatt der Lognormal-Verteilung wird weniger als die Hälfte reserviert um 99, 9% der möglichen Schäden abzudecken. Reserviert man jedoch nur 30.000
Euro, während die Schäden jedoch Lognormal-verteilt sind, werden nur“ ca. 98, 9% der
”
möglichen Schäden abgedeckt. Das Versicherungsunternehmen hätte also immerhin 11mal häufiger zu wenig reserviert. Dieses Risiko ist für eine Versicherung zu hoch.
23
Aufgabe 4
Sei xi der Umsatz der i-ten Supermarktkette. Sei vi =
der i kleinsten Marktteilnehmer.
i
1
2
3
4
5
6
7
8
P
xi
32
41
55
77
8
13
18
6
250
Pi
x(i)
6
8
13
18
32
41
55
77
j=1
x(j)
6
14
27
45
77
118
173
250
vi
0,024
0,056
0,108
0,18
0,308
0,472
0,692
1
ui = ni
0,125
0,25
0,375
0,5
0,625
0,75
0,875
1
ix(i)
6
16
39
72
160
246
385
616
1540
Pi
x(j)
Pj=1
n
i=1 xi
Name
REVE
ALKI
LIGL
MINUS
NORMAAL
NEDDO
Abbildung 2: Markt 2007
i
1
2
3
4
5
6
P
der relative Marktanteil
xi
32
96
33
8
13
18
200
x(i)
8
13
18
32
33
96
Pi
j=1
x(j)
8
21
39
71
104
200
vi
0,04
0,105
0,195
0,355
0,52
1
Abbildung 3: Markt 2008
Abbildung 4: Lorenzkurven
Die Gini-Koeffizienten ergeben sich durch die Formel aus der Vorlesung: G =
n+1
. Also gilt für die beiden Aufgabenteile:
n
1. G =
2∗1540
8∗250
2. G =
2∗957
6∗200
−
−
9
8
7
6
= 0, 415
= 0, 4283
Die Konzentration hat also zugenommen.
24
P
2 n
i=1 ix(i)
P
n n
i=1 xi
−
ui = ni
0,167
0,333
0,5
0,667
0,833
1
ix(i)
8
26
54
128
165
576
957
6. Tutorium am 16.06.09/17.06.09 und 18.06.09
(Kontingenztafeln)
Kontingenztafeln
• In diesem Zusammenhang betrachten wir immer zwei (konkrete) Stichproben mit
gleichem Stichprobenumfang n: (x1 , ..., xn ) als Realisierungen von X und (y1 , ..., yn )
als Realisierungen von Y .
• X und Y sind dabei immer endliche diskrete Zufallsvariablen. Bei Vorliegen von
absolutstetigen Merkmalen besteht lediglich die Möglichkeit durch Klassenbildung
(endlich viele) die Zufallsvariablen zu diskretisieren. Die Realisierungen von X seien
dabei in der (endlichen) Menge {c1 , ..., ck1 } und die Realisierungen von Y in der
(endlichen) Menge {d1 , ..., dk2 }.
• Kontingenztafeln liefern einen tabellarischen Überblick über die absoluten und relativen Häufigkeiten aller möglichen Ausprägungskombinationen.
Definitionen:
(i) hij := h(ci , dj ) = # {(xk , yk ); k = 1, ..., n : xk = ci ∧ yk = dj } die absolute Häufigkeit
der Ausprägungskombination (ci , dj ) in den Stichprobenpaaren (xk , yk ) der Doppelstichprobe ((x1 , y1 ), ..., (xn , yn )).
h
(ii) fij := f (ci , dj ) = nij die relative Häufigkeit der Ausprägungskombination (ci , dj ) in
den Stichprobenpaaren (xk , yk ) der Doppelstichprobe ((x1 , y1 ), ..., (xn , yn )).
P2
P2
fij , i = 1, ..., k1
hij bzw. fi. := kj=1
(iii) hi. := kj=1
Pk1
Pk1
h.j := i=1 hij bzw. f.j := i=1 fij , j = 1, ..., k2
heißen (relative) Randhäufigkeiten
P1
P2
P 1 Pk2
(iv) h.. := ki=1
hi. = kj=1
h.j
(= ki=1
j=1 hij = n)
Kontingenztafeln haben folgende Gestalt:
c1
c2
..
.
ck1
d1
h11
h21
..
.
···
···
···
dk 2
h1k2
h2k2
..
.
h1.
h2.
..
.
hk1
h.1
···
···
hk1 k2
h.k2
hk1 .
h.. = n
bzw.
c1
c2
..
.
ck 1
d1
f11
f21
..
.
···
···
···
dk2
f1k2
f2k2
..
.
f1.
f2.
..
.
fk 1
f.1
···
···
fk1 k2
f.k2
fk 1 .
f.. = 1
25
Aufgabe 1
100 weibliche Patienten sind mit einer konventionellen Therapie behandelt worden. Dabei
wurden 85 Patientinnen geheilt und 15 sind gestorben. Von 81 Patientinnen, die mit
einer neuen Therapie behandelt wurden, konnten 77 geheilt entlassen werden und 4 sind
gestorben.
(a) Erstelle aus den Angaben eine 2x2 Kontingenztafel.
(b) Wie groß sind die erwarteten Häufigkeiten, wenn diese proportional zu den Randhäufigkeiten
sein sollen?
(c) Berechne den χ2 -Koeffizienten.
Aufgabe 2
Bei 300 Personen wurden Geschlecht und Haarfarbe notiert. Beim Geschlecht wurden
männlich und weiblich unterschieden, bei der Haarfarbe schwarz, braun, blond und rot.
Folgende Häufigkeiten wurden gefunden:
weiblich/schwarz: 55 weiblich/blond: 64
männlich/schwarz: 32 männlich/blond: 16
weiblich/braun: 65
weiblich/rot: 16
männlich/braun: 43
männlich/rot: 9
(a) Erstelle aus den Angaben eine geeignete Kontingenztafel mit den absoluten Randhäufigkeiten.
(b) Erstelle eine Kontingenztafel mit den relativen Häufigkeiten.
(c) Bestimme die bedingten relativen Häufigkeiten der Haarfarbe, gegeben das Geschlecht.
(d) Stelle mit Hilfe der bedingten relativen Häufigkeiten eine Vermutung an, ob und
inwieweit zwischen Haarfarbe und Geschlecht ein Zusammenhang besteht.
(e) Teste die Vermutung, dass ein Zusammenhang besteht mit Hilfe des korrigierten
Kontingenzkoeffizienten
Aufgabe 3 - Linearer Zusammenhang
Bei 14 zufällig ausgewählten Männern wurden jeweils Schuhgröße x (in cm) und Körpergröße
y (in cm) gemessen. Das ergab folgendes Bild:
x 42.0 45.0 42.5 45.5 43.0 39.0 42.0 41.0 41.5 42.5 42.0 40.0 42.0 45.0
y 175 188 178 189 182 169 182 171 175 179 173 174 176 184
(a) Erstelle ein Streudiagramm (Scatterplot) der Daten.
(b) Besteht optisch ein Zusammenhang zwischen den beiden Merkmalen? Falls ja, versuche den Zusammenhang mit Hilfe einer Geraden im Streudiagramm darzustellen.
(c) Berechne die empirische Kovarianz sowie den Pearson-Korrelationskoeffizienten.
26
Lösung
1.) (a) Wir erhalten folgende Kontingenztafel:
konventionelle Therapie
neue Therapie
geheilt
85
77
162
gestorben
15
100
4
81
19
181
162
(b) Feld(konventionell/geheilt) = 181
· 100 = 89.50
19
Feld(konventionell/gestorben) = 181
· 100 = 10.50
162
Feld(neu/geheilt) = 181 · 81 = 72.50
19
Feld(neu/gestorben) = 181
· 81 = 8.50
Das ergibt die folgende Tabelle:
konventionelle Therapie
neue Therapie
(c) T =
n(h11 h22 −h12 h21 )2
(h11 +h12 )(h11 +h21 )(h12 +h22 )(h21 +h22 )
=
geheilt
89.5
72.5
162
gestorben
10.5
100
8.5
81
19
181
181·(85·4−15·77)2
(85+15)(85+77)(15+4)(77+4)
= 4.82
2.) a) Wir erhalten folgende Kontingenztafel:
schwarz
braun
blond
rot
weiblich
55
65
64
16
200
männlich
32
87
43
108
16
80
9
25
100
300
b) Wir erhalten folgende Kontingenztafel:
schwarz
braun
blond
rot
weiblich
18.33%
21.66%
21.33%
5.33%
66.66%
männlich
10.66%
29%
14.33%
36%
5.33%
26.66%
3%
8.33%
33.33%
1
c) Sei i die i. Haarfarbe (schwarz, braun, blond, rot) und j das j. Geschlecht (weiblich,
männlich).
h
ges.: f (i|j) = hij.j , i = 1, ..., 4; j = 1, ..., 2
55
65
f (1|1) = hh11
= 200
= 27.5%; f (2|1) = hh21
= 200
= 32.5%; f (3|1) = hh31
=
.1
.1
.1
h41
64
16
= 32%; f (4|1) = h.1 = 200 = 8%;
200
32
43
16
f (1|2) = hh12
= 100
= 32%; f (2|2) = hh22
= 100
= 43%; f (3|2) = hh32
= 100
=
.2
.2
.2
h42
9
16%; f (4|2) = h.2 = 100 = 9%;
d) Aufgrund der beobachteten bedingten relativen Häufigkeiten vermuten wir, dass
ein Zusammenhang zwischen Haarfarbe und Geschlecht besteht. Wir vermuten,
dass bei Frauen relativ häufiger die Haarfarbe blond vorkommt und relativ weniger
27
die Farben schwarz und braun als bei Männern. Die Haarfarbe rot ist bei beiden
Geschlechtern in etwa gleich häufig vertreten.
e) Wir berechnen zunächst den χ2 -Koeffizienten:
2
2
2
2
2
Pk1 Pk2 hij − hi.nh.j
(32− 87·100
(65− 108·200
(43− 108·100
(55− 87·200
300 )
300 )
300 )
300 )
+ 87·100
+ 108·200
+ 108·100
+
T = i=1 j=1
=
87·200
hi. h.j
n
2
(64− 80·200
300 )
300
2
2
(16− 80·100
300 )
300
2
(16− 25·200
300 )
300
300
(9− 25·100
300 )
+
+
+ 25·100 = 0.155 + 0.310 + 0.681 + 1.361 +
80·100
25·200
300
300
300
2.133 + 4.267 + 0.027 + 0.053 = 8.987
Der korrigierte
q ergibt dann:
q
qKontingenzkoeffizient
q
80·200
300
T∗ =
T
/
n+T
kmin −1
kmin
8.987
300+8.987
=
2−1
2
= 0.241
3.) (a) Wir erhalten folgendes Streudiagramm:
●
185
●
●
●
180
Körpergröße
●
●
●
175
●
●
●
●
●
170
●
●
39
40
41
42
43
44
45
Schuhgröße
(b) Aufgrund der Lage der Punkte vermuten wir einen (linearen) Zusammenhang
zwischen den Merkmalen.
1
(c) xn = 14
·(42+45+42.5+45.5+43+39+42+41+41.5+42.5+42+40+42+45) =
1
· 593 = 42.36;
14
1
y n = 14
· (175 + 188 + 178 + 189 + 182 + 169 + 182 + 171 + 175 + 179 + 173 + 174 +
1
176
Pn + 184) = 14 · 2495 = 178.21;
i=1 xi yi = (42 · 175 + 45 · 188 + 42.5 · 178 + 45.5 · 189 + 43 · 182 + 39 · 169 + 42 · 182 +
41
Pn· 1712+ 41.5 · 175 + 42.5 · 179 + 42 · 173 + 40 · 174 + 42 · 176 + 45 · 184) = 105814.5;
xi = 25162;
Pi=1
n
2
i=1 yi = 445127;
Damit erhalten
P wir:
1
1
s2xy = n−1
( ni=1 xi yi − n · x · y) = 13
· (105814.5 − 14 · 42.36 · 178.21) = 9.91;
ρxy = √ Pn
(
(n−1)s2xy
Pn
2
2
i=1 xi −nx̄n )(
i=1
2)
yi2 −nȳn
= √
0.90
28
128.84
(25162−14·42.362 )(445127−14·178.212 )
=
128.84
143.41
=
7. Tutorium am 23.06.09/24.06.09 und 25.06.09
(Zusammenhangsmaße)
Stochastik
• Zusammenhangsmaße beschreiben die Abhängigkeit von Zufallsvariablen (hier: die
Merkmale X und Y)
• Der Zusammenhang von zwei Zufallsvariablen wird durch die Kovarianz und die
Korrelation (normierte Kovarianz) beschrieben. Es gilt:
• Cov(X, Y ) = E [(X − E [X])(Y − E [Y ])]
Cov(X,Y )
• Cor(X, Y ) = ρ(X, Y ) = √
√
V ar(X)
V ar(Y )
• V ar(X) = E [(X − E [X])2 ] = E [X 2 ] − (E [X])2 (analog für Y)
Statistik
• Für die Zusammenhangsmaße stehen die folgenden Schätzer zur Verfügung.
• Schätzer für die Kovarianz (empirischeKovarianz):
n
n
P
P
1
1
2
sxy = n−1
(xi − xn ) (yi − y n ) = n−1
xi yi − nxn y n
i=1
i=1
• Schätzer für die Varianz:
n
P
1
s2xx = n−1
(xi − xn )2 =
i=1
1
n−1
n
P
x2i
−
nx2n
(analog für syy )
i=1
• Schätzer für die Korrelation:
– Bravis-Pearson-Korrelationskoeffizient:
n
ρxy =
s2xy
sxx syy
P
=
i=1
s
n
P
i=1
xi yi −nxn y n
x2i −nx2n
n
P
i=1
yi2 −ny 2n
– Spearman-Korrelationskoeffizient:
n
P
(rg(xi )−rg x )(rg(yi )−rg y )
i=1
ρsp = s P
n
n
P
2
(rg(xi )−rg x )2
(rg(yi )−rgy )
i=1
i=1
mit rg(xi ) = rg(x(j) ) = j, falls xi 6= xj für i 6= j und für alle i,
sowie rg x = rg y = n+1
2
29
Aufgabe 1
Betrachte die Schaubilder und versuche den Korrelationskoeffizienten abzuschätzen.
Aufgabe 2
Berechne den Rang folgender Stichprobe (x1 , . . . , x15 ) mit folgenden Werten:
x1
5
x2
7
x3
8
x4
1
x5
9
x6
2
x7
6
x8
8
x9
7
x10
5
x11
7
x12
3
x13
4
x14
1
x15
8
Aufgabe 3
Ein Versicherer möchte den Zusammenhang zwischen Sach- und Personenschäden bei der
Kfz-Versicherung anhand folgender Stichprobe untersuchen:
Sachschaden
Personenschaden
Sachschaden
Personenschaden
2000 9800 550 1500 3300 200 5500 4800 3000 500
550 30000 0 1500
0
0 10000 7000 500
0
2600 500 1200 3900 600
0
0 1000
0
0
(a) Berechne die mittlere Schadensgröße, Varianz und Standardabweichung für Sachsowie Personenschäden.
(b) Erstelle ein Streudiagramm.
(c) Berechne die empirische Kovarianz sowie den Bravis-Pearson-Korrelationskoeffizienten.
Verwende dazu folgende Zwischenergebnisse (mit Sachschaden = X und Personen15
15
P
P
schaden = Y): x15 = 2663.333, y 15 = 3370,
yi2 = 1052802500
x2i = 200082500,
i=1
und
15
P
xi yi = 388650000.
i=1
(d) Berechne den Spearman-Korrelationskoeffizienten.
30
i=1
Lösungen
Aufgabe 1
●●
●
4
●
●
●
●
●
2
● ●
y
●
●
−2
−1
−3
−2
●
●
●
−4
2
1
0
●
●
●
●
●
●●
●
●
●
● ●
●
●●
● ●
●● ● ●
●● ●●
●●●
●
●● ● ●
●●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
● ●● ●
● ● ●
●●●
●
●●
●
●
●
●●
●
● ●
● ●●
●
●●
●
●
●
●
● ● ●●●●● ● ●●
●
●●●●
● ●● ●●
● ● ●●
● ●
●
● ● ● ● ●
● ● ● ●●●
●
●
●
●
●
●
● ●
●● ● ● ●●●●
●●
●●●●●●
●● ● ●
●●
●
●●●●
●●
●●
●
● ●
● ●● ● ● ●●●●●● ●
● ●●
●
●
●
●
●● ●●
●●● ●●●●●●
●
●
● ●●
● ●
●
●● ●
●
●
●
●
● ●●
●
●
●●
●●
●
●
● ● ● ●● ●
●●●
●
●●●●
●
●
●
●
●●●●
● ● ●
●●
●
●●
● ●
●
●●
●
●●
●
●●●
●●
●● ●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●● ●●
●●
●
●
●
●●●
●●● ●
●
● ● ●●
● ●●
●●
●
●●
●● ● ● ●● ● ● ●●●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
● ●
●●
●
●●●●●
●
●
●● ●● ● ●●
●●
●
●● ● ● ●● ●●●●
●●
●
●
●●
●
●●
● ● ●●
●
●
●●●
●●
●● ●
●● ● ●
●● ●
● ●
●
●
●
●● ●●●●
● ● ●● ●● ● ●
●●
● ●
●
●●●
●
●
●●
●
● ● ●●
●●● ●●●●●●
●
● ●●
●●
● ●
●●
●●
●●
● ●● ●
● ●
●●●
●
●● ●● ● ●●
●
●●
●●
●
●●
● ●●
●
●
●
●●●● ●●
●
●●
●●●●
●
● ● ●
●●●
●●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
● ● ●● ●●
●●
●
● ●● ● ● ●
●
●●
●
●
●
●●●●● ●● ●
●●●
●
●●
●●●
●
●●
●
●● ●●
● ●● ● ●
●●
●
●● ●
●●
●
●● ●
● ●●
● ●● ● ● ● ● ● ●●●
●
●
●● ●●
●● ● ●
●●● ● ●
●●
● ●●
●●●●
●
●●● ●●
●●
●●●●●●●
●●● ● ●● ●
●
●
●●●
●●
●
●
●●●
● ●
●
●●● ● ●
● ●● ●
● ●
●● ●●
●●●●
●
●
●● ●
●
●●●● ●●● ●● ●●●●
● ● ● ● ●
●
●●
●
●●
●
●
●● ●
●●
●
●●
●● ● ●
●●
● ● ●
●
●
●
●
●
●
●
●
●
● ●
●
●●● ● ●●● ● ●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●● ● ●
●
●
● ●●
● ●
●●
● ● ●● ●
●●●● ●●
● ●●●●●● ●●●●● ●
●
●
●
● ● ●●●
●●
●●
●
● ●
●●
●
●
●
●
●
●
● ●
●
●
●
●
● ●
●
● ● ●
● ● ● ●
●
●● ● ●
●
●●
●
●
●
●
●
●
●
● ● ● ● ●●
●
● ●
●
●
●
● ●
●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
y
●
●
●
0
3
●
●
●●
●
● ●
●
●●
●
●
●● ●
●
●
● ●●
●● ●
●
●●● ● ● ●●●
●
● ●
● ● ●●
● ●● ● ● ●●●
●
●
●
●
●
●
●●●
●
●●● ●●● ●
● ●
● ●● ●
● ● ●
●
●
●
●
●● ●
● ●●
●
●●●●● ● ●●
●
●
●
●●●●
●
●
●
●●●
●
● ●
● ● ●
●●
●●
●● ● ● ●● ●● ● ●
●●
●●●●
● ●●
●●●
●
● ●●●● ●
●●
●
●
●
●●
●●
●●
●●
●
●
●
● ●●
●●
●
●
●
●●
●
● ●
●
●
●●
●
●
●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●●
●●
●● ●
● ●●●
●●
●
●
●
●
●●
●● ●●
●●●●
●
●● ●
●
●
●
●
●
●●●●
●
●●●
●●
●●●
●●●●
●●
●
●
●
●
●
●
●●
●
●
●● ● ●
●
●
●●
●
●● ●
●
●
●●●●●●● ●● ●
●
●
●
●
●
● ●
●
●
●●
● ●
●●●
●
●
●●
●
●●
●
●●
●● ●●●
●●● ● ●●
●●
●●
●
●
●●●
● ● ●
●● ●
●
●●●
●
●
●● ●● ●●●●
●●
●●
●
●●
●
●
● ●
●
●
●● ●● ● ●
●●●
●●
●● ● ●
●●
●
● ●
●
●●
●●
●
●
●
●
●
●
●
●● ●● ●
●●●●
● ●
●●
●
●●
●● ●● ●
●●●
●
●
●
●● ●
●●●
●● ●
●● ●
●
●
●● ●●
●●●
●
●● ●●
●●
●●●●
●●●
●
●
●● ● ●
●
●●
●
●●
●
● ●●●
● ●●
●●●
●
●●
●●●
●●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●● ●●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●● ●
●
●
●
●●
●
●
●●
●●
●
●
●●
●
●
●
●
●●
●
●●
●
●●
●
●
●● ●●●●●
●
●
●
●
● ● ●
●
●●●
●
●
●
● ●●
●
●
●
● ●●●
●
●●
●
●●
●
●●
●●●
●
●●
● ● ● ●●
●
●
●●
●
●●
●
●
●●● ●●●●
●
●
●
●● ●
●
●● ●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●●●
●● ● ● ● ●● ●
●●
●●
●●
● ● ●●
●
●●
●●
● ●
●
● ● ●● ●● ● ●
● ●●
●
●
●
●
●
●●
●● ●
●● ● ●
●
●●
●
● ● ●
●
●
●
● ● ● ●● ●●●●●●
● ●●●●
●●
● ●●
●
●
●●
●
●
●●●
●
●
●●●
●●
● ●●
●
●● ●●
●
●
●
●
●
● ●
●
●
●
● ●● ●●
●
●
●
●●●
●●●
●●
●
● ●
● ●● ●●●●
●
●
●●
●●
●● ●
●
●
●
●●
●
●
●●●
●
●
●●●●●●●
●
●
●●
●
●
●
●
●
●
● ●
●
●●
●●● ●
●
●
●
●
●
●
●
●
●
●●●● ●● ●
●●
●
●
●
● ● ●●
●●
●
●
●
● ● ●
●
●
●
●
●
● ●
●
●
●
●
● ●
●
●
●
−4
−3
−2
−1
0
1
2
3
−3
−2
−1
0
1
2
●
3
●
●
4
●●
●●
●
●●
●
●
●●●●
●●
●●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●●●
●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●● ●
●
●
●●
●
●●
●
●
● ●
●
● ● ●●●
●● ●●
● ●
● ●● ●
● ●
●● ●
●
●
● ●● ● ● ● ●
●
●
●
● ● ●●
●●
●
●●
● ●●
●
●
●
●
●
●
● ●
●
● ● ● ●●
●
● ●● ● ●
●●
● ● ●
●
●
●
●
●●
● ●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
● ●●
● ●●
●●
●
●●●● ●
●●
●
●● ●
●●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●● ●●●●●
●● ●● ●
●●
●● ●
● ●●
● ●
●●
●
● ●●●
●●
●
● ● ● ●● ●
●●
●
●●
●● ●
●●
●
●
●●
●
● ●●
●
●
●●
●
●●
●
●●
●●
●●
●●●●●
●●
●●● ●●
●●
●●●
●
●● ●
●
●
●●●
●
●
●●
●
●
●
●●●●
●●●●
● ●
●
●●●
●
●●●●● ●
● ●● ●●●
●
●●
● ●●
● ●●
● ●● ●
●
●
●●
●●●
●
●●●
●
●●
●
● ●●
●
●
●
●
●●●●
●
●
●●
● ● ●
● ●●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●● ●● ●● ● ● ●
●●
●●●●●●
● ● ●●●
● ●
●
●
●
● ● ●● ●
●●
●
●
●●
●
●●●
●●
●
●
●
●
●●
●
●●
● ●
●
●●
●
●●
● ●
●●● ●
●
●●●
●
●●
●●
●●●
●●
●
● ●●
●
●● ●●●●●●● ●
● ●
●
●●
●●●●
● ●●
●●
●●
●
●
●●●
●
●
●
●● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●●
●
●●●●
●●●
● ●●●●●
●● ●
●●●● ● ●
●
●●●
●
●
● ●●
●●
●●
● ●
●●●
●●●●
●●
●●
●●
●●
●
●
● ●
●
●● ●● ●●
●●
●
●
●
●
●
● ●●●
●●●
● ●●
●● ●
●●●
●●
●
●
●●
●● ●●●
●●● ● ●
●●
●●
●● ● ●
●
●
● ● ● ●
●
●
●
●
●
●
●
●
●●●●
●●
● ●● ● ● ●
● ●
●●
●●
●
●
●●●
●
●
●
● ●
●● ●●●
●●●● ●
● ●
● ●●
●
●
●● ●
●
●
●●●● ●●●●
●●
●●
●● ●●● ●
● ● ●●● ● ●
●
● ●
●
●
●●
●
●●
● ●●●
●
●●
●● ●
● ●●
●●●
●● ●● ●
●
●●
●● ● ● ●
●
●
● ● ●● ●
●
●● ●●●●●●●
●
●●●● ●
●
● ● ●
●●
●
●
●
●●
●
●● ● ●
●●
● ●● ● ● ●
●●
● ●●
●●
●
●●
● ● ● ●●
●●● ●●
●
●
●
●
●
● ●●
●
●●●
●
●
●
●●
●●●
●
●●
●●●●
●
●
●
● ●
●
●
●●
● ●●● ●●●
● ●● ●● ●
●●●● ●
● ● ●
●
●
●
● ● ● ●
●
●● ●
● ●
●●
●●●● ● ●
●
●
●
● ●
●
●
●● ● ●●
●
●
●
●
●
● ● ●
●
●
●
●
●
2
●●
0
y
●
−2
●
●
●
●●
●
●
●●
−3
●
●
x
Korrelationskoeffizient = 0.72082
−4
3
y
−2
−1
0
1
2
●
●●
●
●●
●
●●
●
x
Korrelationskoeffizient = −0.00279
●
●
−2
−1
0
1
●
●
2
−3
x
Korrelationskoeffizient = −0.99878
−2
−1
0
1
2
3
x
Korrelationskoeffizient = −0.65184
Aufgabe 2
Berechne den Rang folgender Stichprobe (x1 , . . . , x15 ) mit folgenden Werten:
xi
rg(xi )
5
7 8
1
9 2 6 8 7
5
7 3 4
6.5 10 13 1.5 15 3 8 13 10 6.5 10 4 5
1
8
1.5 13
Dabei sind die Werte für rg(xi ) für die Stichprobenwerte 1, 5, 7, 8 jeweils das arithmetische Mittel der in Frage kommenden Rangwerte.
31
Aufgabe 3
(a) Es ergeben sich folgende Werte:
Mittelwert Varianz Standardabweichung
Sachschäden
2663.333
6691595
2586.812
Personenschäden
3370
63032071
7939.274
30000
(b) Wir erhalten folgendes Streudiagramm:
20000
15000
10000
Personenschäden
25000
●
●
5000
●
●
0
● ●
●
●
0
●
●
●
●
●
2000
●
4000
6000
8000
10000
Sachschäden
(c) Für die Kovarianz
gilt:
n
P
1
s2xy = n−1
xi yi − nxn y n =
i=1
1
15−1
(388650000 − 15 · 2663.333 · 3370) = 18144179
Für den Bravis-Pearson-Korrelationskoeffizienten gilt:
ρxy =
s2xy
sxx syy
n
P
=
i=1
s
n
P
i=1
xi yi −nxn y n
x2i −nx2n
n
P
i=1
yi2 −ny 2n
= √
0.8834698
32
14·18144179
(200082500−15·2663.3332 )(1052802500−15·33702 )
=
(d) Der Spearman-Korrelationskoeffizient kann wie folgt berechnet werden:
n
P
(rg(xi )−rg x )(rg(yi )−rg y )
i=1
ρsp = s P
n
n
P
2
(rg(xi )−rg x )2
(rg(yi )−rgy )
i=1
Es gilt: rg x = rg y =
Sachschaden
Rang
Personenschaden
Rang
Sachschaden
Rang
Personenschaden
Rang
i=1
n+1
2
= 8 und
2000 9800 550
8
15
4
550 30000 0
10
15
4.5
2600 500 1200
9
2.5
6
0
0 1000
4.5 4.5
11
Durch einsetzen erhält man: ρsp =
1500
7
1500
12
3900
12
0
4.5
√ 11.53571
19.96429·17
33
3300 200 5500 4800 3000 500
11
1
14
13
10
2.5
0
0 10000 7000 500
0
4.5 4.5
14
13
9
4.5
600
5
0
4.5
= 0.6261713
8. Tutorium am 30.06.09/01.07.09 und 02.07.09
(Einfache lineare Regression)
Einfache lineare Regression
Gegeben zwei Datensätze
(x1 , x2 , . . . , xn ) Ausgangsvariable und (y1 , y2 , . . . , yn ) Zielvariable.
Vermutung: Es besteht ein linearer Zusammenhang zwischen x und y:
yi = α + βxi + εi
wobei εi unbekannte Störgrößen mit Eεi = 0, V ar(εi ) = σ 2
unkorreliert.
∀i = 1, ..., n und ε1 , ..., εn
Aufgaben zur einfachen linearen Regression:
(i) Zeichne (xi , yi ) in ein Diagramm ein ( Streuungsdiagramm“).
”
(ii) Berechne die MKQ-Schätzer α̂, β̂ für α und β:
Bekannt ist: der Vektor (α̂, β̂), mit
s2xy
β̂ = 2 ,
sxx
α̂ = ȳn − β̂ x̄n
minimiert den mittleren quadratischen Fehler
n
e(α, β) =
wobei
n
1X
x̄n =
xi ,
n i=1
1X
(yi − α − βxi )2 ,
n i=1
n
1X
ȳn =
yi
n i=1
(Stichprobenmittel)
und
n
s2xx =
1 X
(xi − x̄n )2
n − 1 i=1
(Stichprobenvarianz von x)
n
s2xy
1 X
=
(xi − x̄n )(yi − ȳn ) (Stichprobenkovarianz von (x, y))
n − 1 i=1
s2yy
1 X
=
(yi − ȳn )2
n − 1 i=1
n
(Stichprobenvarianz von y).
(iii) Zeichne die Gerade ( Ausgleichsgerade“)
”
y = α̂ + β̂x
ins Diagramm ein.
34
(iv) Prognostiziere die Zielgröße y0 für einen bestimmten Ausgangswert x0 durch
ŷ0 = α̂ + β̂x0 .
(v) Berechne die Quadratsummenzerlegung und das Bestimmtheitsmaß R2 :
Bekannt ist:
Gesamtstreuung (SQT) = erklärte Streuung (SQE) + Residualstreuung (SQR)
n
X
n
n
X
X
2
(yi − ȳn ) =
(ŷi − ȳn ) +
(yi − ŷi )2
2
i=1
i=1
i=1
mit ŷi = α̂ + β̂xi ∀i = 1, ..., n
∈ [0, 1]
Bestimmtheitsmaß R2 = SQE
SQT
4
2
Faustregel: Gilt R > n+2 , besteht ein linearer Zusammenhang.
5 Im folgenden wird angenommen, dass εi i.i.d. Zufallsvariablen ∼ N (0, σ 2 ) ∀i =
1, ..., n.
(vi) Teste Hypothesen für α bzw. β:
Es gilt:
H0 :
α = α0“;
”
bzw.
H0 :
β = β0“;
”
α̂ − α
p Pn
∼ tn−2
S ( i=1 x2i ) /(n(n − 1)s2xx )
β̂ − β
p
∼ tn−2 ,
S/ (n − 1)s2xx
wobei
n
1 X
S =
(yi − ŷi )2 .
n − 2 i=1
2
und tn−2 die t-Verteilung mit n − 2 Freiheitsgraden.
0.4
Dichte der t−Verteilung
2
0.2
WS: γ
0.1
Dichte der t−Verteilung
0.3
q = t1−−(1−−γ)
1−γ
WS:
2
1−γ
2
0.0
WS:
−4
−q−2
0
2 q
4
Aus der Graphik erkennen wir : Mit Wahrscheinlichkeit γ ist
−tn−2,1− 1−γ ≤
2
α̂ − α
p Pn
≤ tn−2,1− 1−γ
2
S ( i=1 x2i ) /(n(n − 1)s2xx )
35
(1)
und ebenso
−tn−2,1− 1−γ ≤
2
wobei tn−2,1− 1−γ das (1 −
2
β̂ − β
p
≤ tn−2,1− 1−γ
2
S/ (n − 1)s2xx
1−γ
)-Quantil
2
(2)
der t-Verteilung mit n − 2 Freiheitsgraden.
Hieraus ergeben sich die t-Tests:
• Hypothese H0 :
α = α0“ wird zum Niveau 1 − γ abgelehnt, falls
”
|α̂ − α0 |
p Pn
> tn−2,1− 1−γ ;
2
S ( i=1 x2i ) /(n(n − 1)s2xx )
• Hypothese H0 :
β = β0“ wird zum Niveau 1 − γ abgelehnt, falls
”
|β̂ − β0 |
p
> tn−2,1− 1−γ .
2
S/ (n − 1)s2xx
Bestimme Konfidenzintervalle für α und β.
Aus (1) bzw. (2) lässt sich herleiten:
Mit Wahrscheinlichkeit γ gilt:
•
s P
n
s P
n
2
i=1 xi
<
n(n − 1)s2xx
α
S
β̂ − tn−2,1− 1−γ p
<
2
(n − 1)s2xx
β
α̂ − tn−2,1− 1−γ S
2
< α̂ + tn−2,1− 1−γ S
2
x2i
n(n − 1)s2xx
i=1
•
36
S
< β̂ + tn−2,1− 1−γ p
.
2
(n − 1)s2xx
Aufgabe:
Eine Speditionsfirma will anhand von 10 zufällig ausgewählten LKW-Lieferungen untersuchen, ob ein bzw. welcher Zusammenhang zwischen der Länge des Transportweges (in
km) und der Lieferzeit (in Tagen) von der Abholbereitstellung bis zum Eintreffen der
Lieferung beim Empfänger besteht. Es wurden die folgenden Daten erhoben:
Nummer der Lieferung
Weglänge (in km)
Lieferzeit (in Tagen)
1
2
825 215
3.5 1.0
3
4
5
6
7
8
9
1070 550 480 920 1350 325 670
4.0 2.0 1.0 3.0 4.5 1.5 3.0
10
1215
5.0
(a) Zeichne ein Streuungsdiagramm für die Weglänge x in km (Ausgangsvariable) und
die Lieferzeit y in Tagen (Zielvariable).
(b) Berechne für das Modell
yi = α + βxi + εi ,
εi i.i.d. N (0, σ 2 )
die MKQ-Schätzer (α̂, β̂).
(c) Zeichne die Ausgleichsgerade ins Diagramm von (a) ein.
(d) Stelle eine Prognose für die Lieferzeit bei einer Weglänge von 1500 km auf.
(e) Berechne das Bestimmtheitsmaß R2 und die Residualstreuung (SQR).
(f) Teste, ob überhaupt ein signifikanter Zusammenhang zwischen der Länge des Transportweges und der Lieferzeit besteht, d.h. teste die Hypothese
H0 :
β = 0“
”
zum Niveau 1 − γ = 0.05. Hinweis: t8,0.975 = 2.306.
(g) Bestimme 95%-Konfidenzintervalle für α und β.
37
Lösung:
3
1
2
Weglänge (in km)
4
5
(a) (siehe Grafik)
200
400
600
800
1000
1200
Lieferzeit (in Tagen)
Abbildung 5: Streuungsdiagramm mit Regressionsgerade
(b) x̄10 = 762, ȳ10 = 2.85, s2xx = 144206.7, s2xy = 517
⇒ β̂ = 0.003585132 und α̂ = 0.1181291
(c) Ausgleichsgerade (siehe Grafik): y = α̂ + β̂x = 0.1181291 + 0.003585132 · x
(d) Prognostizierte Lieferzeit bei Weglänge 1500 km:
ŷ0 = α̂ + β̂x0 = 0.1181291 + 0.003585132 · 1500 = 5.4958 ≈ 5.5
(e)
Nr.
1
2
3
4
5
6
7
8
9
10
yi
3.5
1.0
4.0
2.0
1.0
3.0
4.5
1.5
3.0
5.0
ŷi 3.076 0.889 3.954 2.090 1.839 3.416 4.958 1.283 2.520 4.474
38
SQT = (n − 1)s2yy = 9 · 2.0583̄ = 18.525, SQE = 16.68162128
⇒ R2 = 16.68162128
= 0.900492377 und SQR = 18.525 − 16.68162128 = 1.843378716
18.525
4
2
Es gilt: R = 0.900492377 > 0.3̄ = 10+2
⇒ Nach der Faustregel besteht ein linearer Zusammenhang.
p
SQR
= 0.482
(f) x̄10 = 762,
9· s2xx = 1139.24, S 2 = 10−2
Somit:
|β̂|
0.0036
0.0036
p
=
=
= 9.00.
0.48/1139.24
0.0004
S/ 9· s2xx
Andererseits gilt t8,0.975 = 2.306 und somit wird die Hypothese H0 : β = 0“ zum
”
Niveau 5% abgelehnt, d.h. es besteht ein signifikanter Zusammenhang zwischen der
Länge des Transportweges und der Lieferzeit.
(g)
•
sP
t8,0.975 S
10
i=1
x2i
= 2.306· 0.48·
10· 9· s2xx
r
7104300
= 0.8189
90· 144206.7
Somit gilt mit Wahrscheinlichkeit 95%
−0.7008 = 0.1181 − 0.8189 < α < 0.1181 + 0.8189 = 0.9370.
95%-Konfidenzintervall für α: (-0.7008 , 0.9370)
•
0.48
S
t8,0.975 p
= 2.306· √
= 0.0009716
2
9· 144206.7
(n − 1)sxx
Somit gilt mit Wahrscheinlichkeit 95%
0.0026135 = 0.0035851 − 0.0009716 < β < 0.0035851 + 0.0009716 = 0.0045567.
95%-Konfidenzintervall für β: (0.0026135 , 0.0045567)
39
9. Tutorium am 07.07.09/08.07.09 und 09.07.09
(Einfache lineare Regression)
Hypothesentests
• Hypothese H0 :
α = α0“ wird zum Niveau 1 − γ abgelehnt, falls
”
|α̂ − α0 |
p Pn
> tn−2,1− 1−γ ;
2
S ( i=1 x2i ) /(n(n − 1)s2xx )
• Hypothese H0 :
β = β0“ wird zum Niveau 1 − γ abgelehnt, falls
”
|β̂ − β0 |
p
> tn−2,1− 1−γ .
2
S/ (n − 1)s2xx
Konfidenzintervalle
Ein Konfidenzintervall für α bzw. β zum Konfidenzniveau γ ist gegeben durch:
•
s P
n
α̂ − tn−2,1− 1−γ S
2
n(n
2
i=1 xi
− 1)s2xx
s P
n
<
α
< α̂ + tn−2,1− 1−γ S
2
x2i
n(n − 1)s2xx
i=1
•
β̂ − tn−2,1− 1−γ p
2
S
(n −
1)s2xx
<
β
S
< β̂ + tn−2,1− 1−γ p
.
2
(n − 1)s2xx
Aufgabe:
Ein Autohändler will untersuchen, ob ein Zusammenhang besteht zwischen der Zahl
der wöchentlich verkauften Autos und der Anzahl der (durchschnittlich) diensthabenden
Autoverkäufer in der Verkaufshalle. Dazu protokolliert er an ausgewählten Wochen die
Anzahl der verkauften Autos und die diensthabenden Mitarbeiter mit folgendem Ergebnis:
Anzahl verkaufter Autos (y)
Anzahl der Verkäufer (x)
20 18
6 6
10 6 11
4 2 3
(a) Erstelle ein Streudiagramm für die Daten.
(b) Unterstelle die Gültigkeit eines linearen Zusammenhangs und berechne die Schätzer
für die Modellparameter α (y-Abschnitt) und β (Steigung).
(c) Zeichne die Regressionsgerade in das Streudiagramm ein.
(d) Schätze auf Basis des erhaltenen linearen Modells mit wievielen Autoverkäufen der
Händler rechnen kann, wenn er im Schnitt 5 Verkäufer an jedem Tag einsetzt.
(e) Berechne die angepassten Verkaufszahlen für jede beobachtete Anzahl an eingesetzten
Verkaufsmitarbeitern. Berechne anschließend die zugehörigen (realisierten) Residuen.
40
(f) Schätze die Varianz der Residuen
(g) Teste die Hypothese, dass kein Zusammenhang zwischen der Zahl verkaufter Autos
und der eingesetzten Mitarbeiterzahl besteht auf einem 5% Konfidenzniveau.
(h) Berechne ein Konfidenzintervall zum Niveau 10% für den Parameter α.
(i) Wiederhole die Lösung dieser Aufgabe unter Verwendung des Computerprogramms
R.
41
Lösung
20
●
14
12
●
10
Anzahl verkaufter Autos
16
●
18
(a) (siehe Grafik)
6
8
●
●
2
3
4
5
6
Anzahl eingesetzter Verkäufer
(b) x̄5 = 4.2, ȳ5 = 13, s2xx = 3.2, s2xy = 10
⇒ β̂ = 3.125 und α̂ = −0.125
(c) y = −0.125 + 3.125x (siehe Grafik)
(d) ŷ0 = −0.125 + 3.125x0 = −0.125 + 3.125 · 5 = 15.5, d.h. bei Einsatz von 5 Verkäufern
vermuten wir, dass in einer Woche mindestens 15 Autos verkauft werden.
(e) Die Tabelle enthält die gesuchten Werte:
Anzahl der Verkäufer (xi )
Angepasste Verkaufszahl (ŷi )
eingetretene Abweichung (i )
6
6
4
2
3
18.625 18.625 12.375 6.125 9.25
1.375 -0.625 -2.375 -0.125 1.75
ŷi = −0.125 + 3.125xi
i = yi − ŷi
Pn
1
2
(f) S 2 = n−2
i=1 (yi − ŷi )
1
= 3 ((20 − 18.625)2 + (18 − 18.625)2 + (10 − 12.375)2 + (6 − 6.125)2 + (11 − 9.25)2 )
= 13 11 = 11
3
(g) Hypothese H0 :
β = 0“ (kein Zusammenhang) wird zum Niveau 5% abgelehnt, falls
”
|β̂|
p
> tn−2,1− 1−γ ,
2
S/ (n − 1)s2xx
42
d.h. H0 :
β = 0“ (kein Zusammenhang) wird zum Niveau 5% abgelehnt, falls
”
|3.125|
q √
> t3,0.975 ⇔ 5.8387 > 3.182.
11
4
·
3.2
/
3
Diese Bedingung ist erfüllt, d.h. wir lehnen die Behauptung, dass kein Zusammenhang
besteht auf diesem Sicherheitsniveau ab.
P
(h) 5i=1 x2i = 111
Ein Konfidenzniveau für α zum Niveau 10% ist gegeben durch:
s P
s P
n
n
2
2
x
i=1 i
i=1 xi
1−γ S
α̂ − tn−2,1− 1−γ S
<
α
<
α̂
+
t
n−2,1− 2
2
n (n − 1) s2xx
n (n − 1) s2xx
Es gilt:
s
tn−2,1− 1−γ S
2
Pn
2
i=1 xi
= t3,0.95
n (n − 1) s2xx
r
11
3
r
11 · 101
= 5.66
3 · 5 · 4 · 3.2
= 2.353
⇒ −0.125 − 5.66 <
⇔ −5.785 <
α
α
r
r
101
11 · 101
= 2.353
5 · 4 · 3.2
3 · 5 · 4 · 3.2
< −0.125 + 5.66
< 5.535
(i) (a) R Commander starten
(b) → Menü: Datenmanagement → Neue Datenmatrix
→ Dialogfenster: Namen eingeben
→ Daten aus Tabelle eingeben
(c) → Menü: Grafiken . Streudiagramm ...
→ Dialogfenster: x-Variable wählen (var2), y-Variable wählen (var1), Haken bei
Kleinst-Quadrate-Linie setzen
(d) → Menü: Statistik → Regressionsmodelle . Lineare Regression ...
→ Dialogfenster: Namen eingeben, abhängige Variable wählen (var1), unabhängige
Variable wählen (var2)
43
Ergebnis:
Von der R-Ausgabe sind für uns die folgenden Ergebnisse relevant:
• Die “Residuals” (rotes Rechteck) liefern uns die (realisierten) Abweichungen i (i ∈
{1, . . . , 5}) der beobachteten Daten yi (i ∈ {1, . . . , 5}) von den prognostizierten
Werten ŷi (i ∈ {1, . . . , 5})
• Die Spalte “Estimate“ enthält die geschätzten Parameterwerte α̂ (in der Zeile “Intercept”) und β̂ (in der Zeile “var2”)
• Die Spalte “t-value” enthält die Testgrößen für die Hypothesen α = 0 und β = 0 in
der jeweiligen Zeile. Wir interessieren uns insbesondere für die Testgröße zu β (roter
Kringel)
• “Residual standard error” liefert uns den geschätzten Wert σ̂, der den unbekannten
Modellparameter σ (Standardabweichung der Residuen) erwartungstreu abschätzt.
Entsprechend liefert das Quadrat dieses Wertes den geschätzten Wert von σ 2 (Varianz der Residuen)
• Die Angabe “degrees of freedom” liefert uns die Anzahl der Freiheitsgrade, die wir
zum Schätzen von R (bzw. R2 ) hatten. Diese Größe ist gleichzeitig auch der Parameter “Freiheitsgrade” zur Bestimmung des t-Quantils für Tests und Konfidenzintervalle.
• Zuletzt liefert die Größe “Multiple R-squared“ das (realisierte) Bestimmtheitsmaß
R2 , mit dessen Hilfe eine Einschätzung der Modellgüte möglich ist
Teilaufgabe (a) kann nun mit Hilfe des R-Commanders gelöst werden, indem ein Scatterplot der Daten gemacht wird und dabei die “Ausgleichsgerade” (optional) mit ausgegeben
wird. (siehe Grafik). Die Lösung von Teilaufgabe (b) kann man in der Spalte “Estimate”
ablesen und Teilaufgabe (c) lässt sich mit diesen Werten ebenfalls lösen. Teilaufgabe (d)
44
kann nicht aus der R-Ausgabe direkt abgelesen werden, kann aber manuell leicht berechnet werden mit Hilfe von Teilaufgabe (c). Die angepassten Verkaufszahlen von Teilaufgabe
(e) können aus der R-Ausgabe nicht abgelesen werden und auch manuell nicht berechnet
werden, wenn der Datensatz nicht zur Verfügung steht; die eingetretenen Abweichungen
können jedoch der R-Ausgabe entnommen werden (rotes Rechteck). In Teilaufgabe (f)
soll die Größe S 2 berechnet werden, das ist aber gerade der geschätzte Wert für σ 2 und
kann somit durch einfaches Quadrieren der Größe “Residual standard error” aus der RAusgabe gewonnen werden. Die benötigte Testgröße für Teilaufgabe (g) kann in Zeile
“var2” und Spalte “t-value” (roter Kringel aus der R-Ausgabe abgelesen werden, das
zugehörige t-Quantil, mit dem man diesen Wert vergleichen muss jedoch separat (z.B. in
einer Tabelle) besorgt werden. (Für Insider: Die Aussage, ob das Testkriterium erfüllt ist,
lässt sich auch aus dem p-Wert (spalte “P r(> |t|)” ablesen). Teilaufgabe (h) lässt sich
anhand der R-Ausgabe nur lösen, wenn die fehlende Größe s2xx angegeben wird, ansonsten
nicht.
45
10. Tutorium am 14.07.09/15.07.09 und 16.07.09
(Multiple lineare Regression)
Multiple lineare Regression
Gegeben m Datensätze mit Stichprobenumfang von jeweils n:
(x12 , x22 , . . . , xn2 ), . . . , (x1m , x2m , . . . , xnm ) Ausgangsvariablen
(y1 , y2 , . . . , yn ) Zielvariable
Vermutung: Es besteht ein linearer Zusammenhang zwischen x.i (i = 2, . . . , m) und y:
yi = β1 + β2 xi2 + . . . + βm xim + i
wobei i unbekannte Störgrößen mit E [i ] = 0, Var(i ) = σ 2
1 , ..., n unkorreliert.
(∀i ∈ {1, . . . , n}) und
Aufgabe: Ein Unternehmen interessiert sich dafür, ob und wie der Wasserverbrauch
eines seiner Fabriken von bestimmten Größen abhängt. Dazu werden jeweils 17 Messungen vorgenommen, die den Wasserverbrauch der Produktionseinrichtungen (USAGE in
gallons/100) in Abhängigkeit von der monatlichen Durchschnittstemperatur (TEMP in
◦
F!), der Produktionsmenge (PROD in einer angemessenen Einheit), der Anzahl der Betriebstage im Monat (DAYS), der Anzahl der Mitarbeiter auf der monatlichen Lohnliste
(PAYR) und der Anzahl der Stunden, in der die Produktion für Wartungsarbeiten stillstand (HOUR), ermitteln. Dazu wird mit R eine multiple lineare Regression durchgeführt,
mit folgendem Ergebnis:
(a) Teste die Hypothese, dass der Wasserverbrauch nicht (linear) von der Produktionsmenge (PROD) abhängt auf einem 5% Konfidenzniveau.
46
(b) Teste, auf einem 10% Konfidenzniveau, die Hypothese, dass der Wasserverbrauch
unabhängig von der monatlichen Durchschnittstemperatur (TEMP) ist.
(c) Beurteile, ob dieses Modell gut geeignet ist, um die Abhängigkeit des Wasserverbrauchs von den gegebenen Größen zu beschreiben.
47
Lösung
= 2.5%, d.h. wir lehnen die Hypothese, dass kein Zusammenhang
(a) 1 − γ = 5% ⇔ 1−γ
2
zwischen Wasserverbrauch und Produktionsmenge besteht, auf diesem Sicherheitsniveau ab, falls
T1 > tn−m,1− 1−γ ⇔ T1 > t11,0.975 ⇔ 3.091 > 2.201.
2
Diese Bedingung ist erfüllt, also vermuten wir, dass zwischen Wasserverbrauch und
Produktionsmenge ein Zusammenhang besteht.
(b) 1 − γ = 10% ⇔ 1−γ
= 5%, d.h. wir lehnen die Hypothese, dass kein Zusammen2
hang zwischen Wasserverbrauch und Durchschnittstemperatur besteht, auf diesem
Sicherheitsniveau ab, falls
T1 > tn−m,1− 1−γ ⇔ T1 > t11,0.95 ⇔ 1.390 > 1.796.
2
Diese Bedingung ist nicht erfüllt, also können wir auf diesem Niveau nicht ausschließen, dass zwischen Wasserverbrauch und Durchschnittstemperatur wirklich kein Zusammenhang besteht.
(c) R2 = 0.6446 lässt auf eine ausreichende Modellgüte schließen
48
Klausurvorbereitung am 14.07.09/15.07.09 und 16.07.09
(Zusatzaufgaben zur Probeklausur von 2003)
Aufgabe 1: Quantilplots
Die Lebensdauer (in Jahren) von Laptops eines bestimmten Typs soll untersucht werden.
Dazu wurde eine Stichprobe von 100 Exemplaren gezogen, anhand derer eine passende
Verteilung bestimmt werden soll. Nachfolgend sind Quantilplots für folgende Verteilungen
abgebildet:
• X ∼ N (µ = 5, σ = 2.5)
• X ∼ U (1, 12)
• X ∼ Gamma(λ = 1, n = 5)
• X ∼ Lognormal(µ = 1.6, σ = 0.5)
wobei für
• X ∼ Gamma(λ, n) mit λ ∈ R, n ∈ N gilt:
FX (x) =
1 − e−λx
n−1
X
(λx)i
i=0
i!
!
1x≥0
• X ∼ Lognormal(µ, σ) mit µ, σ ∈ R, σ > 0 gilt:
Z x
1
1
(ln t − µ)2
FX (x) = √
exp{−
}dt 1x≥0
2σ 2
2πσ 0 t
(a) Beurteile und begründe anhand der Quantilplots, welche Verteilung am besten die
Lebensdauer der Laptops repräsentiert.
(b) Berechne anhand der passenden Verteilung, wieviel Geld der Hersteller für Garantiefälle reservieren muss, wenn der Hersteller eine 3-jährige Garantie auf den Laptop
gibt, jeder Garantiefall 1.000 Euro kostet und 7.000 Exemplare verkauft wurden.
49
50
Lösung
(a) Damit man davon sprechen kann, dass die Daten gut zu der Verteilung passen, müssen
2 Kriterien erfüllt sein:
(a) Die Punkte müssen nahezu auf einer Geraden liegen
(b) Möglichst keine Punkte dürfen außerhalb der beiden Konfidenzbänder liegen.
(Ein geringer Anteil von Ausnahmen kann akzeptiert werden.)
Die Gammaverteilung erfüllt diese Kriterien am besten. Mit ihr kann man also die
Daten am besten modellieren.
(b) Wir nehmen nun an, dass die Zufallsvariable X mit X ∼ Gamma(λ = 1, n = 5) die
Laptoplebensdauer (in Jahren) beschreibt.
Zunächst wollen wir wissen, wie groß die Wahrscheinlichkeit ist, dass ein Laptop vor
Ablauf von 3 Jahren kaputt geht.
Wir berechnen:
!
n−1
5−1
X
X
(λ3)i
(1 · 3)i
−λ3
−1·3
FX (3) = 1 − e
13≥0 = 1 − e
i!
i!
i=0
i=0
−3
=1−e
·
1 3 9 27 81
+ + +
+
1 1 2
6
24
= 1 − 0, 04979 · 16, 375 = 0, 18473
Mit 7.000 verkauften Laptops und 1.000 Euro pro Garantiefall müssen somit
0, 18473 · 7.000 · 1.000 = 1.293.110 Euro für Garantiefälle reserviert werden.
51
Herunterladen