Statistik I für Betriebswirte

Werbung
Statistik I für Betriebswirte
Privat-Doz. Dr. H. Haase
Inst. f. Math. u. Inf.
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
28.11.2016
Vorlesung 6
28.11.2016
1 / 61
Übersicht
1
Wahrscheinlichkeitsräume
2
Bedingte Wahrscheinlichkeiten
3
Rechenregeln für bedingte Wahrscheinlichkeiten
Die Formel von der totalen Wahrscheinlichkeit
Eine Anwendung: Die 1. Mittelwertsregel
Der Satz von Bayes
4
Korrelation und Regression mit R
5
Wiederholung
6
Klausurbeispielaufgaben
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
2 / 61
Der Wahrscheinlichkeitsbegri I
ökonomische Theorien, z.B. in der Mikroökonomie
Unsicherheit
Lotterie.
Modelle mit zufälligem Ausgang oder stochastische Modelle
unterliegender Wahrscheinlichkeitsraum
bereits bekannt: Laplace-Denition
p(A) =
|A|
|Ω|
Beispiel: 2 unterscheidbare Würfel, mindesten eine 6
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
p=
6 + 6 − 1 11
=
36
36
Vorlesung 6
28.11.2016
3 / 61
Der Wahrscheinlichkeitsbegri II
Denition nach dem russischen Mathematiker Kolmogoro(1933)
Gegeben seien:
Ω eine nichtleere Menge von Elementarereignissen
Σ eine sogenannte σ -Algebra von Ereignissen
P ein Wahrscheinlichkeitsmaÿ.
Eigenschaften von Σ:
Ω ∈ Σ (das sichere Ereignis)
A ∈ Σ, dann auch Ac ∈ Σ (gegenteilige Ereignis)
A, B ∈ Σ, dann auch A ∪ B ∈ Σ
Für P gilt:
P (Ω) = 1 (Normierungsbedingung)
Additivitätsaxiom: A, B ∈ Σ, A ∩ B = ∅ (gegenseitiger Ausschluss):
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
P (A ∪ B ) = P (A) + P (B ).
Vorlesung 6
28.11.2016
4 / 61
Konstruktion von diskreten Wahrscheinlichkeitsräumen
Ω = {ω1 , . . . , ωn }
Σ = ℘(Ω)
pi > 0 mit ∑ni=1 pi = 1: p ({ωi }) = pi
analog Ω = {ω1 , . . . , ωn , . . .} mit b) eine unendliche Folge
Beispiel: Münzwurf bis zum ersten Mal Zahl fällt




Ω = z , wz , wwz , . . . , ww
·
·
·
wz
,
.
.
.
| {z }


Dann wäre
n−1 mal Wappen
p (ww · · · wz ) =
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
1
1 1
(Beachte: + + . . . = 1)
2n
2 4
Vorlesung 6
28.11.2016
5 / 61
Geometrische Wahrscheinlichkeiten
Erklärung am Beispiel:
Zwei Freunde vereinbaren sich zwischen 12 und 13 Uhr zu treen.
Jeder wartet eine 1/4-Stunde.
Wie groÿ ist die Wahrscheinlichkeit, daÿ das Treen zustande kommt?
x und y Ankunftszeiten
Ω = {(x , y ) | 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 }
A = {(x , y ) |(x , y ) ∈ Ω, |y − x | ≤ 1/4}
geometrische Wahrscheinlichkeitsdenition:
p (A) =
F (A)
= F (A)
F (Ω)
Was für eine Figur ist nun A?
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
6 / 61
Die Berechnung der Fläche A
y ≤ x + 1/4 und y ≥ x − 1/4
Ω sind alle Punkte des Quadrates,
Fläche von A:
A 2 Trapeze
1 3 3 7
· · =
2 4 4 16
Vorlesung 6
F (A) = 1 − 2 ·
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
28.11.2016
7 / 61
Abgeleitete Regeln
∅ ∈ Σ (unmögliches Ereignis) erfüllt p (∅) = 0
(weil Ωc = ∅ und ∅ ∪ Ω = Ω, ∅ ∩ Ω = ∅)
P (Ac ) = 1 − P (A) (Komplementformel)
A ⊆ B für zwei Ereignisse (A impliziert B ), so ist
P (A) ≤ P (B )
(weil P (B ) = P (A) + P (B ∩ Ac ) wegen A ∩ (B ∩ Ac ) = ∅)
Erweiterung des Additivitätsaxiom zur Additivitätsregel: Schliessen
sich A1 , . . . , An paarweise aus, so gilt
p(A1 ∪ . . . ∪ An ) = p(A1 ) + . . . + p(An )
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
8 / 61
Ein einführendes Beispiel
Merkmale Raucher und Geschlecht
Aufstellung einer 2 x 2 Kreuztabelle:
Raucher Nichtraucher
weiblich
a
b
männlich
c
d
a+c
b+d
a+b
c +d
a+b+c +d
Wahrscheinlichkeit für einen weiblichen Raucher unter Benutzung der
klassischen Wahrscheinlichkeitsdenition
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
P (W |R ) =
Vorlesung 6
a
.
a+c
28.11.2016
9 / 61
Ableitung des Begries bedingte Wahrscheinlichkeit
R Ereignis Raucher zu sein, W Ereignis weiblich zu sein
a+c
a
P (R ) =
und P (R ∩ W ) =
a+b+c +d
a+b+c +d
Bildung des Quotienten
P (R ∩ W )
a
=
,
P (R )
a+c
Also
P (W |R )
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
=
Denition
a
a+c
Vorlesung 6
=
P (R ∩ W )
.
P (R )
28.11.2016
10 / 61
Einige Denitionen
Zunächst:
Sind E und F zwei Ereignisse mit P (F ) > 0, so nennt man
P (E |F ) =
P (E ∩ F )
P (F )
die bedingte Wahrscheinlichkeit des Ereignisses E unter der Bedingung
des Eintretens des Ereignisses F .
Gilt P (E |F ) = P (E ), so nennt man E von F unabhängig.
Zwei Ereignisse E und F heiÿen unabhängig, wenn
P (E ∩ F ) = P (E ) · P (F )
gilt.
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
11 / 61
Beispiel
Familien mit 2 Kindern:
Ereignis E : das erste Kind ist ein Junge
Ereignis F : das zweite Kind ist ein Mädchen
Ereignis G : beide Kinder sind vom gleichen Geschlecht
Annahme: alle 4 möglichen Familientypen mit der Wahrscheinlichkeit
1
4
:
P (E ∩ F ) = 14
P (E ) = P (F ) = 12
E und F unabhängig, denn P (E ∩ F ) = P (E ) · P (F )
P (E ∩ F |G ) = 0
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
12 / 61
Erweiterungen
Beispiel ist Anlaÿ für:
Man nennt die Ereignisse E1 , E2 , . . . , En vollständig unabhängig, wenn
für jedes natürliche k mit 1 ≤ k ≤ n und jede endliche Auswahl von
Indizes 1 ≤ i1 < i2 < . . . < ik ≤ n
P Ei1 ∩ Ei2 ∩ . . . ∩ Ei
k
= P (Ei1 ) · P (Ei2 ) · . . . · P
Ei
k
gilt.
Letztes Beispiel:
E , F und G nicht vollständig unabhängig
Warum?
P (E ∩ F ∩ G ) = 0, aber P (E ) · P (F ) · P (G ) = 18
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
13 / 61
Bildung neuer unabhängiger Ereignisse
E und F unabhängige Ereignisse
E c und F c bzw. E c und F unabhängig
Nachweis für E c und F c :
P (E c ∩ F c ) = P ((E ∪ F )c )
P ((E ∪ F )c ) = 1 − P (E ∪ F )
1 − P (E ∪ F ) = 1 − P (E ) − P (F ) + P (E ∩ F )
1 − P (E ) − P (F ) + P (E ∩ F ) = 1 − P (E ) − P (F ) + P (E )P (F )
1 − P (E ) − P (F ) + P (E )P (F ) = (1 − P (E )) (1 − P (F ))
(1 − P (E )) (1 − P (F )) = P (E c ) P (F c )
Zusammenfassung:
P (E c ∩ F c ) = P (E c ) P (F c )
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
14 / 61
Die Pfadregel
erste Pfadregel oder der Multiplikationssatz:
von einem Startknoten aus die Knoten E1 , E2 , . . . , En in dieser
Reihenfolge durchlaufen
Wahrscheinlichkeit dafür gleich dem Produkt der angetragenen
Übergangswahrscheinlichkeiten
Als Formel:
E1 , E2 , . . . , En beliebige Ereignisse
P (E1 ) > 0, P (E1 ∩ E2 ) > 0, . . . , P (E1 ∩ E2 ∩ . . . ∩ En−1 ) > 0
Dann gilt:
P (E1 ∩ . . . ∩ En ) =
P (E1 ) P (E2 |E1 ) P (E3 |E1 ∩ E2 ) · . . . · P (En |E1 ∩ E2 ∩ . . . ∩ En−1 )
Markow-Eigenschaft: P (En |E1 ∩ E2 ∩ . . . ∩ En−1 ) = P (En |En−1 )
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
15 / 61
Beispiel
Annahme: Unter 6 Passanten benden sich 3 potentielle Käufer eines
bestimmten Produktes
Ein Straÿenverkäufer sprach genau diese drei gezielt an.
Zufall oder Menschenkenntnis?
Vereinbarung: E1 , E2 und E3 die Ereignisse den ersten, zweiten und
dritten Käufer zu erkennen
gesucht: P (E1 ∩ E2 ∩ E3 )
P (E1 ) = 12 , P (E2 |E1 ) = 25 und P (E3 |E1 ∩ E2 ) = 14
P (E1 ∩ E2 ∩ E3 ) = 12 · 25 · 14 = 201
Sehr unwahrscheinlich, also spricht das für Menschenkenntnisse
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
16 / 61
Die Formel von der totalen Wahrscheinlichkeit I
Einführendes Beispiel:
Tabelle der Einkommensverteilung der Haushalte in ¿:
1
2
3
4
5
bis 2500 2501-3500 3501-4500 4501-7000 7001
20%
20%
30%
25%
5%
Anschaung eines Autos ab 30000,-¿ in den fünf Einkommensgruppen
1%, 5%, 20%, 40% und 90% der Haushalte
Frage: Wieviel Prozent x aller Haushalte der Region sind als
potentielle Kunden einzuschätzen?
Zunächst Überlegungen ohne Wahrscheinlichkeitsrechnung:
Von 1000 Haushalten gehören 200, 200, 300, 250 bzw. 50 den
angegebenen Einkommensgruppen an.
2, 10, 60, 100 bzw. 45 als Käufer gewinnen
insgesamt also 217 und somit 21, 7%
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
17 / 61
Die Formel von der totalen Wahrscheinlichkeit II
Umformulierung mit Wahrscheinlichkeiten
Ei Ereignis Einkommenklasse i für i = 1, 2, . . . , 5
E das Ereignis potentieller Käufer zu sein
Dann gelten: P (E1 ) = 0, 2, P (E2 ) = 0, 2, P (E3 ) = 0, 3, P (E4 ) = 0, 25,
P (E5 ) = 0, 05.
Verbrauchergewohnheiten als bedingte Wahrscheinlichkeiten
P (E |E1 ) = 0, 01 u.s.w.
Also wäre
5
P (E ) = ∑ P (Ei ) · P (E |Ei ) = 0.217
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
i =1
Vorlesung 6
28.11.2016
18 / 61
Die Formel von der totalen Wahrscheinlichkeit III
Der allgemeine Fall:
E1 , . . . , En für n ∈ N , n ≥ 2 sich paarweise ausschlieÿende Ereignisse
mit positiver Wahrscheinlichkeit
tritt mindestens eins von ihnen mit Wahrscheinlichkeit 1
(P (E1 ∪ . . . ∪ En ) = 1) ein
beides zusammen: vollständiges Ereignissystem
So gilt immer: P (E ) = ∑ni=1 P (Ei ) · P (E |Ei )
Warum?
E=
k =1 E ∩ Ei (da sich E ∩ Ei sich paarweise ausschlieÿen)
impliziert P (E ) = ∑ni=1 P (E ∩ Ei ) (Additivität von P )
P (E ∩ Ei ) = P (Ei ) · P (E |Ei ) nach der Pfadregel, also:
Sn
P (E ) = ∑ni=1 P (Ei ) · P (E |Ei )
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
19 / 61
Die 1. Mittelwertsregel I
Das kühne Spiel
1,- ¿ Startkapital mit dem Ziel 5,-¿ zu machen
Strategie:
Einsatz solange verdoppeln wie nötig
ansonsten Dierenz zum Zielbetrag setzen
Erfolgswahrscheinlichkeit p = 12
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
20 / 61
Die 1. Mittelwertsregel II
Stochastische Graphen
stochastischer Graph
Zustände: 1, . . . , n, n ≥ 2 (Beispiel: 6 Zustände)
zufällige Übergänge von Zustand i zu j mit Wahrscheinlichkeit
pij
Einteilung in innere und Randzustände:
innerer Zustand i : pii < 1, R = {i | pii = 1} die Randmenge
Randzustand i : pii = 1, I = {i | pii < 1} die Menge der inneren Zustände
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
21 / 61
Die 1. Mittelwertsregel III
Berechnung der Absorptionswahrscheinlichkeit
Vorgabe einer Zielmenge Z ⊂ R (Beispiel: Zustand 5,-¿)
1. Mittelwertsregel stochastische Graphen: pi Wahrscheinlichkeit bei
Start in i in nach Z zu gelangen?
Für i ∈ Z gilt pi = 1 und für i ∈ R \ Z hat man pi = 0
i ∈ I (innerer Zustand):
n
pi = ∑ pij · pj .
j =1
Begründung: Übergänge von i zu Nachbarn (und zu sich selbst!) vollständiges Ereignissystem, also totale W. anwenden!
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
22 / 61
Die 1. Mittelwertsregel IV
Die Auswertung des kühnen
Spiel:
p5 = 1 und p0 = 0
p1 = 12 p2 + 12 p0
p2 = 12 p0 + 12 p4
p4 = 12 p5 + 12 p3
p3 = 12 p5 + 12 p1
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
23 / 61
Die 1. Mittelwertsregel V
Lösen des Gleichungssystems
Setze p1 = x und p3 = y
übrige pi durch x und y ausdrücken
p4 = 21 p5 + 12 p3 = 12 + 12 y p2 = 21 p0 + 12 p4 = 12 12 y + 12 = 14 y + 14
p1 = x = 12 p2 + 12 p0 = 12 41 y + 14
p3 = y = 12 p5 + 12 p1 = 12 + 12 x
Schlieÿlich noch einsetzen:
x = 12 14 y + 41 = 21 14 12 + 12 x + 41 = 161 x + 163
15
3
1
16 x = 16 folgt x = 5 .
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
24 / 61
Der Satz von Bayes I
Motivation
Warensortiment:
jede Sorte ist mit einem bestimmten Prozentsatz vertreten
Der Händler nimmt an, daÿ die Marktanteile ebenso sind!
Am Ende des Handels ist von jeder Sorte ein bestimmter Prozentsatz
verkauft.
Welche Neubewertung der Marktanteile müÿte er dann vornehmen?
Interpretation als Wahrscheinlichkeiten:
Sortiment: vollständiges Ereignissystem E1 , . . . , En
P (Ei ) für i = 1, 2, . . . , n Anteil am Sortiment
E Ereignis eine Ware aus dem Sortiment wird gekauft
verkaufte Anteile: P (E |Ei ) für i = 1, 2, . . . , n
Neubewertung des Anteils für Ware i wäre P (Ei |E )
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
25 / 61
Der Satz von Bayes II
Der Inhalt dieses Satzes
vollständiges Ereignissystem E1 , . . . , En , d.h.
E1 , . . . , En paarweise fremd
P (E1 ) + . . . + P (En ) = 1
E irgendein Ereignis mit P (E ) > 0
Dann erhalten wir für die bedingte Wahrscheinlichkeit P (Ei |E ):
P (Ei |E ) =
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
P (Ei ) · P (E |Ei )
P (Ej ) · P (E |Ej )
∑nj=1
Vorlesung 6
28.11.2016
26 / 61
Beispiel zum Satz von Bayes I
Die Frage nach der wahrscheinlichsten Ursache
Stadtbevölkerung: 90% aus Deutschen, zu 5% aus Italienern und zu
5% aus sonstigen Ausländern
Vorliebe für Spaghetti:
30% aller Deutschen
90% aller Italiener
sonstige 50%
D , I , A und S als Bezeichnungen für die zu betrachtenden Ereignisse
In einem guten Restaurant bestellt jemand ein Spaghettigericht. Wie
sind die Ursachenwahrscheinlichkeiten? (P (D |S ), P (I |S ) und P (A|S ))
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
27 / 61
Beispiel zum Satz von Bayes II
Die Rechnung dazu
Berechnung der totalen Wahrscheinlichkeit:
P (S ) = 0.9 · 0.3 + 0.05 · 0.9 + 0.05 · 0.5 = 0.34
Dann ergeben sich:
0.9 · 0.3
= 0.79412
0.34
0.05 · 0.9
P (I |S ) =
= 0.13235
0.34
P (D |S ) =
und
0.05 · 0.5
= 0.073529.
0.34
Das Ergebnis spricht für einen deutschen Gast!
P (A|S ) =
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
28 / 61
Das Prinzip des Bayesschen Lernens
Ziel: Die Wahrscheinlichkeiten des vollständigen Ereignissystems
A1 , . . . , An mit mit Hilfe von Beobachtungsereignissen
B1 , B2 , . . . , Bm , . . . "lernen"
Meistens nimmt man als Ausgangswerte p (Ai ) = n1 (für alle gleiche
Wahrschlichkeit) an.
Algorithmus:
Berechne einen ersten Satz neuer Werte p (Ai |B1 ) für i = 1, . . . , n
Stoppe, wenn sich die apriori-Wahrscheinlichkeiten p (Ai |Bm ) von
aposteriori-Wahrscheinlichkeiten p (Ai |Bm+1 ), um weniger als ein
vorgebenes ε > 0 unterscheiden, d.h .für alle i = 1, . . . , n
|p (Ai |Bm ) − p (Ai |Bm+1 )| < ε
und ansonsten mit dem nächsten Bm+2 fortfahren.
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
29 / 61
Eine Anwendung des des Bayesschen Lernens I
Wechselpunktanalyse bei Kursreihen
Kurs der TUI-Aktie
20
30
DM
40
50
Schlusskurs der TUI−Aktie
0
100
200
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
300
400
500
600
Handelstag
Vorlesung 6
28.11.2016
30 / 61
Eine Anwendung des des Bayesschen Lernens II
eine spezielle Bibliothek (dabei werden viele weitere geladen!!!):
require(bcp)
##
##
##
##
##
##
Loading
Loading
Loading
Loading
Loading
Loading
required
required
required
required
required
required
package:
package:
package:
package:
package:
package:
bcp
methods
foreach
iterators
grid
Rcpp
Berechnung der Wechselpunkte:
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
31 / 61
Eine Anwendung des des Bayesschen Lernens III
bcp.tui <- bcp(as.vector(close))
names(bcp.tui)[8]
## [1] "posterior.prob"
und wir zeichnen die Änderungwahrscheinlichkeiten:
plot(ts(bcp.tui$posterior.prob), ylab = "", xlab = "Handelstag")
title(main = "Wechselpunkte TUI-Schlusskursänderung")
title(ylab = "Wahrscheinlichkeit")
abline(h = 0.95, col = "red")
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
32 / 61
Eine Anwendung des des Bayesschen Lernens IV
0.6
0.4
0.2
0.0
Wahrscheinlichkeit
0.8
1.0
Wechselpunkte TUI−Schlusskursänderung
0
100
200
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
300
400
500
600
Handelstag
Vorlesung 6
28.11.2016
33 / 61
Korrelation und Regression mit R I
Lineare Regression
Untersuchung der Steuertabelle 2009
Bibliothek laden
library(xlsReadWrite)
##
##
##
##
##
##
##
##
##
xlsReadWrite version 1.5.4 (826aa0)
Copyright (C) 2010 Hans-Peter Suter, Treetron, Switzerland.
This package can be freely distributed and used for any
purpose. It comes with ABSOLUTELY NO GUARANTEE at all.
xlsReadWrite has been written in Pascal and contains binary
code from a proprietary library. Our own code is free (GPL-2).
Updates, issue tracker and more info at http://www.swissr.org.
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
34 / 61
Korrelation und Regression mit R II
anschlieÿend Daten holen:
Daten <- read.xls("Steuertabelle2009.xls", sheet = "Daten")
attach(Daten)
eine kleine Ansicht:
head(Daten)
##
##
##
##
##
##
##
1
2
3
4
5
6
Einkommen Steuer
5000
0
10000
0
15000
0
20000
796
25000 1864
30000 3084
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
35 / 61
Korrelation und Regression mit R III
Übersicht über die Variablen:
names(Daten)
## [1] "Einkommen" "Steuer"
Berechnung des linearen Regressionsmodells für Steuer mit dem
Regressor Einkommen:
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
36 / 61
Korrelation und Regression mit R IV
stm <- lm(Steuer ~ Einkommen)
stm
##
##
##
##
##
##
##
Call:
lm(formula = Steuer ~ Einkommen)
Coefficients:
(Intercept)
Einkommen
-7089.825
0.344
Anpassungsgüte des Modells?
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
37 / 61
Korrelation und Regression mit R V
names(summary(stm))
##
##
##
[1] "call"
"terms"
[5] "aliased"
"sigma"
[9] "adj.r.squared" "fstatistic"
"residuals"
"df"
"cov.unscaled"
"coefficient
"r.squared"
Extrahieren des Wertes mit dem $-Operator:
summary(stm)$r.squared
## [1] 0.9842
grasche Darstellung
abline-Befehl zum Einzeichnen der Regressionsgeraden
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
38 / 61
Korrelation und Regression mit R VI
0
10000
Steuer
20000
30000
40000
plot(Einkommen, Steuer, type = "l", col = "red")
abline(coef(stm), col = "blue")
0
50000
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
100000
150000
Einkommen
Vorlesung 6
28.11.2016
39 / 61
Korrelation und Regression mit R VII
Beschriftung verbessern?
Extrahieren der Koezienten mit dem Befehl coef
text-Befehl
sprintf -Befehl
plot(Einkommen, Steuer, type = "l", col = "red")
abline(coef(stm), col = "blue")
w <- coef(stm)
text(50000, 20000, sprintf("y=%.3f*x%.3f", w[2], w[1]))
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
40 / 61
y=0.344*x−7089.825
0
10000
Steuer
20000
30000
40000
Korrelation und Regression mit R VIII
0
50000
100000
150000
Einkommen
Wie komm ich an die Modelldaten ran? (8 Werte anzeigen!)
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
41 / 61
Korrelation und Regression mit R IX
stm$fitted.values[1:8]
##
1
2
3
## -5371.3 -3652.7 -1934.1
4
-215.6
5
1503.0
6
3221.6
7
4940.1
8
6658.7
Berechnung der Korrelationen
pearson <- cor(Steuer, Einkommen, method = "pearson")
pearson
## [1] 0.9921
spearman <- cor(Steuer, Einkommen, method = "spearman")
spearman
## [1] 0.9996
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
42 / 61
Korrelation und Regression mit R X
Einfügung als Untertitel:
plot(Einkommen, Steuer, col = "red")
str <- sprintf("Spearman=%.3f, Pearson=%.3f ", spearman, pearson)
title(sub = str)
abline(coef(stm), col = "blue")
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
43 / 61
Korrelation und Regression mit R XI
●
●
40000
●
●
●
●
●
20000
●
●
●
●
●
●
10000
●
●
●
●
●
●
●
●
0
Steuer
30000
●
●
●
●
0
●
●
●
●
●
50000
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
100000
150000
Einkommen
Spearman=1.000, Pearson=0.992
Vorlesung 6
28.11.2016
44 / 61
Wie berechne ich n über k?
Denition
n
k
=
n!
n · (n − 1) · . . . · (n − k + 1)
=
k ! · (n − k )!
1·2·...·k
Beispiele:
1
2
3
4
0 = 1, n
n
n
n
k
7
=
=1
n
n−k
7
7·6·5
3 = 1·2·3 = 35, 4 =?
12
12
12·11
10 = 2 = 1·2 = 66
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
45 / 61
Siebformel
Aufgabe
200 Haushalte eines Greifswalder Stadtteil gaben über ihre
Einkaufsgewohnheiten folgendes an: 130 im Mövencenter (MC), 120 im
Marktkauf (MK) und 140 im Elisenpark (EP). Im MC und MK 100, im MC
und MK 80 sowie im EP und MK 50.Wieviel Prozent der Kunden kaufen in
allen drei Einrichtungen ein?
Lösung:
A, B und C endliche Mengen
|A ∪ B ∪ C | = |A| + |B | + |C | − |A ∩ B | − |A ∩ C | −
− |B ∩ C | +
+ |A ∩ B ∩ C |
Folglich 200 = 130 + 120 + 140 − 100 − 80 − 50 + x mit x = |A ∩ B ∩ C |
folgt 40, d.h. 20%.
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
46 / 61
Häugkeiten
Aufgabe
Die Umschlaggestaltung von Büchern wurde wie folgt bewertet:
Bewertung Anzahl
1=sehr gut
6
37
2=gut
3=befriedigend
114
4=ausreichend
146
109
5=genügend
6=ungenügend
36
a) Wie groÿ sind die relativen Häugkeiten?
b) Wie groÿ ist der Bewertungsmedian?
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
47 / 61
Lösung
a) Wie groÿ sind die relativen Häugkeiten?
n = 6 + 37 + 114 + 146 + 109 + 36 = 448
h1 = 6/448 = 1. 3393 × 10−2 , h2 = 37/448 = 8. 2589 × 10−2 ,
h3 = 114/448 = 0.25446, h4 = 146/448 = 0.32589,
h5 = 109/448 = 0.2433 und h6 = 36/448 = 8. 0357 × 10−2
b)
448 · 0.5 = 224, also wegen exα =
x
i +1
xi +xi +1
2
m=
i < nα < i + 1
i = nα
x224 + x225
2
Wegen 6 + 37 + 114 < 224 und 6 + 37 + 114 + 146 > 224 sind x224 und x225
gleich 4 also m = 4
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
48 / 61
Mittelwert und empirische Streuung
Aufgabe
Die Umschlaggestaltung von Büchern wurde wie folgt bewertet:
Bewertung Anzahl
1=sehr gut
6
2=gut
37
114
3=befriedigend
4=ausreichend
146
5=genügend
109
6=ungenügend
36
Berechnen Sie den Mittelwert und die empirische Streuung der Bewertung
nach der Momentenformel!
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
49 / 61
Lösung
das erste Moment
x=
6 + 2 · 37 + 3 · 114 + 4 · 146 + 5 · 109 + 6 · 36
= 3. 9442
448
das zweite Moment
6 + 22 · 37 + 32 · 114 + 42 · 146 + 52 · 109 + 62 · 36
448
= 16. 824
x2 =
die empirische Streung
q
sx = x 2 − (x )2 = 16. 824 − 3. 94422 = 1. 1257
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
p
Vorlesung 6
28.11.2016
50 / 61
Konzentrationsbewertung
Aufgabe
Die Umschlaggestaltung von Büchern wurde wie folgt bewertet:
Bewertung Anzahl
1=sehr gut
6
2=gut
37
114
3=befriedigend
4=ausreichend
146
109
5=genügend
6=ungenügend
36
Berechnen Sie die Eckpunkte der Lorenzkurve der Bewertungsverteilung!
Wie groÿ ist der Gini-Koezient?
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
51 / 61
Lösung für die Eckpunkte der Lorenz-Kurve
Daten sortieren: 6, 36, 37, 109, 114, 146
n=6
uk = k /6 für k = 0, 1, . . . , 6
v0 = 0 und v6 = 1
6
3
6 + 36 3
=
, v2 =
= ,
448 224
448
32
6 + 36 + 37 79
v3 =
=
448
448
6 + 36 + 37 + 109 47
v4 =
=
,
448
112
6 + 36 + 37 + 109 + 114 151
v5 =
=
448
224
v1 =
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
52 / 61
Berechnung des GINI-Koezienten
3 , v = 3 , v = 79 , v = 47 , v = 151 und v = 1
v0 = 0, v1 = 224
2
6
32 3
448 4
112 5
224
Berechnung des einfachen GINI-Koezienten
g = 1−
1
(v + 2v + . . . + 2vn−1 + vn )
n 0 1
1
3
3
79
47 151
= 1−
2·
+ +
+
+
+1
6
224 32 448 112 224
= 0.37426
Berechnung des normierten GINI-Koezienten
G=
=
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
n
·g
n−1
6
· 0.37426 = 0.44911
5
Vorlesung 6
28.11.2016
53 / 61
Kovarianz, Korrelation und Regression
Aufgabe
Gegeben sind die folgenden Daten:
Berufsjahre
2
5
7
10
12
Einkommen 1200 1350 1500 1700 2000
a) Berechnen Sie Kovarianz und den Korrelationskoezienten!
b) Wie lautet die Regressionsgleichung!
c) Wie ist die Anpassungsgüte?
d) Geben Sie einen Schätzwert für 13-jährige Berufserfahrung
an!
e) Geben Sie den R-Code für a) bis d) an!
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
54 / 61
Berechnung der Hilfsgröÿen (Momente)
Mittelwerte oder 1. Momente
2 + 5 + 7 + 10 + 12
= 7. 2
5
1200 + 1350 + 1500 + 1700 + 2000
y=
= 1550.0
5
x=
2. Momente
22 + 52 + 72 + 102 + 122
= 64. 4
5
12002 + 13502 + 15002 + 17002 + 20002
= 2480500
y2 =
5
2 · 1200 + 5 · 1350 + 7 · 1500 + 10 · 1700 + 12 · 2000
xy =
5
= 12130.0
x2 =
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
55 / 61
Die Gleichung der Regressionsgeraden
Der Ansatz mit den Hilfsgröÿen
yb − y =
xy − x · y
· (x − x )
x 2 − (x )2
Einsetzen
yb − 1550.0 =
Vereinfachen
Schätzwert
12130.0 − 7. 2 · 1550.0
· (x − 7. 2)
64. 4 − (7. 2)2
yb = 77. 229x + 993. 95
yb = 77. 229 · 13 + 993. 95 = 1997. 9
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
56 / 61
Kovarianz und Korrelationskoezient
Kovarianz
cov (x, y) = xy − x · y
= 12130.0 − 7. 2 · 1550.0 = 970.0
Korrelationskoezient
xy − x · y
r = r
x 2 − (x )2 y 2 − (y )2
= r
12130.0 − 7. 2 · 1550.0
64. 4 − (7. 2)2
2480500 − (1550.0)2
= 0.98001
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
57 / 61
Anpassungsgüte
nur bei linearer Regression R 2 = r 2
sonst
SQ
R 2 = 1 − Residual
SQtotal
Berechnung von r 2
(xy − x · y )2
r2 = x 2 − (x )2 y 2 − (y )2
Einsetzen
(12130.0 − 7. 2 · 1550.0)2
= 0.96042
64. 4 − (7. 2)2 2480500 − (1550.0)2
r2 = Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
58 / 61
Testklausur WS 2015
Es seien A, B und C folgende Ereignisse:
a) A - die ersten drei Ziern einer PIN sind ein Palindrom
b) B - die letzten drei Ziern einer PIN sind ein Palindrom
c) C - die PIN ist ein Palindrom.
Bestimmen Sie die Wahrscheinlichkeit p (A ∪ B ∪ C )!
Hinweis: Verwenden Sie die Siebformel!
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
59 / 61
Lösung
Es gilt:
p(A ∪ B ∪ C ) = p(A) + p(B ) + p(C ) − p(A ∩ B )−
−p (A ∩ C ) − p (B ∩ C ) + p (A ∩ B ∩ C )
Das Muster für A ist abac, für B ist abcb und für C abba, d.h.
p(A) = p(B ) =
und
1000
1
=
10000 10
100
1
=
.
10000 100
Die Muster für A ∩ B sind abab, also p (A ∩ B ) = 1/100, für A ∩ C aaaa,
also p (A ∩ C ) = 1/1000 ebenso aaaa für B ∩ C folglich p (B ∩ C ) = 1/1000.
Schlieÿlich aaaa auch für A ∩ B ∩ C , also p (A ∩ B ∩ C ) = 1/1000. Nach der
Siebformel
1
1
2
1
199
2
−
−
+
=
.
p (A ∪ B ∪ C ) = +
10 100 100 1000 1000 1000
p(C ) =
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
60 / 61
Klausuraufgabe WS 2015
Es seien A, B und C Ereignisse. Bestimmen Sie die Wahrscheinlichkeit
p (A ∩ B ∩ C ), wenn p (A) = p (B ) = p (C ) = 1 ist! (6 Punkte)
Hinweis: Verwenden Sie die Siebformel!
Lösung: Es gilt:
p(A ∪ B ∪ C ) = p(A) + p(B ) + p(C ) − p(A ∩ B )−
−p (A ∩ C ) − p (B ∩ C ) + p (A ∩ B ∩ C )
Da p (A ∪ B ∪ C ) ≥ p (A ∪ B ) ≥ p (A) = 1 und
p(A ∩ B ) = p(B ) + p(A) − p(A ∪ B ) = 1
(sowie analog für die anderen Ereignispaare), folgt
p(A ∩ B ∩ C ) = 1.
Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.)
Vorlesung 6
28.11.2016
61 / 61
Herunterladen