Statistik I für Betriebswirte Privat-Doz. Dr. H. Haase Inst. f. Math. u. Inf. Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) 28.11.2016 Vorlesung 6 28.11.2016 1 / 61 Übersicht 1 Wahrscheinlichkeitsräume 2 Bedingte Wahrscheinlichkeiten 3 Rechenregeln für bedingte Wahrscheinlichkeiten Die Formel von der totalen Wahrscheinlichkeit Eine Anwendung: Die 1. Mittelwertsregel Der Satz von Bayes 4 Korrelation und Regression mit R 5 Wiederholung 6 Klausurbeispielaufgaben Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 2 / 61 Der Wahrscheinlichkeitsbegri I ökonomische Theorien, z.B. in der Mikroökonomie Unsicherheit Lotterie. Modelle mit zufälligem Ausgang oder stochastische Modelle unterliegender Wahrscheinlichkeitsraum bereits bekannt: Laplace-Denition p(A) = |A| |Ω| Beispiel: 2 unterscheidbare Würfel, mindesten eine 6 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) p= 6 + 6 − 1 11 = 36 36 Vorlesung 6 28.11.2016 3 / 61 Der Wahrscheinlichkeitsbegri II Denition nach dem russischen Mathematiker Kolmogoro(1933) Gegeben seien: Ω eine nichtleere Menge von Elementarereignissen Σ eine sogenannte σ -Algebra von Ereignissen P ein Wahrscheinlichkeitsmaÿ. Eigenschaften von Σ: Ω ∈ Σ (das sichere Ereignis) A ∈ Σ, dann auch Ac ∈ Σ (gegenteilige Ereignis) A, B ∈ Σ, dann auch A ∪ B ∈ Σ Für P gilt: P (Ω) = 1 (Normierungsbedingung) Additivitätsaxiom: A, B ∈ Σ, A ∩ B = ∅ (gegenseitiger Ausschluss): Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) P (A ∪ B ) = P (A) + P (B ). Vorlesung 6 28.11.2016 4 / 61 Konstruktion von diskreten Wahrscheinlichkeitsräumen Ω = {ω1 , . . . , ωn } Σ = ℘(Ω) pi > 0 mit ∑ni=1 pi = 1: p ({ωi }) = pi analog Ω = {ω1 , . . . , ωn , . . .} mit b) eine unendliche Folge Beispiel: Münzwurf bis zum ersten Mal Zahl fällt Ω = z , wz , wwz , . . . , ww · · · wz , . . . | {z } Dann wäre n−1 mal Wappen p (ww · · · wz ) = Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) 1 1 1 (Beachte: + + . . . = 1) 2n 2 4 Vorlesung 6 28.11.2016 5 / 61 Geometrische Wahrscheinlichkeiten Erklärung am Beispiel: Zwei Freunde vereinbaren sich zwischen 12 und 13 Uhr zu treen. Jeder wartet eine 1/4-Stunde. Wie groÿ ist die Wahrscheinlichkeit, daÿ das Treen zustande kommt? x und y Ankunftszeiten Ω = {(x , y ) | 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 } A = {(x , y ) |(x , y ) ∈ Ω, |y − x | ≤ 1/4} geometrische Wahrscheinlichkeitsdenition: p (A) = F (A) = F (A) F (Ω) Was für eine Figur ist nun A? Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 6 / 61 Die Berechnung der Fläche A y ≤ x + 1/4 und y ≥ x − 1/4 Ω sind alle Punkte des Quadrates, Fläche von A: A 2 Trapeze 1 3 3 7 · · = 2 4 4 16 Vorlesung 6 F (A) = 1 − 2 · Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) 28.11.2016 7 / 61 Abgeleitete Regeln ∅ ∈ Σ (unmögliches Ereignis) erfüllt p (∅) = 0 (weil Ωc = ∅ und ∅ ∪ Ω = Ω, ∅ ∩ Ω = ∅) P (Ac ) = 1 − P (A) (Komplementformel) A ⊆ B für zwei Ereignisse (A impliziert B ), so ist P (A) ≤ P (B ) (weil P (B ) = P (A) + P (B ∩ Ac ) wegen A ∩ (B ∩ Ac ) = ∅) Erweiterung des Additivitätsaxiom zur Additivitätsregel: Schliessen sich A1 , . . . , An paarweise aus, so gilt p(A1 ∪ . . . ∪ An ) = p(A1 ) + . . . + p(An ) Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 8 / 61 Ein einführendes Beispiel Merkmale Raucher und Geschlecht Aufstellung einer 2 x 2 Kreuztabelle: Raucher Nichtraucher weiblich a b männlich c d a+c b+d a+b c +d a+b+c +d Wahrscheinlichkeit für einen weiblichen Raucher unter Benutzung der klassischen Wahrscheinlichkeitsdenition Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) P (W |R ) = Vorlesung 6 a . a+c 28.11.2016 9 / 61 Ableitung des Begries bedingte Wahrscheinlichkeit R Ereignis Raucher zu sein, W Ereignis weiblich zu sein a+c a P (R ) = und P (R ∩ W ) = a+b+c +d a+b+c +d Bildung des Quotienten P (R ∩ W ) a = , P (R ) a+c Also P (W |R ) Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) = Denition a a+c Vorlesung 6 = P (R ∩ W ) . P (R ) 28.11.2016 10 / 61 Einige Denitionen Zunächst: Sind E und F zwei Ereignisse mit P (F ) > 0, so nennt man P (E |F ) = P (E ∩ F ) P (F ) die bedingte Wahrscheinlichkeit des Ereignisses E unter der Bedingung des Eintretens des Ereignisses F . Gilt P (E |F ) = P (E ), so nennt man E von F unabhängig. Zwei Ereignisse E und F heiÿen unabhängig, wenn P (E ∩ F ) = P (E ) · P (F ) gilt. Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 11 / 61 Beispiel Familien mit 2 Kindern: Ereignis E : das erste Kind ist ein Junge Ereignis F : das zweite Kind ist ein Mädchen Ereignis G : beide Kinder sind vom gleichen Geschlecht Annahme: alle 4 möglichen Familientypen mit der Wahrscheinlichkeit 1 4 : P (E ∩ F ) = 14 P (E ) = P (F ) = 12 E und F unabhängig, denn P (E ∩ F ) = P (E ) · P (F ) P (E ∩ F |G ) = 0 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 12 / 61 Erweiterungen Beispiel ist Anlaÿ für: Man nennt die Ereignisse E1 , E2 , . . . , En vollständig unabhängig, wenn für jedes natürliche k mit 1 ≤ k ≤ n und jede endliche Auswahl von Indizes 1 ≤ i1 < i2 < . . . < ik ≤ n P Ei1 ∩ Ei2 ∩ . . . ∩ Ei k = P (Ei1 ) · P (Ei2 ) · . . . · P Ei k gilt. Letztes Beispiel: E , F und G nicht vollständig unabhängig Warum? P (E ∩ F ∩ G ) = 0, aber P (E ) · P (F ) · P (G ) = 18 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 13 / 61 Bildung neuer unabhängiger Ereignisse E und F unabhängige Ereignisse E c und F c bzw. E c und F unabhängig Nachweis für E c und F c : P (E c ∩ F c ) = P ((E ∪ F )c ) P ((E ∪ F )c ) = 1 − P (E ∪ F ) 1 − P (E ∪ F ) = 1 − P (E ) − P (F ) + P (E ∩ F ) 1 − P (E ) − P (F ) + P (E ∩ F ) = 1 − P (E ) − P (F ) + P (E )P (F ) 1 − P (E ) − P (F ) + P (E )P (F ) = (1 − P (E )) (1 − P (F )) (1 − P (E )) (1 − P (F )) = P (E c ) P (F c ) Zusammenfassung: P (E c ∩ F c ) = P (E c ) P (F c ) Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 14 / 61 Die Pfadregel erste Pfadregel oder der Multiplikationssatz: von einem Startknoten aus die Knoten E1 , E2 , . . . , En in dieser Reihenfolge durchlaufen Wahrscheinlichkeit dafür gleich dem Produkt der angetragenen Übergangswahrscheinlichkeiten Als Formel: E1 , E2 , . . . , En beliebige Ereignisse P (E1 ) > 0, P (E1 ∩ E2 ) > 0, . . . , P (E1 ∩ E2 ∩ . . . ∩ En−1 ) > 0 Dann gilt: P (E1 ∩ . . . ∩ En ) = P (E1 ) P (E2 |E1 ) P (E3 |E1 ∩ E2 ) · . . . · P (En |E1 ∩ E2 ∩ . . . ∩ En−1 ) Markow-Eigenschaft: P (En |E1 ∩ E2 ∩ . . . ∩ En−1 ) = P (En |En−1 ) Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 15 / 61 Beispiel Annahme: Unter 6 Passanten benden sich 3 potentielle Käufer eines bestimmten Produktes Ein Straÿenverkäufer sprach genau diese drei gezielt an. Zufall oder Menschenkenntnis? Vereinbarung: E1 , E2 und E3 die Ereignisse den ersten, zweiten und dritten Käufer zu erkennen gesucht: P (E1 ∩ E2 ∩ E3 ) P (E1 ) = 12 , P (E2 |E1 ) = 25 und P (E3 |E1 ∩ E2 ) = 14 P (E1 ∩ E2 ∩ E3 ) = 12 · 25 · 14 = 201 Sehr unwahrscheinlich, also spricht das für Menschenkenntnisse Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 16 / 61 Die Formel von der totalen Wahrscheinlichkeit I Einführendes Beispiel: Tabelle der Einkommensverteilung der Haushalte in ¿: 1 2 3 4 5 bis 2500 2501-3500 3501-4500 4501-7000 7001 20% 20% 30% 25% 5% Anschaung eines Autos ab 30000,-¿ in den fünf Einkommensgruppen 1%, 5%, 20%, 40% und 90% der Haushalte Frage: Wieviel Prozent x aller Haushalte der Region sind als potentielle Kunden einzuschätzen? Zunächst Überlegungen ohne Wahrscheinlichkeitsrechnung: Von 1000 Haushalten gehören 200, 200, 300, 250 bzw. 50 den angegebenen Einkommensgruppen an. 2, 10, 60, 100 bzw. 45 als Käufer gewinnen insgesamt also 217 und somit 21, 7% Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 17 / 61 Die Formel von der totalen Wahrscheinlichkeit II Umformulierung mit Wahrscheinlichkeiten Ei Ereignis Einkommenklasse i für i = 1, 2, . . . , 5 E das Ereignis potentieller Käufer zu sein Dann gelten: P (E1 ) = 0, 2, P (E2 ) = 0, 2, P (E3 ) = 0, 3, P (E4 ) = 0, 25, P (E5 ) = 0, 05. Verbrauchergewohnheiten als bedingte Wahrscheinlichkeiten P (E |E1 ) = 0, 01 u.s.w. Also wäre 5 P (E ) = ∑ P (Ei ) · P (E |Ei ) = 0.217 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) i =1 Vorlesung 6 28.11.2016 18 / 61 Die Formel von der totalen Wahrscheinlichkeit III Der allgemeine Fall: E1 , . . . , En für n ∈ N , n ≥ 2 sich paarweise ausschlieÿende Ereignisse mit positiver Wahrscheinlichkeit tritt mindestens eins von ihnen mit Wahrscheinlichkeit 1 (P (E1 ∪ . . . ∪ En ) = 1) ein beides zusammen: vollständiges Ereignissystem So gilt immer: P (E ) = ∑ni=1 P (Ei ) · P (E |Ei ) Warum? E= k =1 E ∩ Ei (da sich E ∩ Ei sich paarweise ausschlieÿen) impliziert P (E ) = ∑ni=1 P (E ∩ Ei ) (Additivität von P ) P (E ∩ Ei ) = P (Ei ) · P (E |Ei ) nach der Pfadregel, also: Sn P (E ) = ∑ni=1 P (Ei ) · P (E |Ei ) Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 19 / 61 Die 1. Mittelwertsregel I Das kühne Spiel 1,- ¿ Startkapital mit dem Ziel 5,-¿ zu machen Strategie: Einsatz solange verdoppeln wie nötig ansonsten Dierenz zum Zielbetrag setzen Erfolgswahrscheinlichkeit p = 12 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 20 / 61 Die 1. Mittelwertsregel II Stochastische Graphen stochastischer Graph Zustände: 1, . . . , n, n ≥ 2 (Beispiel: 6 Zustände) zufällige Übergänge von Zustand i zu j mit Wahrscheinlichkeit pij Einteilung in innere und Randzustände: innerer Zustand i : pii < 1, R = {i | pii = 1} die Randmenge Randzustand i : pii = 1, I = {i | pii < 1} die Menge der inneren Zustände Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 21 / 61 Die 1. Mittelwertsregel III Berechnung der Absorptionswahrscheinlichkeit Vorgabe einer Zielmenge Z ⊂ R (Beispiel: Zustand 5,-¿) 1. Mittelwertsregel stochastische Graphen: pi Wahrscheinlichkeit bei Start in i in nach Z zu gelangen? Für i ∈ Z gilt pi = 1 und für i ∈ R \ Z hat man pi = 0 i ∈ I (innerer Zustand): n pi = ∑ pij · pj . j =1 Begründung: Übergänge von i zu Nachbarn (und zu sich selbst!) vollständiges Ereignissystem, also totale W. anwenden! Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 22 / 61 Die 1. Mittelwertsregel IV Die Auswertung des kühnen Spiel: p5 = 1 und p0 = 0 p1 = 12 p2 + 12 p0 p2 = 12 p0 + 12 p4 p4 = 12 p5 + 12 p3 p3 = 12 p5 + 12 p1 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 23 / 61 Die 1. Mittelwertsregel V Lösen des Gleichungssystems Setze p1 = x und p3 = y übrige pi durch x und y ausdrücken p4 = 21 p5 + 12 p3 = 12 + 12 y p2 = 21 p0 + 12 p4 = 12 12 y + 12 = 14 y + 14 p1 = x = 12 p2 + 12 p0 = 12 41 y + 14 p3 = y = 12 p5 + 12 p1 = 12 + 12 x Schlieÿlich noch einsetzen: x = 12 14 y + 41 = 21 14 12 + 12 x + 41 = 161 x + 163 15 3 1 16 x = 16 folgt x = 5 . Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 24 / 61 Der Satz von Bayes I Motivation Warensortiment: jede Sorte ist mit einem bestimmten Prozentsatz vertreten Der Händler nimmt an, daÿ die Marktanteile ebenso sind! Am Ende des Handels ist von jeder Sorte ein bestimmter Prozentsatz verkauft. Welche Neubewertung der Marktanteile müÿte er dann vornehmen? Interpretation als Wahrscheinlichkeiten: Sortiment: vollständiges Ereignissystem E1 , . . . , En P (Ei ) für i = 1, 2, . . . , n Anteil am Sortiment E Ereignis eine Ware aus dem Sortiment wird gekauft verkaufte Anteile: P (E |Ei ) für i = 1, 2, . . . , n Neubewertung des Anteils für Ware i wäre P (Ei |E ) Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 25 / 61 Der Satz von Bayes II Der Inhalt dieses Satzes vollständiges Ereignissystem E1 , . . . , En , d.h. E1 , . . . , En paarweise fremd P (E1 ) + . . . + P (En ) = 1 E irgendein Ereignis mit P (E ) > 0 Dann erhalten wir für die bedingte Wahrscheinlichkeit P (Ei |E ): P (Ei |E ) = Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) P (Ei ) · P (E |Ei ) P (Ej ) · P (E |Ej ) ∑nj=1 Vorlesung 6 28.11.2016 26 / 61 Beispiel zum Satz von Bayes I Die Frage nach der wahrscheinlichsten Ursache Stadtbevölkerung: 90% aus Deutschen, zu 5% aus Italienern und zu 5% aus sonstigen Ausländern Vorliebe für Spaghetti: 30% aller Deutschen 90% aller Italiener sonstige 50% D , I , A und S als Bezeichnungen für die zu betrachtenden Ereignisse In einem guten Restaurant bestellt jemand ein Spaghettigericht. Wie sind die Ursachenwahrscheinlichkeiten? (P (D |S ), P (I |S ) und P (A|S )) Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 27 / 61 Beispiel zum Satz von Bayes II Die Rechnung dazu Berechnung der totalen Wahrscheinlichkeit: P (S ) = 0.9 · 0.3 + 0.05 · 0.9 + 0.05 · 0.5 = 0.34 Dann ergeben sich: 0.9 · 0.3 = 0.79412 0.34 0.05 · 0.9 P (I |S ) = = 0.13235 0.34 P (D |S ) = und 0.05 · 0.5 = 0.073529. 0.34 Das Ergebnis spricht für einen deutschen Gast! P (A|S ) = Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 28 / 61 Das Prinzip des Bayesschen Lernens Ziel: Die Wahrscheinlichkeiten des vollständigen Ereignissystems A1 , . . . , An mit mit Hilfe von Beobachtungsereignissen B1 , B2 , . . . , Bm , . . . "lernen" Meistens nimmt man als Ausgangswerte p (Ai ) = n1 (für alle gleiche Wahrschlichkeit) an. Algorithmus: Berechne einen ersten Satz neuer Werte p (Ai |B1 ) für i = 1, . . . , n Stoppe, wenn sich die apriori-Wahrscheinlichkeiten p (Ai |Bm ) von aposteriori-Wahrscheinlichkeiten p (Ai |Bm+1 ), um weniger als ein vorgebenes ε > 0 unterscheiden, d.h .für alle i = 1, . . . , n |p (Ai |Bm ) − p (Ai |Bm+1 )| < ε und ansonsten mit dem nächsten Bm+2 fortfahren. Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 29 / 61 Eine Anwendung des des Bayesschen Lernens I Wechselpunktanalyse bei Kursreihen Kurs der TUI-Aktie 20 30 DM 40 50 Schlusskurs der TUI−Aktie 0 100 200 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) 300 400 500 600 Handelstag Vorlesung 6 28.11.2016 30 / 61 Eine Anwendung des des Bayesschen Lernens II eine spezielle Bibliothek (dabei werden viele weitere geladen!!!): require(bcp) ## ## ## ## ## ## Loading Loading Loading Loading Loading Loading required required required required required required package: package: package: package: package: package: bcp methods foreach iterators grid Rcpp Berechnung der Wechselpunkte: Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 31 / 61 Eine Anwendung des des Bayesschen Lernens III bcp.tui <- bcp(as.vector(close)) names(bcp.tui)[8] ## [1] "posterior.prob" und wir zeichnen die Änderungwahrscheinlichkeiten: plot(ts(bcp.tui$posterior.prob), ylab = "", xlab = "Handelstag") title(main = "Wechselpunkte TUI-Schlusskursänderung") title(ylab = "Wahrscheinlichkeit") abline(h = 0.95, col = "red") Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 32 / 61 Eine Anwendung des des Bayesschen Lernens IV 0.6 0.4 0.2 0.0 Wahrscheinlichkeit 0.8 1.0 Wechselpunkte TUI−Schlusskursänderung 0 100 200 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) 300 400 500 600 Handelstag Vorlesung 6 28.11.2016 33 / 61 Korrelation und Regression mit R I Lineare Regression Untersuchung der Steuertabelle 2009 Bibliothek laden library(xlsReadWrite) ## ## ## ## ## ## ## ## ## xlsReadWrite version 1.5.4 (826aa0) Copyright (C) 2010 Hans-Peter Suter, Treetron, Switzerland. This package can be freely distributed and used for any purpose. It comes with ABSOLUTELY NO GUARANTEE at all. xlsReadWrite has been written in Pascal and contains binary code from a proprietary library. Our own code is free (GPL-2). Updates, issue tracker and more info at http://www.swissr.org. Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 34 / 61 Korrelation und Regression mit R II anschlieÿend Daten holen: Daten <- read.xls("Steuertabelle2009.xls", sheet = "Daten") attach(Daten) eine kleine Ansicht: head(Daten) ## ## ## ## ## ## ## 1 2 3 4 5 6 Einkommen Steuer 5000 0 10000 0 15000 0 20000 796 25000 1864 30000 3084 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 35 / 61 Korrelation und Regression mit R III Übersicht über die Variablen: names(Daten) ## [1] "Einkommen" "Steuer" Berechnung des linearen Regressionsmodells für Steuer mit dem Regressor Einkommen: Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 36 / 61 Korrelation und Regression mit R IV stm <- lm(Steuer ~ Einkommen) stm ## ## ## ## ## ## ## Call: lm(formula = Steuer ~ Einkommen) Coefficients: (Intercept) Einkommen -7089.825 0.344 Anpassungsgüte des Modells? Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 37 / 61 Korrelation und Regression mit R V names(summary(stm)) ## ## ## [1] "call" "terms" [5] "aliased" "sigma" [9] "adj.r.squared" "fstatistic" "residuals" "df" "cov.unscaled" "coefficient "r.squared" Extrahieren des Wertes mit dem $-Operator: summary(stm)$r.squared ## [1] 0.9842 grasche Darstellung abline-Befehl zum Einzeichnen der Regressionsgeraden Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 38 / 61 Korrelation und Regression mit R VI 0 10000 Steuer 20000 30000 40000 plot(Einkommen, Steuer, type = "l", col = "red") abline(coef(stm), col = "blue") 0 50000 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) 100000 150000 Einkommen Vorlesung 6 28.11.2016 39 / 61 Korrelation und Regression mit R VII Beschriftung verbessern? Extrahieren der Koezienten mit dem Befehl coef text-Befehl sprintf -Befehl plot(Einkommen, Steuer, type = "l", col = "red") abline(coef(stm), col = "blue") w <- coef(stm) text(50000, 20000, sprintf("y=%.3f*x%.3f", w[2], w[1])) Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 40 / 61 y=0.344*x−7089.825 0 10000 Steuer 20000 30000 40000 Korrelation und Regression mit R VIII 0 50000 100000 150000 Einkommen Wie komm ich an die Modelldaten ran? (8 Werte anzeigen!) Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 41 / 61 Korrelation und Regression mit R IX stm$fitted.values[1:8] ## 1 2 3 ## -5371.3 -3652.7 -1934.1 4 -215.6 5 1503.0 6 3221.6 7 4940.1 8 6658.7 Berechnung der Korrelationen pearson <- cor(Steuer, Einkommen, method = "pearson") pearson ## [1] 0.9921 spearman <- cor(Steuer, Einkommen, method = "spearman") spearman ## [1] 0.9996 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 42 / 61 Korrelation und Regression mit R X Einfügung als Untertitel: plot(Einkommen, Steuer, col = "red") str <- sprintf("Spearman=%.3f, Pearson=%.3f ", spearman, pearson) title(sub = str) abline(coef(stm), col = "blue") Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 43 / 61 Korrelation und Regression mit R XI ● ● 40000 ● ● ● ● ● 20000 ● ● ● ● ● ● 10000 ● ● ● ● ● ● ● ● 0 Steuer 30000 ● ● ● ● 0 ● ● ● ● ● 50000 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) 100000 150000 Einkommen Spearman=1.000, Pearson=0.992 Vorlesung 6 28.11.2016 44 / 61 Wie berechne ich n über k? Denition n k = n! n · (n − 1) · . . . · (n − k + 1) = k ! · (n − k )! 1·2·...·k Beispiele: 1 2 3 4 0 = 1, n n n n k 7 = =1 n n−k 7 7·6·5 3 = 1·2·3 = 35, 4 =? 12 12 12·11 10 = 2 = 1·2 = 66 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 45 / 61 Siebformel Aufgabe 200 Haushalte eines Greifswalder Stadtteil gaben über ihre Einkaufsgewohnheiten folgendes an: 130 im Mövencenter (MC), 120 im Marktkauf (MK) und 140 im Elisenpark (EP). Im MC und MK 100, im MC und MK 80 sowie im EP und MK 50.Wieviel Prozent der Kunden kaufen in allen drei Einrichtungen ein? Lösung: A, B und C endliche Mengen |A ∪ B ∪ C | = |A| + |B | + |C | − |A ∩ B | − |A ∩ C | − − |B ∩ C | + + |A ∩ B ∩ C | Folglich 200 = 130 + 120 + 140 − 100 − 80 − 50 + x mit x = |A ∩ B ∩ C | folgt 40, d.h. 20%. Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 46 / 61 Häugkeiten Aufgabe Die Umschlaggestaltung von Büchern wurde wie folgt bewertet: Bewertung Anzahl 1=sehr gut 6 37 2=gut 3=befriedigend 114 4=ausreichend 146 109 5=genügend 6=ungenügend 36 a) Wie groÿ sind die relativen Häugkeiten? b) Wie groÿ ist der Bewertungsmedian? Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 47 / 61 Lösung a) Wie groÿ sind die relativen Häugkeiten? n = 6 + 37 + 114 + 146 + 109 + 36 = 448 h1 = 6/448 = 1. 3393 × 10−2 , h2 = 37/448 = 8. 2589 × 10−2 , h3 = 114/448 = 0.25446, h4 = 146/448 = 0.32589, h5 = 109/448 = 0.2433 und h6 = 36/448 = 8. 0357 × 10−2 b) 448 · 0.5 = 224, also wegen exα = x i +1 xi +xi +1 2 m= i < nα < i + 1 i = nα x224 + x225 2 Wegen 6 + 37 + 114 < 224 und 6 + 37 + 114 + 146 > 224 sind x224 und x225 gleich 4 also m = 4 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 48 / 61 Mittelwert und empirische Streuung Aufgabe Die Umschlaggestaltung von Büchern wurde wie folgt bewertet: Bewertung Anzahl 1=sehr gut 6 2=gut 37 114 3=befriedigend 4=ausreichend 146 5=genügend 109 6=ungenügend 36 Berechnen Sie den Mittelwert und die empirische Streuung der Bewertung nach der Momentenformel! Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 49 / 61 Lösung das erste Moment x= 6 + 2 · 37 + 3 · 114 + 4 · 146 + 5 · 109 + 6 · 36 = 3. 9442 448 das zweite Moment 6 + 22 · 37 + 32 · 114 + 42 · 146 + 52 · 109 + 62 · 36 448 = 16. 824 x2 = die empirische Streung q sx = x 2 − (x )2 = 16. 824 − 3. 94422 = 1. 1257 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) p Vorlesung 6 28.11.2016 50 / 61 Konzentrationsbewertung Aufgabe Die Umschlaggestaltung von Büchern wurde wie folgt bewertet: Bewertung Anzahl 1=sehr gut 6 2=gut 37 114 3=befriedigend 4=ausreichend 146 109 5=genügend 6=ungenügend 36 Berechnen Sie die Eckpunkte der Lorenzkurve der Bewertungsverteilung! Wie groÿ ist der Gini-Koezient? Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 51 / 61 Lösung für die Eckpunkte der Lorenz-Kurve Daten sortieren: 6, 36, 37, 109, 114, 146 n=6 uk = k /6 für k = 0, 1, . . . , 6 v0 = 0 und v6 = 1 6 3 6 + 36 3 = , v2 = = , 448 224 448 32 6 + 36 + 37 79 v3 = = 448 448 6 + 36 + 37 + 109 47 v4 = = , 448 112 6 + 36 + 37 + 109 + 114 151 v5 = = 448 224 v1 = Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 52 / 61 Berechnung des GINI-Koezienten 3 , v = 3 , v = 79 , v = 47 , v = 151 und v = 1 v0 = 0, v1 = 224 2 6 32 3 448 4 112 5 224 Berechnung des einfachen GINI-Koezienten g = 1− 1 (v + 2v + . . . + 2vn−1 + vn ) n 0 1 1 3 3 79 47 151 = 1− 2· + + + + +1 6 224 32 448 112 224 = 0.37426 Berechnung des normierten GINI-Koezienten G= = Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) n ·g n−1 6 · 0.37426 = 0.44911 5 Vorlesung 6 28.11.2016 53 / 61 Kovarianz, Korrelation und Regression Aufgabe Gegeben sind die folgenden Daten: Berufsjahre 2 5 7 10 12 Einkommen 1200 1350 1500 1700 2000 a) Berechnen Sie Kovarianz und den Korrelationskoezienten! b) Wie lautet die Regressionsgleichung! c) Wie ist die Anpassungsgüte? d) Geben Sie einen Schätzwert für 13-jährige Berufserfahrung an! e) Geben Sie den R-Code für a) bis d) an! Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 54 / 61 Berechnung der Hilfsgröÿen (Momente) Mittelwerte oder 1. Momente 2 + 5 + 7 + 10 + 12 = 7. 2 5 1200 + 1350 + 1500 + 1700 + 2000 y= = 1550.0 5 x= 2. Momente 22 + 52 + 72 + 102 + 122 = 64. 4 5 12002 + 13502 + 15002 + 17002 + 20002 = 2480500 y2 = 5 2 · 1200 + 5 · 1350 + 7 · 1500 + 10 · 1700 + 12 · 2000 xy = 5 = 12130.0 x2 = Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 55 / 61 Die Gleichung der Regressionsgeraden Der Ansatz mit den Hilfsgröÿen yb − y = xy − x · y · (x − x ) x 2 − (x )2 Einsetzen yb − 1550.0 = Vereinfachen Schätzwert 12130.0 − 7. 2 · 1550.0 · (x − 7. 2) 64. 4 − (7. 2)2 yb = 77. 229x + 993. 95 yb = 77. 229 · 13 + 993. 95 = 1997. 9 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 56 / 61 Kovarianz und Korrelationskoezient Kovarianz cov (x, y) = xy − x · y = 12130.0 − 7. 2 · 1550.0 = 970.0 Korrelationskoezient xy − x · y r = r x 2 − (x )2 y 2 − (y )2 = r 12130.0 − 7. 2 · 1550.0 64. 4 − (7. 2)2 2480500 − (1550.0)2 = 0.98001 Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 57 / 61 Anpassungsgüte nur bei linearer Regression R 2 = r 2 sonst SQ R 2 = 1 − Residual SQtotal Berechnung von r 2 (xy − x · y )2 r2 = x 2 − (x )2 y 2 − (y )2 Einsetzen (12130.0 − 7. 2 · 1550.0)2 = 0.96042 64. 4 − (7. 2)2 2480500 − (1550.0)2 r2 = Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 58 / 61 Testklausur WS 2015 Es seien A, B und C folgende Ereignisse: a) A - die ersten drei Ziern einer PIN sind ein Palindrom b) B - die letzten drei Ziern einer PIN sind ein Palindrom c) C - die PIN ist ein Palindrom. Bestimmen Sie die Wahrscheinlichkeit p (A ∪ B ∪ C )! Hinweis: Verwenden Sie die Siebformel! Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 59 / 61 Lösung Es gilt: p(A ∪ B ∪ C ) = p(A) + p(B ) + p(C ) − p(A ∩ B )− −p (A ∩ C ) − p (B ∩ C ) + p (A ∩ B ∩ C ) Das Muster für A ist abac, für B ist abcb und für C abba, d.h. p(A) = p(B ) = und 1000 1 = 10000 10 100 1 = . 10000 100 Die Muster für A ∩ B sind abab, also p (A ∩ B ) = 1/100, für A ∩ C aaaa, also p (A ∩ C ) = 1/1000 ebenso aaaa für B ∩ C folglich p (B ∩ C ) = 1/1000. Schlieÿlich aaaa auch für A ∩ B ∩ C , also p (A ∩ B ∩ C ) = 1/1000. Nach der Siebformel 1 1 2 1 199 2 − − + = . p (A ∪ B ∪ C ) = + 10 100 100 1000 1000 1000 p(C ) = Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 60 / 61 Klausuraufgabe WS 2015 Es seien A, B und C Ereignisse. Bestimmen Sie die Wahrscheinlichkeit p (A ∩ B ∩ C ), wenn p (A) = p (B ) = p (C ) = 1 ist! (6 Punkte) Hinweis: Verwenden Sie die Siebformel! Lösung: Es gilt: p(A ∪ B ∪ C ) = p(A) + p(B ) + p(C ) − p(A ∩ B )− −p (A ∩ C ) − p (B ∩ C ) + p (A ∩ B ∩ C ) Da p (A ∪ B ∪ C ) ≥ p (A ∪ B ) ≥ p (A) = 1 und p(A ∩ B ) = p(B ) + p(A) − p(A ∪ B ) = 1 (sowie analog für die anderen Ereignispaare), folgt p(A ∩ B ∩ C ) = 1. Privat-Doz. Dr. H. Haase (Inst. f. Math. u. Inf.) Vorlesung 6 28.11.2016 61 / 61