Name: WS 2013/2014 Universität Kassel Prof. Dr. Hadrian Heil Höhere Mathematik für Ingenieure IV: Stochastik Klausur, 2.4.2014. Bearbeitungszeit 2 Stunden Ergebnis (nicht ausfüllen): K1 K2 K3 K4 K5 K6 K7 P Note • Tragen Sie als erstes rechts oben Ihren Namen ein. • Es sind, außer einem nicht internetfähigen Taschenrechner, keine Hilfsmittel zugelassen. • Die maximal erreichbare Punktzahl ist 100 Punkte. • Die in den Aufgaben erreichbare Punktzahl ist jeweils angegeben. • Geben sie immer alle Rechenschritte an, auch wenn sie Ihnen selbsterständlich vorkommen. 1 K 1. (4+4+4+4=16 Punkte) Eine Familie hat drei Kinder, jedes mit Wahrscheinlichkeit 1/2 Junge oder Mädchen. Die Geschlechter der Kinder sind unabhängig. Ein möglicher Grundraum für die Modellierung dieses Zufallsexperiments ist Ω = {JJJ, JJM, JM J, M JJ, JM M, M JM, M M J, M M M } a) Geben Sie die Wahrscheinlichkeiten der Elemente von Ω an. b) Wir betrachten nun die Ereignisse A := {Die Familie hat höchstens ein Mädchen} B := {Die Familie hat Kinder beider Geschlechter}. Schreiben Sie diese als Teilmengen von Ω. c) Berechnen Sie ihre Wahrscheinlichkeiten. d) Sind A und B unabhängig? K 2. (3+3+6+4+4=20 Punkte) Die zwei Ereignisse A := {Camille liebt Antoine} und B := {Camille liebt Bertrand} verhalten sich folgendermaßen: B Bc A Ac 1/9 1/3 2/9 ? Dabei geben die Zahlen die Wahrscheinlichkeit des Schnittes an, also z.B. P(A ∩ B) = 1/9. Die obige Tabelle gebe ich in R ein mit Hilfe der Befehle x<-c(1/9,2/9,1/3) M<-matrix(c(x,1-sum(x)),2,2) und überprüfe durch Eingabe von M [,1] [,2] [1,] 0.1111111 0.3333333 [2,] 0.2222222 ????????? Dabei sind die Fragezeichen natürlich andere Zeichen. a) Wie groß ist der fehlende Wert P(Ac ∩ B c )? b) Was beschreibt diese Zahl in Worten? c) Geben Sie detailliert in Stichworten an, was der obige Befehl M<-matrix(c(x,1-sum(x)),2,2) bewirkt hat, und geben Sie die Ausgabe an der Stelle der ????????? an. d) Wie groß ist die Wahrscheinlichkeit, daß Camille Bertrand liebt? Wie können wir dies durch R berechnen lassen (nennen wir die Zahl PB)? e) Camille hat gerade Bertrand ihre Liebe gestanden. Wie ist nun, da wir wissen, daß Camille Bertrand liebt, die Wahrscheinlichkeit, daß Camille auch Antoine liebt? Berechnung in R? K 3. (2+3+2+2+3+2=14 Punkte) Die Zufallsvariablen X1 , . . . , Xn sind unabhängig, und verteilt mit der Dichte c 2π 2π fc (x) = 1 + cos(cx) , − ≤x≤ . 4π c c Dabei ist c > 0 eine reelle Zahl. a) Zeichnen Sie zwei Skizzen der Dichten fk für c = 1/2 und c = 3. b) Berechnen Sie den Erwartungswert der Zufallsvariablen durch partielle Integration. c) Begründen Sie, wie man auch ohne Integrieren, ja sogar ohne Rechnung auf das Ergebnis 0 kommen kann. d) Sie möchten den Parameter c mit der Momentenmethode schätzen. Warum wird das nicht funktionieren, wenn man nur das erste Moment benutzt? e) Das zweite Moment der Zufallsvariablen ist E(X 2) = c22 1 + 23 π2 . Berechnen Sie, ausgehend von der Stichprobe x1 , . . . , xn , mit der Momentenmethode (basierend auf dem zweiten Moment) einen Schätzer ĉ. f) Wenn die Stichprobe die Werte 0.1 und 0.25 umfaßt, wie groß ist dann der geschätzte Parameter? K 4. (10 Punkte) Die Fließgeschwindigkeit V in einem Bach hat die Dichtefunktion f (x) = xe−x für x ≥ 0. Wie Sie vielleicht wissen, ist die Leistung einer Turbine proportional zur dritten Potenz der Geschwindigkeit. Berechnen Sie die Dichte von V 3 . K 5. (2+4+6=12 Punkte) Der Verkaufspreis G ∼ Exp(L) von Schaumgummibärchen ist zufällig, und zwar exponentialverteilt. Dabei ist der Parameter L die Dichte des Schaumes selbst zufällig, und zwar mit Dichte g(l) = 1/l, e−1 ≤ l ≤ 1. a) Fassen Sie den ersten Satz als Formel zusammen: · · · = le−lg , . . . b) Berechnen Sie die gemeinsame Dichte von Verkaufspreis und Schaumdichte. Geben Sie genau den Bereich an, auf dem die Dichte von Null verschieden ist. c) Berechnen Sie die Dichte des Verkaufspreises. K 6. (10 Punkte) Gegeben ist die Verteilungsfunktion x≤0 0 F (x) = sin(x) 0 ≤ x ≤ π/2 1 x ≥ π/2. Berechnen Sie die zugehörige Dichte. Geben Sie diese auf dem ganzen Definitionsbereich an. K 7. (4+4+4+6=18 Punkte) Hier sind die Hundertmeterzeiten der Fußballmannschaft vor und nach dem Trainingslager: Vorher 16.4 16.5 16.9 14.2 15.1 17.5 16.1 15.3 16.8 15.1 16.3 Nachher 14.8 14.2 13.8 15.7 15.0 14.2 16.6 13.5 15.8 14.2 15.1 Das Trainingslager war sehr teuer, und der Präsident will entscheiden, ob es im nächsten Jahr wieder durchgeführt wird. Da er diese Vorlesung besucht hat, führt er einen Vorzeichentest (d.h. Binomialtest mit der Anzahl der verbesserten Zeiten) durch: a) Geben Sie eine Nullhypothese und eine Gegenhypothese an. b) Was sind in diesem Fall die Fehler erster und zweiter Art? Wie passen diese zu Null- und Gegenhypothese? Hier ist die Wahrscheinlichkeitsverteilung der Binomialverteilung Bin(11, 1/2): x 0 1 2 3 4 5 0.0005 0.0054 0.0269 0.0806 0.1611 0.2256 x 6 7 8 9 10 11 P(X = x) 0.2256 0.1611 0.0806 0.02686 0.0054 0.0005 P(X = x) c) Wie groß sind die (auf zwei Stellen gerundeten) Wahrscheinlichkeiten P(X ≥ 8) und P(X ≤ 9)? d) Wie fällt die Testentscheidung angesichts der obigen Daten aus (Sie entscheiden über das gewünschte Signifikanzniveau)? Ausführliche Begründung? 1. Grundlagen 1.1. Ergebnisse, Ereignisse, Wahrscheinlichkeit. 1.1.1. Axiome der Wahrscheinlichkeitstheorie. Ein Wahrscheinlichkeitsmaß P ist eine Funktion von Teilmengen des Grundraums Ω (Ereignissen), die folgendes erfüllt: 1) Ereignisse haben Wahrscheinlichkeit zwischen 0 und 1, 2) Die Gesamtwahrscheinlichkeit ist 1, 3) Für disjunkte Ereignisse A und B, d.h. wenn A ∩ B = ∅, gilt P(A ∪ B) = P(A) + P(B). 4) Eine analoge Aussage zu Punkt 3 gilt auch für unendliche Folgen von disjunkten Ereignissen. Aus diesen Axiomen folgen einige 1.1.2. Grundlegende Eigenschaften von P. 1) P(A ) = P(Ω \ A) = 1 − P(A) 2) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) 3) A ⊂ B ⇒ P(A) ≤ P(B) 4) Falls An % A oder An & A, so gilt P(An ) −−−−→ P(A) c n→∞ 1.2. Unabhängigkeit. Zwei Ereignisse A und B sind unabhängig, wenn die Wahrscheinlichkeit des Schnittes das Produkt der Einzelwahrscheinlichkeiten ist. Die bedingte Wahrscheinlichkeit von B gegeben A ist ∩ B) P(B|A) := P(A P(A) . Unabhängigkeit ist dazu äquivalent, daß die bedingte Wahrscheinlichkeit gleich der unbedingten Wahrscheinlichkeit ist. Paarweise Unabhängigkeit der Ereignisse A1 , . . . , An ist weniger als Unabhängigkeit der Ereignisse A1 , . . . , An , für die die obige Bedingung für alle Teilmengen von {1, . . . , n} gefordert wird. 1.3. Zufallsvariable und Verteilungen. Eine Zufallsvariable X ist eine Abbildung vom Grundraum Ω in die reellen Zahlen. Wenn X nur endlich viele oder abzählbar unendlich viele unterschiedliche Werte annimmt, heißt sie diskret. Stetige Zufallsvariable bekommen später ihr eigenes Kapitel. Die Verteilung einer diskreten Zufallsvariable ist gegeben durch die Wahrscheinlichkeiten P(X = x) = P(X(ω) = x) = P({ω ∈ Ω|X(ω) = x)} für alle Werte x, für die dieser Wert größer als Null ist. Die Geometrische Verteilung Geo(p) beschreibt die Anzahl von unabhängigen Versuchen bis zum ersten Erfolg, und ist gegeben durch P(N = n) = (1 − p)n−1 p, n = 1, 2, 3, . . . . Die Geometrische Verteilung Geo(p) hat Erwartungswert (s.u.) 1/p und Varianz (1 − p)/p2 . 1.4. Erwartungswert. Der Erwartungswert einer diskreten Zufallsvariable X ist definiert durch X E(X) = xP(X = x). x Für eine Funktion r : R → R einer Zufallsvariablen X gilt X X E(r(X)) = r(x)P(X = x) = r(X(ω))P(ω). x ω Erwartungswerte sind linear, das heißt für Zufallsvariable X und Y und Konstanten c gilt 1.5. E(X + Y ) = E(X) + E(Y ) und E(c · X) = c · E(X). Momente und Varianz. E(X k ) heißt das k-te Moment von X. V ar(X) := E (X − E(X))2 = E(X 2 ) − E(X)2 ist die Varianz von X. Die Standardabweichung σ(X) ist deren Quadratwurzel. Für die Varianz gilt V ar(b + X) = V ar(X) und V ar(aX) = a2 V ar(X). 1 2 2.1. Dichten. Eine Dichte f : R → R 2. Stetige Verteilungen R erfüllt f ≥ 0 und f = 1. Falls X die Dichte f hat, so gilt Z b P(a ≤ X ≤ b) = f (x) dx. a Die Uniforme Verteilung U nif [a, b] auf [a, b] hat die Dichte 1 f (x) = , falls a ≤ x ≤ b. b−a Sie hat Erwartungswert (s.u.) (a + b)/2 und Varianz (b − a)2 /12. Die Exponentialverteilung Exp(λ) hat die Dichte f (x) = λe−λx , x ≥ 0. Sie hat Erwartungswert 1/λ und Varianz 1/λ2 . 2.1.1. Erwartungswert. Der Erwartungswert für Zufallsvariable mit Dichte geht ganz ähnlich wie der für diskrete Zufallsvariable, nur mit einem Integral statt einer Summe. Momente und Varianz auch. 2.2. Verteilungsfunktion. Die Verteilungsfunktion der Zufallsvariable X ist definiert als F (x) = P(X ≤ x). Für Zufallsvariable mit Dichte ist sie eine Stammfunktion derselben, mit limx→−∞ F (x) = 0. Mit ihrer Hilfe kann man durch Subtraktion Wahrscheinlichkeiten wie P(a < X ≤ b) berechnen. 2.3. Funktionen von Zufallsvariablen. Falls X die Dichte f hat, mit {x|f (x) > 0} = [a, b], und r : [a, b] → [α, β] stetig ist, und streng monoton steigend, so hat r(X) die Dichte g(y) = f (s(y))s0 (y), wobei s : [α, β] → [a, b] die Umkehrfunktion von r ist. 3. Tests Ein Test ist ein Verfahren, um zu einer Entscheidung zu kommen, die auf zufälligen Daten beruht. Diese ist wie folgt standardisiert: • Man legt eine sogenannte Nullhypothese H0 und eine Gegenhypothese H1 fest. • Man möchte H0 verwerfen zugunsten von H1 . • Fehler erster Art wird der Fehler genannt, H0 zu verwerfen, obwohl sie gilt, Fehler zweiter Art, H0 nicht zu verwerfen, obwohl sie nicht gilt. • Der Fehler erster Art soll nicht häufiger auftreten als das Signifikanzniveau α, das man vorher festlegt. • Dazu betrachtet man eine Statistik, eine Funktion der Stichprobe. • Die Werte der Statistik, die gegen H0 sprechen, bilden den Verwerfungsbereich. • Der Verwerfungsbereich wird mit kleinerem Signifikanzniveau kleiner. 3.1. Drei Tests. 3.1.1. Bootstraptest. Man hat zwei Stichproben, die man darauf testen will, ob die Verteilungen unterschiedlich sind. H0 ist die gleiche Verteilung der Stichprobe. Man berechnet einen Parameter, der diese Gleichheit mißt, zum Beispiel der Abstand der Mittelwerte. Dann mischt man die Stichproben durch, und schaut, wie oft der Parameter Werte annimmt, die noch mehr gegen die Gleichheit der Stichproben sprechen. Wenn das häufiger der Fall ist als 1 − α, verwirft man, sonst nicht. 3.1.2. Binomialtest. Gegeben eine Anzahl von Erfolgen aus n unabhängigen Versuchen, testet, ob diese Anzahl mit einer gewissen Erfolgswahrscheinlichkeit vereinbar ist. H0 ist, daß die Erfolgswahrscheinlichkeit p gleich p0 ist, H1 ist • p0 ≥ p oder p0 ≤ p (einseitiger Test), oder • p0 6= p (zweiseitiger Test). Der Verwerfungsbereich liegt am Rand des diskreten Intervalls {0, 1, . . . , n}, und hängt von den Wahrscheinlichkeiten der Binomialverteilung ab: Die Binomialverteilung Bin(n, p) ist eine diskrete Verteilung mit P(N = k) = nk pk (1 − p)n−k . Sie hat Ewartungswert np und Varianz np(1 − p). 3 3.2. Chi-Quadrat-Test. Der Chi-Quadrat-Test testet eine Stichprobe der Größe n darauf, ob sie von einer gegbenen Verteilung herrührt (H0 ). Der Wertebereich der Verteilung wird unterteilt in k Kategorien i mit Wahrscheinlichkeit pi , und für jede Kategorie bestimmt, wie viele Ergebnisse zu erwarten sind (ei = npi ). oi sind die obserierten Ergebnisse in der Kategorie i. Die Statistik 2 χ = k X (ei − oi )2 i=1 ei ist dann ungefähr χ2 -verteilt mit k − 1 Freiheitsgraden. Große Werte von χ2 sprechen gegen H0 . 4. Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeiten P(·|B) sind Wahrscheinlichkeitsmaße. Es gelten die entsprechenden Regeln (s.o.). Die Multiplikationsregel kann gefunden werden durch Umstellen der Definition der bedingten Wahrscheinlichkeit zu P(A ∩ B) = P(A)P(B|A). Das klappt analog auch für mehr Ereignisse. 4.1. Der Satz von der Totalen Wahrscheinlichkeit und der von Bayes. Es gilt P(A) = P(A|B)P(B) + P (A|B c )P(B c ) Dabei bilden B und B c eine Partition, d.h. sie sind disjunkt und vereinigt ergeben sie Ω. Der Satz gilt analog auch für andere Partitionen B1 , . . . , Bn . Der Satz von Bayes sagt: P(B)P(A|B) P(B|A) = P(B)P(A|B) + P(B c )P(A|B c ) Die gleiche Bemerkung über Partitionen ist hier auch anwendbar. 4.2. Gemeinsame Verteilungen, diskreter Fall. Die gemeinsame Verteilung von zwei diskreten Zufallsvariablen X und Y ist gegeben durch die Werte von P(X = x, Y = y) für alle Werte von x, y, wo diese Wahrscheinlichkeit ungleich null ist. Sie läßt sich gut in einer Tabelle darstellen. P 4.2.1. Marginalverteilungen. Die Marginalverteilung P(X = x) = y P(X = x, Y = y) kann man auch leicht aus der Tabelle ausrechnen. 4.2.2. Unabhängigkeit. Unabhängig sind X und Y , wenn die gemeinsame Verteilung das Produkt der Marginalverteilungen ist. 4.3. Bedingte Verteilungen. Gehen genauso wie die bedingten Wahrscheinlichkeiten weiter oben. 4.4. Gemeinsame Verteilungen, stetiger Fall. Die Wahrscheinlichkeit, daß (X, Y ) ∈ A ⊂ R2 fällt, ist das Integral über der Dichte auf A. Die gemeinsame Dichte f erfüllt die üblichen Bedingungen an Positivität und Gesamtwahrscheinlichkeit. 4.5. Marginalverteilungen und bedingte Dichten. Die Marginaldichten erhält man durch Wegintegrieren des anderen Parameters der gemeinsamen Dichte. Die gemeinsame Dichte von zwei unabhängigen Zufallsvariablen ist das Produkt der Marginaldichten. Wenn man die gemeinsame Dichte in zwei Faktoren zerlegen kann, die nur von x bzw. y abhängen, kann man sie auch als Produkt zweier Marginaldichten schreiben. Die bedingte Dichte von Y gegeben X = x ist definiert als fy (y|X = x) = f(X,Y ) (x, y) fX (x) Die Multiplikationsregel lautet für Dichten f (x, y) = fX (x)fY (y|X = x). 5. Dummy 6. Grenzwertsätze 6.1. Summen unabhängiger Zufallsvariabler. Für unabhängige diskrete Zufallsvariable X und Y gilt X P(X + Y = z) = P(X = x)P(Y = z − x). x 4 6.2. Summen unabhängiger Zufallsvariabler, stetiger Fall. Z fX+Y (z) = fX (x)fY (z − x)dx 6.3. Erwartungswert und Varianz von Summen. Zusätzlich zu den Regeln oben gild für unabhängige Zufallsvariablen X und Y E(XY ) = E(X)E(Y ) und V ar(X + Y ) = V ar(X) + V ar(Y ). Die Covarianz ist definiert als Cov(X, Y ) := E((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y ). 6.4. Gesetze der großen Zahlen. Wenn y > 0, so gilt die Tschebytscheff-Ungleichung ) P(|Y − E(Y )| ≥ y) ≤ V ar(Y . y2 Pn Für den Stichprobenmittelwert X n = n1 k=1 Xk gilt bei unabhängigen und identisch verteilten Zufallsvariablen X1 , X2 , . . . für jedes ε > 0 P(|X n − E(X1 )| ≥ ε) −−−−→ 0, n→∞ und sogar X n −−−−→ E(X1 ) n→∞ mit Wahrscheinlichkeit 1. 7. Schätzen Jede Funktion p̂ der Stichprobe ist ein Schätzer für einen Parameter p der Verteilung. Er heißt konsistent, wenn gilt p̂n (X1 , . . . , Xn ) −−−−→ p, n→∞ und erwartungstreu, wenn gilt E(p̂n (X1 , . . . , Xn )) = p. Pn Die Momentenschätzer n1 k=1 Xkr sind erwartungstreue, konsistente Schätzer für die Momente Pn 1 2 Der erwartungstreue, konsistente Schätzer für die Varianz ist n−1 k=1 (X − X n ) . 7.1. Momentenmethode. 1 Schreibe den gesuchten Parameter als Funktion der Momente. 2 Ersetze die Momente durch ihre Schätzer (s.o.) 3 Erwartungstreue und Konsistenz sind nicht automatisch. 7.2. Maximum-Likelihood-Methode. 1 Bestimme die Likelihoodfunktion: Qn • Bei diskreten ZV: Lp (x1 , . . . , xn ) =Q k=1 P(Xk = xk ); n • Bei stetigen ZV: Lp (x1 , . . . , xn ) = k=1 f (xk ). 2 Finde den Parameter p, für den Lp maximal wird. 3 Alternativ: finde den Parameter p, für den log Lp maximal wird. Das Ergebnis ist das gleiche. 4 Erwartungstreue und Konsistenz sind nicht automatisch. E(X r ).