IV, 1–76 (2017) c 2017 Mathematik III für B-IBT Dr. Jürgen Bolik Technische Hochschule Nürnberg y α 2 α 2 −u 1− α 2 u1− α 2 x TH Nürnberg 2 Inhaltsverzeichnis 1 2 3 Deskriptive Statistik 1.1 Skalen . . . . . . . . . . . . . . . . . . . 1.2 Der Begriff der Häufigkeit . . . . . . . . 1.3 Beschreibung von Häufigkeitsverteilungen 1.3.1 Lagemaße . . . . . . . . . . . . . 1.3.2 Streuungsmaße . . . . . . . . . . 1.3.3 Maße der Schiefe und Wölbung . 1.4 Bivariate Datenanalyse . . . . . . . . . . 1.5 Das Gaußsche Fehlerfortpflanzungsgesetz 1.6 Lineare Regression . . . . . . . . . . . . 1.7 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grundlagen der Wahrscheinlichkeitstheorie 2.1 Der Begriff der Wahrscheinlichkeit . . . . . . . . . . 2.2 Kombinatorik . . . . . . . . . . . . . . . . . . . . . 2.3 Die bedingte Wahrscheinlichkeit und die Unabhängigkeit von Ereignissen . . . . . . . . . . . 2.4 Zufallsvariablen und Wahrscheinlichkeitsverteilungen 2.4.1 Kenngrößen von Zufallsvariablen . . . . . . 2.4.2 Die Binomialverteilung . . . . . . . . . . . . 2.4.3 Die Hypergeometrische Verteilung . . . . . . 2.4.4 Die Poisson-Verteilung . . . . . . . . . . . . 2.4.5 Die Gaußsche Normalverteilung . . . . . . . 2.4.6 Die χ2 -Verteilung . . . . . . . . . . . . . . . 2.5 Grenzwertsätze . . . . . . . . . . . . . . . . . . . . 2.6 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 5 5 10 12 13 19 21 27 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 29 31 . . . . . . . . . . . . . . . . . . . . 34 36 37 40 42 42 46 51 53 54 . . . . . . 59 59 64 64 66 68 72 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Induktive Statistik 3.1 Schätzen von Parametern . . . . . . . . . . . . . . . . . 3.2 Testen von Hypothesen . . . . . . . . . . . . . . . . . . 3.2.1 Der Gauß-Test . . . . . . . . . . . . . . . . . . 3.2.2 Prüfung des Anteilswertes der Grundgesamtheit . 3.2.3 Der χ2 -Anpassungstest . . . . . . . . . . . . . . 3.3 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . TH Nürnberg 1 3 Deskriptive Statistik 1.1 Skalen • Nominalskala Bei Nominalskalen wird lediglich die Gleichheit oder Ungleichheit von Beobachtungen innerhalb eines Merkmals festgestellt. Dabei wird das Merkmal durch verschiedene Begriffe oder Namen (lateinisch: nomen) untergliedert. Beispiel: Das Merkmal ”Familienstand” wird durch Zuweisung eines Begriffs, wie ledig, verheiratet, geschieden, verwitwet, charakterisiert. • Ordinalskala Liegt eine Ordinalskala vor, so kann, über Nominalskalen hinaus, auch die Ordnung (lateinisch: ordo) innerhalb eines Merkmals unterschieden werden. Beispiel: Prüfungsleistungen lassen sich auf einer Ordinalskala anordnen. • Intervallskala Unter einer Intervallskala wird eine Skala verstanden, die bei gleichen Differenzen der Quantitäten gleiche Differenzen der Messwerte impliziert. Beispiel: Die Celsius- und die Fahrenheit-Skalen zur Temperaturmessung • Verhältnisskala Eine Verhältnisskala verfügt, neben den Eigenschafen einer Intervallskala, über einen absoluten Nullpunkt und weist demnach keine negativen Werte auf. Beispiel: Die Kelvin-Skala zur Temperaturmessung TH Nürnberg 1.2 4 Der Begriff der Häufigkeit Seien x1 , ..., xn die beobachteten Merkmalswerte eines Merkmals X mit Ausprägungen a1 , ..., ak , wobei xi = aj (i) , i = 1, ..., n , j = 1, ..., k . Beispiel Bei einer Befragung der Studierenden wird untersucht, welche Verkehrsmittel vorwiegend für den Weg zur Hochschule genutzt werden. Dabei kennzeichne • a1 : die vorwiegende Nutzung öffentlicher Verkehrsmittel • a2 : die vorwiegende Nutzung eines privaten KFZ • a3 : weitere Möglichkeiten. Gibt beispielsweise der fünfte Studierende an, er nutze vorwiegend öffentliche Verkehrsmittel, so kann x5 = a1 (5) geschrieben werden. Als absolute Häufigkeit Hn (aj ) der Ausprägung aj wird die Anzahl der Fälle, in denen aj auftritt, bezeichnet. Es gilt n X Hn (aj ) = n . j=1 Der Wert hn (aj ) = Hn (aj ) n wird als relative Häufigkeit bezeichnet. TH Nürnberg 1.3 1.3.1 5 Beschreibung von Häufigkeitsverteilungen Lagemaße • Das arithmetische Mittel n k 1X 1X x̄ = xi = aj · Hn (aj ) . n i=1 n j=1 Beispiele – Sei h3 (a1 ) = 81 12 7 , h3 (a2 ) = , h3 (a3 ) = 100 100 100 und a1 = 1 , a 2 = 3 , a3 = 5 . 2 Dann gilt x̄ = 81 3 12 7 134 + · +5 = . 100 2 100 100 100 – Ein Bastler bestimmt die Länge der ihm zur Verfügung stehenden Holzleisten. Dabei erhält er für die Holzleisten i, 1 ≤ i ≤ 20, folgende Werte: i 1 2 3 4 5 Länge xi in cm 115 130 150 115 185 i Länge xi in cm 6 145 7 150 8 150 9 145 10 155 i 11 12 13 14 15 Länge xi in cm 125 130 150 155 175 Für das arithmetische Mittel ergibt sich n x̄ = 1X 1 xi = · 2920 cm = 146 cm . n i=1 20 i 16 17 18 19 20 Länge xi in cm 130 175 145 150 145 TH Nürnberg 6 Für die absoluten und relativen Häufigkeiten der verschiedenen Längen gilt Länge ai in cm 115 125 130 145 150 155 175 185 Hn (ai ) hn (ai ) 2 1 3 4 5 2 2 1 0, 10 0, 05 0, 15 0, 20 0, 25 0, 10 0, 10 0, 05 Das arithmetische Mittel lässt sich auch mit Hilfe der absoluten Häufigkeiten Hn (ai ) bestimmen. Es gilt 8 1 X ai Hn (ai ) = 146 cm . x̄ = 20 i • Das geometrische Mittel x̄g = √ n x1 · x2 · .... · xn , wobei xi ≥ 0, i = 1, ..., n, sei. Beispiel: Mittelwert prozentualer Veränderungen. • Das harmonische Mittel n , x̄h = P n 1 i=1 xi wobei xi > 0, für i = 1, ..., n, oder xi < 0, für i = 1, ..., n, sei. Beispiel: Mittelwert der Geschwindigkeiten vi = 4xi , i = 1, 2 , 4ti mit 24xi = 4x und 4t1 + 4t2 = 4t. TH Nürnberg 7 • Der Median x̃0,5 ( x(n+1)/2 falls n ungerade x̃0,5 = 1 (x n2 + x n2 +1 ) falls n gerade 2 und das α-Quantil x̃α , mit 0 < α < 1, ( x[n·α]+1 falls n · α ∈ /Z x̃α = 1 , (x + x ) falls n · α ∈ Z n·α n·α+1 2 wobei x1 ≤ ... ≤ xn vorausgesetzt sei und [r] den ganzzahligen Anteil von r ∈ R bezeichne. Beispiel: Sind 30 Messwerte der Größe nach so geordnet, dass x1 ≤ ... ≤ x30 , dann ist – der Median der Wert von 1 (x15 + x16 ) 2 – und das 0, 1-Quantil der Wert von 1 (x3 + x4 ) , 2 da n · α = 30 · 0, 1 = 3. Hierzu betrachten wir beispielsweise die Widerstandswerte xi von 30 elektrischen Widerständen: i 1 2 3 4 5 6 xi i xi in Ω in Ω 480 7 511 490 8 514 502 9 521 504 10 535 504 11 598 505 12 602 i 13 14 15 16 17 18 xi in Ω 612 630 670 805 811 880 i 19 20 21 22 23 24 xi in Ω 920 945 990 1005 1010 1010 Demnach gilt hier für – den Median 1 1 (x15 + x16 ) = (670 + 805) = 737, 5 ≈ 738 2 2 – und das 0, 1-Quantil 1 1 (x3 + x4 ) = (502 + 504) = 503 2 2 jeweils in Ω. i 25 26 27 28 29 30 xi in Ω 1045 1065 1103 1208 1280 1350 TH Nürnberg 8 Ordnen wir die tabellarischen Werte Intervallen zu, d.h. gruppieren sie, so lässt sich folgendes Diagramm erhalten: n 10 9 8 7 6 5 4 3 2 1 0 500 1 2 600 3 4 700 5 6 800 7 8 900 9 10 1000 11 12 1100 13 14 1200 15 16 1300 17 18 R/ Ω Abbildung 1.1 Widerstandswerte der betrachteten 30 elektrischen Widerstände • Der Modalwert Der Modalwert (oder Modus) xmod ist der häufigste Beobachtungswert. Demnach gilt hn (xmod ) ≥ hn (aj ) für j = 1, ..., k . TH Nürnberg 9 Eine eingipflige Häufigkeitsverteilung heißt • rechtsschief oder linkssteil, falls x̄ > x̃0,5 > xmod , Häufigkeit 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 ̃x 0,5 ̄x x mod 15 16 Ausprägung Abbildung 1.2 Rechtsschiefe Häufigkeitsverteilung • linksschief oder rechtssteil, falls x̄ < x̃0,5 < xmod , Häufigkeit 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 ̄x ̃x 0,5 x mod 11 12 13 14 15 16 Ausprägung Abbildung 1.3 Linksschiefe Häufigkeitsverteilung TH Nürnberg 10 • symmetrisch, falls x̄ = x̃0,5 = xmod . Häufigkeit 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 ̄x = x̃ 0,5=x mod 14 15 Ausprägung Abbildung 1.4 Symmetrische Häufigkeitsverteilung 1.3.2 Streuungsmaße • Die Spannweite Sei {x1 , ..., xn }, mit x1 ≤ .. ≤ xn , eine geordnete Menge von Beobachtungswerten. Dann heißt R := xn − x1 Spannweite (Range) R der Häufigkeitsverteilung. • Der Quantilsabstand Der Quantilsabstand R1−α , mit 0 < α < 1, ist definiert als R1−α = x̃1− α2 − x̃ α2 . Anmerkung: Das Intervall [x̃ α2 , x̃1− α2 ] enthält mindestens (1 − α) · 100% der Beobachtungswerte. TH Nürnberg 11 • Die mittlere absolute Abweichung vom Median dx̃ ist definiert als n 1X |xi − x̃0,5 | . dx̃ := n i=1 • Die Varianz und die Standardabweichung Seien x1 , ..., xn Merkmalswerte und a1 , ..., ak Ausprägungen des betrachteten Merkmals. Dann wird die Stichprobenvarianz der Beobachtungsreihe definiert als n 1X 2 s := (xi − x̄)2 . n i=1 Damit ist auch die Standardabweichung s durch √ s = s2 gegeben. Anmerkung: Eine weitere Definition der Varianz ist durch die korrigierte Stichprobenvarianz n 1 X 2 (xi − x̄)2 s = n − 1 i=1 gegeben. Diese Definition führt zu einer erwartungstreuen Schätzung der Varianz. Weiterhin gilt n X 2 (xi − x̄) = i=1 n X x2i k k X X 2 − nx̄ = (aj − x̄) Hn (aj ) = a2j Hn (aj ) − nx̄2 i=1 j=1 j=1 Beispiel Für das zweite Beispiel aus Abschnitt 1.3.1 gilt 8 1 X (aj − 146)2 Hn (aj ) s = 20 j=1 2 1 ((115 − 146)2 · 2 + (125 − 146)2 · 1 + ... + (185 − 146)2 · 1) cm2 20 = 329 cm2 = und s = 18 cm . Demnach weisen die Holzleisten eine durchschnittliche Länge von 146 cm mit einer durchschnittlichen Abweichung von 18 cm auf. TH Nürnberg 1.3.3 12 Maße der Schiefe und Wölbung Seien x1 , ..., xn die Merkmalswerte einer Beobachtung und x̄ der arithmetische Mittelwert dieser Werte. • Die Schiefe oder das Schiefemaß nach Fischer, γ1 , ist definiert als n−1 γ1 := (n−1 n P (xi − x̄)3 i=1 n P (xi − . 3 x̄)2 ) 2 i=1 Gilt γ1 < 0, so ist die Häufigkeitsverteilung linksschief, ist γ1 > 0, so ist sie rechtsschief. Im Falle γ1 = 0 ist die Verteilung symmetrisch. • Die Wölbung (Kurtosis) γ2 ist definiert als n−1 n P (xi − x̄)4 i=1 γ2 := (n n P −1 (xi − , x̄)2 )2 i=1 der Exzess als γ2 − 3 . Da die Wölbung der Normalverteilung gleich 3 ist, ist der Exzess, bei vorgegebener Varianz, ein Maß für die Wölbung der betrachteten Häufigkeitsverteilung im Vergleich zur Normalverteilung. Gilt γ2 > 0, so ist die Häufigkeitsverteilung steilgipflig, ist γ2 < 0, so ist sie flachgipflig. Beispiel Für das dritte Beispiel aus Abschnitt 1.3.1 erhalten wir – arithmetisches Mittel: x̄ = 786, 83̄ Ω ≈ 787 Ω – Varianz: s2 = 71620 Ω2 – Schiefe: γ1 = 0, 428 (rechtsschief) – Exzess: γ2 = −1, 126 (flachgipflig) TH Nürnberg 1.4 13 Bivariate Datenanalyse Seien X und Y Merkmale, die in n Untersuchungen, die Ausprägungen ai , i = 1, ..., l für X und bk , k = 1, ..., m für Y zeigen. Die Werte Hik = H(ai , bk ) , i = 1, ..., l , k = 1, ..., m , geben die absolute Häufigkeit der einzelnen Ausprägungen (ai , bk ) an. Die Zeilensummen Hi· lassen sich mittels Hi· := m X Hik k=1 und die Spaltensummen mittels H·k := l X Hik i=1 berechnen. Satz: Sind die Merkmale X und Y unabhängig, so gilt Hik = Hi· H·k für i = 1, ..., l, k = 1, ..., m . n Beispiel Für das Merkmal (X, Y ) seien folgende Häufigkeitswerte gegeben: x1 x2 x3 x4 H·k y1 y2 Hi· 3 6 12 9 30 7 10 14 20 28 40 21 30 70 100 TH Nürnberg 14 Daher gilt für die bedingten Häufigkeitsfunktionen x1 x2 x3 x4 sonst h(xi |y1 ) h(xi |y2 ) 3 30 6 30 12 30 9 30 7 70 14 70 28 70 21 70 Summe = = = = 0 1 10 2 10 4 10 3 10 1, 0 = = = = 0 1 10 2 10 4 10 3 10 1, 0 Da die bedingten relativen Häufigkeitsfunktionen h(xi |y1 ) und h(xi |y2 ) für das Merkmal X gleich sind, ist das Merkmal X statistisch unabhängig vom Merkmal Y . Für metrisch skalierte Merkmale (X, Y ) ist der Korrelationskoeffizient nach Bravais-Pearson rXY gegeben. Treten die Ausprägungen (ai , bk ), i = 1, ..., l, k = 1, ..., m, mit Häufigkeiten Hik auf, so wird dieser als l P m P (ai − ā)(bk − b̄)Hik i=1 k=1 rXY := s ( l P (ai − ā)2 Hi· )( i=1 m P (bk − b̄)2 H·k ) k=1 definiert. Es gilt l P m P ai bk Hik − n ā b̄ i=1 k=1 rXY = s ( l P i=1 n P xi yi − n x̄ ȳ i=1 a2i Hi· − nā2 )( m P k=1 =r n . n P 2 P 2 2 2 ( xi − n x̄ )( yi − n ȳ ) b2k H·k − n b̄2 ) i=1 i=1 Da die empirische Varianz s2 einer Beobachtungsreihe x1 , ..., xn durch s2X n n 1X 1 X 2 2 (xi − x̄) = ( := xi − nx̄2 ) n i=1 n i=1 und die empirische Kovarianz zwischen X und Y durch sXY n n 1 X 1X (xi − x̄)(yi − ȳ) = ( xi yi − n x̄ ȳ) := n i=1 n i=1 TH Nürnberg 15 gegeben ist, gilt demnach rXY = sXY . sX · sY Beispiel Wir nehmen an, dass bei gleichbleibenden Ausprägungen des Merkmals X, die Ausprägungen des Merkmals Y folgendermaßen variieren: xi 0 2 4 6 8 10 12 14 rXY yi 2 1 4 3 6 5 8 7 0, 905 yi 4 3 2 1 8 7 6 5 0, 52 yi 1 8 2 7 3 6 4 5 0, 19 yi 2 7 5 3 8 4 1 6 0, 00 yi yi 3 8 8 6 5 4 2 2 7 7 4 3 1 5 6 1 −0, 14 −0, 62 Y r XY =0,905 X Abbildung 1.5 Korrelation mit rXY = 0, 905 TH Nürnberg 16 Y r XY =0,52 X Abbildung 1.6 Korrelation mit rXY = 0, 52 Y r XY =0,19 X Abbildung 1.7 Korrelation mit rXY = 0, 19 TH Nürnberg 17 Y r XY =0,00 X Abbildung 1.8 Korrelation mit rXY = 0, 00 Y r XY =−0,14 X Abbildung 1.9 Korrelation mit rXY = −0, 14 TH Nürnberg 18 Y r XY =−0,62 X Abbildung 1.10 Korrelation mit rXY = −0, 62 Anmerkung Beispielsweise erhalten wir den Korrelationswert 0, 905 folgendermaßen: 1 x̄ = (2 + 4 + 6 + 8 + 10 + 12 + 14) = 7 , 8 1 s2X = ((0 − 7)2 + (2 − 7)2 + (4 − 7)2 + (6 − 7)2 + (8 − 7)2 8 +(10 − 7)2 + (12 − 7)2 + (14 − 7)2 ) 1 = (49 + 25 + 9 + 1 + 1 + 9 + 25 + 49) = 21 , 8 1 ȳ = (2 + 1 + 4 + 3 + 6 + 5 + 8 + 7) = 4, 5 , 8 1 s2Y = ((2 − 4, 5)2 + (1 − 4, 5)2 + (4 − 4, 5)2 + (3 − 4, 5)2 8 +(6 − 4, 5)2 + (5 − 4, 5)2 + (8 − 4, 5)2 + (7 − 4, 5)2 ) 1 = (2, 52 + 3, 52 + 0, 52 + 1, 52 + 1, 52 + 0, 52 + 3, 52 + 2, 52 ) = 5, 25 , 8 1 sXY = ((−7) · (2 − 4, 5) + (−5) · (1 − 4, 5) + (−3) · (4 − 4, 5) + (−1) · (3 − 4, 5) 8 +1 · (6 − 4, 5) + 3 · (5 − 4, 5) + 5 · (8 − 4, 5) + 7 · (7 − 4, 5)) 1 = (17, 5 + 17, 5 + 1, 5 + 1, 5 + 1, 5 + 1, 5 + 17, 5 + 17, 5) = 9, 5 , 8 sXY 9, 5 rXY = =√ = 0, 905 . sX sY 21 · 5, 25 TH Nürnberg 1.5 19 Das Gaußsche Fehlerfortpflanzungsgesetz Um zu bestimmen, wie sich Fehler von Messungen in einer Meßgröße niederschlagen, betrachten wir die jeweilige funktionale Abhängigkeit und bestimmen neben dem resultierenden Mittelwert auch die resultierende Abweichung der Meßgröße nach dem Fehlerfortpflanzungsgesetz von Gauß. Dabei nehmen wir an, dass die Messgröße f : U → R, x 7→ f (x) , mit U ⊂ Rn , von x = (x1 , ..., xn ) abhängt. Werte der Variablen xi werden durch eine Messung bestimmt. Dabei treten Messfehler auf, so dass wir statt xi die Größe xi ± 4xi betrachten. Für f : U → R mit U ⊂ Rn können wir, bei kleinen, nicht-korrelierten Fehlern p 4xi = Var Xi die Näherung n X ∂f (4z) ≈ ( (x = µ))2 (4xi )2 ∂x i i=1 2 verwenden. Dabei sei µi := E(Xi ) und µ = (µ1 , µ2 , ..., µn ). Beispiel Für den Ohmschen Widerstand gilt R = R(U, I) = U . I Hier erfolgt die Messung des Widerstandes R anhand einer Messung der Spannung U und der Stromstärke I. U0 Sei U0 := µ1 , I0 := µ2 und R0 := . I0 Es gilt ∂R 1 = , ∂U I ∂R U =− 2 ∂I I und (4R)2 ≈ ( 1 2 U0 1 ) (4U )2 + ( 2 )2 (4I)2 = ( )2 ((4U )2 + R02 (4I)2 ) . I0 I0 I0 TH Nürnberg 20 Somit erhalten wir für I = (10 ± 0, 3) A und U = (220 ± 2) V R0 = U0 = 22, 0 Ω I0 und 1 4R ≈ I0 r q 1 9 (4U )2 + R02 (4I)2 = 22 + 222 · Ω ≈ 0, 7 Ω . 10 100 TH Nürnberg 1.6 21 Lineare Regression Lassen sich die Daten der Ausprägungen zweier Merkmale X und Y näherungsweise in Form eines linearen Zusammenhangs darstellen, so verhilft die lineare Regressionsrechnung zu einer genaueren Analyse der funktionalen Abhängigkeit beider Merkmalsausprägungen. Dabei liegen die Daten in Form von Wertepaaren (x1 , y1 ), ...., (xn , yn ), mit xi , yi ∈ R, vor. Es wird davon ausgegangen, dass yi = α + βxi + ci für i = 1, ..., n gilt. Hier sind α, β, ci ∈ R, wobei die Größen ci zufällige Fehler darstellen. Die Methode der kleinsten Quadrate Die Parameter α und β sollen so bestimmt werden, dass durch die Regressionsgerade ŷ = a + bx eine möglichst gute Schätzung ŷ für die Ausprägung y des Merkmals Y bietet. Ein geeignetes Maß für die Güte dieser Schätzung stellt die Summe der Abweichungsquadrate 2 S = n X (yi − ŷi )2 i=1 dar, wobei ŷi := a + bxi sei. Nun sollen die Schätzgrößen a und b für α und β so bestimmt werden, dass S 2 minimal wird. TH Nürnberg 22 y 6 ( xi , yi) 5 ̂y =a +b x 4 3 ( x i , ŷ i ) 2 1 0 0 1 2 3 4 5 6 7 8 x Abbildung 1.11 Methode der kleinsten Quadrate Die Parameter a und b ergeben sich dann als Lösungen des Normalengleichungssystems n X ∂S 2 = −2 (yi − a − bxi ) = 0 ∂a i=1 und n X ∂S 2 = −2 xi (yi − a − bxi ) = 0 . ∂b i=1 Nach der ersten der beiden Gleichungen ist der Schätzwert für α a = ȳ − bx̄ , wobei n n 1X 1X x̄ = xi und ȳ = yi n i=1 n i=1 die Mittelwerte der Größen xi bzw. yi sind. Die zweite Gleichung impliziert n n 1X 1X 2 xi yi − ȳx̄ + bx̄2 − b x = 0. n i=1 n i=1 i Nach dieser Gleichung und mit Hilfe der Identitäten n X i=1 (xi − x̄)(yi − ȳ) = n X i=1 xi yi − nx̄ȳ TH Nürnberg 23 und n X (xi − x̄)2 = i=1 n X x2i − x̄2 n i=1 erhalten wir schließlich n P b= (xi − x̄)(yi − ȳ) i=1 n P , (xi − x̄)2 i=1 den Schätzwert für β. Beispiel Gesucht ist die Regressionsgerade für folgende Daten (xi , yi ): (−4, −3), (−2, 1), (−1, 0), (0, 1), (4, 5) . Die Schätzwerte a und b lassen sich mittels 5 X xi = −4 − 2 − 1 + 0 + 4 = −3 , i=1 5 X 5 X yi = −3 + 1 + 0 + 1 + 5 = 4 , i=1 x2i = 42 + 22 + 1 + 0 + 42 = 37 i=1 und 5 X xi yi = (−4) · (−3) + (−2) · 1 + (−1) · 0 + 0 · 1 + 4 · 5 = 30 i=1 bestimmen. Demnach gilt 30 · 5 + 12 + b(9 − 5 · 37) = 0 und 5a = 4 + 3b . TH Nürnberg 24 Die Parameter der Regressionsgerade y = a + bx sind daher a ≈ 1, 35 , b ≈ 0, 92 . y 6 5 4 3 2 1 0 -5 -4 -3 -2 -1 -1 0 1 2 3 4 5 x -2 -3 -4 Abbildung 1.12 Datenpunkte und die zugehörige Regressionsgerade Treten nicht nur zwei, sondern allgemein m unabhängige Merkmale auf, so verwenden wir bei einem linearen Ansatz als Schätzfunktion ŷi = a0 + a1 x1i + a2 x2i + ... + am xmi . Mit x21 x22 .. . ... ... .. . xm1 xm2 .. . 1 x1n x2n ... xmn 1 1 X = .. . x11 x12 .. . und y1 y2 y = .. , a = . yn folgt a = (X t X)−1 X t y . a0 a1 .. . am TH Nürnberg 25 Beweis Es gilt ŷi = (Xa)i = a0 + a1 x1i + a2 x2i + ... + am xmi . Gemäß der Methode der kleinsten Quadrate wird S2 = n X (yi − ŷi )2 i=1 minimiert. Differenzieren wir S 2 nach a0 , a1 , ..., am und beachten, dass grad S 2 = 0 eine notwendige Bedingung für das Vorliegen eines kritischen Punktes ist, so erhalten wir n X (yi − ŷi ) · i=1 ∂ ŷi = 0 , wobei l = 0, 1, ..., m, ∂al und ∂ ŷi ∂ ŷi ∂ ŷi = 1, = x1i , ... , = xmi . ∂a0 ∂a1 ∂am Somit ergibt sich n X n X y i = a0 n + a1 i=1 n X i=1 yi x1i = a0 n X i=1 n X yi x2i = a0 x1i + a1 x2i + a1 i=1 n X x21i n X + a2 i=1 x1i x2i + a2 1 1 x11 x12 X t = x21 x22 .. .. . . xm1 xm2 x2i x1i + ... + am n X n X x1i xmi + a2 i=1 1 x13 x23 .. . ... ... ... .. . 1 x1n x2n .. . x22i + ... + am xm3 ... xmn .. . n X i=1 , n X xmi x1i i=1 i=1 Da n X .. . xmi + a1 xmi i=1 .. . n X n X i=1 i=1 .. . i=1 x2i + ... + am i=1 n X yi xmi = a0 n X i=1 i=1 i=1 n X x1i + a2 n X xmi x2i i=1 x2i xmi + ... + am .. . n X i=1 x2mi . TH Nürnberg gilt demnach 1 x11 t X y = x21 .. . xm1 26 1 1 x12 x13 x22 x23 .. .. . . xm2 xm3 ... ... ... .. . ... y1 y1 + y2 + y3 + ... + yn y2 x11 y1 + x12 y2 + x13 y3 + ... + x1n yn y3 x21 y1 + x22 y2 + x23 y3 + ... + x2n yn = .. .. . . xmn yn xm1 y1 + xm2 y2 + xm3 y3 + ... + xmn yn 1 x1n x2n .. . und 1 1 x11 x12 t X Xa = x21 x22 .. .. . . xm1 xm2 1 x13 x23 .. . ... ... ... .. . xm3 ... a0 + x11 a1 + x21 a2 + ... + xm1 am a0 + x12 a1 + x22 a2 + ... + xm2 am a0 + x13 a1 + x23 a2 + ... + xm3 am . .. . xmn a0 + x1n a1 + x2n a2 + ... + xmn am 1 x1n x2n .. . Folglich erhalten wir X t Xa = X t y und, falls X t X invertierbar ist, daher a = (X t X)−1 X t y . Anmerkung: Mit Hilfe der euklidischen Norm k.k können wir auch S 2 = ky − Xak2 = (y − Xa)t (y − Xa) = y t y − y t Xa − (Xa)t y + (Xa)t Xa = at X t Xa − 2y t Xa + y t y schreiben. TH Nürnberg 1.7 27 Übungsaufgaben Aufgabe 1 Bestimmen Sie Median, Varianz, Schiefe und Exzess der folgenden Häufigkeitsverteilung zur Länge von 20 Holzleisten: i 1 2 3 4 5 Länge xi in cm 115 130 150 115 185 i Länge xi in cm 6 145 7 150 8 150 9 145 10 155 i 11 12 13 14 15 Länge xi in cm 125 130 150 155 175 i 16 17 18 19 20 Länge xi in cm 130 175 145 150 145 Aufgabe 2 Bestimmen Sie die Regressionsgerade für folgende Daten (ti , si ): 1 3 6 3 7 23 ( , 1), ( , ), (2, ), ( , ). 2 2 5 2 2 10 Aufgabe 3 Bestimmen Sie die Koeffizienten a0 , a1 , a2 für eine linearen Regression zu folgenden Daten: x1 x2 74 1 67 1 69 2 72 2 77 3 71 3 y 50 48 51 53 58 55 TH Nürnberg 28 Aufgabe 4 Die Vermessung eines Dreiecks ergab für die Seiten x und y die Werte x = (150 ± 0, 2) m , y = (200 ± 0, 2) m und für den eingeschlossenen Winkel α = 60◦ ± 1◦ . Berechnen Sie den absoluten und relativen Fehler, nach dem Gaußschen Fehlerfortplanzungsgesetz, für die Dreiecksfläche A mittels 1 A = xy sin α . 2 TH Nürnberg 2 29 Grundlagen der Wahrscheinlichkeitstheorie 2.1 Der Begriff der Wahrscheinlichkeit Mit wachsendem n nähert sich der Wert von h(A) der Wahrscheinlichkeit P (A) an. Der Grundraum oder Ereignisraum Ω ist die Menge aller möglichen Ergebnisse eines Zufallsexperiments und damit die Vereinigungsmenge aller Elementarereignisse. Die Wahrscheinlichkeit P wird durch die Kolmogoroffschen Axiome vollständig beschrieben: • Positivität P (A) ≥ 0 für jedes Ereignis A ⊂ Ω • Normiertheit P (Ω) = 1 • σ-Additivität P( ∞ [ Ai ) = i=1 ∞ X P (Ai ) i=1 für jede Folge paarweise disjunkter Ereignisse Ai ⊂ Ω. Für die Wahrscheinlichkeit der Vereinigung zweier Ereignisse A1 und A2 gilt demnach P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) . Auch andere bekannte Rechenregeln lassen sich aus obigen Axiomen herleiten, wie z. B. P (Ā) = 1 − P (A) und P (A − B) = P (A) − P (B) , falls B ⊂ A . TH Nürnberg 30 Die Laplace-Wahrscheinlichkeit Für Zufallsexperimente mit endlich vielen, gleichwahrscheinlichen Ereignissen, lässt sich die Wahrscheinlichkeit eines Ereignisses mittels P (A) = |A| |Ω| berechnen. Dabei bezeichnet |A| : die Anzahl der Elemente von A und |Ω| : die Anzahl der Elemente von Ω . Beispiel Wird zweimal mit einem herkömmlichen Spielwürfel gewürfelt, so beträgt die Wahrscheinlichkeit, dabei zweimal die Augenzahl 3 zu erhalten, d.h. die Wahrscheinlichkeit für das Ereignis A = {(3, 3)} P (A) = 1 . 36 Dabei ist die Ereignisraum Ω: Ω = {(1, 1), (1, 2), (1, 3), ..., (6, 6)} . TH Nürnberg 2.2 31 Kombinatorik Permutationen Hierbei werden n ∈ N verschiedene Elemente zu einem n-Tupel angeordnet. Eine solche Anordnung wird als n-stellige Permutation bezeichnet. Gibt es unter den Elementen eines n-Tupels k < n voneinander verschiedene, die mit den jeweiligen Häufigkeiten n1 , n2 , ... , nk auftreten, wobei n1 + n2 + ... + nk = n gilt, so wird die Anordnung zu einem n-Tupel als Permutation mit Wiederholung bezeichnet. • Permutationen ohne Wiederholung Für die Anzahl p(n) aller n-stelligen Permutationen ohne Wiederholung gilt p(n) = n! . • Permutationen mit Wiederholung Für die Anzahl p(n; n1 , ..., nk ) aller n-stelligen Permutationen mit n1 , ... , nk Wiederholungen gilt p(n; n1 , ..., nk ) = n! . n1 ! · ... · nk ! Variationen Hierbei werden k-Tupel (a1 , ..., ak ) mit ai ∈ {a1 , ..., an } betrachtet. Eine solche Anordnung zu einem k-Tupel heißt Variation k-ter Ordnung von n Elementen. Gilt ai 6= aj für i 6= j so wird die Anordnung als Variation k-ter Ordnung von n Elementen ohne Wiederholung bezeichnet. • Variationen ohne Wiederholung Für die Anzahl v(n, k) aller Variationen k-ter Ordnung von n Elementen ohne Wiederholung gilt v(n, k) = n! . (n − k)! Beispiel: Werden aus einer Menge mit n Elementen ohne Zurücklegen/Wiederholung k Elemente ausgewählt und die Reihenfolge dieser Auswahl berücksichtigt, so gibt es v(n, k) Möglichkeiten. TH Nürnberg 32 • Variationen mit Wiederholung Für die Anzahl v ∗ (n, k) aller Variationen k-ter Ordnung von n Elementen mit Wiederholung gilt v ∗ (n, k) = nk . Beispiel: Werden aus einer Menge mit n Elementen mit Zurücklegen/Wiederholung k Elemente ausgewählt und die Reihenfolge dieser Auswahl berücksichtigt, so gibt es v ∗ (n, k) Möglichkeiten. Kombinationen Eine Kombination ist eine Teilmenge mit k Elementen, die aus einer Menge mit n Elementen ausgewählt wird. Eine solche k-elementige Teilmenge heißt Kombination k-ter Ordnung von n Elementen. • Kombinationen ohne Wiederholung Für die Anzahl c(n, k) aller Kombinationen k-ter Ordnung von n Elementen ohne Wiederholung gilt n n! . c(n, k) = = k!(n − k)! k Beispiel: Werden aus einer Menge mit n Elementen ohne Zurücklegen/Wiederholung k Elemente ausgewählt und die Reihenfolge dieser Auswahl nicht berücksichtigt, so gibt es c(n, k) Möglichkeiten. • Kombinationen mit Wiederholung Für die Anzahl c∗ (n, k) aller Kombinationen k-ter Ordnung von n Elementen mit Wiederholung gilt n+k−1 (n + k − 1)! ∗ c (n, k) = = . k k!(n − 1)! Beispiel: Werden aus einer Menge mit n Elementen mit Zurücklegen/Wiederholung k Elemente ausgewählt und die Reihenfolge dieser Auswahl nicht berücksichtigt, so gibt es c∗ (n, k) Möglichkeiten. Beispiele (i) Es gibt 49 = 13 983 816 6 Möglichkeiten, aus 49 Zahlen, sechs verschiedene Zahlen auszuwählen. TH Nürnberg 33 (ii) Sollen jeweils zehn Gegenstände, von denen es vier verschiedene Sorten gibt, in eine Tüte gefüllt werden, so existieren 4 + 10 − 1 = 286 10 Möglichkeiten, eine Tüte zu befüllen. (iii) Aus den Briefmarkenserien A, B und C mit dem Frankierwert von jeweils 1, 00 e sollen alle Möglichkeiten bestimmt werden, einen Brief mit Marken im Gesamtwert von 5, 00 e zu frankieren, wobei die Reihenfolge der Marken unerheblich ist. Wir erhalten die 21 Möglichkeiten AAAAA, BBBBB, CCCCC, AAAAB, AAAAC, AAABC, AAABB, AAACC, AABBB, AACCC, AABBC, AABCC, ABBBB, ACCCC, ABBBC, ABBCC, ABCCC, BBBBC, BBBCC, BBCCC, BCCCC . Der Wechsel von einer Briefmarkenserie zur nächsten lässt sich mittels eines Trennstrichs kennzeichen. Findet nur ein Wechsel oder kein Wechsel statt, lassen sich nicht benötigte Trennstrich an den Anfang oder das Ende der Sequenz stellen. Um 2 Trennstriche auf 7 Plätzen einzutragen, gibt es 7 7 = = 21 5 2 Möglichkeiten. (iv) Als Verallgemeinerung des Beispiels (iii) betrachten wir eine Urne mit n Elementen (n = 3 in dem Beispiel) und ziehen k-mal (k = 5 in dem Beispiel). Dann erhalten wir k + n − 1 Plätze (5 + 3 − 1 = 7 in dem Beispiel), da wir n − 1 mit Trennstrichen belegen. TH Nürnberg 2.3 34 Die bedingte Wahrscheinlichkeit und die Unabhängigkeit von Ereignissen P (B|A) bezeichnet die Wahrscheinlichkeit für das Eintreten des Ereignisses B unter der Bedingung, dass das Ereignis A bereits eingetreten ist (bedingte Wahrscheinlichkeit). Es gilt P (B|A) = P (B ∩ A) . P (A) Beispiel Ein elektronisches Bauteil kann beispielsweise durch Kurzschluss ausfallen. Beträgt die Wahrscheinlichkeit P (d), dass ein Bauteil defekt ist 5%, und die Wahrscheinlichkeit P (K ∩ d), dass ein Bauteile durch Kurzschluss ausgefallen ist 3%, so beträgt die Wahrscheinlichkeit P (K|d), dass ein defektes Bauteil durch Kurzschluss ausgefallen ist P (K|d) = 0, 03 P (K ∩ d) = = 0, 6 . P (d) 0, 05 Satz von der totalen Wahrscheinlichkeit: Seien A1 , ..., Ak paarweise disjunkte Ereignisse mit k [ Ai = Ω . i=1 Dann gilt für ein beliebiges Ereignis B P (B) = k X P (B|Ai )P (Ai ) . i=1 Beispiel Eine Tierarzpraxis in England beschäftigt drei Ärzte A1 , A2 und A3 . Arzt A1 leitet die Praxis und arbeitet 4h pro Tag im Außendienst, die Ärzte A2 und A3 jeweils 8h pro Tag. Sei B das Ereignis, dass bei einer Anfrage nur ein Hausbesuch notwendig ist. Unter P (B|Ai ) verstehen wir die Wahrscheinlichkeit, dass Arzt Ai für eine Nachfrage nur einen Hausbesuch benötigt. Hier sei P (B|A1 ) = 0, 9 , P (B|A2 ) = 0, 8 , P (B|A3 ) = 0, 75 . Es gilt P (B) = P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + P (B|A3 )P (A3 ) , TH Nürnberg 35 wobei P (Ai ) die Wahrscheinlichkeit angibt, dass der Arzt Ai den Hausbesuch abstattet. Demnach erhalten wir P (B) = 0, 9 · 1 2 2 + 0, 8 · + 0, 75 · = 0, 8 . 5 5 5 Zwei Ereignisse A und B werden als (stochastisch) unabhängig bezeichnet, wenn P (A ∩ B) = P (A)P (B) gilt. Das ist gleichbedeutend mit P (B|A) = P (B) bzw. P (A|B) = P (A) . Die Bayessche Formel Für zwei Ereignisse A und B gilt P (B|A) = P (B ∩ A) . P (A) Die Wahrscheinlichkeit P (B ∩ A) wiederum, lässt sich folgendermaßen ausdrücken: P (B ∩ A) = P (A|B)P (B) . Ferner gilt P (A) = P (A|B)P (B) + P (A|B̄)P (B̄) . Zusammengefasst erhalten wir die Bayessche Formel P (B|A) = P (A|B)P (B) . P (A|B)P (B) + P (A|B̄)P (B̄) Diese lautet für paarweise disjunkte Ereignisse A1 , ..., Ak , mit k [ Ai = Ω , i=1 und ein beliebiges Ereignis B: P (Ai |B) = P (B|Ai )P (Ai ) . k P P (B|Aj )P (Aj ) j=1 TH Nürnberg 2.4 36 Zufallsvariablen und Wahrscheinlichkeitsverteilungen Eine Zufallsgröße oder Zufallsvariable ist eine Funktion X : Ω → R, • deren Werte reelle Zahlen sind, die durch ein Zufallsexperiment bestimmt werden • und deren Ereignissen Wahrscheinlichkeiten zugeordnet sind. Der Wert x, den die Zufallsvariable X annimmt, heißt Realisation von X. Betrachten wir die Ereignisse X ≤ t einer Zufallsvariable X, so erhalten wir mit FX (t) = P (X ≤ t) die Verteilungsfunktion oder Wahrscheinlichkeitsverteilung der Zufallsvariablen X. Die Funktion FX besitzt folgende Eigenschaften: (i) FX ist monoton wachsend. (ii) FX ist rechtsseitig stetig, d.h. lim FX (t + h) = FX (t) . h&0 (iii) FX besitzt die Grenzwerteigenschaften lim FX (t) = 1 t→∞ und lim FX (t) = 0 . t→−∞ Ist die Zufallsvariable X diskret mit den möglichen Realisationen x1 , x2 , ..., so gilt für die Verteilungsfunktion X FX (t) = P (X = xi ) . {i∈N|xi ≤t} Existiert zu einer Verteilungsfunktion FX eine Funktion fX , so dass Zt FX (t) = fX (ξ)dξ −∞ gilt, dann wird die Wahrscheinlichkeitsverteilung als stetige Verteilung bezeichnet. Die Funktion fX heißt Dichtefunktion oder Dichte. TH Nürnberg 2.4.1 37 Kenngrößen von Zufallsvariablen Ist X eine stetige Zufallsvariable mit einer Dichte f , für welche das Integral von xf (x) über R existiert, so gilt für den Erwartungswert oder Mittelwert EX: Z∞ x · f (x) dx . EX = −∞ Ist die Zufallsvariable X diskret mit den möglichen Realisationen x1 , x2 , ..., so gilt EX = ∞ X xi · P (X = xi ) . i=1 Unter der Varianz einer Zufallsgröße X verstehen wir die Größe Var X := E(X − EX)2 . Die Größe σ, definiert durch 2 σ 2 = σX := Var X heißt Standardabweichung. Ungleichung von Tschebyscheff: Ist c ∈ R∗+ , so gilt P (|X − EX| ≥ c) ≤ Var X . c2 Demnach erhalten wir P (|X − EX| ≥ k · σ) ≤ σ2 1 = 2 2 (k · σ) k für k · σ ∈ R∗+ . So lässt sich beispielweise herleiten, dass Werten, die mindestens 3σ vom Erwartungswert abweichen, höchstens mit der Wahrscheinlichkeit 19 auftreten. Satz von Steiner: Es gilt Var X = EX 2 − (EX)2 . TH Nürnberg 38 Ist FX eine stetige Verteilung, so gilt für das α-Quantil ξα Zξα FX (ξα ) = fX (x) dx = α . −∞ f (x) α ξα x Abbildung 2.1 Das α-Quantil einer stetigen Verteilung Für α = 1 2 erhalten wir den Median. Sind X und Y Zufallsvariablen, dann ist die Kovarianz definiert durch Cov(X, Y ) := E(X − EX)(Y − EY ) . Ist Cov(X, Y ) = 0, so werden die Zufallsvariablen X und Y als unkorreliert bezeichnet. Sind die Zufallsvariablen X und Y stochastisch unabhängig, so folgt E(X1 · X2 ) = E(X1 ) · E(X2 ) und daher Cov(X, Y ) = 0. Die Umkehrung dieser Schlussfolgerung gilt jedoch nicht allgemein. Weiterhin gilt Cov(X1 , X2 ) = E(X1 · X2 ) − E(X1 )E(X2 ) , Cov(X1 + X2 , Y ) = Cov(X1 , Y ) + Cov(X2 , Y ) , Cov(X, Y1 + Y2 ) = Cov(X, Y1 ) + Cov(X, Y2 ) , Cov(a0 + a1 X, b0 + b1 Y ) = a1 b1 Cov(X, Y ) für a0 , a1 , b0 , b1 ∈ R . TH Nürnberg 39 Der Korrelationskoeffizient ρ der Zufallsvariablen X und Y nach Bravais-Pearson ist definiert durch ρ = ρ(X, Y ) = Corr(X, Y ) := Cov(X, Y ) . σX · σY Sind Xi , i = 1, ..., n, Zufallszahlen, so gilt Var(X1 + X2 + ... + Xn ) = n X i=1 Var(Xi ) + X Cov(Xi , Xj ) . i,j=1,...,n i6=j Ist n = 2, so können wir Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) + 2 Cov(X1 , X2 ) schreiben. TH Nürnberg 2.4.2 40 Die Binomialverteilung Eine Zufallsvariable X heißt binomialverteilt mit den Parametern n und p, B(n, p), falls n P (X = k) = bn,p (k) := · pk · (1 − p)n−k , k ∈ {0, ..., n} , k gilt. Die zugehörige Verteilungsfunktion lautet X n Bn,p (x) = · pk · (1 − p)n−k . k k≤x b6 ;0,5 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 1 0 2 1 3 2 4 3 5 4 6 5 7 6 8 9 k Abbildung 2.2 Die Dichte bn,p der Binomialverteilung für n = 6 und p = 0, 5 b8; 0,3 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 1 0 2 1 3 2 4 3 5 4 6 5 7 6 8 7 9 k Abbildung 2.3 Die Dichte bn,p der Binomialverteilung für n = 8 und p = 0, 3 TH Nürnberg 41 Solche Histogramme ergeben sich auch durch Häufigkeitsverteilungungen eines sog. GaltonBretts. Dabei werden n Kugeln durch Hindernisse abgelenkt, wobei sie mit einer Wahrscheinlichkeit p in eine Richtung abgelenkt werden und mit der Wahrscheinlichkeit 1 − p in die andere Richtung. Schließlich werden sie in n + 1 Fächern aufgefangen. Für den Erwartungswert erhalten wir n X n k EX = k p (1 − p)n−k k k=0 = np n X k=1 = np n−1 X k=0 (n − 1)! pk−1 (1 − p)n−k (n − k)!(k − 1)! (n − 1)! pk (1 − p)n−(k+1) (n − (k + 1))!k! n−1 X n−1 k = np p · (1 − p)n−k−1 k k=0 und mit dem Binomischen Lehrsatz: EX = np(p + (1 − p))n−1 = np . Für die Varianz gilt VarX = np(1 − p) . Genügt X einer Bernoulli-Verteilung, d.h. einer 0-1-Verteilung, mit EX = P , dann ist n P̂ = 1X Xi n i=1 der Stichprobenanteilswert. Es gilt • für dessen Erwartungswert E P̂ = P • und für dessen Varianz, bei einer Auswahl mit Zurücklegen, σP̂2 = Var P̂ = 1 P (1 − P ) . n TH Nürnberg 2.4.3 42 Die Hypergeometrische Verteilung Eine Zufallsvariable X heißt hypergeometrisch verteilt mit den Parametern N , M und n, H(N, M, n), falls M N −M P (X = k) = hN,M,n (k) := k n−k N n , k = 0, ..., n , gilt. Hypergeometrische Verteilungen treten beispielsweise auf, wenn die Wahrscheinlichkeit berechnet werden soll, aus einer Menge von N Kugeln, mit M weißen und N − M schwarzen, k weiße Kugeln zu ziehen, wobei die Kugeln bei der Ziehung nicht zurückgelegt werden. 2.4.4 Die Poisson-Verteilung Falls µ = np konstant ist, gilt lim bn,p (k) = n→∞ µk e−µ . k! Anmerkung: Nach dem Grenzwertsatz von Poisson gilt das auch unter der schwächeren Voraussetzung, dass Xn B(n, pn )-verteilt sind und lim npn = µ ist. n→∞ Die durch ψµ (k) := µk e−µ , k ∈ N0 , µ ∈ R∗+ , k! definierte Verteilung heißt Poisson-Verteilung P (µ). Die zugehörige Verteilungsfunktion lautet Ψµ (x) = X µk e−µ k≤x k! . TH Nürnberg 43 ψ4( k ) 0,25 0,2 0,15 0,1 0,05 0 01 21 3 2 43 45 65 7 6 78 89 10 9 11 10 k Abbildung 2.4 Die Dichte ψµ der Poisson-Verteilung für µ = 4 ψ 8 (k ) 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 01 12 23 43 45 56 67 8 7 98 10 9 11 10 12 11 13 12 14 13 15 14 16 15 k Abbildung 2.5 Die Dichte ψµ der Poisson-Verteilung für µ = 8 Für den Erwartungswert erhalten wir ∞ X ∞ µk−1 −µ µk −µ X EX = k· e = µ· e = µ. k! (k − 1)! k=0 k=1 Für die Varianz gilt Var X = µ . TH Nürnberg 44 Beispiele • Sei p = 0, 01 die Wahrscheinlichkeit, dass ein Produkt fehlerhaft ist. Gesucht wird die Wahrscheinlichkeit, dass unter n = 100 Stück höchstens drei fehlerhafte Erzeugnisse auftreten. Mit Hilfe der Binomialverteilung X n Bn,p (3) = · pk · (1 − p)n−k k k≤3 erhalten wir 100 100 0 100 Bn,p (3) = · (0, 01) · (0, 99) + · (0, 01)1 · (0, 99)99 0 1 100 100 2 98 + · (0, 01) · (0, 99) + · (0, 01)3 · (0, 99)97 = 0, 9816 . 2 3 Die Poisson-Verteilung ist eine gute Näherung für die Binomialverteilung, falls n groß und p, mit p = µn−1 , klein ist. Mittels X µk e−µ Ψµ (3) = k! k≤x erhalten wir 10 e−1 11 e−1 12 e−1 13 e−1 Ψµ (3) = + + + = 0, 9810 . 0! 1! 2! 3! • Wir betrachten die Anzahl von Telefonanrufen in einer Telefonzentrale. Dabei sei k die Anzahl von Telefonanrufen innerhalb eines Zeitintervalls I := [t0 , t1 ] und µ die durchschnittliche Anzahl von Anrufen pro Zeiteinheit. Sei Ii := [t0 + (i − 1) t1 − t0 t1 − t0 ; t0 + i ], 1 ≤ i ≤ n. n n Daher gilt n [ Ii = I mit Ii ∩ Ij = ∅ für i 6= j . i=1 Die Wahrscheinlichkeit für das Auftreten des Ereignisses, dass k Anrufe in einem Intervall Ii stattfinden, ist für jedes dieser Intervalle gleich. Außerdem sind diese Ereignisse in Ii stochastisch unabhängig von jenen in Ij , für j 6= i. Durch Erhöhung von n verfeinern wir die Unterteilung von I so, dass in einem Intervall Ii höchstens ein Anruf auftreten kann. TH Nürnberg 45 Es sei nun pn : Wahrscheinlichkeit für 1 Anruf in einem Intervall Ii 1 − pn : Wahrscheinlichkeit für 0 Anrufe in einem Intervall Ii . Dann beträgt die Wahrscheinlichkeit für k Anrufe im Gesamtintervall I: n k P (X = k) = bn,p (k) = p (1 − pn )n−k . k n Falls lim npn = µ ist, gilt n→∞ lim bn,pn (k) = n→∞ µk e−µ = ψµ (k) . k! Sind zwei jeweils poissonverteilte Zufallsvariable X1 und X2 stochastisch unabhängig mit X1 ∼ ψµ1 und X2 ∼ ψµ2 , so ist auch X := X1 + X2 poissonverteilt und es gilt X ∼ ψµ mit µ := µ1 + µ2 . Beispiel Sei X1 : Anzahl der Telefonanrufe in der ersten Stunde mit X1 ∼ ψµ1 und µ1 = 3, X2 : Anzahl der Telefonanrufe in der zweiten Stunde mit X2 ∼ ψµ2 und µ2 = 1. Die beiden Variablen seien stochastisch unabhängig. Dann kann die Wahrscheinlichkeit, in beiden Stunden insgesamt einen Telefonanruf zu erhalten, folgendermaßen berechnet werden: (i) Es gilt X ∼ ψµ mit µ = µ1 + µ2 = 4 und ψµ (1) = 41 −4 e = 0, 0733 . 1! (ii) Weiterhin gilt ψ4 (1) = ψ3 (0)ψ1 (1) + ψ3 (1)ψ1 (0) = = e−4 + 3 e−4 = 4 e−4 . 30 −3 11 −1 31 −3 10 −1 e · e + e · e 0! 1! 1! 0! TH Nürnberg 2.4.5 46 Die Gaußsche Normalverteilung Ist p fest, so nähert sich die Binomialverteilung bn,p für n → ∞ einer Gaußschen Normalverteilung. Sei µ ∈ R und σ ∈ R∗+ . Die Zufallsgröße X heißt normalverteilt, N (µ, σ 2 ), wenn die Dichtefunktion (x−µ)2 1 ϕµ,σ (x) = √ e− 2σ2 σ 2π lautet. Die Wahrscheinlichkeitsdichte ϕ0,1 ist die Dichte der Standardnormalverteilung N (0, 1) mit der Verteilungsfunktion Zx t2 1 e− 2 dt . φ(x) = √ 2π −∞ y x Abbildung 2.6 Die Dichte ϕ = ϕ0,1 der Standardnormalverteilung Aus der Wahrscheinlichkeitsdichte zu der Verteilung N (µ, σ 2 ) erhalten wir die Dichte zu N (0, 1) durch die lineare Transformation x−µ x 7→ y = . σ Für den Erwartungswert und die Varianz einer Normalverteilung N (µ, σ 2 ) erhalten wir Z∞ (x−µ)2 1 EX = √ xe− 2σ2 dx = µ σ 2π −∞ TH Nürnberg 47 und 1 Var X = √ σ 2π Z∞ (x − µ)2 e− (x−µ)2 2σ 2 dx = σ 2 . −∞ Entsprechend gilt für eine Standardnormalverteilung N (0, 1): EX = 0 und Var X = 1 . Oft sind die Messfehler einer Messgröße N (µ, σ 2 )-verteilt. Die Wahrscheinlichkeit, dass ein Messwert im Intervall [a, b] liegt, ist dann gegeben als 1 P (a ≤ x ≤ b) = √ σ 2π Zb e− (x−µ)2 2σ 2 dx . a Die Integration Z t2 e− 2 dt lässt sich näherungsweise mit Hilfe der Exponential-Reihe durchführen. Gemäß 1 2 e− 2 t = 1 − t4 t6 t8 t2 + − + ∓ ... 2 · 1! 4 · 2! 8 · 3! 16 · 4! erhalten wir 2 P (µ − σ ≤ x ≤ µ + σ) = √ 2π Z1 1 2 e− 2 t dt 0 r Z1 2 t2 t4 t6 t8 (1 − + − + ∓ ...) dt . = π 2 · 1! 4 · 2! 8 · 3! 16 · 4! 0 Nach gliedweiser Integration ergibt sich für P (µ − σ ≤ x ≤ µ + σ) r 1 t3 2 t5 t7 t9 t− + − + ∓ ... π 3 · 2 · 1! 5 · 4 · 2! 7 · 8 · 3! 9 · 16 · 4! 0 r 2 1 1 1 1 = 1− + − + ∓ ... . π 3 · 2 · 1! 5 · 4 · 2! 7 · 8 · 3! 9 · 16 · 4! TH Nürnberg 48 Anmerkung Es gilt P (µ − σ ≤ X ≤ µ + σ) = 0, 6827 , P (µ − 2σ ≤ X ≤ µ + 2σ) = 0, 9545 , P (µ − 3σ ≤ X ≤ µ + 3σ) = 0, 9973 . Summe und arithmetisches Mittel N (µi , σi2 )-verteilter Zufallsvariablen • Sind Xi , i = 1, ..., n, stochastisch unabhängige N (µi , σi2 )-verteilte Zufallsvariablen, dann ist die Summe n X Xi i=1 gemäß n X N µi , i=1 n X ! σi2 i=1 verteilt. • Sind Xi , i = 1, ..., n, stochastisch unabhängige N (µ, σ 2 )-verteilte Zufallsvariablen, dann ist das arithmetische Mittel n 1X Xi n i=1 gemäß N verteilt. σ2 µ, n TH Nürnberg 49 Beispiel: Zwei Bleche werden aufeinander verschweißt. Die Abweichung dieser Bleche von deren gewünschter Dicke wird durch die Zufallsvariablen X1 und X2 beschrieben. Die Zufallsvariablen Xi , i = 1, 2, seinen stochastisch unabhängig und N (0, σi2 )-verteilt. Dann ist die Zufallsvariable X1 + X2 für die Gesamtdicke N (0, σ 2 )-verteilt, wobei σ 2 := σ12 + σ22 . Beweis Mit der Wahrscheinlichkeitsdichte 1 1 − 1 ( x−µi )2 fXi (x) = √ · · e 2 σi , i = 1, 2 , 2π σi mit µi = 0, erhalten wir Z∞ fX1 +X2 (x) = −∞ 1 1 − 1 ( x−y )2 − 1 ( y )2 · · e 2 σ1 · e 2 σ2 dy . 2π σ1 σ2 Sei σ 2 := σ12 + σ22 und λ−2 := σ1−2 + σ2−2 . Es gilt ( y x−y 2 ) + ( )2 = x2 σ1−2 + y 2 (σ1−2 + σ2−2 ) − 2xyσ1−2 σ1 σ2 λ 2 λ λ ) + x2 ( )4 − x2 ( )4 ) σ1 σ1 σ1 λ λ = x2 σ1−2 + λ−2 (y − x( )2 )2 − x2 ( )2 σ1−2 σ1 σ1 λ λ = x2 σ1−2 (1 − ( )2 ) + λ−2 (y − x( )2 )2 . σ1 σ1 = x2 σ1−2 + λ−2 (y 2 − 2xy( Demnach folgt 1 1 − 12 x2 σ1−2 (1−( σλ )2 ) 1 fX1 +X2 (x) = · e 2π σ1 σ2 Z∞ −∞ Es gilt ( λ 2 1 ∗ ) = 2 −2 −2 < 1 für σi ∈ R+ . σ1 σ1 (σ1 + σ2 ) Sei z := y − x( λ 2 ) . σ1 e − 21 λ−2 (y−x( σλ )2 )2 1 dy . TH Nürnberg 50 Es gilt dz =1 dy Mit √ Z∞ −a2 x2 e dx = π , für a ∈ R∗+ , 2a 0 erhalten wir Z∞ − 21 λ−2 z 2 e −∞ √ √ π 2π dz = 2 q = p −2 . σ1 + σ2−2 2 12 λ−2 Weiterhin gilt σ1−2 (1 − ( 1 + ( σσ21 )2 − 1 1 λ 2 1 −2 −2 ) ) = σ1−2 (1 − 2 −2 ) = σ ) = σ (1 − 1 1 σ1 1 + ( σσ12 )2 1 + ( σσ12 )2 σ1 (σ1 + σ2−2 ) = σ1−2 ( σσ21 )2 1+ ( σσ12 )2 = σ22 1 = σ −2 . 2 + σ1 Demnach ergibt sich für die gesuchte Verteilungsfunktion √ 1 1 − 1 ( x )2 2π fX1 +X2 (x) = · e 2 σ p −2 2π σ1 σ2 σ1 + σ2−2 1 x 2 1 1 = √ · e− 2 ( σ ) p 2π σ12 σ22 (σ1−2 + σ2−2 ) 1 x 2 1 1 = √ · e− 2 ( σ ) p 2 2π σ2 + σ12 1 x 2 1 1 = √ · · e− 2 ( σ ) . 2π σ TH Nürnberg 2.4.6 51 Die χ2 -Verteilung Seien X1 , ..., Xn stochastisch unabhängige N (0, 1)-verteilte Zufallsvariablen. Dann wird die Verteilung der Zufallsgröße Z := n X (Xi + µi )2 i=1 als χ2 -Verteilung mit n Freiheitsgraden und Nichtzentralitätsparameter δ 2 , χ2n (δ 2 ), 2 δ := n X µ2i i=1 bezeichnet. Ist δ = 0, so heißt die Verteilung zentrale χ2 -Verteilung mit n Freiheitsgraden, χ2n . Die Dichte dieser zentralen χ2n -Verteilung lautet fX (x) = x n 1 x 2 −1 e− 2 , für x > 0 . n 2 Γ( 2 ) n 2 Dabei bezeichnet Γ die Gamma-Funktion. f X n=1 n=3 n=5 x Abbildung 2.7 Die Dichte der χ2n -Verteilung für n = 1, 3, 5 Für den Erwartungswert und die Varianz der zentralen χ2n -Verteilung gilt EX = n und Var X = 2n . TH Nürnberg 52 Seien X1 , ..., Xn stochastisch unabhängige N (µX , σX )-verteilte Zufallsvariablen. Dann ist • die Zufallsvariable W = n X (Xi − µX )2 2 σX i=1 χ2n -verteilt. • die Zufallsvariable W̃ = n X (Xi − X̄)2 i=1 2 σX , χ2n−1 -verteilt. 2 Als Schätzwert für σ 2 = σX wird bei unbekanntem µ die korrigierte Stichprobenvarianz n 1 X s = (xi − x̄)2 n − 1 i=1 2 verwendet. Für diese gilt, dass (n − 1) s2 σ2 χ2n−1 -verteilt ist. TH Nürnberg 2.5 53 Grenzwertsätze • Seien Xi stochastisch unabhängige und identisch verteilte Zufallsvariablen mit Erwartungswert µ und Varianz σ 2 . Dann besagt das Gesetz der großen Zahlen, dass lim P (|X̄n − µ| ≥ ) = 0 für alle > 0 , n→∞ wobei X̄n := n 1 X · Xi . n i=1 • Für Zn := √ X̄n − µ n· . σ gilt EZn = 0 und Var Zn = 1. Der zentrale Grenzwertsatz besagt, dass lim P (Zn ≤ z) = φ(z) . n→∞ Demnach ist die Zufallsgröße Zn approximativ N (0, 1)-verteilt. • Ist Xn B(n, pn )-verteilt und gilt lim npn = µ, so lässt sich der Grenzwertsatz von n→∞ Poisson anwenden. Dieser besagt, dass lim P (Xn = k) = n→∞ µk e−µ . k! Demnach ist die Zufallsgröße Xn approximativ P (µ)-verteilt. TH Nürnberg 2.6 54 Übungsaufgaben Aufgabe 1 Bestimmen Sie die Anzahl der Möglichkeiten a) beim dreimaligen Würfeln jeweils eine unterschiedliche Augenzahl zu erhalten, b) aus 49 Zahlen sechs Zahlen auszuwählen, c) eine Tüte mit zwölf Bonbons zu füllen, wenn es fünf verschiedene Sorten Bonbons gibt. Aufgabe 2 Herr Meier ist der Aufsichtsratsvorsitzende der Firma X. Neben ihm gehören noch vier Damen und vier Herren dem Aufsichtsrat an. Bei ihren Sitzungen nehmen die Personen jeweils auf einem der neun Stühle an einem runden Tisch Platz. Wie viele verschiedene Möglichkeiten der Sitzordnung gibt es, wenn • keinerlei Einschränkungen gelten, • die vier Damen immer nebeneinander sitzen, • nur nach Damen und Herren unterschieden wird. Bestimmen Sie außerdem die jeweilige Anzahl an Möglichkeiten, wenn Herr Meier immer auf einem ausgezeichneten Platz, dem Chefsessel, sitzt. Aufgabe 3 Berechnen Sie die Wahrscheinlichkeiten für folgende Ereignisse: a) Bei siebenmaligem Würfeln ist die größte Augenzahl eine Fünf. b) Bei viermaligem Würfeln treten keine zwei gleichen Augenzahlen auf. c) Bei einer Ziehung werden aus einer Urne, die Kugeln mit drei unterschiedlichen Farben enthält, blind vier Kugeln entnommen. Die Urne enthält vier grüne, drei gelbe und drei blaue Kugeln. Berechnen Sie die Wahrscheinlichkeit, dass von jeder Farbe eine gezogen wird. TH Nürnberg 55 Aufgabe 4 Seien X1 und X2 stochastisch unabhängig und N (0, σ 2 )-verteilt mit σ = 2. Weiterhin sei Y1 := X1 und Y2 := µ · X1 + p 1 − µ2 · X2 , mit 0 < µ < 1 . Bestimmen Sie die Korrelation ρ(Y1 , Y2 ). Aufgabe 5 In einem Betrieb gehen pro Monat Aufträge mit einer gewissen Wahrscheinlichkeit ein, die in nachfolgender Tabelle dargestellt ist. Es seien X und Y Zufallsvariablen. Dabei bezeichnet X: die Anzahl der pro Monat eingehenden Aufträge und Y: die Höhe der Aufträge in 1000 e. xi yi 1 30 0, 350 20 0, 080 10 0, 005 2 0, 125 0, 180 0, 085 3 0, 060 0, 010 0, 105 a) Berechnen Sie jeweils den Erwartungswert und die Varianz der Zufallsvariablen X und Y . b) Berechnen Sie den Korrelationskoeffizienten (nach Bravais-Pearson) ρ(X, Y ). Aufgabe 6 Durch einen Simulationstest soll die maximale Betriebsdauer von Waschmaschinen bereits beim Hersteller geprüft und entsprechend in zwei Klassen, A und B, die dem Test zufolge eine längere bzw. kürzere Haltbarkeit kennzeichnen sollen, eingeteilt werden. Im Dauerbetrieb beim Kunden zeigte sich, dass 45% der Waschmaschinen eine kürzere Haltbarkeit und, dass außerdem 90% der Waschmaschinen mit einer kürzeren Haltbarkeit und nur 0, 5% mit einer längeren Haltbarkeit jeweils aus Klasse B stammten. Wie groß ist die Wahrscheinlichkeit dafür, dass eine Waschmaschine der Klasse B eine kürzere Haltbarkeit besitzt? Aufgabe 7 Eine Münze wird 50mal geworfen. Eine Seite wird als ”Zahl”, die andere als ”Wappen” bezeichnet. Wie groß ist die Wahrscheinlichkeit, dass die Zahl der Wappenwürfe um a) höchstens 3 b) 5 oder mehr von 25 abweicht? TH Nürnberg 56 Aufgabe 8 Die Länge von 10 Werkstücken ist N (80, 2)-verteilt. Bestimmen Sie die Wahrscheinlichkeit, dass das arithmetische Mittel der Längen im Intervall [79, 81] liegt. Aufgabe 9 Zwischen dem Hersteller elektronischer Bauteile und einem Produzenten von Fernsehgeräten wurde vereinbart, dass bei der Eingangskontrolle maximal 5% der Bauteile defekt sein darf. Dazu wird aus jeder Lieferung eine Stichprobe von 20 Bauteilen entnommen und überprüft. a) Wie groß ist die Wahrscheinlichkeit, dass eine Lieferung zurückgewiesen wird, wenn 3% der Bauteile defekt sind? b) Wie groß ist die Wahrscheinlichkeit, dass eine Lieferung angenommen wird, obwohl 8% der Bauteile defekt sind? Aufgabe 10 Nehmen Sie an, dass die Zufallsvariable ”Zahl der an einer Börse gehandelten Optionen eines bestimmten Typs O pro Zeitintervall” poissonverteilt sei und die Wahrscheinlichkeit, dass innerhalb einer Stunde keine Option gehandelt werde 0, 006737 betrage. a) Betrachten Sie ein Zeitintervall von zwei Stunden und die Zufallsvariablen – X: Zahl der in der ersten Stunde dieses Intervalls gehandelten Optionen O, – Y : Zahl der in der zweiten Stunde dieses Intervalls gehandelten Optionen O. Geben Sie die Wahrscheinlichkeitsdichte der Zufallsgröße Z := X + Y an. Lässt sich das Ergebnis auf die Summe zweier unabhängiger, poissonverteilter Zufallsvariablen mit den Erwartungswerten EX bzw. EY verallgemeinern? b) Berechnen Sie die Wahrscheinlichkeit, dass insgesamt 7 Optionen O an zwei aufeinanderfolgenden Tagen jeweils im Zeitintervall [11 : 00, 12 : 00) Uhr gehandelt werden. c) Berechnen Sie die Wahrscheinlichkeit, dass mindestens 10 Optionen O in einer Stunde gehandelt werden. d) Wie lang ist ein Zeitintervall, falls die Wahrscheinlichkeit gleich intervall keine Option O gehandelt wird? 1 2 ist, dass in dem Zeit- TH Nürnberg 57 Aufgabe 11 Wir nehmen an, dass 1% von 500 Personen eines bestimmten Gebietes an einer Krankheit K leidet. In einer Stichprobe zur Überprüfung der statistischen Daten werden zufällig die (eindeutigen) Namen von 20 Personen ausgewählt. Wie groß ist die Wahrscheinlichkeit, dass die Stichprobe 0, 1 bzw. 2 Namen von Personen enthält, die an der Krankheit K leiden, falls die Ziehung a) ohne Zurücklegen, b) mit Zurücklegen durchgeführt wird? Aufgabe 12 Ein Elektrofachgeschäft verkauft pro Woche durchschnittlich 3 Navigationsgeräte. Die Zahl der verkauften Geräte sei poissonverteilt. Welcher Vorrat muss mindestens gehalten werden, damit die Nachfrage mit einer Wahrscheinlichkeit von mindestens 0, 9 sofort befriedigt werden kann? Aufgabe 13 Für eine poissonverteilte Zufallsvariable X gelte P (X = 1) = P (X = 2) . a) Bestimmen Sie den Erwartungswert µX . b) Setzen Sie µX = 2 und bestimmen Sie die Wahrscheinlichkeit, dass X einen Wert annimmt, der mindestens 3 beträgt. c) Eine Zufallsvariable Y sei von X unabhängig und poissonverteilt mit µY = 3. Wie groß ist die Wahrscheinlichkeit, dass die Summe von X und Y höchstens 1 beträgt? Aufgabe 14 Nach einer Treibjagd werden überzählige Hirsche am freien Markt angeboten. Der Erlös beim Verkauf eines Hirsches beträgt im Mittel 30 Sack Kartoffeln bei einer Standardabweichung von 5 Sack Kartoffeln. Wie groß ist die Wahrscheinlichkeit höchstens, dass der Erlös beim Verkauf eines Hirsches um mehr als 20% vom Erwartungswert abweicht? TH Nürnberg 58 Aufgabe 15 Ein elektronisches Bauteil habe eine durchschnittliche Haltbarkeit von 10 500 h bei einer Standardabweichung von 400 h. Die Haltbarkeit kann als normalverteilt angenommen werden. a) Bestimmen Sie die Wahrscheinlichkeit dafür, dass ein zufällig ausgewähltes Bauteil eine Haltbarkeit von weniger als 10 450 h besitzt. b) Geben Sie die Wahrscheinlichkeit dafür an, dass eine Stichprobe im Umfang n = 64 als Wert für die durchschnittliche Haltbarkeit weniger als 10 450 h aufweist. c) Geben Sie die Wahrscheinlichkeit dafür an, dass eine Stichprobe im Umfang n = 256 als Wert für die durchschnittliche Haltbarkeit weniger als 10 450 h aufweist. d) Bestimmen Sie ein symmetrisches Intervall um 10 500 h so, dass der Wert der durchschnittlichen Haltbarkeit bei einer Stichprobe vom Umfang n = 256 mit einer Wahrscheinlichkeit von 0, 99 zu diesem Intervall gehört. e) Geben Sie die Wahrscheinlichkeit dafür an, dass der Wert der korrigierten Stichprobenstandardabweichung für n = 11 zwischen 279 h und 506 h liegt. Aufgabe 16 Ein Obsthändler schätzt die Wahrscheinlichkeit, dass innerhalb einer Minute ein Kunde eine Kiste Orangen kaufen möchte, auf 0, 025. Diese Wahrscheinlichkeit soll während des ganzen Tages konstant sein. Der Fall, dass zwei oder mehr Kunden in einer Minute eine Kiste Orangen kaufen möchten, oder der Fall, dass ein Kunde mehrere Kisten kaufen möchten, treten nicht auf. Die Verkäufe erfolgen unabhängig voneinander. a) Wie lautet die Wahrscheinlichkeitsfunktion für die Zufallsvariable ”Anzahl der Kunden, die innerhalb einer Stunde eine Kiste Orangen kaufen”? Begründen Sie Ihre Antwort. b) Wie groß ist die Wahrscheinlichkeit, dass höchstens zwei Kunden in einer Stunde eine Kiste Orangen kaufen? c) Wie groß ist die Wahrscheinlichkeit, dass der Obsthändler innerhalb von zwei Stunden x e oder mehr einnimmt, wobei der Preis pro Kiste 21 x e beträgt. Lösen Sie die Teilaufgaben b) und c) jeweils exakt und durch geeignete Näherung. TH Nürnberg 3 59 Induktive Statistik 3.1 Schätzen von Parametern Seien x1 , ..., xn Beobachtungen von Zufallsgrößen X1 , ..., Xn , θ ein unbekannter Parameter der Verteilungen der Xi und θ̂(X1 , ..., Xn ) eine Stichprobenfunktion. Wird θ mittels θ̂ geschätzt, so heißt θ̂ Schätzfunktion für θ. Arten der Schätzung a) Eine Punktschätzung liegt vor, wenn die aus der Stichprobe erhaltene Ausprägung θ̂(X1 , ..., Xn ) Schätzwert für θ ist, d. h. θ̂(X1 , ..., Xn ) = θ . b) Eine Intervallschätzung liegt vor, wenn ein Intervall reeller Zahlen gegeben ist, innerhalb dessen der gesuchte Parameter mit vorausgesetzter Sicherheit liegt. Eigenschaften von Schätzfunktionen a) Erwartungstreue Schätzfunktionen Eine Schätzfunktion θ̂ für θ heißt erwartungstreu, wenn E θ̂(X1 , ..., Xn ) = θ . Beispiel Wird zur Schätzung des Parameters µ einer N (µ, σ 2 )-Verteilung das arithmetische Mittel der Stichprobe x1 , ..., xn verwendet, d. h. θ̂(x1 , ..., xn ) = x̄ , so ist diese Schätzfunktion erwartungstreu, da n n 1X 1 1X Xi ) = EXi = nµ = µ . E θ̂(X1 , ..., Xn ) = E( n i=1 n i=1 n b) Konsistente Schätzfunktionen Eine Schätzfunktion θ̂n für θ, welche auf n Beobachtungen beruht, heißt konsistent, wenn, für jedes > 0, lim P (|θ̂n − θ| > ) = 0 n→∞ gilt. TH Nürnberg 60 Ein Maß für die Güte eines Schätzers bietet der mittlere quadratische Fehler E(θ̂ − θ)2 . Da E(θ̂ − θ)2 = E θ̂2 − 2(E θ̂)θ + θ2 = E θ̂2 − (E θ̂)2 + (E θ̂)2 − 2(E θ̂)θ + θ2 = Var θ̂ + (E θ̂ − θ)2 gilt, erhalten wir für erwartungstreue Schätzer: E(θ̂ − θ)2 = Var θ̂ . Dieser ist demnach genau dann konsistent, wenn lim Var θ̂ = 0 n→∞ ist. Anmerkung: Die Größe E θ̂ − θ wird Bias oder Verzerrung des Schätzers θ̂ genannt. Beispiel Für die Schätzfunktion x̄ für den Mittelwert µ der N (µ, σ 2 )-Verteilung gilt n 1 X σ2 1 E(X̄ − µ) = Var X̄ = ( )2 Var(Xi ) = ( )2 nσ 2 = n i=1 n n 2 und daher lim Var X̄ = 0 . n→∞ Demnach ist dieser erwartungstreue Schätzer x̄ konsistent. TH Nürnberg 61 Konfidenzintervalle Ist die Irrtumswahrscheinlichkeit, dass ein unbekannter Parameter θ in einem zu bestimmenden Bereich liegt, maximal α, mit 0 < α < 1, so beträgt die Wahrscheinlichkeit, dass θ zu diesem Bereich gehört 1 − α. Zur Bestimmung eines solchen Konfidenzbereichs werden oft Punktschätzer θ̂ für den Parameter θ, verwendet, um Zahlen ũ1 , ũ2 ∈ R ∪ {∞} zu finden, so dass P (ũ1 ≤ θ̂ ≤ ũ2 ) = 1 − α gilt. Die so bestimmende Punktmenge heißt Konfidenzbereich zum Niveau 1 − α. Handelt es sich bei dem Bereich um ein Intervall, so wird es Konfidenzintervall zum Niveau 1 − α genannt. Falls die standardisierte Zufallsvariable θ̂ − Eθ √ Var θ unabhängig von Var θ ist, können wir θ̂ − Eθ ≤ u2 ) = 1 − α P (u1 ≤ √ Var θ verwenden, um, statt der Zahlen ũ1 , ũ2 , die Zahlen u1 , u2 ∈ R ∪ {∞} zu bestimmen. Betrachten wir n Realisationen von unabhängigen N (µ, σ 2 )-verteilten Zufallsvariablen, so gilt für die Schätzfunktion X̄ für µ: E X̄ = µ und n 1 2X σ2 1 2 2 Var X̄ = ( ) Var Xi = ( ) n · σ = . n i=1 n n Demnach ist die Zufallsgröße √ X̄ − µ n σ N (0, 1)-verteilt. Somit gilt √ X̄ − µ P −u1− α2 ≤ n ≤ u1− α2 = 1 − α . σ Dabei ist u1− α2 das 1 − α2 -Quantil der N (0, 1)-Verteilung. TH Nürnberg 62 Ein Konfidenzintervall zum Niveau 1 − α für den Parameter µ ist daher durch σ σ x̄ − √ u1− α2 , x̄ + √ u1− α2 n n gegeben. y α 2 α 2 −u 1− α 2 u1− α x 2 Abbildung 3.1 Das (1 − α2 )-Quantil der N (0, 1)-Verteilung Beispiel Für α = 0, 05 erhalten wir u1− α2 = u0,975 = 1, 96. Ist x̄ = 11, 05, n = 9 und σ = 0, 3, so lautet das Konfidenzintervall zum Niveau 0, 95: [10, 85; 11, 25] . TH Nürnberg 63 Da √ X̄ − µ √ X̄ − µ P n ≥ −u1−α = P n ≤ u1−α = 1 − α σ σ ist, lauten die einseitigen Konfidenzintervalle σ −∞, x̄ + √ u1−α n und σ x̄ − √ u1−α , ∞ . n y α u1−α x Abbildung 3.2 Das (1 − α)-Quantil der N (0, 1)-Verteilung Beispiel Für α = 0, 05 erhalten wir u1−α = u0,95 = 1, 645. Ist x̄ = 11, 05, n = 9 und σ = 0, 3, so lauten die einseitigen Konfidenzintervalle zum Niveau 0, 95: (−∞; 11, 21] und [10, 89; ∞) . TH Nürnberg 3.2 3.2.1 64 Testen von Hypothesen Der Gauß-Test Zur Bestimmung der einseitigen Konfidenzintervalle betrachten wir √ X̄ − µ √ X̄ − µ n ≥ −u1−α = P n ≤ u1−α = 1 − α . P σ σ Im Rahmen eines statistischen Tests können wir uns beispielsweise die Aufgabe stellen, zu untersuchen, ob ein Parameter µ einer N (µ, σ 2 )-Verteilung größer oder kleiner als ein Wert µ0 ist, und hierzu zwischen Nullhypothese H0 und der Alternativhypothese H1 unterscheiden. Wir nehmen dabei an, dass σ 2 bekannt ist. In einem einseitigen Test soll beispielsweise H0 : µ ≤ µ0 gegen H1 : µ > µ0 untersucht werden. Dabei können folgende Fehler auftreten: • Fehler 1. Art (α-Fehler): Obwohl die Aussage von H0 wahr ist, wird dem Test zufolge angenommen, die Aussage von H1 sei wahr. • Fehler 2. Art (β-Fehler): Obwohl die Aussage von H1 wahr ist, wird dem Test zufolge angenommen, die Aussage von H0 sei wahr. Führt das Entscheidungsverfahren mit einer Wahrscheinlichkeit von höchstens dem Wert α zu einem Fehler 1. Art, so wird der Test als Test zum Niveau α bezeichnet. Dann wird α auch Signifikanzniveau genannt. TH Nürnberg 65 P ( x) Fehler 2. Art μ0 Fehler 1. Art u1−α μ1 x Abbildung 3.3 Einseitiger Gauß-Test Sei Pµ die Wahrscheinlichkeit bei Vorliegen des Wertes µ. Ist µ = µ0 , so gilt √ X̄ − µ0 > u1−α ) = α . Pµ ( n σ Ist hingegen µ < µ0 , so gilt √ X̄ − µ0 Pµ ( n > u1−α ) < α . σ Ein Test zum Niveau α liegt vor, wenn die Entscheidung für die Annahme von • H1 getroffen wird, falls √ x̄ − µ0 n > u1−α , σ • H0 getroffen wird, falls √ x̄ − µ0 n ≤ u1−α . σ Bei dem als bekannt vorausgesetztem σ 2 setzen wir z := x̄ − µ0 √ n. σ TH Nürnberg 66 Überprüfen wir H0 gegen H1 , so wird die Nullhypothese, in unserem einseitigen Gauß-Test, verworfen, falls z > u1−α gilt. In dem zweiseitigen Testproblem H0 : µ = µ0 gegen H1 : µ 6= µ0 wird die Nullhypothese verworfen, falls |z| > u1− α2 gilt. 3.2.2 Prüfung des Anteilswertes der Grundgesamtheit Ist der Stichprobenumfang groß, so können wir folgende Prüfgrößen z bei einer Auswahl • mit Zurücklegen P̂ − P0 z=q P0 (1−P0 ) n • ohne Zurücklegen z=q P̂ − P0 P0 (1−P0 ) n · N −n N −1 verwenden. Dabei bezeichnet P̂ den in Abschnitt 2.4.2 erklärten Stichprobenanteilswert, P0 den in der Hypothese formulierten Anteilswert, N die Anzahl der Elemente der Grundgesamtheit und n die Anzahl der Elemente der Stichprobe. Beispiel Ein Fahrradhersteller befragt 2000 Händler im Dezember des Jahres 2016 zu den Bestellungen im nächsten Jahr. Dabei erfährt er, dass 40% der Händler, ihre Bestellungen im Jahr 2017 TH Nürnberg 67 erhöhen möchten. Im Februar 2017 vermutet er, dass mehr als 40% der Händler, ihre Bestellungen im Laufe des Jahres erhöhen. In einer Befragung von 500 der 2000 Händler zeigt sich, dass 45% der Händler ihre Bestellungen im Jahr 2017 sicher erhöhen werden oder bereits erhöht haben. Eine Überprüfung der Vermutung des Produzenten ergibt z=q 0, 45 − 0, 40 0,4·0,6 500 · = 2, 63 . 2000−500 2000−1 Demnach wird, bei einem vorausgesetzten Signifikanzniveau von α = 0, 05, die Nullhypothese P ≤ P0 = 0, 40 abgelehnt und die Alternativhypothese P > P0 = 0, 40 angenommen. TH Nürnberg 3.2.3 68 Der χ2 -Anpassungstest Der χ2 -Anpassungstest für die Normalverteilung Gegeben seien n stochastisch unabhängige Zufallsvariablen X1 , ..., Xn mit den zugehörigen Realisierungen x1 , ..., xn . Um die Hypothesen • H0 : Die Grundgesamtheit ist N (µ0 , σ02 )-verteilt • H1 : Die Grundgesamtheit ist nicht N (µ0 , σ02 )-verteilt zu testen, werden, unter der Annahme, dass H0 wahr ist, berechnete mit beobachteten Wahrscheinlichkeiten für die Zugehörigkeit der Größen xi zu geeigneten Klassen durch eine Testgröße T verglichen. Anhand dieser Testgröße, die unter H0 asymptotisch χ2 -verteilt ist, wird dann entschieden, welche der Hypothesen angenommen wird. Dabei verfahren wir folgendermaßen: • Das uneigentliche Intervall (−∞, ∞) = R wird in k disjunkte Intervalle Ii unterteilt. • Die Anzahl der Beobachtungen ni , i = 1, ..., k, der Messwerte x1 , ..., xn in jedem Ii wird bestimmt. • Unter der Annahme, dass H0 wahr ist, werden die Wahrscheinlichkeiten pi = P (X ∈ Ii ) , i = 1, ..., k , und die Werte Ei := npi , i = 1, ..., k , berechnet. • Wir setzen voraus, dass sich die Zufallsvariablen ni unabhängige, P (µ)-verteilte Zufallsvariablen sind, die der Nebenbedingung k X ni = n i=1 genügen. Da für hinreichend große n die Zufallsvariable Zi = ni − Ei √ Ei TH Nürnberg 69 näherungsweise N (0, 1)-verteilt ist, ist die Größe T := k X 1 (ni − Ei )2 Ei i=1 approximativ χ2k−1 -verteilt. Dabei gilt die Approximation als hinreichend genau, falls nicht mehr als 20% der Werte Ei kleiner als 5 und kein Wert Ei kleiner als 1 ist. Wir fordern darüber hinaus, dass – k X Ei = 1, i=1 – Ei ≥ 5 für alle i = 1, 2, ..., k. Sollte letztere Bedingung nicht erfüllt sein, so werden Klassen zusammengefasst. Die Nullhypothese H0 zum Signifikanzniveau α wird verworfen, falls • alle Wahrscheinlichkeiten pi bestimmt sind und T > χ2k−1;1−α gilt, • nicht alle Wahrscheinlichkeiten pi bestimmt sind und T > χ2k−1−r;1−α gilt, wobei r die Zahl der aus der Stichprobe zu schätzenden Parameter angibt. TH Nürnberg 70 Der χ2 -Anpassungstest für die Poisson-Verteilung Um die Hypothesen • H0 : Die Grundgesamtheit ist P (µ)-verteilt • H1 : Die Grundgesamtheit ist nicht P (µ)-verteilt zu testen, nutzen wir das oben vorgestellte Verfahren. Beispiel Es soll mit Hilfe eines χ2 -Anpassungstests zum Signifikanzniveau α = 0, 05 überprüft werden, ob die Anzahl der an einer Börse gehandelten Optionen innerhalb eines bestimmten Zeitintervalls P (µ)-verteilt ist. Hier wird ein Zeitintervall von 15 min vorausgesetzt und die Anzahl der Optionen in n = 50 Zeitintervallen der Intervalldauer 15 min gezählt. Anzahl l Anzahl ml der Zeitintervalle Anzahl l Anzahl ml der Zeitintervalle der Optionen mit l Optionen der Optionen mit l Optionen 0 1 6 7 1 5 7 1 2 8 8 1 3 10 9 3 4 6 10 2 5 6 > 10 0 Demnach erhalten wir i Ii ni Ei 1 (−∞, 1] 7 9, 95 2 (1, 2] 8 11, 2 3 (2, 3] 10 11, 2 4 (3, 4] 6 8, 4 5 (4, ∞) 20 9, 25 Daher gilt für die Testgröße 5 X 1 T = (ni − Ei )2 = 15, 8 . Ei i=1 TH Nürnberg Da χ25−1;0,95 = 9, 5 < T gilt, wird die Nullhypothese verworfen. 71 TH Nürnberg 3.3 72 Übungsaufgaben Aufgabe 1 Bei den Bundesjugendspielen wird die Zeit des Siegers bei einem 100 m-Lauf gestoppt. Um die Genauigkeit der Messung zu erhöhen, werden die Messungen eines Laufs von verschiedenen Lehrern gleichzeitig vorgenommen. Dabei ergeben sich folgende Messwerte: Nr. der Messung 1 Messwert in s 11,2 2 10,6 3 11,0 4 10,9 5 11,4 6 11,1 7 10,7 8 11,3 9 10,8 10 11,0 Die Messwerte x1 , ..., x10 werden als Realisationen von 10 unabhängigen N (µ, 0, 09)-verteilten Zufallsvariablen vorausgesetzt. Bestimmen Sie das Konfidenzintervall für den Parameter µ zum Niveau 0, 95. Aufgabe 2 Eine Maschine verpackt Zucker in 500 g-Tüten. Die tatsächliche Füllmenge sei N (µ, σ 2 )-verteilt, wobei σ = 2, 7 g sei. Um zu bestimmen, ob die Maschine eine von der angegebenen Füllmenge µ0 = 500 g abweichende Zuckermengen abfüllt, wird die jeweilige Masse von 9 gefüllten Tüten bestimmt. Die Messwerte lauten Nr. der Messung 1 Messwert in g 505 2 501 3 497 4 503 5 499 6 502 7 497 8 499 9 504 Es soll H0 : µ ≤ µ0 gegen H1 : µ > µ0 getestet werden. Dabei werde ein Test zum Niveau 0, 025 durchgeführt. Welche dieser Hypothesen wird angenommen? TH Nürnberg 73 Aufgabe 3 Zur Schätzung des Arbeitsaufwandes zur Vorbereitung auf eine Klausur, wurde die Dauer zur Bearbeitung einiger Übungsaufgaben gemessen. Dabei wird angenommen, dass die Dauer normalverteilt mit Standardabweichung σX = 12 Min. ist. Es werden unabängig voneinander 10 Zeitmessungen durchgeführt. Diese ergeben (jeweils in Minuten) 106 135 117 127 112 108 130 113 124 128 a) Schätzen Sie den durchschnittliche Bearbeitungszeit für die Übungsaufgaben. b) Berechnen Sie ein Konfidenzintervall für diese durchschnittliche Tätigkeitsdauer, wobei 1 − α = 0, 95 sei. c) Wie viele Zeitmessungen müssen durchgeführt werden, damit die Länge des Konfidenzintervalls höchstens 10 Minuten beträgt, wobei 1 − α = 0, 95 sei. Aufgabe 4 Ein Kartoffelhändler behauptet, dass das Gewicht seiner Kartoffeln normalverteilt sei. Eine zufällig ausgewählte Stichprobe von 200 Kartoffeln ergibt folgende Verteilung: i 1 2 3 4 5 m in g [100, 160) [160, 180) [180, 200) [200, 240) [240, 300) ni 19 41 78 52 10 a) Berechnen Sie die Varianz der Stichprobe, wenn der Stichprobenmittelwert mit 192 g bekannt ist. b) Prüfen Sie die Behauptung, dass das Gewicht der Kartoffeln normalverteilt sei, wobei α = 0, 05 vorgegeben ist. c) Welche Konsequenzen hätte es, bei sonst gleichen Ergebnissen, für die Durchführung und das Ergebnis des Tests, falls der Händler behauptet hätte, dass das Gewicht der Kartoffeln normalverteilt mit einem Erwartungswert von 192 g sei? d) Wie ändert sich das Ergebnis von Aufgabenteil b), wenn die Varianz des Gewichts in der Gesamtheit 1000 g 2 beträgt? TH Nürnberg 74 Aufgabe 5 Ein Verein erzielt Einnahmen vornehmlich aus Mitgliedsbeiträgen, die zu Beginn eines jeden Jahres gezahlt werden und zusätzlich durch eine in jedem III. Tertial durchgeführte Veranstaltung. Die Entwicklung des Kassenbestandes ist in folgender Tabelle angegeben: Jahr 2009 Tertial I II III Bestand in e 7110 5220 5770 2010 I II III 6440 5030 5510 2011 I II III 6810 4890 5240 2012 I II III 6210 4430 5230 a) Zeichnen Sie die Zeitreihe. b) Bestimmen Sie (i) die Regressionsgerade mittels der Methode der kleinsten Quadrate, (ii) die Reihe der gleitenden Durchschnitte der Ordnung 3, wobei als gleitender Durchschnitt yi∗ der Ordnung 2m + 1 zum Beobachtungswert yi , i = 1, ..., n , yi∗ m X 1 := yi+k , für i = m + 1, m + 2, ..., n − m , 2m + 1 k=−m definiert ist, (iii) die empirischen Autokorrelationen der Zeitreihe, wobei als empirische Autokorrelation r(m) := c(m) , c(0) mit n−m 1X c(m) := (yi − ȳ)(yi+m − ȳ) , m = 0, 1, ..., n − 1 n i=1 und n c(0) := 1X (yi − ȳ)2 , n i=1 definiert ist, und stellen Sie Ihre Ergebnisse graphisch dar. c) Bestimmen Sie eine Näherungsfunktion für die Kassenbestände mittels harmonischer Analyse. TH Nürnberg Symbolverzeichnis Allgemeine Notation N = {1, 2, 3, ....} Menge der natürlichen Zahlen N0 = {0, 1, 2, 3, ....} Z = {0, ±1, ±2, ....} Menge der ganzen Zahlen p Q = { | p, q ∈ Z, q 6= 0} Körper der rationalen Zahlen q R Körper der reellen Zahlen R+ := {x ∈ R | x ≥ 0} R∗ := {x ∈ R | x 6= 0} R∗+ := {x ∈ R | x > 0} C Körper der komplexen Zahlen Symbole zur Statistik B(n, p) Binomialverteilung mit den Parametern n und p N (µ, σ 2 ) Normalverteilung mit Mittelwert µ und Varianz σ 2 P (λ) Poisson-Verteilung mit dem Parametern λ χ2n χ2 -Verteilung mit n Freiheitsgraden χ2n;γ γ-Quantil der χ2 -Verteilung mit n Freiheitsgraden 75 TH Nürnberg 76 Literatur [1] I. N. Bronstein, K. A. Semendjajew, Taschenbuch der Mathematik, B. G. Teubner, Nauka [2] G. Buttler, S. Maaß, Aufgabensammlung zur Grundausbildung in Statistik, Teil I: Deskriptive Statistik, Teil II: Induktive Statistik, Verlag der Universitätsbuchhandlung Büttner & Co., Nürnberg, 1992, 1993 [3] J. Hartung, Statistik, Oldenbourg [4] J. Hartung, B. Heine, Statistik-Übungen, Oldenbourg [5] B. Jann, Einführung in die Statistik, Oldenbourg [6] J. Lehn, H. Wegmann, S. Rettig, Aufgabensammlung zur Einführung in die Statistik, Springer [7] S. Maaß, Statistik I und II, Vorlesungsskripten, Universität Erlangen-Nürnberg, Volkswirtschaftliches Institut, Lehrstuhl Statistik I [8] F. Reinhardt, H. Soeder, dtv-Atlas zur Mathematik, Deutscher Taschenbuch Verlag [9] SMART, Mathematik- und Physikaufgabensammlung, Universität Bayreuth, http://btmdx1.mat.uni-bayreuth.de/smart/wp/