2.3. Stochastik Grundlagen Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist. Die RELATIVE HÄUFIGKEIT einer Merkmalsausprägung gibt an mit welchem Anteil diese in der Grundgesamtheit eingetreten ist. Werden die Ergebnisse in der Reihenfolge ihres Eintretens aufgeschrieben, nennt man eine solche Darstellung eine URLISTE. Bei Verkehrszählungen ist es üblich, STRICHLISTEN z.B. für PKW und LKW anzufertigen. |||| Das arithmetische Mittel x wird berechnet als Quotient aus der Summe aller beobachteten Werte und dem Umfang der Stichprobe. x x2 ... xn x 1 n Der Mittelwert lässt sich auch berechnen als Summe der Produkte aus den beobachteten Werten und den dazugehörigen relativen Häufigkeiten. x x1 h1 x2 h2 ... xn hn Bei Zufallsversuchen mit “Ausreißern” liefert der Mittelwert kein geeignetes Ergebnis. Der ZENTRALWERT oder MEDIAN z halbiert die der Größe nach geordnete Datenreihe. Bei gerader Anzahl der Daten ist der Median gleich dem Mittelwert der beiden mittleren Werte. Der MODALWERT m ist der am häufigsten beobachtete Wert. Werden Zufallsexperimente (z.B. Würfeln) ausreichend oft durchgeführt, so nähert sich die relative Häufigkeit für ein Ereignis einem stabilen Wert. Dieser stabile Wert ist die WAHRSCHEINLICHKEIT P(E) (Empirisches Gesetz der großen Zahlen). Anzahl der für E günstigen Ergebnisse Anzahl der möglichen Ergebnisse Die Wahrscheinlichkeit eines Ereignisses ist immer kleiner oder gleich 1. P( E ) Die Wahrscheinlichkeit eines sicheren Ereignisses ist immer gleich 1. Die Wahrscheinlichkeit eines unmöglichen Ereignisses ist immer gleich 0. Die Wahrscheinlichkeit eines Ereignisses E und des Gegenereignisses beträgt zusammen immer 1. Mathematik 13 GK 1 Gym 9 Sind alle Ergebnisse eines Zufallsexperimentes gleichwahrscheinlich (z.B. Würfeln), so gilt: Anzahl der Ergebnisse , bei denen A e int ritt P( A) Anzahl der möglichen Ergebnisse (LAPLACE-Formel) ELEMENTARE SUMMENREGEL Betrachtet man bei einem Zufallsversuch mehrere Ergebnisse und fragt nach der Wahrscheinlichkeit, dass eines dieser Ergebnisse eintritt, so fasst man diese Ergebnisse zu einem Ereignis zusammen. Hat ein Ereignis E die Ergebnisse a1 bis an, so gilt P (E) = P (a1) + P (a2) + … + P (an) ALLGEMEINE SUMMENREGEL PE PE1 PE2 PE1 E2 für E E1 E2 KOMPLEMENTÄRREGEL Wenn E1 E2 und E1 E2 S , dann gilt P (E1) + P (E2) = 1 PFADREGEL 1: Die Wahrscheinlichkeit eines Pfades ist gleich dem Produkt der Wahrscheinlichkeiten entlang des Pfades im Baumdiagramm. PFADREGEL 2: Die Wahrscheinlichkeit eines Ereignisses ist gleich der Summe der Wahrscheinlichkeiten aller Pfade, die für dieses Ereignis günstig sind. Kombinatorische Zählprobleme FAKULTÄT 0! = 1, 1! = 1 n! = n · (n – 1) · (n – 2) · … · 3 · 2 · 1 n BINOMIALKOEFFIZIENT k n, k mit k < n gilt: n n! k k!n k ! Ist eine Menge mit n Elementen gegeben, so bezeichnet man die möglichen Anordnungen aller dieser Elemente als PERMUTATION. Permutationen ohne Wiederholung Sind in einer Menge alle n Elemente untereinander verschieden, so gibt es n! Permutationen. Permutationen mit Wiederholung Sind in einer Menge mit n Elementen r, s, t, … gleiche, so gibt es n! Permutationen. r!s!t!... Ist eine Menge von n verschiedenen Elementen gegeben, so bezeichnet man die möglichen Anordnungen aus je k Elementen dieser Menge in jeder möglichen Reihenfolge als VARIATION. Mathematik 13 GK 2 Gym 9 Variationen mit Zurücklegen Kann jedes der k Elemente aus einer n-elementigen Menge beliebig oft vorkommen, so gibt es nk Variationen. Variationen ohne Zurücklegen Kann jedes der k Elemente aus einer n-elementigen Menge nur einmal vorkommen, so gibt es n! Variationen. n k ! Ist eine Menge mit n verschiedenen Elementen gegeben, so bezeichnet man die möglichen Anordnungen aus je k Elementen dieser Menge ohne Berücksichtigung ihrer Reigenfolge als KOMBINATIONEN. Kombinationen mit Wiederholung Kann jedes der k Elemente aus einer n-elementigen Menge beliebig oft vorkommen, so gibt n k 1 Kombinationen. es k Kombinationen ohne Wiederholung Kann jedes der k Elemente aus einer n-elementigen Menge nur einmal vorkommen, so gibt es n Kombinationen. k Wahrscheinlichkeitsverteilung von Zufallsgrößen ZUFALLSGRÖßEN sind quantitative Merkmale bei Zufallsvsersuchen. Zu jedem Ergebnis eines solchen Zufallsversuches gehört ein Wert der Zufallsgröße. Eine Funktion, die jedem Wert einer Zufallsgröße eine Wahrscheinlichkeit zuordnet, heißt eine WAHRSCHEINLICHKEITSVERTEILUNG. Eine Zufallsgröße X nehme die Werte a1; a2; … an mit den Wahrscheinlichkeiten P (a1); P (a2); … P (an) an. Dann wird der zu erwartende Mittelwert E(X) der Verteilung als ERWARTUNGSWERT der Zufallsgröße bezeichnet. Es gilt: E(X) = a1 · P(X=a1) + a2 · P(X=a2) + ... + an · P(X=an) Kenngrößen der Streuung um den Mittelwert Die SPANNWEITE d ist die Differenz zwischen dem größten und dem kleinsten auftretenden Wert. d = xmax - xmin Die MITTLERE QUADRATISCHE ABWEICHUNG s2 kennzeichnet die Streuung der Werte um den Mittelwert. Sie wird berechnet mit: ( x x) 2 n1 ( x 2 x) 2 n2 ... ( x n x) 2 nn s2 1 n 2 2 2 oder s ( x1 x) h1 ( x2 x) h2 ... ( xn x) 2 hn Eine große Streuung lässt auf einen nicht geeigneten Mittelwert schließen. Mathematik 13 GK 3 Gym 9 Varianz und Standardabweichung bei Wahrscheinlichkeitsverteilungen Eine Zufallsgröße X mit dem Erwartungswert nehme die Werte a1 …an mit den Wahrscheinlichkeiten P(X = a1) … P(X = an) an. Als VARIANZ bezeichnet man die mittlere quadratische Abweichung der Zufallsgröße X vom Erwartungswert . V(x) = (a1 – )2 · P(X = a1) + … + (an – )2 · P(X = an) Die Wurzel aus der Varianz heißt STANDARDABWEICHUNG . = V (X ) Bernoulli-Versuche BERNOULLI-VERSUCH (1) Ein Zufallsversuch mit nur zwei möglichen Ergebnissen heißt BERNOULLI-VERSUCH. Die Ergebnisse bezeichnet man als ERFOLG und MISSERFOLG. (2) Wird ein Bernoulli-Versuch n mal durchgeführt und ändert sich die Wahrscheinlichkeit p für einen Erfolg und die Wahrscheinlichkeit q (= p – 1) für einen Misserfolg nicht, so spricht man von einem n-stufigen Bernoulli-Versuch (BERNOULLIKETTE). Binomialverteilung Gegeben ist ein n-stufiger Bernoulli-Versuch mit der Erfolgswahrscheinlichkeit p und der Misserfolgswahrscheinlichkeit q = 1 – p. Die Wahrscheinlichkeitsverteilung der Zufallsgröße X: Anzahl der Erfolge heißt BINOMINALVERTEILUNG. SATZ: Die Wahrscheinlichkeit für k Erfolge berechnet sich nach der Formel: n P( X k ) p k q n k k Binomialverteilungen lassen sich auch mit Tabellenkalkulationen berechnen. In Excel dienen dazu folgende Funktionen: Binomialverteilung: =BINOMVERT(k;n;p;FALSCH) kumulierte Binomialverteilung: =BINOMVERT(k;n;p;WAHR) n= p= Anzahl der Erfolge k 0 1 2 3 4 5 P(X=k) 0,03125 0,15625 0,31250 0,31250 0,15625 0,03125 P(X<=k) 0,03125 0,18750 0,50000 0,81250 0,96875 1,00000 Wahrscheinlichkeit für „Erfolg“ weniger als 3 Mal Wappen höchstens 3 Mal Wappen genau 3 Mal Wappen Mathematik 13 GK Anzahl der Versuche 5 0,5 4 Gym 9 „Mindestens 1-mal Wappen“ entspricht „höchstens 4-mal Zahl“. Man erhält aus der Tabelle für k = 4 P(X k) = 0,96875. „Mehr als 1-mal Wappen“ (P(X > 1) ist das Gegenereignis zu „höchstens 1-mal Wappen“ P(X 1). Damit ist (P(X > 1) = 1 – 0,1875 = 0,8125. Kumulierte Binomialverteilung In Tafelwerken und anderen Tabellen findet man oft kumulierte Binomialverteilungen. Beispiel: Etwa 70 % der Haushalte verfügen über einen Internetzugang. 100 Haushalte werden zufällig befragt. Mit welcher Wahrscheinlichkeit haben von den 100 Haushalten genau 60 Haushalte mehr als 60 Haushalte mindestens 60 Haushalte höchstens 60 Haushalte mehr als 60, aber weniger als 70 Haushalte einen Internetanschluss? Wir benutzen die Tabelle für n = 100 und p = 0,7. Wir finden P(X 60) = 0,0210 und P(X 59) = 0,0125 Durch Subtraktion erhalten wir P(X = 60) = 0,0210 –0,0125 = 0,0085. Wir erhalten P(X>60) als Gegenereignis zu P(X 60) P(X>60) = 1 – 0,0210 = 0,9790. „Mindestens 60“ ist das Gegenereignis zu „höchstens 59“ P(X 60) = 1 – 0,0125 = 0,9875 In der Tabelle finden wir P(X 60) = 0,0210. Von der Wahrscheinlichkeit für höchstens 69 (P(X 69) = 0,4509) zieht man die Wahrscheinlichkeit für höchsten 60 (P(X 60 = 0,0210) ab. P(60 < X < 70) = 0,4509 – 0,0210 = 0,4299 Erwartungswert, Varianz und Standardabweichung bei Binomialverteilungen ERWARTUNGSWERT EINER BINOMIALVERTEILUNG Gegeben sei ein n-stufiger Bernoulliversuch mit der Erfolgswahrscheinlichkeit p. Für den Erwartungswert der Zufallsgröße X: Anzahl der Erfolge gilt: = E(X) = n · p Das Maximum einer Binomialverteilung liegt in der Nähe des Erwartungswertes. Mathematik 13 GK 5 Gym 9 VARIANZ UND STANDARDABWEICHUNG BEI BINOMIALVERTEILUNGEN Gegeben sei ein n-stufiger Bernoulliversuch mit der Erfolgswahrscheinlichkeit p und der Misserfolgswahrscheinlichkeit q = 1 – p. Die Zufallsgröße X: Anzahl der Erfolge hat die VARIANZ V(X) = n · p · q und die STANDARDABWEICHUNG n p q Zwischen dem Radius der Umgebung um einen Erwartungswert und der Wahrscheinlichkeit der Umgebung gibz es eine eindeutige Zuordnung. Diese ist umso genauer, je größer n ist. Dabei muss > 3 sein (Laplace-Bedingung). Für > 3 gilt: P( – r X +r) 0,90 0,95 0,99 r 1,64 1,96 2,58 Hypothesentests Der Alternativtest Testergebnis Entscheidung für H1 Entscheidung für H2 H1 ist wahr Sicherheit 1. Art Fehler 1. Art H2 ist wahr Fehler 2. Art Sicherheit 2. Art Realität Beim Testen von Hypothesen unterscheidet man den Annahmebereich und den Ablehungsoder Verwerfungsbereich. Liegt ein Ergebnis im Verwerfungsbereich, hält man die Hypothese für falsch. Beim Testen von Hypothesen können zwei Fehler unterlaufen: Fehler 1. Art: Eine wahre Hypothese wird verworfen. Fehler 2. Art: Eine falsche Hypothese wird nicht verworfen. Die Wahrscheinlichkeit für einen Fehler 1. Art wird mit bezeichnet, diejenige für einen Fehler 2. Art mit . Zweiseitiger Hypothesentest Eine Münze wird 500-mal geworfen. Für „Wappen“ gilt p = 0,5. Es ist also = 250. Es soll untersucht werden, ob die Münze in Ordnung ist (Laplace-Versuch). Wir stellen eine Hypothese auf. Die erste Hypothese wird auch NULLHYPOTHESE genannt. H0: Die Münze ist in Ordnung. (p = 0,5) H1: Die Münze ist „gezinkt“. (p 0,5; Gegenhypothese zu H0) Mathematik 13 GK 6 Gym 9 H0 soll angenommen werden, wenn die Sicherheitswahrscheinlichkeit 95 % beträgt. Es sind: n = 500 p = 0,5 V(X) = 125 = 11,2 > 3 (Laplace-Bedingung erfüllt) 1,96 · = 1,96 · 21,95 r = 22 Treten bei 500 Versuchen zwischen 228 und 272 mal „Wappen“ ein, so kann die Münze als echt angesehen werden. 228 und 272 sind hier die kritischen Werte. Einseitiger Hypothesentest Beim zweiseitigen Hypothesentest untersucht man signifikante Abweichungen nach unten und oben. Oft sind aber nur Abweichungen nach einer Seite (unten (links) oder oben (rechts)) interessant. Dann führt man einen einseitigen (linksseitigen oder rechtsseitigen) Hypothesentest durch. Beispiel: 24 von 300 geprüften Schokoladentafeln haben Untergewicht. Zulässig ist das bei maximal 5 % der Produktion. n = 300; p = 0,05; = 15; = 3,77 > 3 Es geht also bei diesem Zufallsversuch lediglich um eine Abweichung nach oben. Wir führen einen rechtsseitigen Hypothesentest durch. Binomialverteilung H0: p = 0,05 H1: p > 0,05 0,15000 Wir wählen wegen der 90 % die 1,64--Umgebung. 0,11000 0,13000 90 % 1,64 · 3,77 = 6,18 5% 5% 0,09000 r=6 0,07000 Haben mehr als 15 + 6 = 21 Schokoladentafeln Untergewicht, so liegt ein Produktionsfehler vor. In diesem Fall ist also die Nullhypothese zu verwerfen. 0,05000 0,03000 Mathematik 13 GK 7 Ablehnungsbereich Gym 9 66 63 60 57 54 51 48 45 42 39 36 33 30 27 24 21 18 15 9 12 6 -0,01000 3 0 0,01000