Statistik, Datenanalyse und Simulation Dr. Michael O. Distler [email protected] Mainz, 24. Oktober 2007 Statistik, Datenanalyse und Simulation 1. Statistik Wir denken an Experimente, bei deren Durchführung die Variable X , um die es dabei geht, verschiedene Werte annehmen kann. Möglichkeiten: 1 X kann nur einen Wert annehmen oder nicht annehmen: ja/nein-Experiment Das Annehmen des Wertes nennen wir “das Eintreten des Ereignisses”, das Nicht-Annehmen das Nicht-Eintreten. 2 X kann mehrere diskrete Werte annehmen 3 X kann kontinuierliche Werte annehmen Wahrscheinlichkeit 1 für das Eintreten des Ereignisses, 2 dafür, dass die Variable X den Wert xi annimmt, 3 dafür, dass die Variable X den Wert im Intervall [xi , xi + ∆x annimmt. Statistik, Datenanalyse und Simulation 1.1 Wahrscheinlichkeit Zufälliges Ereignis: Kann ein “gewisses Ereignis” unter gegebenen Bedingungen entweder eintreten oder nicht eintreten, so nennt man dieses Ereignis zufällig. Wahrscheinlichkeit: Quantitative Abschätzung der Möglichkeit für das Eintreten des Ereignisses. Pragmatisch: p(E) = n(E) N für N sehr groß p steht für probability n(E) = Zahl des Eintretens des Ereignisses N = Zahl der Herbeiführung der gegebenen Bedingungen (Durchführung des Experiments) Zufallsgröße: Variable deren Wert vom Zufall abhängt. Beispiel: Augenzahl beim Werfen eines Würfels Statistik, Datenanalyse und Simulation 1.1 Wahrscheinlichkeit Zufälliges Ereignis: Kann ein “gewisses Ereignis” unter gegebenen Bedingungen entweder eintreten oder nicht eintreten, so nennt man dieses Ereignis zufällig. Wahrscheinlichkeit: Quantitative Abschätzung der Möglichkeit für das Eintreten des Ereignisses. Pragmatisch: p(E) = n(E) N für N sehr groß p steht für probability n(E) = Zahl des Eintretens des Ereignisses N = Zahl der Herbeiführung der gegebenen Bedingungen (Durchführung des Experiments) Zufallsgröße: Variable deren Wert vom Zufall abhängt. Beispiel: Augenzahl beim Werfen eines Würfels Normierung? Statistik, Datenanalyse und Simulation 1.1 Wahrscheinlichkeit Zufälliges Ereignis: Kann ein “gewisses Ereignis” unter gegebenen Bedingungen entweder eintreten oder nicht eintreten, so nennt man dieses Ereignis zufällig. Wahrscheinlichkeit: Quantitative Abschätzung der Möglichkeit für das Eintreten des Ereignisses. Pragmatisch: p(E) = n(E) N für N sehr groß p steht für probability n(E) = Zahl des Eintretens des Ereignisses N = Zahl der Herbeiführung der gegebenen Bedingungen (Durchführung des Experiments) Zufallsgröße: Variable deren Wert vom Zufall abhängt. Beispiel: Augenzahl beim Werfen eines Würfels Normierung? p(Ei ) = n(Ei ) , N pi = p(Ei ) < 1, X pi = 1 Statistik, Datenanalyse und Simulation Kombination von Wahrscheinlichkeiten Gegeben sind zwei Arten von Ereignissen, A und B. Die Wahrscheinlichkeit für das Autreten von A ist p(A) (B: p(B)). Dann ist die Wahrscheinlichkeit, dass A oder B eintritt: p(A oder B) = p(A) + p(B) − p(A und B) Falls sich die Ereignisse A und B gegenseitig ausschließen, gilt p(A und B) = 0 Beispiel: Zufälliges Ziehen aus einem Deck von Skatkarten. p(As oder Pik) = 8 1 11 4 + − = 32 32 32 32 Spezialfall: B = Ā (Nicht-Eintreten von A). p(A und Ā) = p(A) + p(Ā) = 1 Statistik, Datenanalyse und Simulation Die Wahrscheinlichkeit, dass A und B zusammen eintreten, ist: p(A und B) = p(A) · p(B|A). p(B|A) ist die bedingte Wahrscheinlichkeit, dass das Ereignis B eintritt, vorausgesetzt, das Ereignis A ist eingetreten. Falls die Ereignisse A und B unabhängig sind - aber auch nur dann - gilt p(B|A) = p(B), bzw. p(A und B) = p(A) · p(B) Statistik, Datenanalyse und Simulation Bayes’ Theorem Aus der Gleichung p(A und B) = p(A) · p(B|A) = p(B) · p(A|B) erhält man Bayes’ Theorem: p(A|B) = p(B|A) · p(A) p(B) Statistik, Datenanalyse und Simulation Tod in den Bergen In einem Buch über die bergsteigerischen Leistungen von Reinhold Messner ist folgendes zu lesen: “Wenn man bedenkt, dass die Wahrscheinlichkeit, bei einer Expedition auf einen Achttausender umzukommen, 3,4% beträgt, dann hatte Messner eine Wahrscheinlichkeit von 3, 4% · 29 = 99%, bei seinen 29 Expeditionen getötet zu werden.” Statistik, Datenanalyse und Simulation Tod in den Bergen In einem Buch über die bergsteigerischen Leistungen von Reinhold Messner ist folgendes zu lesen: “Wenn man bedenkt, dass die Wahrscheinlichkeit, bei einer Expedition auf einen Achttausender umzukommen, 3,4% beträgt, dann hatte Messner eine Wahrscheinlichkeit von 3, 4% · 29 = 99%, bei seinen 29 Expeditionen getötet zu werden.” Das kann doch nicht wahr sein, was ist, wenn Messner zu einer 30. Expedition aufbricht? Statistik, Datenanalyse und Simulation Tod in den Bergen In einem Buch über die bergsteigerischen Leistungen von Reinhold Messner ist folgendes zu lesen: “Wenn man bedenkt, dass die Wahrscheinlichkeit, bei einer Expedition auf einen Achttausender umzukommen, 3,4% beträgt, dann hatte Messner eine Wahrscheinlichkeit von 3, 4% · 29 = 99%, bei seinen 29 Expeditionen getötet zu werden.” Das kann doch nicht wahr sein, was ist, wenn Messner zu einer 30. Expedition aufbricht? Die Wahrscheinlichkeit, eine Expedition zu überleben ist offensichtlich 1 − 0.034 = 0.966. Wenn man annimmt, dass die einzelnen Expeditionen unabhängige Ereignisse darstellen, ist die Wahrscheinlichkeit, alle 29 Expeditionen zu überleben: P = 0.96629 = 0.367. Statistik, Datenanalyse und Simulation Das Ziegenproblem In einer Quiz-Sendung werden einer Kandidatin drei geschlossene Türen gezeigt. Hinter zwei dieser Türen ist eine Ziege, und hinter einer ist ein Auto. Sie kann auf eine der Türen zeigen und erhält das, was dahinter ist. Offensichtlich sind die Chancen, das Auto zu erhalten, 33%. Nun wird das Spiel aber abgeändert: Ehe die Tür der Kandidatin geöffnet wird, öffnet der Quizmaster eine andere Tür, und dahinter steht eine Ziege. Sollte die Kandidatin nun ihre Meinung ändern und eine andere Tür wählen, um ihre Chancen zu verbessern? Statistik, Datenanalyse und Simulation Erwartungswerte und Momente Mittelwert: Kann eine Zufallsgröße E die Werte E1 , E2 , . . . , En annehmen und geschieht dies mit der Wahrscheinlichkeit p(Ei ), dann bezeichnet man als Mittelwert der Größe E (“Erwartungswert”) Ē = hEi = n X Ei · p(Ei ) i=1 Kann eine Zufallsgröße kontinuierlich Werte annehmen, dann kann man nur angeben, mit welcher Wahrscheinlichkeit ein Wert in einem Intervall angenommen wird. Wahrscheinlichkeit für Annehmen eines Wertes im Intervall [x,x+dx] durch die Variable x sei dp. Beispiel: Temperaturmessung Statistik, Datenanalyse und Simulation dp . Wahrscheinlichkeitsdichte f (x) = dx Eine Wahrscheinlichkeitsdichte ist nichtnegativ und muss auf 1 normiert sein. Z ∞ f (x) ≥ 0 f (x)dx = 1 −∞ Statistik, Datenanalyse und Simulation dp . Wahrscheinlichkeitsdichte f (x) = dx Eine Wahrscheinlichkeitsdichte ist nichtnegativ und muss auf 1 normiert sein. Z ∞ f (x) ≥ 0 f (x)dx = 1 −∞ Vorsicht: Die Wahrscheinlichkeitsdichte f (x) ist keine Wahrscheinlichkeit. Statistik, Datenanalyse und Simulation dp . Wahrscheinlichkeitsdichte f (x) = dx Eine Wahrscheinlichkeitsdichte ist nichtnegativ und muss auf 1 normiert sein. Z ∞ f (x) ≥ 0 f (x)dx = 1 −∞ Vorsicht: Die Wahrscheinlichkeitsdichte f (x) ist keine Wahrscheinlichkeit. Dagegen ist die Größe f (x) · ∆x in der Tat eine Wahrscheinlichkeit. Statistik, Datenanalyse und Simulation Wahrscheinlichkeitsverteilung oder auch integrierte Verteilungsfunktion F (x) ist definiert als: Z x F (x) = f (x 0 )dx 0 , F (−∞) = 0, F (∞) = 1 −∞ Erwartungswert der Funktion h(x) für kontinuierliche Zufallsgrößen: Z ∞ h(x) · f (x)dx E[h(x)] = −∞ Mittelwert: ist der Erwartungswert von x (wichtiger Spezialfall): Z ∞ x · f (x)dx E[x] = x̄ = −∞ Statistik, Datenanalyse und Simulation Streuung = {Mittelwert der (Abweichung von x̄)2 }1/2 Z ∞ 2 2 σ = (x − x̄) = (x − x̄)2 · f (x)dx −∞ Z ∞ 2 = (x − 2x x̄ + x̄ 2 ) · f (x)dx = x 2 − 2x̄ x̄ + x̄ 2 = x 2 − x̄ 2 −∞ σ 2 = Varianz, σ = Standardabweichung Für diskrete Verteilungen: P 1 X 2 ( x)2 2 x − σ = N N 1 N 1 wird oft durch N−1 ersetzt, um Fehler nicht zu unterschätzen. (Freiheitsgrade!) Statistik, Datenanalyse und Simulation Momente: Die Erwartungswerte von x n und von (x − hxi)n werden n-te algebraische Momente µn und n-te zentrale Momente µ0n genannt. 1.2 Spezielle diskrete Verteilungen Kombinatorik: Für r verschiedene Objekte gibt es r ! verschiedene Möglichkeiten, die Objekte in einer Reihe anzuordnen. Die Zahl von Möglichkeiten, r Objekte aus n verschiedenen Objekten auszuwählen, wobei es auf die Reihenfolge der Auswahl ankommt, ist Pnr = n(n − 1)(n − 2) . . . (n − r + 1) = n! (n − r )! Falls es auf die Reihenfolge der Auswahl nicht ankommt, muss die obenstehende Zahl durch r ! dividiert werden, und man erhält Pnr n n! r Cn = = = r n! r !(n − r )! Statistik, Datenanalyse und Simulation Diese ganzen Zahlen heißen Binomialkoeffizienten, und erscheinen im Binomialtheorem: n X n r n−r n (p + q) = p ·q r r =0 Binomialverteilung Häufige Fragestellung: Sei p die Wahrscheinlichkeit für das Eintreten des Ereignisses bei einem Versuch - wie groß ist die Wahrscheinlichkeit, dass das Ereignis bei n Versuchen r-mal eintritt? n r P(r ) = p · (1 − p)n−r r P(r ) ist korrekt auf 1 normiert. Binomialtheorem mit q = 1 − p. Der Mittelwert von r ist: hr i = E[r ] = n X rP(r ) = np r =0 Statistik, Datenanalyse und Simulation press any key Statistik, Datenanalyse und Simulation Bedfords Zahlengesetz Die Häufigkeit der Anfangsziffern in Zahlenmengen (Atomgewichte der Elemente, Baseball-Ergebnisse, Stromrechnungen auf den pazifischen Salomon-Inseln, ...) folgt der Häufigkeit: Ziffer Wahrscheinlichkeit Ziffer Wahrscheinlichkeit 1 30.1% 6 6.7% 2 17.6% 7 5.8% 3 12.5% 8 5.1% 4 9.7% 9 4.6% Welche mathematische Formel hat Bedford dieser Häufigkeitstabelle zugrunde gelegt? p(z) = log10 (z + 1) − log10 (z) Statistik, Datenanalyse und Simulation 5 7.9% Bedfords Zahlengesetz Beispiel: Die Länge der Dateien in meinem Heimatverzeichnis: z 1 2 3 4 5 6 7 8 9 nz 2387 1531 1060 784 563 461 442 460 327 8206 p/% 29.1 ± 0.6 18.7 ± 0.5 12.9 ± 0.4 9.6 ± 0.3 6.9 ± 0.3 5.6 ± 0.3 5.4 ± 0.3 5.6 ± 0.3 4.0 ± 0.2 p(z)theor. /% 30.1 17.6 12.5 9.7 7.9 6.7 5.8 5.1 4.6 Statistik, Datenanalyse und Simulation Bedfords Zahlengesetz find ~ -type f -printf "%s\n" | awk ’{ l=log($1)/log(10); a[int(exp(log(10)*(l-int(l))))]++; N++; }END{ print N; for (i=1;i<10;i++) { printf "%d %5d %5.1f +/- %3.1f %5.1f\n", i,a[i],100*a[i]/N,100*sqrt(a[i])/N, 100*(log(i+1)-log(i))/log(10); } }’ Statistik, Datenanalyse und Simulation