Es gibt drei Gruppen von zentralen Sätzen Zentrale Sätze der Wahrscheinlichkeitsrechnung und damit verbundene fundamentale Ideen Manfred Borovcnik, Institut für Statistik, Universität Klagenfurt 1. Vorbemerkungen zur Komplexität von Grenzwertaussagen Die Bedeutung der relativen Häufigkeiten für die Wahrscheinlichkeitstheorie 2. Gesetze der Großen Zahlen in der Theorie Starke Konvergenz der Motor der Theorie – provoziert Missverständnisse x Gesetze großer Zahlen (GGZ) Eine Art Konvergenz von relative Häufigkeiten gegen die Wahrscheinlichkeit. x Zentrale Grenzverteilungssätze (ZGS) Eine Konvergenz spezieller Variablen zur Standardnormalverteilung. x Bayes-Theorem Subjektive Wahrscheinlichkeiten konvergieren gegen die relativen Häufigkeiten. Alle diese Sätze bestimmen die Eigenschaften von Wahrscheinlichkeit. Eine einfachere Darstellung zur Mathematik wäre hilfreich, damit Lernende ihre Intuitionen über Wahrscheinlichkeit daran schärfen könnten. 3. Empirische Gesetze der Großen Zahlen Phänomene und Verwirrungen 4 Schwaches Gesetz der Großen Zahlen Aussage über die Verteilung! Elemente eines Beweises 5. Zentraler Grenzverteilungssatz Ideen dahinter – Illustration statt eines Beweises 6. Schülerexperimente Wir verwenden eine Mischung aus Simulation, Eigenschaften der Binomialverteilung und didaktischen Animationen. 7. Fazit 2 ÖMG Lehrerfortbildungstag Wien, 11.4.2015 1. Vorbemerkungen 1.2 Wahrscheinlichkeit: Grenzwert relativer Häufigkeiten Während die Definition von Wahrscheinlichkeit noch auf Laplace als 1.1 Grenzwertaussagen sind komplex „Günstige dividiert durch mögliche Fälle“ Grenzwertaussagen lim xn nof mit Anzahlen von gleichwahrscheinlichen Elementarereignissen fußte, verwendete man in der Physik des 19. Jahrhunderts (Teilchenphysik, Thermodynamik) einen naiven frequentistischen Wahrscheinlichkeitsbegriff: x0 sind komplex und erst von K. Weierstraß um 1860 mittels der H-G-Notation formalisiert worden. an als relativer Häufigkeit des Ereignisses E bei n n Wiederholungen des Experiments. Grenzwerte sind schwer zu verstehen. P( E ) Um ca. 1980 hat sich ein Artikel in der lokalen Zeitung darüber lustig gemacht, wie die Mathematiker an der Universität die Dinge doch verkomplizieren, wo es doch so einfach sei: man kommt doch dem Grenzwert immer näher und damit basta. lim rn ( E ) mit rn nof Von Mises (1919) versuchte, diesen Grenzwert direkt als Basis eines axiomatisch begründeten Wahrscheinlichkeitsbegriffs heranzuziehen. Sein Ansatz war aber so kompliziert (Regellosigkeitsaxiom) und mit Widersprüchen verstrickt, dass er auch nach Reparatur der Widersprüche (Frechet, 1937, Schnorr, 1971) nur von einer Minderheit von Mathematikern akzeptiert wurde. Monotone Konvergenz ist aber nur ein kleiner Spezialfall von Konvergenz. Zwischen statischen Rechtfertigung und der dynamischen Intuition des sich Näherns besteht eine regelrechte Kluft. Dieses begriffliche Spannungsfeld war den Forschern bewusst. 3 4 1.4 Historische Schwierigkeiten mit dem starken GGZ 1.3 Das starke Gesetz der großen Zahlen (GGZ) Sei Sn die absolute Häufigkeit eines Ereignisses E mit P ( E ) p in einem nfachen Bernoulli-Experiment, d.h., eine binomialverteilte Zufallsvariable, so Sn gilt: Maß( lim p) 1 . nof n Eine Trajektorie der relativen Häufigkeiten sn , welche gegen die „Grundwahrscheinlichn keit“ konvergieren, beträgt 1. Das Maß aller Trajektorien Umgekehrt, Trajektorien, welche nicht konvergieren, haben ein Maß 0. Allerdings ist das Maß auf der Menge aller Folgen aus {0, 1} definiert und sein Status war umstritten. 1,0 0,8 Auf endlichen Abschnitten konnte man die Wahrscheinlichkeit so verstehen 0,6 P (0, 1, 0, 0) 0,4 p1 (1 p ) 3 bzw. P ( x1 , x 2 , ..., x n ) p ¦ i (1 p ) x n ¦ xi ; Das kann man auf die Definition nach Laplace (g/m) zurückführen. Aber mit n o f kommt für jede Folge die Wahrscheinlichkeit 0 heraus! 0,2 Man musste also umdenken und Wahrscheinlichkeit anders definieren. 0,0 0 200 400 600 Ist dieses Maß auf den Trajektorien eine Wahrscheinlichkeit? Und wie knüpft man an die Definition als günstige durch mögliche an? 5 6 2. Gesetze großer Zahlen in der Theorie 2.2 Starke Gesetze der Großen Zahlen (GGZ) 2.1 Kolmogorow’s Axiome 1933 Sei X1, X2, … eine Folge unabhängiger, identisch verteilter Zufallsvariablen n p ­1 mit X i ~ X ® (Bernoulli-Experiment) und S n ¦ X i 1 p ¯0 Erst Kolmogorow gelang eine statische Axiomatisierung von Wahrscheinlichkeit. Sein Ansatz umging die Dynamik der relativen Häufigkeiten und übernahm nur strukturell deren Eigenschaften: die absolute Häufigkeit (als Zufallsvariable), so gilt jetzt P ( lim nof 1) Nicht-negativ; 2) Normiert; Sn n p) 1 . Für allgemeine Zufallsvariable X mit P 3) Additiv (abzählbar additiv). Sn n E ( X ) und endlicher Varianz gilt: P) 1. In dieser Theorie war ein starkes Gesetz der Großen Zahlen ableitbar. P ( lim nof Das rechtfertigt den Ansatz und die Deutung von Wahrscheinlichkeit als relative Häufigkeit auf lange Sicht. Fast alle Folgen relativer Häufigkeiten (Trajektorien) konvergieren gegen p. 7 Fast alle Mittelwerte konvergieren gegen den Erwartungswert des Experiments. 8 3. Empirische Gesetze großer Zahlen 2.3 Philosophische und andere Probleme mit den GGZ 3.1 Konvergenz: Eine Vorspiegelung von Präzision Was heißt Konvergenz? Es gibt ja kein Bildungsgesetz für die Folgen. Wie erkennt man, wenn eine zufällige Folge konvergiert? Wo liegt der Grenzwert? Wie ist der Grenzwert (Stabilität der Folgen) mit den fortgesetzten zufälligen Schwankungen zu vereinbaren? Muss sich eine bestehende Abweichung auf kurze Zeit ausgleichen? Wie kann man den Grenzwert aus einer endlichen Folge ablesen? 9 Einpendeln immer auf anderen „Achsen! In der 1. Serie schwankt der Messwert von der 500. Messung an kaum; man „erwartet“ daher, dass sich die 2. Serie auf demselben Niveau einpendelt. 10 3.2 Wiederholtes „Messen“ einer Wahrscheinlichkeit p 11 Wir „messen“ die Wahrscheinlichkeit p immer nach Abschluss einer 5er Serie und zeigen den Messwert, der sich aus allen bisherigen Messungen ergibt. 12 3.3 Phänomene eines empirischen GGZ x Wiederholte Messungen: Analogie zur Messtechnik: Achse der Messungen, Präzision der Messungen. x Analogie zur Qualitätsregelkarten: Sollwert, Extreme Werte, Restrisiko. Phänomen 1: Variabilität und Stabilität Die nächste 5er Serie fluktuiert – trotz der stabilisierenden relativen Häufigkeiten Phänomen 1: Variabilität und Stabilität. Phänomen 2: Normale & extreme Schwankungen. Phänomen 3: Längere Serien erhöhen die Präzision. Phänomen 4: Die Achse verschiebt sich mit p. Phänomen 5: Nocheinmal Variabilität und Stabilität. Die Messwerte aus einzelnen Blöcken schwanken immer sehr stark. Nur der Messwert aus dem gesamten bisherigen Verlauf pendelt sich ein. Wir beschreiben verschiedene Phänomene im Rahmen von „Analogien“. 13 14 Phänomen 3: Längere Serien erhöhen die Präzision Phänomen 2: Normale & extreme Schwankungen Variabilität von 5er und 20er Serien Die 5er Serien in einer Regelkarte Die roten Linien sind die Kontrollgrenzen. Sie markieren die Grenzen des „normalen“ Verlaufs. Die Messwerte aus 20er Serien schwanken viel weniger; sie sind viel präziser. 15 16 Phänomen 4: Die Achse verschiebt sich mit p Phänomen 5: Noch einmal Variabilität und Stabilität Stabilität der Entwicklung der rel. Häuf. versus Variabilität der aktuellen 200er Zeitlicher Verlauf der 200er Serien; p = 0,25; 0,50 Unsere Messungen sind richtig kalibriert. Sie schwanken immer um den „wahren“ Wert. Die Messwerte der aktuellen 200er Serie schwanken im selben Muster. Dagegen pendelt der Messwert aus allen bisherigen Messungen immer weniger. 17 Vergleich: theoretisch 4.1 Verteilung der Messwerte empirisch 4. Schwaches Gesetz der Großen Zahlen Betrachten die Verteilung der Messwerte und den Anteil der Messwerte innerhalb der Kontrollgrenzen („normale“ Stichproben). 18 Vergleichen den Anteil bei wiederholten Messungen mit der Binomialverteilung. 19 20 4.3 Summen von Zufallsvariablen – Additivität 4.2 Schwaches Gesetz der Großen Zahlen nach Bernoulli Sei X1, X2, … eine Folge unabhängiger, identisch verteilter Zufallsvariablen p ­1 mit X i ~ X ® (Bernoulli-Experiment). 1 p ¯0 Die absolute Häufigkeit S n n Sn p t H) n Immer gilt: x ¦ X i als Zufallsvariable ist binomialverteilt. Es gilt für beliebiges H ! 0 : lim P( nof S n wird in eine Summe unabhängiger 0,1-Zufallsvariablen zerlegt. Diese Modularisierung lässt Erwartungswert und Varianz als Summe darstellen: E ( X 1 X 2 ... X n ) daher: E ( S n ) E ( X 1 ) E ( X 2 ) ... E ( X n ) ; n p . 0. Bei Unabhängigkeit der Summanden gilt: Sn zieht sich um p zusammen; außerhalb des „Fensters“ n ( p H , p H ) bleibt im Grenzwert keine Wahrscheinlichkeit, so klein dessen Breite auch gewählt wird. Die Verteilung von x var( X 1 X 2 ... X n ) daher: var(S n ) var( X 1 ) var( X 2 ) ... var( X n ) ; n p (1 p ) . Speziell der Satz über die Varianz ist etwas komplizierter zu beweisen. Es geht nicht um einzelne Trajektorien und deren Verlauf (Konvergenz?), sondern um einen festen Zeitpunkt n und um die Verteilung von Sn/n. 21 Motivation der Additivität durch einfache Glücksräder 22 4.4 Ungleichung von Tschebyschew Für eine beliebige Zufallsvariable X mit P E ( X ) und V 2 (muss endlich sein) und beliebiges H ! 0 gilt: P ( X P t H ) d var( X ) V . H2 2 Zentrales Fenster innerhalb a. Unabhängige Glücksräder x Für den Erwartungswert gilt auch bei abhängigen Zufallsvariablen: E( X Y ) x b. Überlappung Sektor a 1 ( p a) 2 a 1 (q a) pq E ( X ) E (Y ) . außerhalb außerhalb Für die Varianz gilt nur bei unabhängigen Summanden: var( X Y ) var( X ) var(Y ) a P( X 1, Y 1) P( X 1) (Y 1) . Statt eines mathematischen Beweises kann man die Sätze in einem einfachen Beispiel motivieren. p q Die Monotonie der Ungleichung „passt“; sie gibt den Parametern „Sinn“. 23 24 4.5 Beweis des schwachen Gesetzes der Großen Zahlen 5. Zentraler Grenzverteilungssatz (ZGS) Sei X1, X2, … eine Folge unabhängiger, identisch verteilter Zufallsvariablen 5.1 Der ZGS mit X i ~ X mit P E ( X ) und V 2 Dann gilt für die Summe S n H ! 0 : lim P( nof Sei X1, X2, … eine Folge unabhängiger, identisch verteilter Zufallsvariablen var( X ) (muss endlich sein). n ¦ X i als Zufallsvariable und beliebiges E ( X ) und V 2 Wir definieren Zufallsvariable S n Sn V2 . P t H) d n nH 2 Bei Bernoulli-Versuchen zieht sich der Anteil mit X i ~ X mit P var( X ) (muss endlich sein). n ~ ¦ X i (Summe) und S n S n E (S n ) var(S n ) (standardisierte Summe) und ĭ Verteilungsfunktion N(0,1). ~ Dann gilt: lim P( S n d z ) ĭ( z ) . nof Sn um p zusammen. n Die Präzision der Messung / Schätzung wird besser, wenn die Stichprobe größer ist. D.h., die standardisierte Summe ist asymptotisch standardnormalverteilt. Sn P n Es gilt auch: lim P ( d z) nof V Das schwache Gesetz der Großen Zahlen ist viel „natürlicher“ und rechtfertigt, eine unbekannte Wahrscheinlichkeit p aus einer Stichprobe zu schätzen ĭ( z ) . n Die standardisierten Summen (Mittelwerte) konvergieren in Verteilung zur N(0, 1). 25 5.2 Interessante Zusammenhänge im ZGS ZGS: lim P( nof Sn S n E (S n ) var(S n ) d z) ĭ( z ) . divergiert. Sn P n Sn P n V 26 5.3 Ideen hinter dem Zentralen Grenzverteilungssatz Summen von Zufallsvariablen (speziell von identischen und unabhängigen) sind annähernd normalverteilt. x Approximation der Binomial- durch die Normalverteilung. x Motivation, wann Normalverteilung ein gutes Modell ist; z.B.: Qualitätsregelkarten zur Überwachung der Qualität im laufenden Produktionsprozess. x Schluss von der Stichprobe auf die Population. x Normalverteilung ist Voraussetzung bei vielen modernen statistischen Verfahren (Regression, Varianzanalyse zur Beurteilung von Unterschieden im Erwartungswert in verschiedenen Gruppen). zieht sich um 0 zusammen. hat Erwartungswert 0 und Varianz 1 nähert sich der N(0, 1). n Summen „fließen“ auseinander; Mittelwerte kontrahieren auf einen Punkt; standardisierte Summen bzw. Mittelwerte konvergieren in Verteilung zur N(0, 1). 27 Approximation von Verteilungen. Anwendung auf Testgrößen, die meist Summen irgendwelcher Beiträge der einzelnen Einheiten der Stichprobe sind. 28 Elementarfehlertheorie und Idee des l’homme moyen Idee der Approximation von Summen: Binomialverteilung Für n = 500 und p = 0,40 passt die Normalverteilung exzellent. Schon für var( X ) Schon seit Gauß interpretierte man die Fehler in der Messtechnik als Ergebnis der additiven Überlagerung von vielen Elementarfehlern n p (1 p ) ! 9 (Faustregel)! Verteilung der Anzahl der A-Wähler in der Stichprobe und konnte mit dem ZGS (Moivre-Laplace, 1812) eine Normalverteilung als Modell für die Verteilung der Fehler gut motivieren. 0,05 Normalapproximation 0,04 für p = Das rechtfertigt dann auch den Mittelwert einer Mess-Serie anstelle der Einzeldaten zu nehmen; dieser Wert ist in diesem Modell der beste Wert. Und er ist präziser als die Einzeldaten. 0,4 0,03 0,02 Galton hat diese Idee auf biometrische Merkmale übertragen und die Vermessung ganzer Populationen (Soldaten, Eingeborene in der Südsee, Körpergröße, Nasenbreite etc.) angeregt. 0,01 0,00 150 200 Damit war der Mythos der Normalverteilung geboren; die Normalverteilung passte überraschend gut. 250 Kaum erkennbare Schiefe. Vereinfachung des Modells. Zerlegung einer Zufallsvariablen in latente Summanden als Gedankenexperiment 29 Idee des Schlusses von Stichproben auf die Population 2 Idee des Schlusses von Stichproben auf die Population 1 Endliche Population – Datenerzeugender Prozess Xi Zufallsvariable X Erwartungswert P Standardabweichung V Typ der Verteilung Beliebig 30 Mittelwert einer Zufallsstichprobe Sn n X 1 X 2 ... X n n E( V( Sn ) n Sn ) n P V n Wird symmetrisch und “normal” Entsprechung der Parameter zwischen Population und Stichproben. 31 Symmetrisierung & Normalisierung der Mittelwerte – unabhängig von der Ausgangsverteilung in der Population 32 Simulation 5.4 Motivation statt eines Beweises des ZGS 0,15 n = 20 von Mittelwerten aus Vergleich der Binomialverteilungen per Augenmaß mit der Normalverteilung. x Simulation der Bedingungen und Analyse der Verteilungen einschließlich des Vergleichs mit der Normalverteilung. x symmetrischer Verteilung 0,10 0,05 Distribution of single data Population 0,00 7 2 0,3 4 6 0,15 0,2 Rekursive Berechnung der Verteilung der Summe und Vergleich mit der Normalverteilung. x n = 40 0,10 0,1 0 0 2 4 6 8 10 0,05 0,00 2 Verteilungen systematisch untersuchen – simulieren – oder rekursiv berechnen. 33 Simulation Simulation zeigt die Tendenz – hat aber immer gewisse Störelemente, die das Erkennen des Musters schwieriger machen. 34 n = 20 0,02 schiefer Verteilung Basis-Experiment Laufende Summe Wert Wahrsch. p 1 0,01 Distribution of single data Population 0,00 Skewed distribution 0 0,3 4 8 12 16 20 1 2 3 4 q(1) q(2) q(3) q(4) 0,03 0,2 Startpunkte n = 40 0,02 0,1 0 10 20 30 40 6 Rekursive Berechnung von Summen von Zufallsvariablen 0,03 von Mittelwerten aus 0 4 50 0,01 0,00 0 4 8 12 16 20 Auch die zerfetzte und schiefe Verteilung ergibt für die Mittelwerte annähernd eine Normalverteilung. Trotz Störeffekten der Simulation. 35 1 2 3 4 5 6 7 8 q(1) q(2) q(3) q(4) 0,000 0,000 0,000 0,000 9 10 11 12 13 0,000 0,000 0,000 0,000 0,000 Zeit = Zahl der Experimente o 2 3 4 5 Diese Punkte können nicht erreicht werden p2(4) p2(5) p2(6) p2(7) mit einer 3 mit einer 2 mit einer 1 p3(8) Welche Summe zu t = 2 führt zu einer Summe = 8 zu t = 3 ? mit einer 4 Wie groß ist die Wahrschein lichkeit, diese Punkte zu besuchen ? Die rekursive Berechnung erfolgt spaltenweise von links nach rechts und nutzt den Satz der totalen Wahrscheinlichkeit. Ein einziger Befehl wird programmiert. Der Rest kann kopiert werden. 36 Rekursive Berechnung von Summen von Zufallsvariablen 2 Verteilung der Summe Ausgangsverteilung 3 0,333 2 0,333 0,15 1 0,333 6. Schülerexperimente 10 x 0,20 Simulation der Modellvoraussetzungen Verschiedene Simulationen von „künstlichen“ Verteilungssituationen. Gezielt zur Illustration von bestimmten Effekten. 0,10 x Analyse von Daten in „freier“ Wildbahn Strukturierte Münzprotokolle mit unterschiedlicher Länge der MessSerie (Borovcnik). 0,05 Umwandlung von Text in Dezimalzahlen und bestimmen der mittleren Zahl pro Textblock bestimmter Länge (Variieren der Länge). Auswertung der standardisierten Mittelwerte durch Häufigkeitspolygone und Vergleich mit der Standardnormalverteilung (Kusolitsch und Nemetz). 0,00 0 5 10 15 20 25 30 35 Keine Fluktuationen durch Simulation. Methode ist vielseitig einsetzbar. 37 38 7. Fazit x Die Zentralen Sätze erfordern mehr Mathematik schon allein zur Erörterung. x Beweise sind teilweise jenseits der Schulmathematik und auch auf Universitätsniveau (ZGS) schwierig. x Die Sätze formen das Rückgrat der Theorie. x Die zentralen Sätze formen und regulieren auch intuitive Vorstellungen. x Sie können durch Simulation, durch exemplarisches Vergleichen etc. motiviert werden. x Es ist wichtig, sie anzuwenden und damit die entsprechenden Situationen zu strukturieren. x Die exemplarischen Berechnungen mit Rekursionen bilden eine mächtige Strategie auch im Sinne der Modellierung. 39 40 Anhang: Zwei Schülerexperimente Anhang A: Analyse eines Texts Folgender Trick mag Sie als Kind überrascht haben. “Denk dir zwei Zahlen zwischen 1 und 10 aus”. Die Zahlen waren zu addieren. Dann sollte das Quadrat gebildet werden, das Ergebnis sollte mit 9 multipliziert werden, das Dreifache der zweiten Zahl abziehen und schließlich durch die erste Zahl dividieren. Bevor wir damit fertig waren, sagte man uns: Analyse eines Texts “Du must 3 heraus bekommen haben!”. Wie konnten die das wissen? Zum Gesetz der Großen Zahlen. Andeutung der Ziele und Auswertungsmöglichkeiten. Zum Zentralen Grenzverteilungssatz. Ausführliche Überlegungen und Schritte. Unbekannte Wahrscheinlichkeiten aus “Stichproben” schätzen Wir diskutieren ein analoges Experiment, das mit “Analyse” von Texten zu tun hat. Statt an zwei Zahlen zu denken, können wir einen beliebigen Text auswählen. Statt Berechnungen mit den Zahlen anstellen, sollen wir die Verteilung von Zahlen in Blöcken, in die der Text unterteilt wird, bestimmen. Wir können zwar nicht die exakte Verteilung vorhersagen, aber wenigstens das, dass die Verteilung sehr ähnlich zur Standardnormjalverteilung aussehen wird. 41 42 Was man mit dem Text tun soll: Schlüsselexperiment: Analyse eine Texts Nimm einen beliebigen Text nach Deiner freien Wahl. x Entferne Leerzeichen und Sonderzeichen. Risk and Decision Making: x Es sollen exakt 20,000 Zeichen übrig seiin. Man ordnet die Zeichen einzeln in eine Spalte in einer Tabellenkalkulation an. The “Logic” of Probability Manfred Borovcnik x Man ordne jedem auftretenden Zeichen eine Zahl von 1 bis 1000 zu (nach freier Wahl). Alpen-Adria University, Klagenfurt, Austria Abstract: Risk is a hot topic. There is an international trend to use examples of risk or the concept of risk in the early teaching of probability. It enriches the problems, it widens the contexts, and it motivates the students to learn probability. This paper illustrates the notion of risk as a multi-faceted concept. The diverse perceptions start with language where risk is used in very different ways. The overlap of risk and hazard is not restricted to the technical context of safety and reliability; Knight’s seminal work on risk and uncertainty has its definite impact on today’s perception of the notions. The endeavour to re-interpret issues of statistical inference by risk – the risk of type I and II errors – or the concept of the weighted impact of decisions (in decision theory and in Bayesian framework) can clarify what risk i hi h i b h h l hi f i i li f i diffi l 43 x Unterteile den Text in Blöcke von 20 Zeichen. x Man berechne die Summe der Zahlen im ersten 20er Block. x Man berechne die Summe in allen 1.000 Blöcken von 20 Zahlen (die den Zeichen zugeordnet sind). Man erhält 1.000 Blocksummen (1.000 Daten). Signs Codes R 82 i 105 s 115 k 107 a 97 n 110 d 100 D 68 e 101 c 99 i 105 s 115 i 105 o 111 n 110 M 77 a 97 k 107 i 105 n 110 g 103 T 84 h 104 e 101 L 76 o 111 g 103 i 105 Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Block in block 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 1 10 1 11 1 12 1 13 1 14 1 15 1 16 1 17 1 18 1 19 1 20 2 1 2 2 2 3 2 4 2 5 2 6 2 7 2 8 44 Variationen des Experiments Weitere Schritte und Vorhersage der Verteilung der Daten x Berechne Mittelwert und Standardabweichung der 1.000 Blocksummen. x Berrechne die standardisierten Blocksummen, d.h., subtrahiere von jeder Blocksumme Mittelwert und dividiere die Differenz durch die Standardabweichung. Man kann die Zeichen des Texts zufällig umordnen und die Übereinstimmung wird sogar noch besser. Wir können jeden Text nehmen. Wir können Freunde einladen, mitzumachen. Sie können die Zahlen auf ihre eigene Art den Symbolen zuordnen. Das Ergebnis wird ähnlich zu unserem sein. x Jetzt haben wir 1.000 standardisierte Blocksummen. Vorhersage: fast alle standardisiesrten Daten liegen zwichen 5 and 5. Ein Histogramm der Daten sieht der Dichte der Standardnormalverteilung sehr ähnlich. Wir können das Experiment mit 40.000 Zeichen wiederholen und Blöcke der Länge 40 bilden. Die Übereinstimmung mit der Dichte der Standardnormalverteilung wird i.a. noch besser sein. Wie können wir das wissen? Die Erklärung ist ein wenig komplizierter als die Gleichungen bei unserem Zahlenspiel. Es hat mit dem Zentralen Grenzverteilungssatz zu tun. 45 Die einzelnen Schritte der Analyse Wir ordnen ASCII-Codes zu. Die Summe in den beiden ersten Blöcken: b1 2026 und b2 2015 . Wir zeigen einige Blocksummen, um einen Eindruck der Variation wiederzugeben. Aus allen Blocksummen berechnen wir Mittelwert und Standardabweichung: b 2143.32 und sb 33.08 . Die erste standardisierte Blocksumme: b1 b sb 2026 2143.32 33.08 3.5469 . Wir setzen die Berechnungen für die anderen Blöcke fort und erhalten 1.000 standardisierte Summen. Block number 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 Block sum 2026 2015 2052 2077 2097 2100 2143 2177 2167 2134 2116 2155 2182 2206 2123 2179 2173 2075 2203 2141 2157 2165 2165 2107 2169 2123 2166 Mean, sd Stdized sums 2143.32 -3.5469 33.08 -3.8794 -2.7608 -2.0050 -1.4004 -1.3097 -0.0096 1.0183 0.7159 -0.2817 -0.8259 0.3531 1.1694 1.8950 -0.6143 1.0787 0.8973 -2.0655 1.8043 -0.0701 0.4136 0.6555 0.6555 -1.0980 0.7764 -0.6143 0.6857 46 Erstellen einer Häufigkeitsverteilung für die standardisierten Summen Wir wählen folgende Klassen: (5, 4.8], (4.8, 4.6],…, (4.8, 5] und notieren deren relative Häufigkeiten mit fi. Wir dividieren diese Häufigkeiten durch die Breite der Klasse: fi/0.2 (diese Datendichte ist mit einer Bevölkerungsdichte vergleichbar). Wir könnten jetzt ein Histogramm zeichnen. Zum Vergleich berechnen wir die Dichte der Standardnormalverteilung. ( ei-1, ei ] mi ni fi fi / 0.2 classes midpoints abs frequ rel frequ density of data stdnormal dens -5.0 0 0.000 0.000 0.399 -4.8 -4.9 0 0.000 0.000 0.000 -4.6 -4.7 1 0.001 0.005 0.000 -4.4 -4.5 1 0.001 0.005 0.000 -4.2 -4.3 0 0.000 0.000 0.000 -4.0 -4.1 1 0.001 0.005 0.000 -3.8 -3.9 1 0.001 0.005 0.000 -3.6 -3.7 2 0.002 0.010 0.000 0.010 0.001 -3.4 -3.5 2 0.002 -3.2 -3.3 1 0.001 0.005 0.002 -3.0 -3.1 2 0.002 0.010 0.003 -2.8 -2.9 2 0.002 0.010 0.006 -2.6 -2.7 5 0.005 0.025 0.010 -2.4 -2.5 3 0.003 0.015 0.018 -2.2 -2.3 6 0.006 0.030 0.028 -2.0 -2.1 13 0.013 0.065 0.044 -1.8 -1.9 15 0.015 0.075 0.066 -1.6 -1.7 8 0.008 0.040 0.094 -1.4 -1.5 19 0.019 0.095 0.130 -1.2 -1.3 20 0.020 0.100 0.171 -1.0 -1.1 35 0.035 0.175 0.218 -0.8 -0.9 42 0.042 0.210 0.266 Wir zeigen einen Teil der Daten. 47 48 Häufigkeitspolygon der standardisierten 20er Blocksummen – ursprüngliche Reihenfolge Verbessern der Anpassung durch zufälliges Umordnen – Länge n = 20 Anstelle eines Histogramms zeichnen wir ein Dichtepolygon, das folgende Punkte verindet: (Mittelpunkt der Klasse i, fi/0.2). Wir wiederholen die Analyse mit dem durch eine zufällige Folge umgeordneten Text. Wir zeigen nur resultierende Häufigkeitspolygon. Die Anpassung ist gut, könnte dennoch besser sein. Standardized block sums - original text Standardized block sums-deranged text 0.6 0.6 ASCII code 0.5 ASCII code 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0.0 -6 -4 -2 0 2 0.0 6z 4 -6 -4 -2 0 2 4 6z 49 Einfluss des Codiersystems War etwas mit dem Codierschema , was die gute Übereinstimmung mit der Dichte der Standardnormalverteilung “verursacht” hat? Ein Stabdiagramm schaut geradezu “zerfetzt” aus. Es gibt sogar einige Ausreißer zwischen 45 und 90, die Verteilung ist ungleich, mit einigen Spitzen und erstreckt sich über einen großen Bereich. Nichts daran erinnert an die Normalverteilung. 50 Serieller Zahlencode – Verteilung des umgeordneten Text – Länge 20 Distribution of assigned ASCII codes 0.15 Standardized block sums-deranged text 0.6 0.10 ensuing nr code 0.5 0.4 0.05 0.3 0.2 0.00 0 20 40 60 80 100 0.1 120 Code 140 0.0 -6 -4 -2 0 2 4 6z Dichte der Standardnormalverteilung passt ähnlich gut wie beim ASCII-Code. 51 52 Verbessern der Anpassung durch zufälliges Umordnen – Länge n = 20 Zufälliger Code – Verteilung des umgeordneten Text – Länge 20 Wir wiederholen die Analyse mit dem durch eine zufällige Folge umgeordneten Text. Wir zeigen nur resultierende Häufigkeitspolygon. Standardized block sums-deranged text 0.6 Standardized block sums-deranged text random code 0.5 0.6 0.4 0.5 0.3 0.4 ASCII code 0.3 0.2 0.2 0.1 0.1 0.0 -6 -4 -2 0 2 6z 4 0.0 -6 Dichte der Standardnormalverteilung passt ähnlich gut wie beim ASCII-Code. -4 -2 0 2 6z 4 53 Artifizieller Text mit nur zwei Zeichen Binärer Text mit Blocklänge 20 Anstelle “natürlicher” Texte werden wir nun unseren eigenen Text erzeugen, der noch besser den benötigten Voraussetzungen genügt. We will use only two signs and encode them by 0 and 1. The signs will be produced independently, which may be interpreted as if a wheel of chance with two sectors is spun several times. 54 Wir erzeugen zufälligen Text mit 0 und 1 (mit p = 0.4 fürs Zeichen 1) Generating binary text Standardized block sums of binary text p= 0.6 0.4 Length 20 1 0.5 0 0.4 0.4 0.6 0.3 Durch 20 Drehungen erzeugen wir einen Textblock der Länge 20. 0.2 Wir wiederholen die Prozedur 1.000 Mal, um binäre Textanalyse zu imitieren 0.1 0.0 -6 -4 -2 0 2 4 6z Erstaunlich, wie gut die Dichte der Standardnormalverteilung passt. 55 56 Generating text with block length 20 and a different p Binomialverteilung für die Blocksummen Wir erzeugen neuen Text, jetzt mit p (0.2) Einzelne Drehung X ergibt 1 mit Wahrscheinlichkeit p und 0 mit 1p; die Blocksumme B X 1 X 2 ... X n folgt einer Binomial verteilung mit Mittelwert P Standardized block sums of binary text dardabweichung V p= 0.4 1 n p und Stan- n p (1 p ) . 0 0.6 0.6 Length 20 0.5 Mittelwert und Standardabweichung Blocksumme über alle 1.000 Blöcke können x aus den Daten aller 1.000 Blöcke geschätzt werden; x aus der Binomialverteilung aus den Formeln vorhergesagt werden. 0.2 0.4 0.3 Das Häufigkeitspolygon beschreibt die Verteilung der standardisierten Blocksum- 0.2 men; die Daten werden durch standardisierte Zufallsvariablen 0.1 zeugt. Die gute Anpassung der Standardnormaldichte bedeutet dabei 0.0 -6 -4 -2 0 2 6z 4 B ( n, p ) | N ( P n p, V B n p n p (1 p ) er- n p (1 p ) . Jetzt zeigt das Polygon deutliche Schiefe im Vergleich zur Standardnormalkurve. 57 Formale Beschreibung der ursprünglichen Aufgabe Verschiedene Diagramme für eine diskrete Verteilung Binomial distribution - thin bars Binomial distribution - "bar graph" 0.30 n = 20 0.30 Gemäß unserer Erzeugung von binärem Text können wir den ursprünglichen Text (mit allen Codes für die auftretenden Zeichen) durch ein Glücksrad darstellen. n = 20 0.20 0.20 0.4 0.4 0.10 0.10 58 Generating text - each of the sectors corresponds to one sign in the text 0.00 0.00 0 10 20 30 0 40 Binomial distribution - shadow and bars 0.30 10 20 30 40 Die Summe in jedem Block wird nun durch das Drehen des Glücksrades nachgespielt und die Blocksumme wird zu Zufallsvariablen erzeugt. Binomial distribution - shadow graph n = 20 0.20 0.30 n = 20 Das Glücksrad hat entsprechend den Codes für die Zeichen Sektoren, deren Fläche zu den Häufigkeiten der Zeichen im Text proportional sind. 0.20 0.4 0.4 0.10 0.10 0.00 0.00 0 10 20 30 40 0 10 20 30 40 59 60 Blocksummen als Zufallsvariable und ihre Verteilung Beziehungen zwischen Eigenschaften des Glücksrads & Blocksummen Die Blocksumme entsteht aus dem Ergebnis von 20 Drehungen des Glücksrads: Das Glückrad beschreibt, wie Text erzeugt wird. Bi , 20 Blocksumme Glücksrad Mittelwert P 20 P Standardabweichung V 20 X i ,1 X i , 2 ... X i , 20 . Die gute Anpassung, die wir für die standardisierten Blocksummen gefunden haben, wird durch Mittelwert und Standardabweichung des Glücksrades ausgedrückt; man beachte, dass wir den Zeichen numerische Codes zugeordnet haben. Die Verteilung für beliebige standardisierte Blöcke ist eine Standardnormalverteilung: B 20 P 20 | N (0, 1) . V 20 B20 | N ( P 20 , V 20 ) . 20 V V Die Zusammenhänge für Mittelwert und Standardabweichung kann man aus den entsprechenden Statistiken aus unseren Daten schätzen. Bei der artifiziellen Erzeugung von binärem Text können wir unser Wissen über Binomialverteilungen anwenden und erkennen, dass die obigen Beziehungen erfüllt sind; Durch Reskalierung unserer standardisierten Daten zurück in die Originalskala können wir auch feststellen: 20 P V V1 es gilt: Pn n p und P P1 Vn p; n p (1 p ) und p (1 p ) . Wir könnten auch intuitive Begründungen angeben; ein mathematischer Beweis allerdings ist nicht ganz so einfach. 61 62 Der Zentrale Grenzverteilungssatz (ZGS) lautet nun: Den ZGS in unsere Text“analyse” umschreiben Wir haben n unabhängige Zufallsvariablen X 1 , X 2 , ..., X n , die alle dieselbe Vertei- X ist ein generischer Term zur Erzeugung eines Zeichens im Text (“ein Glücksrad”). lung wie X haben. X 2 , z.B., ist die zweite Drehung des Rads und beschreibt, wie das zweite Zeichen X hat einen endlichen Erwartungswert P und eine endliche Standardabweichung V. (dessen Code) erzeugt und ein numerischer Wert zugeordnet wird. X 1 X 2 ... X n mit einem Erwartungswert Pn Wir definieren die Summe als Bn und einer Standardabweichung Vn. ~ ~ Die standardisierte Zufallsvariable Bn ist gegeben durch Bn Bn P n Vn . Wir erzeugen n Zeichen für einen Text der Blocklänge n. Die einzelnen Ergebnisseder Drehungen des Glücksrades werden intuitiv als unabhängige Wiederholungen desselben Versuchs gedeutet, was der mathematischen Unabhängigkeit der Zufallsvariablen X 1 , X 2 , ..., X n entspricht. funktion der Standardnormalverteilung sei (wie üblich) durch ĭ notiert. Wir haben in natürlichen Texten beobachtet, dass diese Unabhängigkeit verletzt ist; daher haben wir den Text zufällig umgeordnet, um die Unabhängigkeit zwischen den Teichen eines Blocks zu gewährleisten. Unter diesen Voraussetzungen gilt folgende Grenzwertaussage: Die Zufallsvariable Bn beschreibt, wie Blocksummen aus den Zeichen entstehen. Deren Verteilungsfunktion ist definiert durch Fn ( z ) ~ P( Bn d z ) ; die Verteilungs- lim Fn ( z ) ĭ( z ) . Aus Daten bn von vielen Blöcken schätzten wir P n | xbn und V n | sbn . nof ~ Wir untersuchten standardisierte Blocksummen bn 63 bn xbn sbn ~ ; das sind Daten für Bn . 64 Kein Zentraler Grenzverteilungssatz für Blocksummen Folgerungen aus ZGS – Approximation für Summen & Durchschnitte Sobald wir eine Berechtigung haben, die standardisierten Blocksummen durch die Dichte einer Standardnormalverteilung anzupassen, können wir diese Rechtfertigung auch zur Approximation von Blocksummen Bn auf der ursprünglichen Skala durch eine Normalverteilung heranziehen. Heads minus Tails - Sum 0.20 n = 20 Nur die ‘Parameter 0 und 1 müssen gemäß dem Verschiebungsparameter und dem Skalierungsfaktor, die zur Berechnung der standardisierten Blocksummen gedient haben, angepasst werden. Die entsprechende Normalapproximation für die Blocksummen hat die Parameter Pn n P und V n 0.10 n V . Mittelwerte sind eine weitere Reskalierung aus standardisierten Summen: Mn X 1 X 2 ... X n n Bn . n Für die Blocksummen ziehen wir die Parameter P n P und V n V n 0.00 heran. -30 -10 10 30 65 Kein Zentraler Grenzverteilungssatz für Blocksummen 66 Kein Zentraler Grenzverteilungssatz für Blocksummen Heads minus Tails - Sum Heads minus Tails - Sum 0.20 0.20 n = 40 n = 100 0.10 0.10 0.00 0.00 -30 -10 10 30 -30 67 -10 10 30 68 Kein Zentraler Grenzverteilungssatz für Blockdurchschnitte Kein Zentraler Grenzverteilungssatz für Blockdurchschnitte Heads minus Tails - average Heads minus Tails - average 0.20 0.20 n = 20 n = 40 0.10 0.10 0.00 0.00 -1.0 -0.5 0.0 0.5 1.0 -1.0 -0.5 0.0 0.5 1.0 69 70 Kein Zentraler Grenzverteilungssatz für Summen und Durchschnitte Kein Zentraler Grenzverteilungssatz für Blockdurchschnitte Summen werden tendenziell größer, ihre Verteilung wird immer flacher, bis keine Verteilung mehr (im Grenzwert) da ist. Heads minus Tails - average Mittelwerte sind immer an derselben Achse zentriert (dem Erwartungswert der Population). Ihre Verteilung zieht sich nach dem Gesetz der großen Zahlen auf diese Achse zusammen, sodass im Grenzfall nur ein Punkt übrig bleibt. 0.20 n = 100 Wir können jedoch aus dem ZGS für standardisierte Blocksummen die Grenzverteilung als Approximation für endliche Glieder der Folge heranziehen. Durch Reskalierung erhalten wir aus den standardisierten Blocksummen die Blocksummen zurück, ebenso Blockdurchschnitte. Die Reskalierung ist eine affin-lineare Transformation, welche die Gestalt der Normalverteilung aufrecht erhält. Man muss nur noch die richtigen Parameter finden und einsetzen. 0.10 Der ZGS liefert damit eine Berechtigung, Summen und Mittelwerte für fast beliebige Zufallsvariable durch eine Normalverteilung zu approximieren. 0.00 -1.0 -0.5 0.0 0.5 1.0 71 72 Unbekannte Wahrscheinlichkeiten aus “Stichproben” schätzen Wir werfen eine Münze 100 Mal und notieren 1 für Kopf und 0 für Zahl. Wir analysieren das Protokoll wie folgt: 73 Analyse eines Münzwurfprotokolls Nr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 Analyse von Blöcken Auswertung Blöcke ZZ 5er 10er 20er 0 0 1 1 0 2 0 0 1 0 0 1 3 1 1 1 1 1 5 1 4 9 12 x Wir teilen die Serie von 100 Würfen in 20 Blöcke von 5 (Nr 1-5, 6-10 usw.) und bestimmen die Anzahl der Köpfe (0, 1, ..., 5) im jeweiligen Block. Dann berechnen wir den Anteil der Köpfe (die relative Häufigkeit) und verwenden diesen, um die unbekannte Wahrscheinlichkeit p für Kopf zu schätzen. x Wir vereinen zwei aufeinander folgende 5er-Blöcke zu einem 10er-Block und schätzen auch daraus die unbekannte Wahrscheinlichkeit p für Kopf. x Wir vereinen zwei aufeinander folgende 10er-Blöcke zu einem 20er-Block; wir zeichnen ein Stabdiagramm der Schätzungen auf der Basis von 20 Würfen. x Wir vergleichen die Ergebnisse aus 5er-Blöcken innerhalb einzelner Studenten und versuchen, ein allgemeines Muster darin zu erkennen. x Dann vereinen wir die Protokolle von (mindestens) 10 Studenten und zeichnen die empirischen Verteilungen für die wiederholten Schätzungen für jede Blockgröße getrennt; schließlich versuchen wir, ein Muster in den Verteilungen zu erkennen und besprechen, was man unter der Präzision der Schätzungen verstehen kann. 74 Die Präzision der Schätzung wird mit dem Stichprobenumfang größer Messung aus Einzelversuchen Schätzung aus einzelnen Versuchen Blöcke der Länge 5 5er Blöcke Häufigkeit Häufigkeiten SchätzungAnzahl Köpfe absolut absolut relativ relativ Schätzung 0,00 0 11 0,055 0,20 1 22 0,110 0,40 2 73 0,365 0,60 3 65 0,325 0,80 4 25 0,125 1,00 5 4 0,020 alle Gesamt 200 1,000 0,700 0,6 0,600 0,5 0,500 0,4 0,400 0,3 0,300 0,2 0,200 0,1 0,100 0 0,000 0 1 0,00 ... aus 10 wiederholten Messungen Messung aus 10er Blöcken 0,20 0,40 0,60 0,80 1,00 ... aus 20Messung wiederholten Messungen aus 20er Blöcken 0,7 0,7 0,6 0,6 0,5 0,5 0,4 0,4 0,3 0,3 0,2 0,2 0,1 0,1 0 75 ... aus 5Messung wiederholten Messungen aus 5er Blöcken 0,7 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 76