Zentrale Sätze der Wahrscheinlichkeitsrechnung und damit

Werbung
Es gibt drei Gruppen von zentralen Sätzen
Zentrale Sätze der Wahrscheinlichkeitsrechnung und
damit verbundene fundamentale Ideen
Manfred Borovcnik, Institut für Statistik, Universität Klagenfurt
1. Vorbemerkungen zur Komplexität von Grenzwertaussagen
‡ Die Bedeutung der relativen Häufigkeiten für die Wahrscheinlichkeitstheorie
2. Gesetze der Großen Zahlen in der Theorie
Starke Konvergenz der Motor der Theorie – provoziert Missverständnisse
x Gesetze großer Zahlen (GGZ)
Eine Art Konvergenz von relative Häufigkeiten gegen die Wahrscheinlichkeit.
x Zentrale Grenzverteilungssätze (ZGS)
Eine Konvergenz spezieller Variablen zur Standardnormalverteilung.
x Bayes-Theorem
Subjektive Wahrscheinlichkeiten konvergieren gegen die relativen Häufigkeiten.
Alle diese Sätze bestimmen die Eigenschaften von Wahrscheinlichkeit. Eine einfachere Darstellung zur Mathematik wäre hilfreich, damit Lernende ihre Intuitionen
über Wahrscheinlichkeit daran schärfen könnten.
‡
3. Empirische Gesetze der Großen Zahlen
‡ Phänomene und Verwirrungen
4 Schwaches Gesetz der Großen Zahlen
Aussage über die Verteilung! Elemente eines Beweises
‡
5. Zentraler Grenzverteilungssatz
‡ Ideen dahinter – Illustration statt eines Beweises
6. Schülerexperimente
Wir verwenden eine Mischung aus Simulation, Eigenschaften der
Binomialverteilung und didaktischen Animationen.
7. Fazit
2
ÖMG Lehrerfortbildungstag Wien, 11.4.2015
1. Vorbemerkungen
1.2 Wahrscheinlichkeit: Grenzwert relativer Häufigkeiten
Während die Definition von Wahrscheinlichkeit noch auf Laplace als
1.1 Grenzwertaussagen sind komplex
„Günstige dividiert durch mögliche Fälle“
Grenzwertaussagen lim
xn
nof
mit Anzahlen von gleichwahrscheinlichen Elementarereignissen fußte, verwendete man in der Physik des 19. Jahrhunderts (Teilchenphysik, Thermodynamik) einen naiven frequentistischen Wahrscheinlichkeitsbegriff:
x0 sind komplex und erst von K. Weierstraß
um 1860 mittels der H-G-Notation formalisiert worden.
an
als relativer Häufigkeit des Ereignisses E bei n
n
Wiederholungen des Experiments.
Grenzwerte sind schwer zu verstehen.
P( E )
Um ca. 1980 hat sich ein Artikel in der lokalen Zeitung darüber lustig gemacht, wie die Mathematiker an der Universität die Dinge doch verkomplizieren, wo es doch so einfach sei: man kommt doch dem Grenzwert immer
näher und damit basta.
lim
rn ( E ) mit rn
nof
Von Mises (1919) versuchte, diesen Grenzwert direkt als Basis eines axiomatisch begründeten Wahrscheinlichkeitsbegriffs heranzuziehen. Sein Ansatz
war aber so kompliziert (Regellosigkeitsaxiom) und mit Widersprüchen verstrickt, dass er auch nach Reparatur der Widersprüche (Frechet, 1937, Schnorr,
1971) nur von einer Minderheit von Mathematikern akzeptiert wurde.
Monotone Konvergenz ist aber nur ein kleiner Spezialfall von Konvergenz.
Zwischen statischen Rechtfertigung und der dynamischen Intuition des sich
Näherns besteht eine regelrechte Kluft.
Dieses begriffliche Spannungsfeld war den Forschern bewusst.
3
4
1.4 Historische Schwierigkeiten mit dem starken GGZ
1.3 Das starke Gesetz der großen Zahlen (GGZ)
Sei Sn die absolute Häufigkeit eines Ereignisses E mit P ( E ) p in einem nfachen Bernoulli-Experiment, d.h., eine binomialverteilte Zufallsvariable, so
Sn
gilt: Maß( lim
p) 1 .
nof
n
Eine Trajektorie der relativen Häufigkeiten
sn
, welche gegen die „Grundwahrscheinlichn
keit“ konvergieren, beträgt 1.
Das Maß aller Trajektorien
Umgekehrt, Trajektorien, welche nicht konvergieren, haben ein Maß 0.
Allerdings ist das Maß auf der Menge aller Folgen aus {0, 1} definiert und
sein Status war umstritten.
1,0
0,8
Auf endlichen Abschnitten konnte man die Wahrscheinlichkeit so verstehen
0,6
P (0, 1, 0, 0)
0,4
p1 ˜ (1 p ) 3 bzw. P ( x1 , x 2 , ..., x n )
p ¦ i ˜ (1 p )
x
n ¦ xi
;
Das kann man auf die Definition nach Laplace (g/m) zurückführen.
Aber mit n o f kommt für jede Folge die Wahrscheinlichkeit 0 heraus!
0,2
Man musste also umdenken und Wahrscheinlichkeit anders definieren.
0,0
0
200
400
600
Ist dieses Maß auf den Trajektorien eine Wahrscheinlichkeit? Und wie knüpft
man an die Definition als günstige durch mögliche an?
5
6
2. Gesetze großer Zahlen in der Theorie
2.2 Starke Gesetze der Großen Zahlen (GGZ)
2.1 Kolmogorow’s Axiome 1933
Sei X1, X2, … eine Folge unabhängiger, identisch verteilter Zufallsvariablen
n
p
­1
mit X i ~ X ®
(Bernoulli-Experiment) und S n ¦ X i
1 p
¯0
Erst Kolmogorow gelang eine statische Axiomatisierung von Wahrscheinlichkeit. Sein Ansatz umging die Dynamik der relativen Häufigkeiten und
übernahm nur strukturell deren Eigenschaften:
die absolute Häufigkeit (als Zufallsvariable), so gilt jetzt
P ( lim
nof
1) Nicht-negativ;
2) Normiert;
Sn
n
p) 1 .
Für allgemeine Zufallsvariable X mit P
3) Additiv (abzählbar additiv).
Sn
n
E ( X ) und endlicher Varianz gilt:
P) 1.
In dieser Theorie war ein starkes Gesetz der Großen Zahlen ableitbar.
P ( lim
nof
Das rechtfertigt den Ansatz und die Deutung von Wahrscheinlichkeit als relative
Häufigkeit auf lange Sicht.
Fast alle Folgen relativer Häufigkeiten (Trajektorien) konvergieren gegen p.
7
Fast alle Mittelwerte konvergieren gegen den Erwartungswert des Experiments.
8
3. Empirische Gesetze großer Zahlen
2.3 Philosophische und andere Probleme mit den GGZ
3.1 Konvergenz: Eine Vorspiegelung von Präzision
Was heißt Konvergenz? Es gibt ja kein Bildungsgesetz für die Folgen.
Wie erkennt man, wenn eine zufällige Folge konvergiert?
Wo liegt der Grenzwert?
Wie ist der Grenzwert (Stabilität der Folgen) mit den fortgesetzten zufälligen Schwankungen zu vereinbaren?
Muss sich eine bestehende Abweichung auf kurze Zeit ausgleichen?
Wie kann man den Grenzwert aus einer endlichen Folge ablesen?
9
Einpendeln immer auf anderen „Achsen!
In der 1. Serie schwankt der Messwert von der 500. Messung an kaum; man
„erwartet“ daher, dass sich die 2. Serie auf demselben Niveau einpendelt.
10
3.2 Wiederholtes „Messen“ einer Wahrscheinlichkeit p
11
Wir „messen“ die Wahrscheinlichkeit p immer nach Abschluss einer 5er Serie
und zeigen den Messwert, der sich aus allen bisherigen Messungen ergibt.
12
3.3 Phänomene eines empirischen GGZ
x
Wiederholte Messungen: Analogie zur Messtechnik:
Achse der Messungen, Präzision der Messungen.
x
Analogie zur Qualitätsregelkarten:
Sollwert, Extreme Werte, Restrisiko.
Phänomen 1: Variabilität und Stabilität
Die nächste 5er Serie fluktuiert –
trotz der stabilisierenden relativen Häufigkeiten
Phänomen 1: Variabilität und Stabilität.
Phänomen 2: Normale & extreme Schwankungen.
Phänomen 3: Längere Serien erhöhen die Präzision.
Phänomen 4: Die Achse verschiebt sich mit p.
Phänomen 5: Nocheinmal Variabilität und Stabilität.
Die Messwerte aus einzelnen Blöcken schwanken immer sehr stark. Nur der
Messwert aus dem gesamten bisherigen Verlauf pendelt sich ein.
Wir beschreiben verschiedene Phänomene im Rahmen von „Analogien“.
13
14
Phänomen 3: Längere Serien erhöhen die Präzision
Phänomen 2: Normale & extreme Schwankungen
Variabilität von 5er und 20er Serien
Die 5er Serien in einer Regelkarte
Die roten Linien sind die Kontrollgrenzen. Sie markieren die Grenzen des
„normalen“ Verlaufs.
Die Messwerte aus 20er Serien schwanken viel weniger; sie sind viel präziser.
15
16
Phänomen 4: Die Achse verschiebt sich mit p
Phänomen 5: Noch einmal Variabilität und Stabilität
Stabilität der Entwicklung der rel. Häuf. versus
Variabilität der aktuellen 200er
Zeitlicher Verlauf der 200er Serien; p = 0,25; 0,50
Unsere Messungen sind richtig kalibriert. Sie schwanken immer um den
„wahren“ Wert.
Die Messwerte der aktuellen 200er Serie schwanken im selben Muster. Dagegen
pendelt der Messwert aus allen bisherigen Messungen immer weniger.
17
Vergleich:
theoretisch
4.1 Verteilung der Messwerte
empirisch
4. Schwaches Gesetz der Großen Zahlen
Betrachten die Verteilung der Messwerte und den Anteil der Messwerte
innerhalb der Kontrollgrenzen („normale“ Stichproben).
18
Vergleichen den Anteil bei wiederholten Messungen mit der Binomialverteilung.
19
20
4.3 Summen von Zufallsvariablen – Additivität
4.2 Schwaches Gesetz der Großen Zahlen nach Bernoulli
Sei X1, X2, … eine Folge unabhängiger, identisch verteilter Zufallsvariablen
p
­1
mit X i ~ X ®
(Bernoulli-Experiment).
1 p
¯0
Die absolute Häufigkeit S n
n
Sn
p t H)
n
Immer gilt:
x
¦ X i als Zufallsvariable ist binomialverteilt.
Es gilt für beliebiges H ! 0 : lim
P(
nof
S n wird in eine Summe unabhängiger 0,1-Zufallsvariablen zerlegt. Diese
Modularisierung lässt Erwartungswert und Varianz als Summe darstellen:
E ( X 1 X 2 ... X n )
daher: E ( S n )
E ( X 1 ) E ( X 2 ) ... E ( X n ) ;
n˜ p .
0.
Bei Unabhängigkeit der Summanden gilt:
Sn
zieht sich um p zusammen; außerhalb des „Fensters“
n
( p H , p H ) bleibt im Grenzwert keine Wahrscheinlichkeit, so klein
dessen Breite auch gewählt wird.
Die Verteilung von
x
var( X 1 X 2 ... X n )
daher: var(S n )
var( X 1 ) var( X 2 ) ... var( X n ) ;
n ˜ p ˜ (1 p ) .
Speziell der Satz über die Varianz ist etwas komplizierter zu beweisen.
Es geht nicht um einzelne Trajektorien und deren Verlauf (Konvergenz?),
sondern um einen festen Zeitpunkt n und um die Verteilung von Sn/n.
21
Motivation der Additivität durch einfache Glücksräder
22
4.4 Ungleichung von Tschebyschew
Für eine beliebige Zufallsvariable X mit P
E ( X ) und V 2
(muss endlich sein) und beliebiges H ! 0 gilt: P ( X P t H ) d
var( X )
V
.
H2
2
Zentrales Fenster
innerhalb
a. Unabhängige Glücksräder
x
Für den Erwartungswert gilt auch bei abhängigen Zufallsvariablen:
E( X Y )
x
b. Überlappung Sektor a
1 ˜ ( p a) 2 ˜ a 1 ˜ (q a)
pq
E ( X ) E (Y ) .
außerhalb
außerhalb
Für die Varianz gilt nur bei unabhängigen Summanden:
var( X Y )
var( X ) var(Y ) œ a P( X 1, Y 1) P( X 1) ˜ (Y 1) .
Statt eines mathematischen Beweises kann man die Sätze in
einem einfachen Beispiel motivieren.
p ˜q
Die Monotonie der Ungleichung „passt“; sie gibt den Parametern „Sinn“.
23
24
4.5 Beweis des schwachen Gesetzes der Großen Zahlen
5. Zentraler Grenzverteilungssatz (ZGS)
Sei X1, X2, … eine Folge unabhängiger, identisch verteilter Zufallsvariablen
5.1 Der ZGS
mit X i ~ X mit P
E ( X ) und V 2
Dann gilt für die Summe S n
H ! 0 : lim
P(
nof
Sei X1, X2, … eine Folge unabhängiger, identisch verteilter Zufallsvariablen
var( X ) (muss endlich sein).
n
¦ X i als Zufallsvariable und beliebiges
E ( X ) und V 2
Wir definieren Zufallsvariable S n
Sn
V2
.
P t H) d
n
nH 2
Bei Bernoulli-Versuchen zieht sich der Anteil
mit X i ~ X mit P
var( X ) (muss endlich sein).
n
~
¦ X i (Summe) und S n
S n E (S n )
var(S n )
(standardisierte Summe) und ĭ Verteilungsfunktion N(0,1).
~
Dann gilt: lim
P( S n d z )
ĭ( z ) .
nof
Sn
um p zusammen.
n
Die Präzision der Messung / Schätzung wird besser, wenn die Stichprobe
größer ist.
D.h., die standardisierte Summe ist asymptotisch standardnormalverteilt.
Sn
P
n
Es gilt auch: lim
P
(
d z)
nof
V
Das schwache Gesetz der Großen Zahlen ist viel „natürlicher“ und rechtfertigt,
eine unbekannte Wahrscheinlichkeit p aus einer Stichprobe zu schätzen
ĭ( z ) .
n
Die standardisierten Summen (Mittelwerte) konvergieren in Verteilung zur N(0, 1).
25
5.2 Interessante Zusammenhänge im ZGS
ZGS: lim
P(
nof
Sn
S n E (S n )
var(S n )
d z)
ĭ( z ) .
divergiert.
Sn
P
n
Sn
P
n
V
26
5.3 Ideen hinter dem Zentralen Grenzverteilungssatz
Summen von Zufallsvariablen (speziell von identischen und unabhängigen)
sind annähernd normalverteilt.
x
Approximation der Binomial- durch die Normalverteilung.
x
Motivation, wann Normalverteilung ein gutes Modell ist; z.B.: Qualitätsregelkarten zur Überwachung der Qualität im laufenden Produktionsprozess.
x
Schluss von der Stichprobe auf die Population.
x
Normalverteilung ist Voraussetzung bei vielen modernen statistischen
Verfahren (Regression, Varianzanalyse zur Beurteilung von Unterschieden im Erwartungswert in verschiedenen Gruppen).
zieht sich um 0 zusammen.
hat Erwartungswert 0 und Varianz 1 nähert sich der N(0, 1).
n
Summen „fließen“ auseinander; Mittelwerte kontrahieren auf einen Punkt;
standardisierte Summen bzw. Mittelwerte konvergieren in Verteilung zur N(0, 1).
27
Approximation von Verteilungen. Anwendung auf Testgrößen, die meist
Summen irgendwelcher Beiträge der einzelnen Einheiten der Stichprobe sind.
28
Elementarfehlertheorie und Idee des l’homme moyen
Idee der Approximation von Summen: Binomialverteilung
Für n = 500 und p = 0,40 passt die Normalverteilung exzellent.
Schon für var( X )
Schon seit Gauß interpretierte man die Fehler in der Messtechnik als Ergebnis der additiven Überlagerung von vielen Elementarfehlern
n ˜ p ˜ (1 p ) ! 9 (Faustregel)!
Verteilung der Anzahl der A-Wähler in der Stichprobe
und konnte mit dem ZGS (Moivre-Laplace, 1812) eine Normalverteilung als
Modell für die Verteilung der Fehler gut motivieren.
0,05
Normalapproximation
0,04
für p =
Das rechtfertigt dann auch den Mittelwert einer Mess-Serie anstelle der Einzeldaten zu nehmen; dieser Wert ist in diesem Modell der beste Wert. Und er
ist präziser als die Einzeldaten.
0,4
0,03
0,02
Galton hat diese Idee auf biometrische Merkmale übertragen und die Vermessung ganzer Populationen (Soldaten, Eingeborene in der Südsee, Körpergröße, Nasenbreite etc.) angeregt.
0,01
0,00
150
200
Damit war der Mythos der Normalverteilung geboren; die Normalverteilung
passte überraschend gut.
250
Kaum erkennbare Schiefe. Vereinfachung des Modells.
Zerlegung einer Zufallsvariablen in latente Summanden als Gedankenexperiment
29
Idee des Schlusses von Stichproben auf die Population 2
Idee des Schlusses von Stichproben auf die Population 1
Endliche Population –
Datenerzeugender Prozess Xi
Zufallsvariable
X
Erwartungswert
P
Standardabweichung
V
Typ der
Verteilung
Beliebig
30
Mittelwert einer
Zufallsstichprobe
Sn
n
X 1 X 2 ... X n
n
E(
V(
Sn
)
n
Sn
)
n
P
V
n
Wird symmetrisch
und “normal”
Entsprechung der Parameter zwischen Population und Stichproben.
31
Symmetrisierung & Normalisierung der Mittelwerte – unabhängig von der
Ausgangsverteilung in der Population
32
Simulation
5.4 Motivation statt eines Beweises des ZGS
0,15
n = 20
von Mittelwerten aus
Vergleich der Binomialverteilungen per Augenmaß mit der Normalverteilung.
x
Simulation der Bedingungen und Analyse der Verteilungen einschließlich des Vergleichs mit der Normalverteilung.
x
symmetrischer Verteilung
0,10
0,05
Distribution of single data
Population
0,00
7
2
0,3
4
6
0,15
0,2
Rekursive Berechnung der Verteilung der Summe und Vergleich mit der
Normalverteilung.
x
n = 40
0,10
0,1
0
0
2
4
6
8
10
0,05
0,00
2
Verteilungen systematisch untersuchen – simulieren – oder rekursiv berechnen.
33
Simulation
Simulation zeigt die Tendenz – hat aber immer gewisse Störelemente, die das
Erkennen des Musters schwieriger machen.
34
n = 20
0,02
schiefer Verteilung
Basis-Experiment Laufende Summe
Wert Wahrsch.
p
1
0,01
Distribution of single data
Population
0,00
Skewed distribution
0
0,3
4
8
12
16
20
1
2
3
4
q(1)
q(2)
q(3)
q(4)
0,03
0,2
Startpunkte
n = 40
0,02
0,1
0
10
20
30
40
6
Rekursive Berechnung von Summen von Zufallsvariablen
0,03
von Mittelwerten aus
0
4
50
0,01
0,00
0
4
8
12
16
20
Auch die zerfetzte und schiefe Verteilung ergibt für die Mittelwerte annähernd eine
Normalverteilung. Trotz Störeffekten der Simulation.
35
1
2
3
4
5
6
7
8
q(1)
q(2)
q(3)
q(4)
0,000
0,000
0,000
0,000
9
10
11
12
13
0,000
0,000
0,000
0,000
0,000
Zeit = Zahl der Experimente o
2
3
4
5
Diese Punkte können nicht erreicht werden
p2(4)
p2(5)
p2(6)
p2(7)
mit einer 3
mit einer 2
mit einer 1
p3(8)
Welche Summe zu t = 2
führt zu einer Summe = 8
zu t = 3 ?
mit einer 4
Wie groß
ist die
Wahrschein
lichkeit,
diese
Punkte zu
besuchen ?
Die rekursive Berechnung erfolgt spaltenweise von links nach rechts und nutzt den
Satz der totalen Wahrscheinlichkeit. Ein einziger Befehl wird programmiert. Der
Rest kann kopiert werden.
36
Rekursive Berechnung von Summen von Zufallsvariablen 2
Verteilung der Summe
Ausgangsverteilung
3 0,333
2 0,333
0,15
1 0,333
6. Schülerexperimente
10
x
0,20
Simulation der Modellvoraussetzungen
Verschiedene Simulationen von „künstlichen“ Verteilungssituationen.
Gezielt zur Illustration von bestimmten Effekten.
0,10
x
Analyse von Daten in „freier“ Wildbahn
Strukturierte Münzprotokolle mit unterschiedlicher Länge der MessSerie (Borovcnik).
0,05
Umwandlung von Text in Dezimalzahlen und bestimmen der mittleren
Zahl pro Textblock bestimmter Länge (Variieren der Länge). Auswertung der standardisierten Mittelwerte durch Häufigkeitspolygone und
Vergleich mit der Standardnormalverteilung (Kusolitsch und Nemetz).
0,00
0
5
10
15
20
25
30
35
Keine Fluktuationen durch Simulation. Methode ist vielseitig einsetzbar.
37
38
7. Fazit
x
Die Zentralen Sätze erfordern mehr Mathematik schon allein zur Erörterung.
x
Beweise sind teilweise jenseits der Schulmathematik und auch auf Universitätsniveau (ZGS) schwierig.
x
Die Sätze formen das Rückgrat der Theorie.
x
Die zentralen Sätze formen und regulieren auch intuitive Vorstellungen.
x
Sie können durch Simulation, durch exemplarisches Vergleichen etc.
motiviert werden.
x
Es ist wichtig, sie anzuwenden und damit die entsprechenden Situationen zu strukturieren.
x
Die exemplarischen Berechnungen mit Rekursionen bilden eine mächtige Strategie auch im Sinne der Modellierung.
39
40
Anhang: Zwei Schülerexperimente
Anhang A: Analyse eines Texts
Folgender Trick mag Sie als Kind überrascht haben.
“Denk dir zwei Zahlen zwischen 1 und 10 aus”. Die Zahlen waren zu addieren.
Dann sollte das Quadrat gebildet werden, das Ergebnis sollte mit 9 multipliziert
werden, das Dreifache der zweiten Zahl abziehen und schließlich durch die erste
Zahl dividieren. Bevor wir damit fertig waren, sagte man uns:
Analyse eines Texts
“Du must 3 heraus bekommen haben!”. Wie konnten die das wissen?
Zum Gesetz der Großen Zahlen. Andeutung der Ziele und Auswertungsmöglichkeiten.
Zum Zentralen Grenzverteilungssatz. Ausführliche Überlegungen und Schritte.
Unbekannte Wahrscheinlichkeiten aus “Stichproben” schätzen
Wir diskutieren ein analoges Experiment, das mit “Analyse” von Texten zu tun hat.
Statt an zwei Zahlen zu denken, können wir einen beliebigen Text auswählen. Statt
Berechnungen mit den Zahlen anstellen, sollen wir die Verteilung von Zahlen in
Blöcken, in die der Text unterteilt wird, bestimmen.
Wir können zwar nicht die exakte Verteilung vorhersagen, aber wenigstens das, dass
die Verteilung sehr ähnlich zur Standardnormjalverteilung aussehen wird.
41
42
Was man mit dem Text tun soll:
Schlüsselexperiment: Analyse eine Texts
Nimm einen beliebigen Text nach Deiner freien Wahl.
x Entferne Leerzeichen und Sonderzeichen.
Risk and Decision Making:
x Es sollen exakt 20,000 Zeichen übrig seiin.
Man ordnet die Zeichen einzeln in eine Spalte
in einer Tabellenkalkulation an.
The “Logic” of Probability
Manfred Borovcnik
x Man ordne jedem auftretenden Zeichen eine
Zahl von 1 bis 1000 zu (nach freier Wahl).
Alpen-Adria University, Klagenfurt, Austria
Abstract: Risk is a hot topic. There is an international trend to use examples of risk or the
concept of risk in the early teaching of probability. It enriches the problems, it widens the
contexts, and it motivates the students to learn probability. This paper illustrates the notion
of risk as a multi-faceted concept. The diverse perceptions start with language where risk is
used in very different ways. The overlap of risk and hazard is not restricted to the technical
context of safety and reliability; Knight’s seminal work on risk and uncertainty has its
definite impact on today’s perception of the notions. The endeavour to re-interpret issues of
statistical inference by risk – the risk of type I and II errors – or the concept of the weighted
impact of decisions (in decision theory and in Bayesian framework) can clarify what risk
i hi
h
i b
h h l
hi
f
i i li f
i diffi l
43
x Unterteile den Text in Blöcke von 20 Zeichen.
x Man berechne die Summe der Zahlen im ersten 20er Block.
x Man berechne die Summe in allen 1.000 Blöcken von 20 Zahlen (die den Zeichen zugeordnet sind).
Man erhält 1.000 Blocksummen (1.000 Daten).
Signs Codes
R
82
i
105
s
115
k
107
a
97
n
110
d
100
D
68
e
101
c
99
i
105
s
115
i
105
o
111
n
110
M
77
a
97
k
107
i
105
n
110
g
103
T
84
h
104
e
101
L
76
o
111
g
103
i
105
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
Block in block
1
1
1
2
1
3
1
4
1
5
1
6
1
7
1
8
1
9
1
10
1
11
1
12
1
13
1
14
1
15
1
16
1
17
1
18
1
19
1
20
2
1
2
2
2
3
2
4
2
5
2
6
2
7
2
8
44
Variationen des Experiments
Weitere Schritte und Vorhersage der Verteilung der Daten
x Berechne Mittelwert und Standardabweichung der 1.000 Blocksummen.
x Berrechne die standardisierten Blocksummen, d.h., subtrahiere von jeder Blocksumme Mittelwert und dividiere die Differenz durch die Standardabweichung.
Man kann die Zeichen des Texts zufällig umordnen und die Übereinstimmung wird
sogar noch besser.
Wir können jeden Text nehmen.
Wir können Freunde einladen, mitzumachen. Sie können die Zahlen auf ihre eigene
Art den Symbolen zuordnen. Das Ergebnis wird ähnlich zu unserem sein.
x Jetzt haben wir 1.000 standardisierte Blocksummen.
Vorhersage: fast alle standardisiesrten Daten liegen zwichen 5 and 5.
Ein Histogramm der Daten sieht der Dichte der Standardnormalverteilung sehr
ähnlich.
Wir können das Experiment mit 40.000 Zeichen wiederholen und Blöcke der Länge
40 bilden. Die Übereinstimmung mit der Dichte der Standardnormalverteilung wird
i.a. noch besser sein.
Wie können wir das wissen?
Die Erklärung ist ein wenig komplizierter als die Gleichungen bei unserem Zahlenspiel.
Es hat mit dem Zentralen Grenzverteilungssatz zu tun.
45
Die einzelnen Schritte der Analyse
Wir ordnen ASCII-Codes zu.
Die Summe in den beiden ersten Blöcken:
b1 2026 und b2 2015 .
Wir zeigen einige Blocksummen, um einen
Eindruck der Variation wiederzugeben.
Aus allen Blocksummen berechnen wir
Mittelwert und Standardabweichung:
b 2143.32 und sb 33.08 .
Die erste standardisierte Blocksumme:
b1 b
sb
2026 2143.32
33.08
3.5469 .
Wir setzen die Berechnungen für die anderen Blöcke fort und erhalten 1.000 standardisierte Summen.
Block number
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
Block sum
2026
2015
2052
2077
2097
2100
2143
2177
2167
2134
2116
2155
2182
2206
2123
2179
2173
2075
2203
2141
2157
2165
2165
2107
2169
2123
2166
Mean, sd Stdized sums
2143.32
-3.5469
33.08
-3.8794
-2.7608
-2.0050
-1.4004
-1.3097
-0.0096
1.0183
0.7159
-0.2817
-0.8259
0.3531
1.1694
1.8950
-0.6143
1.0787
0.8973
-2.0655
1.8043
-0.0701
0.4136
0.6555
0.6555
-1.0980
0.7764
-0.6143
0.6857
46
Erstellen einer Häufigkeitsverteilung für die standardisierten Summen
Wir wählen folgende Klassen:
(5, 4.8], (4.8, 4.6],…, (4.8, 5]
und notieren deren relative
Häufigkeiten mit fi.
Wir dividieren diese Häufigkeiten durch die Breite der Klasse:
fi/0.2 (diese Datendichte ist mit
einer Bevölkerungsdichte vergleichbar).
Wir könnten jetzt ein Histogramm zeichnen.
Zum Vergleich berechnen wir
die Dichte der Standardnormalverteilung.
( ei-1, ei ]
mi
ni
fi
fi / 0.2
classes midpoints abs frequ rel frequ density of data stdnormal dens
-5.0
0
0.000
0.000
0.399
-4.8
-4.9
0
0.000
0.000
0.000
-4.6
-4.7
1
0.001
0.005
0.000
-4.4
-4.5
1
0.001
0.005
0.000
-4.2
-4.3
0
0.000
0.000
0.000
-4.0
-4.1
1
0.001
0.005
0.000
-3.8
-3.9
1
0.001
0.005
0.000
-3.6
-3.7
2
0.002
0.010
0.000
0.010
0.001
-3.4
-3.5
2
0.002
-3.2
-3.3
1
0.001
0.005
0.002
-3.0
-3.1
2
0.002
0.010
0.003
-2.8
-2.9
2
0.002
0.010
0.006
-2.6
-2.7
5
0.005
0.025
0.010
-2.4
-2.5
3
0.003
0.015
0.018
-2.2
-2.3
6
0.006
0.030
0.028
-2.0
-2.1
13
0.013
0.065
0.044
-1.8
-1.9
15
0.015
0.075
0.066
-1.6
-1.7
8
0.008
0.040
0.094
-1.4
-1.5
19
0.019
0.095
0.130
-1.2
-1.3
20
0.020
0.100
0.171
-1.0
-1.1
35
0.035
0.175
0.218
-0.8
-0.9
42
0.042
0.210
0.266
Wir zeigen einen Teil der Daten.
47
48
Häufigkeitspolygon der standardisierten 20er Blocksummen –
ursprüngliche Reihenfolge
Verbessern der Anpassung durch zufälliges Umordnen – Länge n = 20
Anstelle eines Histogramms zeichnen wir ein Dichtepolygon, das folgende Punkte
verindet: (Mittelpunkt der Klasse i, fi/0.2).
Wir wiederholen die Analyse mit dem durch eine zufällige Folge umgeordneten
Text.
Wir zeigen nur resultierende Häufigkeitspolygon.
Die Anpassung ist gut, könnte dennoch besser sein.
Standardized block sums - original text
Standardized block sums-deranged text
0.6
0.6
ASCII code
0.5
ASCII code
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0.0
-6
-4
-2
0
2
0.0
6z
4
-6
-4
-2
0
2
4
6z
49
Einfluss des Codiersystems
War etwas mit dem Codierschema ,
was die gute Übereinstimmung mit
der Dichte der Standardnormalverteilung “verursacht” hat?
Ein Stabdiagramm schaut geradezu
“zerfetzt” aus.
Es gibt sogar einige Ausreißer zwischen 45 und 90, die Verteilung ist
ungleich, mit einigen Spitzen und
erstreckt sich über einen großen
Bereich.
Nichts daran erinnert an die Normalverteilung.
50
Serieller Zahlencode – Verteilung des umgeordneten Text – Länge 20
Distribution of assigned
ASCII codes
0.15
Standardized block sums-deranged text
0.6
0.10
ensuing nr code
0.5
0.4
0.05
0.3
0.2
0.00
0
20
40
60
80
100
0.1
120 Code
140
0.0
-6
-4
-2
0
2
4
6z
Dichte der Standardnormalverteilung passt ähnlich gut wie beim ASCII-Code.
51
52
Verbessern der Anpassung durch zufälliges Umordnen – Länge n = 20
Zufälliger Code – Verteilung des umgeordneten Text – Länge 20
Wir wiederholen die Analyse mit dem durch eine zufällige Folge umgeordneten
Text.
Wir zeigen nur resultierende Häufigkeitspolygon.
Standardized block sums-deranged text
0.6
Standardized block sums-deranged text
random code
0.5
0.6
0.4
0.5
0.3
0.4
ASCII code
0.3
0.2
0.2
0.1
0.1
0.0
-6
-4
-2
0
2
6z
4
0.0
-6
Dichte der Standardnormalverteilung passt ähnlich gut wie beim ASCII-Code.
-4
-2
0
2
6z
4
53
Artifizieller Text mit nur zwei Zeichen
Binärer Text mit Blocklänge 20
Anstelle “natürlicher” Texte werden wir nun unseren eigenen Text erzeugen, der
noch besser den benötigten Voraussetzungen genügt.
We will use only two signs and encode them by 0 and 1. The signs will
be produced independently, which
may be interpreted as if a wheel of
chance with two sectors is spun several times.
54
Wir erzeugen zufälligen Text mit 0 und 1 (mit p = 0.4 fürs Zeichen 1)
Generating binary text
Standardized block sums of binary text
p=
0.6
0.4
Length 20
1
0.5
0
0.4
0.4
0.6
0.3
Durch 20 Drehungen erzeugen wir
einen Textblock der Länge 20.
0.2
Wir wiederholen die Prozedur 1.000 Mal, um binäre Textanalyse zu imitieren
0.1
0.0
-6
-4
-2
0
2
4
6z
Erstaunlich, wie gut die Dichte der Standardnormalverteilung passt.
55
56
Generating text with block length 20 and a different p
Binomialverteilung für die Blocksummen
Wir erzeugen neuen Text, jetzt mit p (0.2)
Einzelne Drehung X ergibt 1 mit Wahrscheinlichkeit p und 0 mit 1p; die Blocksumme
B X 1 X 2 ... X n folgt einer Binomial
verteilung mit Mittelwert P
Standardized block sums of binary text
dardabweichung V
p=
0.4
1
n ˜ p und Stan-
n ˜ p ˜ (1 p ) .
0
0.6
0.6
Length 20
0.5
Mittelwert und Standardabweichung Blocksumme über alle 1.000 Blöcke können
x aus den Daten aller 1.000 Blöcke geschätzt werden;
x aus der Binomialverteilung aus den Formeln vorhergesagt werden.
0.2
0.4
0.3
Das Häufigkeitspolygon beschreibt die Verteilung der standardisierten Blocksum-
0.2
men; die Daten werden durch standardisierte Zufallsvariablen
0.1
zeugt.
Die gute Anpassung der Standardnormaldichte bedeutet dabei
0.0
-6
-4
-2
0
2
6z
4
B ( n, p ) | N ( P
n ˜ p, V
B n˜ p
n ˜ p ˜ (1 p )
er-
n ˜ p ˜ (1 p ) .
Jetzt zeigt das Polygon deutliche Schiefe im Vergleich zur Standardnormalkurve.
57
Formale Beschreibung der ursprünglichen Aufgabe
Verschiedene Diagramme für eine diskrete Verteilung
Binomial distribution - thin bars
Binomial distribution - "bar graph"
0.30
n = 20
0.30
Gemäß unserer Erzeugung von binärem Text können wir den ursprünglichen Text (mit allen Codes für die
auftretenden Zeichen) durch ein
Glücksrad darstellen.
n = 20
0.20
0.20
0.4
0.4
0.10
0.10
58
Generating text - each of the sectors
corresponds to one sign in the text
0.00
0.00
0
10
20
30
0
40
Binomial distribution - shadow and bars
0.30
10
20
30
40
Die Summe in jedem Block wird nun durch das Drehen des Glücksrades nachgespielt und die Blocksumme wird zu Zufallsvariablen erzeugt.
Binomial distribution - shadow graph
n = 20
0.20
0.30
n = 20
Das Glücksrad hat entsprechend den Codes für die Zeichen Sektoren, deren Fläche
zu den Häufigkeiten der Zeichen im Text proportional sind.
0.20
0.4
0.4
0.10
0.10
0.00
0.00
0
10
20
30
40
0
10
20
30
40
59
60
Blocksummen als Zufallsvariable und ihre Verteilung
Beziehungen zwischen Eigenschaften des Glücksrads & Blocksummen
Die Blocksumme entsteht aus dem Ergebnis von 20 Drehungen des Glücksrads:
Das Glückrad beschreibt, wie Text erzeugt wird.
Bi , 20
Blocksumme
Glücksrad
Mittelwert
P 20
P
Standardabweichung
V 20
X i ,1 X i , 2 ... X i , 20 .
Die gute Anpassung, die wir für die standardisierten Blocksummen gefunden haben,
wird durch Mittelwert und Standardabweichung des Glücksrades ausgedrückt; man
beachte, dass wir den Zeichen numerische Codes zugeordnet haben.
Die Verteilung für beliebige standardisierte Blöcke ist eine Standardnormalverteilung:
B 20 P 20
| N (0, 1) .
V 20
B20 | N ( P 20 , V 20 ) .
20 ˜ V
V
Die Zusammenhänge für Mittelwert und Standardabweichung kann man aus den
entsprechenden Statistiken aus unseren Daten schätzen.
Bei der artifiziellen Erzeugung von binärem Text können wir unser Wissen über
Binomialverteilungen anwenden und erkennen, dass die obigen Beziehungen erfüllt
sind;
Durch Reskalierung unserer standardisierten Daten zurück in die Originalskala
können wir auch feststellen:
20 ˜ P
V
V1
es
gilt:
Pn
n˜ p
und
P
P1
Vn
p;
n ˜ p ˜ (1 p )
und
p ˜ (1 p ) .
Wir könnten auch intuitive Begründungen angeben; ein mathematischer Beweis
allerdings ist nicht ganz so einfach.
61
62
Der Zentrale Grenzverteilungssatz (ZGS) lautet nun:
Den ZGS in unsere Text“analyse” umschreiben
Wir haben n unabhängige Zufallsvariablen X 1 , X 2 , ..., X n , die alle dieselbe Vertei-
X ist ein generischer Term zur Erzeugung eines Zeichens im Text (“ein Glücksrad”).
lung wie X haben.
X 2 , z.B., ist die zweite Drehung des Rads und beschreibt, wie das zweite Zeichen
X hat einen endlichen Erwartungswert P und eine endliche Standardabweichung V.
(dessen Code) erzeugt und ein numerischer Wert zugeordnet wird.
X 1 X 2 ... X n mit einem Erwartungswert Pn
Wir definieren die Summe als Bn
und einer Standardabweichung Vn.
~
~
Die standardisierte Zufallsvariable Bn ist gegeben durch Bn
Bn P n
Vn
.
Wir erzeugen n Zeichen für einen Text der Blocklänge n. Die einzelnen Ergebnisseder Drehungen des Glücksrades werden intuitiv als unabhängige Wiederholungen
desselben Versuchs gedeutet, was der mathematischen Unabhängigkeit der Zufallsvariablen X 1 , X 2 , ..., X n entspricht.
funktion der Standardnormalverteilung sei (wie üblich) durch ĭ notiert.
Wir haben in natürlichen Texten beobachtet, dass diese Unabhängigkeit verletzt ist;
daher haben wir den Text zufällig umgeordnet, um die Unabhängigkeit zwischen
den Teichen eines Blocks zu gewährleisten.
Unter diesen Voraussetzungen gilt folgende Grenzwertaussage:
Die Zufallsvariable Bn beschreibt, wie Blocksummen aus den Zeichen entstehen.
Deren Verteilungsfunktion ist definiert durch Fn ( z )
~
P( Bn d z ) ; die Verteilungs-
lim Fn ( z ) ĭ( z ) .
Aus Daten bn von vielen Blöcken schätzten wir P n | xbn und V n | sbn .
nof
~
Wir untersuchten standardisierte Blocksummen bn
63
bn xbn
sbn
~
; das sind Daten für Bn .
64
Kein Zentraler Grenzverteilungssatz für Blocksummen
Folgerungen aus ZGS – Approximation für Summen & Durchschnitte
Sobald wir eine Berechtigung haben, die standardisierten Blocksummen durch die
Dichte einer Standardnormalverteilung anzupassen, können wir diese Rechtfertigung
auch zur Approximation von Blocksummen Bn auf der ursprünglichen Skala durch
eine Normalverteilung heranziehen.
Heads minus Tails - Sum
0.20
n = 20
Nur die ‘Parameter 0 und 1 müssen gemäß dem Verschiebungsparameter und dem
Skalierungsfaktor, die zur Berechnung der standardisierten Blocksummen gedient
haben, angepasst werden.
Die entsprechende Normalapproximation für die Blocksummen hat die Parameter
Pn
n ˜ P und V n
0.10
n ˜V .
Mittelwerte sind eine weitere Reskalierung aus standardisierten Summen:
Mn
X 1 X 2 ... X n
n
Bn
.
n
Für die Blocksummen ziehen wir die Parameter P n
P und V n
V
n
0.00
heran.
-30
-10
10
30
65
Kein Zentraler Grenzverteilungssatz für Blocksummen
66
Kein Zentraler Grenzverteilungssatz für Blocksummen
Heads minus Tails - Sum
Heads minus Tails - Sum
0.20
0.20
n = 40
n = 100
0.10
0.10
0.00
0.00
-30
-10
10
30
-30
67
-10
10
30
68
Kein Zentraler Grenzverteilungssatz für Blockdurchschnitte
Kein Zentraler Grenzverteilungssatz für Blockdurchschnitte
Heads minus Tails - average
Heads minus Tails - average
0.20
0.20
n = 20
n = 40
0.10
0.10
0.00
0.00
-1.0
-0.5
0.0
0.5
1.0
-1.0
-0.5
0.0
0.5
1.0
69
70
Kein Zentraler Grenzverteilungssatz für Summen und Durchschnitte
Kein Zentraler Grenzverteilungssatz für Blockdurchschnitte
Summen werden tendenziell größer, ihre Verteilung wird immer flacher, bis keine
Verteilung mehr (im Grenzwert) da ist.
Heads minus Tails - average
Mittelwerte sind immer an derselben Achse zentriert (dem Erwartungswert der
Population). Ihre Verteilung zieht sich nach dem Gesetz der großen Zahlen auf diese
Achse zusammen, sodass im Grenzfall nur ein Punkt übrig bleibt.
0.20
n = 100
Wir können jedoch aus dem ZGS für standardisierte Blocksummen die Grenzverteilung als Approximation für endliche Glieder der Folge heranziehen.
Durch Reskalierung erhalten wir aus den standardisierten Blocksummen die Blocksummen zurück, ebenso Blockdurchschnitte. Die Reskalierung ist eine affin-lineare
Transformation, welche die Gestalt der Normalverteilung aufrecht erhält. Man muss
nur noch die richtigen Parameter finden und einsetzen.
0.10
Der ZGS liefert damit eine Berechtigung, Summen und Mittelwerte für fast beliebige Zufallsvariable durch eine Normalverteilung zu approximieren.
0.00
-1.0
-0.5
0.0
0.5
1.0
71
72
Unbekannte Wahrscheinlichkeiten aus “Stichproben” schätzen
Wir werfen eine Münze 100 Mal und notieren 1 für Kopf und 0 für Zahl. Wir
analysieren das Protokoll wie folgt:
73
Analyse eines Münzwurfprotokolls
Nr
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
20
Analyse
von Blöcken
Auswertung
Blöcke
ZZ
5er 10er 20er
0
0
1
1
0
2
0
0
1
0
0
1
3
1
1
1
1
1
5
1
4
9
12
x
Wir teilen die Serie von 100 Würfen in 20 Blöcke von 5 (Nr 1-5, 6-10 usw.)
und bestimmen die Anzahl der Köpfe (0, 1, ..., 5) im jeweiligen Block. Dann
berechnen wir den Anteil der Köpfe (die relative Häufigkeit) und verwenden
diesen, um die unbekannte Wahrscheinlichkeit p für Kopf zu schätzen.
x
Wir vereinen zwei aufeinander folgende 5er-Blöcke zu einem 10er-Block und
schätzen auch daraus die unbekannte Wahrscheinlichkeit p für Kopf.
x
Wir vereinen zwei aufeinander folgende 10er-Blöcke zu einem 20er-Block; wir
zeichnen ein Stabdiagramm der Schätzungen auf der Basis von 20 Würfen.
x
Wir vergleichen die Ergebnisse aus 5er-Blöcken innerhalb einzelner Studenten
und versuchen, ein allgemeines Muster darin zu erkennen.
x
Dann vereinen wir die Protokolle von (mindestens) 10 Studenten und zeichnen
die empirischen Verteilungen für die wiederholten Schätzungen für jede
Blockgröße getrennt; schließlich versuchen wir, ein Muster in den Verteilungen
zu erkennen und besprechen, was man unter der Präzision der Schätzungen
verstehen kann.
74
Die Präzision der Schätzung wird mit dem Stichprobenumfang größer
Messung
aus
Einzelversuchen
Schätzung
aus
einzelnen
Versuchen
Blöcke der
Länge 5
5er Blöcke
Häufigkeit
Häufigkeiten
SchätzungAnzahl
Köpfe absolut
absolut relativ
relativ
Schätzung
0,00
0
11
0,055
0,20
1
22
0,110
0,40
2
73
0,365
0,60
3
65
0,325
0,80
4
25
0,125
1,00
5
4
0,020
alle
Gesamt
200
1,000
0,700
0,6
0,600
0,5
0,500
0,4
0,400
0,3
0,300
0,2
0,200
0,1
0,100
0
0,000
0
1
0,00
... aus 10
wiederholten
Messungen
Messung
aus 10er Blöcken
0,20
0,40
0,60
0,80
1,00
... aus 20Messung
wiederholten
Messungen
aus 20er Blöcken
0,7
0,7
0,6
0,6
0,5
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0
75
... aus 5Messung
wiederholten
Messungen
aus 5er Blöcken
0,7
0
0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
1
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
76
Herunterladen