Stochastische Prozesse - IT-Dienstleistungen für Studierende

Werbung
I NSTITUT
FÜR
NACHRICHTENTECHNIK
Vorlesung
Stochastische Prozesse
Prof. Dr. Hermann Rohling
Institut für Nachrichtentechnik
Technische Universität Hamburg-Harburg
Sommersemester 2006
Stand: 16. März 2006
Inhaltsverzeichnis
I Wahrscheinlichkeitstheorie
11
1
13
Zufällige Ereignisse
1.1
Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1.1
1.2
1.3
1.4
Definitionen des Begriffs der Wahrscheinlichkeit nach Bernoulli . . 18
Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2.1
Permutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2.2
Kombination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.2.3
Variation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.2.4
Zusammenfassung der Kombinatorik . . . . . . . . . . . . . . . . 27
Wahrscheinlichkeit (Teil 2) . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.3.1
Grenzwert der relativen Häufigkeit (R.
1.3.2
Allgemeingültige Definition der Wahrscheinlichkeit . . . . . . . . 36
VON
M ISES, 1919) . . . . . 29
Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.4.1
Ereignisse und Merkmalsräume . . . . . . . . . . . . . . . . . . . 39
1.4.2
Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.4.3
Mengen und Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . 40
1.4.4
Weitere Mengenoperationen in Ereignisräumen . . . . . . . . . . . 40
1.4.5
V ENN-Diagramme . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1.5
B ERTRANDs Paradoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.6
Definition der σ-Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.7
Axiomatische Definition der Wahrscheinlichkeit (A. KOLMOGOROV, 1933) 44
1.8
Folgerungen aus den KOLMOGOROVschen Axiomen . . . . . . . . . . . . 45
1.9
Definition eines Wahrscheinlichkeitsraums . . . . . . . . . . . . . . . . . . 46
1.10 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.11 Totale Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.12 Formel von Bayes
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3
INHALTSVERZEICHNIS
2
Zufallsvariable, statistische Unabhängigkeit
2.1
Statistische Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.2
Produktwahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . . . . . 56
2.3
Definition der Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . 58
2.4
Neuer Wahrscheinlichkeitsraum . . . . . . . . . . . . . . . . . . . . . . . 60
2.5
Verteilungsfunktion der Zufallsvariablen X . . . . . . . . . . . . . . . . . 63
2.6
2.7
3
53
2.5.1
Eigenschaften der Verteilungsfunktion . . . . . . . . . . . . . . . . 64
2.5.2
Verteilungsfunktion für diskrete Zufallsvariable . . . . . . . . . . . 65
2.5.3
Verteilungsfunktion für kontinuierliche Zufallsvariable . . . . . . . 65
Wahrscheinlichkeitsdichtefunktion . . . . . . . . . . . . . . . . . . . . . . 66
2.6.1
Wahrscheinlichkeitsdichtefunktion für diskrete Zufallsvariable . . . 66
2.6.2
Wahrscheinlichkeitsdichtefunktion für kontinuierliche Zufallsvariable 71
Zusammenfassung: Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 76
Beschreibung und Analyse von Zufallsvariablen
79
3.1
Verteilungsfunktion und Wahrscheinlichkeitsdichtefunktion . . . . . . . . . 79
3.2
p-Fraktile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.3
Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.4
3.5
3.3.1
Erwartungswert einer Zufallsvariablen . . . . . . . . . . . . . . . . 84
3.3.2
Erwartungswert für diskrete Zufallsvariable . . . . . . . . . . . . . 84
3.3.3
Erwartungswert für kontinuierliche Zufallsvariable . . . . . . . . . 85
3.3.4
Rechenregeln für Erwartungswerte . . . . . . . . . . . . . . . . . . 86
3.3.5
Erwartungswerte für Funktionen von Zufallsvariablen . . . . . . . 87
Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.4.1
Definition der Momente . . . . . . . . . . . . . . . . . . . . . . . 88
3.4.2
Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.4.3
Schiefe einer Verteilung . . . . . . . . . . . . . . . . . . . . . . . 91
Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.5.1
Verteilungsfunktion von Zufallsvektoren . . . . . . . . . . . . . . . 92
3.5.2
Randverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.6
Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 94
3.7
Erwartungswerte von statistisch unabhängigen Zufallsvariablen . . . . . . . 96
3.8
Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
3.8.1
3.9
Mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . . 99
Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
3.10 Charakteristische Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4
INHALTSVERZEICHNIS
3.10.1 Summe von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 101
3.10.2 Definition der Charakteristischen Funktion . . . . . . . . . . . . . 104
3.10.3 Eigenschaften der charakteristischen Funktion . . . . . . . . . . . 104
3.10.4 Zusammenhang mit den Momenten einer Zufallsvariablen . . . . . 106
3.10.5 Zweidimensionale Charakteristische Funktion . . . . . . . . . . . . 108
4
Funktionen von Zufallsvariablen
4.1
5
109
Bestimmung der Wahrscheinlichkeitsdichtefunktion durch Transformation . 110
4.1.1
Eindeutig umkehrbare Funktionen . . . . . . . . . . . . . . . . . . 110
4.1.2
Nicht eindeutig umkehrbare Funktionen . . . . . . . . . . . . . . . 111
4.2
Verteilungsfunktion der Zufallsvariablen Y = g(X) . . . . . . . . . . . . . 113
4.3
Funktionen angewandt auf zwei Zufallsvariable . . . . . . . . . . . . . . . 114
4.4
„Festhalten“ einer Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 116
4.5
Transformation von Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . 117
4.6
Geordnete Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
Folgen stochastischer Größen und Grenzwertsätze
5.1
123
Grenzwertsätze der Binomialverteilung . . . . . . . . . . . . . . . . . . . 124
5.1.1
Lokaler Grenzwertsatz von M OIVRE -L APLACE . . . . . . . . . . . 126
5.1.2
Integralgrenzwertsatz von M OIVRE -L APLACE . . . . . . . . . . . 128
5.1.3
Zentraler Grenzwertsatz von L INDEBERG -L ÉVY . . . . . . . . . . 132
5.1.4
Zentraler Grenzwertsatz von L JAPUNOW . . . . . . . . . . . . . . 133
5.2
Tschebyscheff’sche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . 134
5.3
Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.4
5.3.1
Schwaches Gesetz der großen Zahlen . . . . . . . . . . . . . . . . 137
5.3.2
Starkes Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . 139
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
II Stochastische Prozesse
143
6
145
Stochastische Prozesse
6.1
Definition eines stochastischen Prozesses . . . . . . . . . . . . . . . . . . 146
6.1.1
6.2
6.3
Musterfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Beschreibung stochastischer Prozesse . . . . . . . . . . . . . . . . . . . . 149
6.2.1
Stationarität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
6.2.2
Ergodizität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
Autokorrelationsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
5
INHALTSVERZEICHNIS
6.4
6.3.1
Beschreibung von diskreten stochastischen Prozessen . . . . . . . . 153
6.3.2
Eigenschaften der Autokorrelationsfunktion . . . . . . . . . . . . . 153
6.3.3
Kreuzkorrelation von stochastischen Prozessen . . . . . . . . . . . 153
6.3.4
Autokovarianzfolge . . . . . . . . . . . . . . . . . . . . . . . . . . 154
Prognoseverfahren für stochastische Prozesse . . . . . . . . . . . . . . . . 154
6.4.1
6.5
7
Levinson-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . 155
Stochastische Signale in LTI-Systemen . . . . . . . . . . . . . . . . . . . . 158
6.5.1
Kreuzkorrelation zwischen Eingangs- und Ausgangsprozess . . . . 159
6.5.2
Leistungsdichtespektrum . . . . . . . . . . . . . . . . . . . . . . . 160
6.5.3
Kreuzleistungsdichtefunktion . . . . . . . . . . . . . . . . . . . . 160
6.5.4
Wiener-Lee-Beziehung . . . . . . . . . . . . . . . . . . . . . . . . 161
6.5.5
Anwendung: Systemidentifikation durch weißes Rauschen . . . . . 162
6.5.6
Anwendung: Korrelationsempfänger, Matched Filter . . . . . . . . 163
Warteschlangen und Ankunftsprozesse
7.1
7.2
167
Poisson-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
7.1.1
Zählprozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
7.1.2
Ankunftsrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
7.1.3
Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
7.1.4
Ankunftsabstände . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
7.2.1
Beschreibung und Eigenschaften von Markov-Ketten . . . . . . . . 175
7.2.2
Chapman-Kolmogorov- oder Smoluchowsky-Gleichung . . . . . . 175
7.2.3
Übergangsmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . 176
7.2.4
Kolmogorov’sche Vorwärts- und Rückwärtsgleichungen . . . . . . 177
7.2.5
Homogene Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . 178
III Detektion und Estimation
181
8
183
Detektion
8.1
Detektion und Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
8.2
Binäre Detektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
8.3
8.2.1
Entscheidungsregel . . . . . . . . . . . . . . . . . . . . . . . . . . 184
8.2.2
Detektionsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
Bayes-Detektor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
8.3.1
Risiko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
6
INHALTSVERZEICHNIS
9
8.3.2
Entscheidungsregel . . . . . . . . . . . . . . . . . . . . . . . . . . 186
8.3.3
Likelihood-Quotient . . . . . . . . . . . . . . . . . . . . . . . . . 187
8.4
Maximum-a-posteriori Detektor (MAP) . . . . . . . . . . . . . . . . . . . 188
8.5
Maximum-Likelihood Detektor . . . . . . . . . . . . . . . . . . . . . . . . 188
8.6
Neyman-Pearson-Detektor . . . . . . . . . . . . . . . . . . . . . . . . . . 189
Schätzverfahren (Estimation)
9.1
193
Zielsetzung der Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . 193
9.1.1
Arten von Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . 194
9.1.2
Beurteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
9.1.3
Erwartungstreue . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
9.1.4
Varianz der Schätzung . . . . . . . . . . . . . . . . . . . . . . . . 196
9.1.5
Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
9.2
Bayessche Schätzregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
9.3
Maximum-Likelihood Schätzregel . . . . . . . . . . . . . . . . . . . . . . 199
9.4
Schätzung des Erwartungswertes . . . . . . . . . . . . . . . . . . . . . . . 200
9.5
Schätzung der Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
9.6
9.5.1
Schätzung der Varianz bei bekanntem Erwartungswert µy
9.5.2
Schätzung der Varianz bei unbekanntem Erwartungswert µy . . . . 202
. . . . . 201
Rekursive Schätzung des Erwartungswertes . . . . . . . . . . . . . . . . . 203
9.6.1
Erwartungstreue der rekursiven Schätzung . . . . . . . . . . . . . . 204
9.6.2
Varianz der rekursiven Schätzung . . . . . . . . . . . . . . . . . . 205
9.7
Schätzung mit geordneter Statistik . . . . . . . . . . . . . . . . . . . . . . 206
9.8
Konfidenzintervall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
9.8.1
9.9
Konfidenzintervall für den Erwartungswert . . . . . . . . . . . . . 208
Cramer-Rao-Schranke . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
9.10 Lineare Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
9.10.1 Orthogonalitätsprinzip . . . . . . . . . . . . . . . . . . . . . . . . 214
9.10.2 Allgemeine Regeln eines linearen Schätzverfahrens . . . . . . . . . 214
9.10.3 Auftretende Fehler bei linearen Schätzverfahren . . . . . . . . . . . 215
9.11 Additive unkorrelierte Störungen . . . . . . . . . . . . . . . . . . . . . . . 215
IV Anhang
217
A Verständnisfragen
219
A.1 Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . 219
7
INHALTSVERZEICHNIS
A.2 Stochastische Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
A.3 Detektion & Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
B Tabellen
221
B.1 Normierte Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 222
B.2 Studentsche t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
8
Einleitung
Trau keiner Statistik, die du nicht selbst gefälscht hast. So oder so ähnlich ist der gesellschaftliche und umgangssprachliche Zugang zu dem, was in dieser Vorlesung auf wissenschaftlich wohlfundierter Basis diskutiert werden soll. Mit dieser Redensart wird allerdings gleichzeitig auch die Bedeutung der Statistik unterstrichen. Wer diesen Sachverhalt
beherrscht, hat sich offensichtlich Vorteile erarbeitet; er oder sie kann mitreden, wenn man
von der Sache etwas versteht.
Pfiffige Strategen nutzen die weit verbreitete Unkenntnis im Umgang zufälliger Ereignisse und in der Angabe quantitativer Werte der Wahrscheinlichkeit geschickt und gezielt aus, um sich Vorteile bei der Vermarktung neuer Medikamente oder auch vor Gericht
zu verschaffen. Ein Paradebeispiel für diesen Sachverhalt ist der Mordprozess gegen den
US-Football-Star O.J. Simpson in den neunziger Jahren. „Sein Verteidiger führte damals
weitläufig aus, wie ungerecht es sei, es als belastendes Indiz für seinen Mandanten zu bewerten, dass Simpson seine Frau früher nachweislich misshandelt habe. Schließlich würde
die Mehrzahl der geschlagenen Frauen ja keineswegs ermordet. Weniger als einer von 2500
Männern, die ihre Partnerin schlagen, so argumentierte der Verteidiger, gingen so weit, sie
zu ermorden. Diese statistische Angabe stimmte, führte die Geschworenen jedoch an der
Nase herum. Entscheidend für das Urteil hätte die ebenfalls relevante Frage sein können,
bei wie vielen von allen getöteten Frauen, die zu Lebzeiten von ihrem Mann misshandelt
wurden, dieser auch der Mörder war. Dies ist nachweislich bei 8 von 9 aller umgebrachten Frauen der Fall. Unabhängig von der objektiven Wahrheit hatte die Augenwischerei
des Verteidigers wohl Erfolg: O.J. Simpson ist seither auf freiem Fuß“ [Die Zeit Nr. 33,
vom 8.8.02]. Diese beiden unterschiedlichen Angaben und Aussagen müssen offensichtlich genau analysiert werden. Was steht also tatsächlich hinter diesen Aussagen, die sich
auf wahrscheinlichkeitstheoretische Sachverhalte beziehen? Wir werden in den folgenden
Kapiteln auf diesen wahrscheinlichkeitstheoretischen Sachverhalt zurückkommen.
Sehr viele Ereignisse in unserem alltäglichen Leben, deren physikalische oder sonstige
Gesetzmäßigkeiten uns unbekannt sind, betrachten und akzeptieren wir deshalb als zufällig
9
INHALTSVERZEICHNIS
oder auch als nicht oder nur sehr vage vorhersagbar. Nicht nur das „ehrliche Glücksspiel“,
sondern auch das „Wetter von morgen“ sowie Geburten- und Sterberaten, Aktienkurse und
Wahlumfragen sind Beispiele dieser Kategorie von relevanten Fragen und von zu analysierenden Sachverhalten.
Die hinter den zufälligen Ereignissen stehenden Fragestellungen können ganz unterschiedlicher Natur sein. Ein Beispiel dazu: Für Versicherungen ist zwar der einzelne Schadensfall ein rein zufälliges Ereignis, allerdings zunächst von relativ geringem Interesse.
Die eigentlich wichtige Frage für Versicherungen besteht darin, trotz der Zufälligkeit der
Einzelereignisse die jährlich zu erwartende gesamte Schadenssumme mit hoher Genauigkeit vorhersagen zu können. Aus der Sicht des Individuums ist eine Erkrankung oder ein
Unglücksfall als rein zufälliges Ereignis zu betrachten und zu bewerten. Das Individuum
interessiert sich für die Wahrscheinlichkeit, mit der es von einem Schaden betroffen sein
kann, um dadurch Risiken abschätzen zu können. Für die Versicherung ist dagegen ausschließlich die Frage von Interesse, wie gut bzw. im stochastischen Sinne wie sicher die
mittlere jährliche Schadenssumme vorhersagbar ist.
In der Elektro- und Informationstechnik ist die Kenntnis von Methoden zur Beschreibung und Analyse von zufälligen Ereignissen von besonderer Wichtigkeit, da zufällige
Ereignisse und stochastische Prozesse in praktisch allen Bereichen auftreten: Das Empfangssignal eines Kommunikationssystems, die Messwerte eines Sensors, die Daten eines
Videodatenstromes, die Lebensdauer eines Bauteils sowie die Paketankunftszeiten an einem Router sind nur einige ausgewählte Beispiele. Sachverhalte dieser Art sollen in dieser
Vorlesung analysiert und auch quantitativ berechnet werden.
10
Teil I
Wahrscheinlichkeitstheorie
11
Kapitel 1
Zufällige Ereignisse
Im technischen Anwendungsbereich ist der Begriff des Zufalls oder der Zufallsvariablen wichtig. Solche vom Zufall beeinflussten Vorgänge werden als Zufallsexperiment
bezeichnet. Der Ingenieur ist darin geschult, durchaus komplexe Sachverhalte zu durchdringen und modellhaft zu beschreiben. Die Modellbildung spielt deshalb in dieser Vorlesung eine ausgezeichnete Rolle.
Der Begriff des Zufalls beschäftigt Wissenschaftler schon seit mehreren Jahrhunderten. Dabei ist die Erkenntnis bzw. die Beobachtung von zentraler Bedeutung, dass solche
im Grundsatz zwar einer strengen aber doch unbekannten Gesetzmäßigkeit gehorchenden
Vorgänge vom Beobachter als zufällige Ereignisse wahrgenommen werden. Durch lange
Beobachtung eines Experiments mit zufälligem Ausgang kann man versuchen, die Gesetzmäßigkeit zu analysieren. Dies gelingt selbstverständlich nicht im deterministischen
sondern nur im stochastischen Sinn.
Abbildung 1.1: Verlauf des DAX (Quelle: http://www.finanztreff.de)
13
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
Abbildung 1.2: Bevölkerungspyramide (Quelle: http://www.destatis.de)
Wir werden im Alltag mit vielen Darstellungen konfrontiert, in denen im Prinzip wahrscheinlichkeitstheoretische Sachverhalte dargestellt und beschrieben sind, obwohl das auf
den ersten Blick gar nicht erkennbar ist. Der zeitliche Verlauf eines Aktienkurses wird
selbstverständlich von vielen Faktoren beeinflusst. Ohne detaillierte Kenntnis dieser Faktoren können wir den jeweiligen Kurs aber ersatzweise als zufälligen Verlauf betrachten
und beispielsweise statistische Methoden zur Kursvorhersage anwenden. In den Börsennachrichten werden sogenannte Tages-, Monats- oder 90 Tagesmittel angegeben (Abbildung 1.1). Hinter dieser Berechnung der Mittelwerte steckt eine statistische Analyse des
betrachteten Sachverhalts.
Zur Angabe einer Bevölkerungsstatistik wird das Lebensalter eines Individuums als
zufälliges Ereignis betrachtet. Eine Bevölkerungspyramide (Abbildung 1.2) gibt an, welches derzeitige Lebensalter die Menschen innerhalb einer Gesellschaft haben. Daraus lassen sich wichtige statistische Größen, wie mittleres Lebensalter, mittlere Lebenserwartung
sowie charakteristische Abweichungen für das Lebensalter von Frauen und Männer ablesen. Ebenso können wir Wahlumfragen (Abbildung 1.3) als ein Ereignis mit zufälligem
Ausgang betrachten. Objektiv betrachtet wird der Wahlausgang von einer Vielzahl von
Faktoren beeinflusst. Zwischen diesen Faktoren und dem resultierenden Wahlausgang gibt
14
Abbildung 1.3: Wahlergebnis (Verteilung der Zweitstimmen bei der Bundestagswahl 2002,
Quelle: http://www.bundeswahlleiter.de)
es allerdings im Allgemeinen keinen klaren funktionalen Zusammenhang. Deshalb wird
das Wahlverhalten und der Wahlausgang alternativ als ein Zufallsprozess beschrieben und
betrachtet. Daraus lassen sich wiederum wichtige statistische Grössen herleiten, die zur
Interpretation der Ergebnisse und Wahlanalyse genutzt werden können.
Die Stochastik ist diejenige wissenschaftliche Disziplin, die eine präzise mathematische Beschreibung der zufälligen Vorgänge gestattet, die zwar einer Gesetzmäßigkeit
unterliegen können, deren Ausgänge aber trotzdem als zufällig betrachtet und beobachtet werden. Damit ist das Thema für diese Vorlesung fixiert und beschrieben. Wir wollen
den Umgang mit zufälligen Ereignissen mathematisch formal in geeigneten Modellen erfassen und die Interpretation der Ergebnisse ausführlich diskutieren. Zunächst wird die
Wahrscheinlichkeitstheorie entwickelt. Später wird die Theorie der stochastischen Prozesse beschrieben und anschließend das wichtige Thema der statistischen Entscheidungs- und
Schätztheorie analysiert.
Offensichtliche Zufallsexperimente, bei denen die mathematischen Voraussetzungen deutlich nachprüfbar sind, werden in diesem Skript häufig als charakteristische Beispiele für
einen allgemein betrachteten Sachverhalt herangezogen. Dabei beobachten wir die zufälligen Ergebnisse und analysieren das stochastische Geschehen.
Einige Beispiele für solche Zufallsexperimente sind im Folgenden angegeben:
• Zufallszahlengenerator:
Zufalls−
generator
15
zufällige Ereignisse
ω1 , ω2 , . . .
Elementarereignisse
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
• Kartenspiel:
• Lotto:
• Münzwurf:
• Urnenexperiment:
• einarmiger Bandit:
Kartenspiele, Münzwürfe, Urnenexperimente, Lotto und Spielautomaten sind dadurch
charakterisiert, dass eine endliche Anzahl von Möglichkeiten beim Ausgang des zufälligen
Experiments beobachtet werden. Die interessierende Frage besteht in der quantitativen Angabe, wie häufig bestimmte zufällige Ereignisse bzw. Kombinationen einzelner Ereignisse
bei diesem Experiment auftreten. Es ist offensichtlich, dass eine positive Beantwortung dieser Frage Vorteile im Glücksspiel bringen kann. Diese allgemein formulierte Frage muss
aber zunächst in ein formales mathematisches Gerüst eingebracht werden. Dazu werden im
Folgenden geeignete mathematische Modelle entwickelt.
16
1.1. WAHRSCHEINLICHKEIT
Definition 1.1 (Ereignisraum) Die Menge aller möglichen Ergebnisse eines Zufallsexperiments wird Ereignisraum genannt und mathematisch formal durch die Menge Ω be-
Ereignisraum
schrieben. In der Menge Ω sind also sämtliche Elementarereignisse des Zufallsexperiments
Ω
❍
enthalten.
Zur anschaulichen Darstellung dieser im Prinzip abstrakten Zufallsexperimente werden wir immer wieder auf ähnliche Beispiele zurückgreifen, auf Kartenspiele, Werfen von
Münzen oder Würfeln, Verteilung von Kugeln in Urnen usw. Für jedes Zufallsexperiment
muss zunächst der Ereignisraum Ω exakt beschrieben werden.
Beispiel 1.1
Ereignisräume verschiedener beispielhafter Zufallsexperimente:
1.
Werfen einer Münze:
Ω1 = {Kopf, Zahl}
2.
Werfen eines Würfels:
Ω2 = {1, 2, 3, 4, 5, 6}
3.
Werfen von zwei Würfeln:
Ω 3 = Ω2 × Ω 2
4.
Anzahl der Anrufe in einer Telefonzentrale:
Ω4 = N0 = {0, 1, 2, . . .}
5.
Laufzeit einer Maschine:
Ω5 = R +
0 = [0, ∞[
△
Ein allgemeines zufälliges Ereignis des Zufallsexperiments ist demnach eine Teilmenge A des Ereignisraumes Ω. Die Eigenschaften dieser Teilmenge A sind zunächst noch
nicht festgelegt, sondern abstrakt zu interpretieren. Wenn allerdings A = Ω bzw. A = ∅
ist, dann werden diese Situationen auch als sicheres bzw. unmögliches Ereignis bezeichnet. Einelementige Teilmengen des Ereignisraumes Ω werden Elementarereignisse des
Zufallsexperiments genannt.
1.1 Wahrscheinlichkeit
Bisher wurde das Zufallsexperiment ausschließlich mengentheoretisch erfasst. Es wurde
sozusagen analysiert und beschrieben, welche zufälligen Ereignisse in einem Zufallsexperiment überhaupt auftreten können. Das eigentliche Ziel der folgenden Betrachtungen
besteht aber darin, den einzelnen zufälligen Ereignissen Wahrscheinlichkeiten zuordnen
zu wollen und zuordnen zu können. Darin liegt ja die wesentliche Zielsetzung der Wahrscheinlichkeitstheorie, um nicht nur die möglichen Ereignisse der Zufallsexperimente vor
dem Hintergrund der Kombinatorik zu erfassen, sondern diesen Ereignissen auch Wahrscheinlichkeiten für eine quantitative Auswertung zuordnen zu können. Erst durch diesen
Schritt wird eine Wahrscheinlichkeitstheorie begründet. Die Entwicklung dieser Theorie
hat sich in Etappen vollzogen. Je nach vorliegender aktueller Fragestellung ist das theoretische Gebäude entsprechend erweitert worden.
17
Ereignis
A
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
Zu Anfang des 18. Jahrhunderts war das Glücksspiel sehr populär. Die damaligen Fürsten, Herzöge und sonstigen wohlbetuchten Personen haben sich nicht nur sehr aktiv am
Glücksspiel beteiligt, sondern konnten es sich zusätzlich auch leisten, kluge Menschen zu
beschäftigen (und hoffentlich gut zu bezahlen), von denen sie sich Rat für das Verhalten im
Glücksspiel holten. Dementsprechend wurde von den damaligen Mathematikern für diese Experimente mit offensichtlich zufälligem Ausgang eine Theorie entwickelt, mit der
Antworten auf die Wahrscheinlichkeit bestimmter zufälliger Konstellationen und damit auf
Fragen zum Risiko eines Wetteinsatzes gegeben werden konnten. Charakteristisch für diese
betrachteten Experimente ist allerdings, dass jedes Elementarereignis (Ziehen einer Karte,
Zahl am Roulettisch usw.) anschaulich mit derselben identischen Wahrscheinlichkeit eintritt.
Johann Bernoulli wurde am 27. Juli 1667 in Basel geboren und ist dort am 1. Januar
1748 gestorben. In seinen wissenschaftlichen Betrachtungen ließ er sich von einem zunächst einfachen aber auch anschaulich nachvollziehbaren Gedanken leiten, dass nämlich
Elementarereignisse in den Experimenten mit gleicher Wahrscheinlichkeit auftreten. Die
Gleichwahrscheinlichkeit der Elementarereignisse erhebt er deshalb zum Prinzip, zur Basis, zur charakteristischen Eigenschaft seiner Wahrscheinlichkeitstheorie. Er betrachtet Zufallsexperimente mit diskretem (also nicht kontinuierlichem) Ausgang, wobei die Anzahl
der Elementarereignisse mit N begrenzt ist. Es treten also nur endlich viele Elementarereignisse in diesen Zufallsexperimenten auf.
Das ist eine zunächst wesentliche Festsetzung in dem betrachteten Modell und auch
eine Einschränkung bezüglich der Experimentanordnung. Allerdings ist diese Festsetzung
bei den bisher betrachteten Beispielen der Kartebspiele, Münzwürfe, Urnenexperimente
und Spielautomaten unmittelbar als zutreffend nachvollziehbar.
1.1.1 Definitionen des Begriffs der Wahrscheinlichkeit nach Bernoulli
Glücksspiele in Form von Würfeln, Roulette, oder Karten werden bereits seit Jahrhunderten
gespielt. Dabei tritt eine definierte Anzahl bekannter Elementarereignisse im Ereignisraum
Ω auf. Durch Werfen der Würfel oder Ziehen der Karten treten diese Elementarereignisse
selbstverständlich zufällig auf. Diesen Sachverhalt hat Bernoulli 1713 zum Anlass genommen, um seinen Begriff der Wahrscheinlichkeit in einem ersten wichtigen Modell und einem ersten mathematischen Konzept zu definieren. Dieses basiert auf der Annahme, dass
die Elementarereignisse gleich wahrscheinlich sind. Wir gehen im Folgenden allgemein
von insgesamt N Elementarereignissen aus.
Als logische Folge wurde das „principle of insufficient reason“ von B ERNOULLI 1713
eingeführt und für die betrachteten zufälligen Experimente als gültig gefordert:
18
1.1. WAHRSCHEINLICHKEIT
„In the absence of any prior knowledge we must assume that all basic events
have equal probabilities.“
⇒ Alle Elementarereignisse sind gleich wahrscheinlich oder treten mit anderen Worten
mit jeweils gleicher Wahrscheinlichkeit auf. Als quantitativen Wert dieser Wahrscheinlichkeit gibt er an: P (ω) =
1
N
Mit dieser anschaulichen Vorstellung kann der Begriff der Wahrscheinlichkeit P (P
steht für probability) für das Auftreten eines allgemein formulierten zufälligen Ereignisses
A wie folgt definiert werden:
Definition 1.2 (principle of unsufficient reason, Bernoulli 1713) Unter der Annahme
der Gleichwahrscheinlichkeit aller Elementarereignisse lässt sich die Wahrscheinlichkeit
P (A) des Ereignisses A wie folgt beschreiben:
P (A) =
NA
N
(1.1)
mit
NA - Anzahl der Elementarereignisse, die das zufällige Ereignis A bilden
N
❍
- Anzahl aller Elementarereignisse
Es wird also zur Definition des Begriffs Wahrscheinlichkeit das Verhältnis aus der Anzahl der für das zufällige Ereignis sogenannten „günstigen“ zu der Anzahl N aller möglichen Elementarereignisse gebildet. Aus dieser Definition ist zu erkennen, dass lediglich
endlich viele Elementarereignisse in diesem Modell zugelassen sind und die Wahrscheinlichkeit ausschließlich Werte zwischen 0 und 1 annimmt. Bei den hier betrachteten Anwendungsbeispielen der Würfel- oder Kartenspiele ist es häufig eine Frage der Kombinatorik,
die Anzahl der günstigen und möglichen Elementarereignisse zu ermitteln.
Die Wahrscheinlichkeit eines jeden Elementarereignisses ist nach der obigen Definition selbstverständlich wie von Bernoulli gefordert identisch: P (Elementarereignis) =
1
N.
Diese Forderung ist anschaulich auch unmittelbar klar, weil beispielsweise bei einem Kartenspiel keine einzelne Karte in irgendeiner Form bevorzugt zufällig auftritt oder bevorzugt
zufällig gezogen wird.
Es stellt sich aber bereits jetzt die Frage, welche unmittelbar einsichtigen mathematischen Eigenschaften dieser neue Wahrscheinlichkeitsbegriff hat. Dabei kann an dieser
Stelle bereits festgestellt werden, dass die folgenden drei Eigenschaften für diesen Wahrscheinlichkeitsbegriff gelten. Die Richtigkeit dieser Aussagen kann anschaulich nachvollzogen werden.
(1) 0 ≤ P (A) ≤ 1 für alle Ereignisse A
19
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
(2) P (Ω) = 1
(3) Sei An eine Folge von Ereignissen, die sich einander paarweise ausschließen, so gilt
P
[
n
An
!
=
X
P (An ).
n
D.h. die Wahrscheinlichkeit eines aus disjunkten Mengen zusammengesetzten Ereignisses kann direkt aus der Summe der Wahrscheinlichkeiten der disjunkten Teilmengen berechnet werden.
Auf diese grundlegend wichtigen Eigenschaften des Wahrscheinlichkeitsbegriffs werden wir in späteren Kapiteln zurückkommen.
Beispiel 1.2 (Würfeln)
Frage:
Wie groß ist die Wahrscheinlichkeit beim Wurf zweier Würfel die Augensumme 7 zu erhalten?
Lösung:
Es existieren sechs „günstige“ Elementarereignisse:
(3, 4), (4, 3), (5, 2), (2, 5), (6, 1), (1, 6)
→
NA = 6
Die Zahl der möglichen Elementarereignisse ist gegeben durch alle Augenzahl-Kombinationen:
N = 62 = 36
Die Wahrscheinlichkeit P im Bernoullischen Sinn ist deshalb:
P (Augensumme ist 7) =
6
1
NA
=
=
N
36
6
△
1.2 Kombinatorik
In dem Bernoullischen Modell treten grundsätzlich sämtliche Elementarereignisse mit derselben Wahrscheinlichkeit auf. Um diese Wahrscheinlichkeit auch quantitativ angeben zu
können, muss zunächst die Anzahl der Elementarereignisse ermittelt werden. Ferner muss
für die Berechnung der Wahrscheinlichkeit für das Auftreten eines bestimmten Ereignisses
A, die Anzahl der dieses Ereignis beschreibenden Elementarereignisse ermittelt werden.
Bei vielen Zufallsversuchen kann das einfache Auszählen der Elementarereignisse aber zu
einem etwas umfangreicherem Unterfangen werden.
20
1.2. KOMBINATORIK
Auch hierbei kann die Mathematik weiterhelfen, die sich im Gebiet der Kombinatorik
mit dem Auszählen möglicher Ereignisse befasst.
1.2.1 Permutation
Permutation ohne Wiederholung
Beispiel 1.3 (Fakultät)
Frage:
Wie viele Möglichkeiten N = Pn bzw. wie viele Elementarereignisse gibt es, wenn wir
uns für die Reihenfolge interessieren, mit der die einzelnen Karten eines Kartenspiels (n=32
Karten) gezogen werden können?
Antwort:
Für die Wahl der ersten Karte im Stapel existieren n = 32 Möglichkeiten. Da diese Karte
nun festgelegt ist, bleiben für die Wahl der zweiten Karte nur noch 31 Möglichkeiten übrig.
Für die dritte Karte reduziert sich die Zahl der Möglichkeiten auf 30. Dies geht immer so
weiter bis für die letzte Karte des Stapels nur eine Möglichkeit übrig bleibt. Die Anzahl
aller Möglichkeiten ergibt sich somit also aus dem Produkt aller Zahlen von 1 bis 32:
N = Pn =
n
Y
k =: n! = 32!
k=1
△
Bei der Permutation ohne Wiederholung interessiert man sich für die Anzahl der
Möglichkeiten Pn mit denen n verschiedene Elemente unterschiedlich in der Reihenfolge
angeordnet werden können, wobei jedes Element in der Reihenfolge genau einmal vorkommen darf. Da für die Wahl jedes neuen Elements immer eine Möglichkeit weniger als
für das vorherige existiert, erhält man ein Produkt aller Zahlen von 1 bis n. Für diese Produktbildung wurde in der Mathematik der Begriff der Fakultät eingeführt, die durch ein
Ausrufezeichen gekennzeichnet wird.
Definition 1.3 (Permutation ohne Wiederholung) Für die Anzahl Pn der Anordnung
Permutation
von n verschiedenen Elementen gilt:
ohne
Pn = n! =
n
Y
Wiederholung
k
(1.2)
k=1
❍
21
Pn
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
Beispiel 1.4 (Sitzreihe)
In einem Hörsaal wurde eine Reihe mit 16 Sitzplätzen von genau 16 Studierenden besetzt. Es gibt insgesamt 16! = 20.922.789.888.000 Möglichkeiten für die Sitzordnung,
eine durchaus beachtlich grosse Anzahl von Möglichkeiten.
△
Permutation mit Wiederholung
Beispiel 1.5 (Joker)
Frage:
Wenn ein Kartenspiel mit insgesamt n = 52 Spielkarten betrachtet wird, in dem k =
4 nicht unterscheidbare Joker enthalten sind, dann stellt sich die Frage nach der Anzahl
möglicher Reihenfolgen etwas anders. Es wird deshalb die Frage untersucht, wie viele
Möglichkeiten es gibt, unterschiedliche Reihenfolgen aus diesem Kartenstapel zu ziehen.
Antwort:
Die Anzahl bei n unterscheidbaren Karten hatten wir schon in Beispiel 1.3 betrachtet. Da
hier aber k = 4 Karten nicht zu unterscheiden sind, reduziert sich die Anzahl der Möglichkeiten: Permutationen, die sich nur durch die Anordnung der Joker unterscheiden, fallen
jetzt zu einer einzigen zusammen. Man muss demzufolge die Anzahl der Möglichkeiten
für die Anordnung von n Elementen durch die Anzahl der Möglichkeiten für die Anzahl
von k Elementen teilen:
Pn(k) =
52!
n!
=
k!
4!
△
(k)
Bei der Permutation mit Wiederholung Pn
berücksichtigt man die Möglichkeit,
dass bei der Anordnung der n Elemente, k gleiche Elemente (k ≤ n) vorhanden sind. Das
heißt, von den n Elementen können k Elemente mehrfach in der Anordnung auftreten bzw.
es ist eine Gruppe von k voneinander nicht unterscheidbaren Elementen in dem Kartenstapel enthalten. In diesem Fall muss die Anzahl der Möglichkeiten zur Anordnung von n
durch die Anzahl der Möglichkeiten zur Anordnung von k Elementen dividiert werden:
Pn(k) =
n
Y
n!
Pn
i
=
=
Pk
k!
i=k+1
Beispiel 1.6 (Urnen Experiment)
In einer Urne befinden sich k1 = 3 rote, k2 = 2 blaue und k3 = 4 gelbe Kugeln. Die
Kugeln werden zufällig aus der Urne gezogen und einer Reihe angeordnet. Wie viele Möglichkeiten gibt es, die Kugeln in unterschiedlicher Reihenfolge anzuordnen?
22
1.2. KOMBINATORIK
Es liegen insgesamt n = k1 + k2 + k3 = 9 Kugeln in der Urne, die alle in einer Reihe
angeordnet werden sollen. Da jeweils kx Kugeln nicht voneinander zu unterscheiden sind,
muss man die Möglichkeiten zur Anordnung von n unterscheidbaren Elementen durch die
Fakultäten von kx dividieren:
(3,2,4)
P9
=
9!
= 1260
3!2!4!
△
Beispiel 1.6 zeigt, dass bei der Berechnung der Permutation mit Wiederholung beliebig
viele Gruppen gleicher Elemente k1 , k2 , . . . , km berücksichtigt werden können.
Definition 1.4 (Permutation mit Wiederholung) Gibt es in einer Anzahl von n Elemen-
Permutation
ten m Gruppen mit jeweils k1 , k2 , . . . , km Elementen (k1 +k2 +· · ·+km ≤ n), so berechnet
mit
sich die Anzahl der Möglichkeiten, diese Elemente in unterschiedlicher Reihenfolge anzu-
Wiederholung
ordnen, als Permutation mit Wiederholung mittels:
Pn
Pn(k1 ,k2 ,...,km ) =
(k1 ,k2 ,...,km )
n!
k1 !k2 ! · · · km !
(1.3)
❍
Beispiel 1.7 (Sitzordnung)
In einem Seminarraum mit 20 Sitzplätzen nehmen 12 Personen Platz. Da dabei 8 Sitzplätze
frei bleiben, gibt es
20!
8!
△
mögliche Sitzanordnungen.
Beispiel 1.8 (Zahlenbildung)
(2,3)
Aus den fünf Ziffern 4, 4, 6, 6, 6 können P5
=
5!
2!3!
= 10 verschiedene fünfstellige
△
Zahlen gebildet werden.
1.2.2 Kombination
Mit Hilfe der Permutationen beschreiben wir die Anzahl von Möglichkeiten mit der wir n
unterschiedliche Elemente in einer Reihenfolge anordnen können. Alternativ wird häufig
die Frage nach der Anzahl unterschiedlicher Möglichkeiten gestellt, mit der k Elemente
aus eine Gesamtheit von n Elementen ausgewählt werden können, wenn die Reihenfolge
der gewählten Elemente unerheblich ist. Dieser Sachverhalt kann durch den Begriff der
Kombinationen erfasst und quantitativ beschrieben werden.
23
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
Kombination ohne Wiederholung
Beispiel 1.9 (Karten ziehen)
Aus einem Kartenspiel mit n = 32 Spielkarten sollen k = 5 beliebige, also zufällige Karten
gezogen werden. Wie viele verschiedene Möglichkeiten für die Auswahl dieser 5 Spielkarten sind denkbar, wenn die Reihenfolge, in der die Karten gezogen werden, unerheblich
ist?
Das Ziehen der Spielkarten entspricht einem Aufteilen aller Karten in die zwei Gruppen
der gezogenen und der nicht gezogenen Karten. Prinzipiell ließe sich die Aufgabe also als
Permutation mit Wiederholung berechnen, wobei k1 = k und k2 = n − k wäre. Bei
diesem Sonderfall, wenn k1 + k2 = n gegeben ist, spricht man von Kombinationen ohne
Wiederholung. Die Anzahl der Möglichkeiten berechnet sich wie folgt:
(5)
C32 =
32!
= 201376
5!27!
△
Die Auswahl von k Elementen aus einer Menge von n Elementen ohne Beachtung der
(k)
Reihenfolge bezeichnet man als Kombination ohne Wiederholung Cn . Sie entspricht
einer Aufteilung aller n Elemente in zwei Gruppen mit k bzw. n−k Elementen. Somit kann
man die Anzahl dieser Möglichkeiten in Anlehnung an die Permutation mit Wiederholung
durch die Division der Fakultäten ermitteln.
Kombination
Definition 1.5 (Kombination ohne Wiederholung) Man berechnet die Anzahl der Mög-
ohne
lichkeiten der Auswahl von k Elementen aus einer Menge von n Elementen ohne Beachtung
Wiederholung
der Reihenfolge mittels der Division aus der Fakultät der Anzahl n und den Fakultäten der
(k)
Cn
entstehenden Gruppen mit k bzw. n − k Elementen:
n!
n
Cn(k) =
=
k!(n − k)!
k
(k ≤ n)
(1.4)
❍
Der Ausdruck
net.
n
k
=
n!
k!(n−k)!
wird auch als Binomialkoeffizient („n über k“) bezeich-
Beispiel 1.10 (Wahlausschuss)
Es soll ein Wahlausschuss bestehend aus drei Personen gewählt werden. Dazu haben sich
insgesamt 30 Personen zur Wahl gestellt. Bei dieser Wahl gibt es insgesamt 30
3 = 4060
verschiedene Möglichkeiten den drei-köpfigen Wahlausschuss geeignet zusammen zu stel-
△
len.
24
1.2. KOMBINATORIK
Kombination mit Wiederholung
Definition 1.6 (Kombination mit Wiederholung) Man betrachtet die Auswahl von k Ele-
Kombination
menten aus einer Menge von n Elementen ohne Beachtung der Reihenfolge. Hierbei kann
mit
jedes der n Elemente beliebig oft ausgewählt werden. Die Anzahl aller Möglichkeiten bei
Wiederholung
dieser Auswahl bezeichnet man als Kombination mit Wiederholung:
n+k−1
(k)
C̃n =
k
C̃n
(k)
(1.5)
❍
Beispiel 1.11 (Würfeln)
(k)
Mit k Würfeln sind C̃6
=
k+6−1
k
verschiedene Würfe möglich (Würfel nicht unter
(2)
schieden). Für 2 Würfel gilt demzufolge C̃6 = 72 = 21.
△
1.2.3 Variation
In einigen Fällen betrachtet man die Auswahl von k Elementen aus einer Gesamtheit von
n Elementen, wobei die Reihenfolge der Auswahl berücksichtigt wird. Diese Fälle lassen
sich mit Hilfe der Variationen berechnen.
Variation ohne Wiederholung
Beispiel 1.12 (Karte ziehen lassen)
Bei einem Kartenspiel mit n = 32 Spielkarten erhält jeder der k = 5 Mitspieler genau eine
Spielkarte. Wie viele Möglichkeiten gibt es, die Spielkarten so zu verteilen?
Für den ersten Mitspieler gibt es n = 32 Möglichkeiten, welche Spielkarte er erhält.
Da nun eine Karte weniger im Kartenstapel enthalten ist, gibt es für den zweiten Mitspieler
nur noch 31 Möglichkeiten für die Auswahl seiner Karte. Somit reduziert sich die Anzahl
der Möglichkeiten für jeden Spieler jeweils um 1:
(5)
V32 = 32 · 31 · 30 · 29 · 28 =
32!
(32 − 5)!
△
Variationen ohne Wiederholung lassen sich somit in kürzerer Form durch Fakultäten
beschreiben. Eine andere Möglichkeit ist, sie mit Hilfe des Binomialkoeffizienten („n über
k“) auszudrücken.
(k)
Definition 1.7 (Variation ohne Wiederholung) Die Anzahl Vn
25
der Möglichkeiten, aus
Variation
ohne
Wiederholung
(k)
Vn
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
n verschiedenen Elementen k unter Beachtung der Reihenfolge auszuwählen, berechnet
sich zu:
Vn(k)
n
n!
= k!
= n(n − 1)(n − 2) · · · (n − k + 1) =
(n − k)!
k
(k ≤ n)
(1.6)
❍
Beispiel 1.13 (Vorstandswahl)
In einem Verein soll aus insgesamt 30 Personen ein 4-köpfiger Vorstand gewählt werden
(Positionen werden unterschieden). Es gibt dann 30
4 4! = 657720 Möglichkeiten, den
△
Vorstand zu besetzen.
Variation mit Wiederholung
Beispiel 1.14 (PIN-Code)
Wie viele Möglichkeiten gibt es für den PIN-Code einer ec-Karte?
Der PIN-Code einer ec-Karte besteht aus k = 4 Ziffern. Für jede dieser Ziffern stehen
die n = 10 verschiedenen Ziffern 0 . . . 9 zur Verfügung. Da jede Ziffer auch mehrmals
auftreten kann, reduziert sich die Anzahl der Möglichkeiten von Stelle zu Stelle nicht wie
bei den Permutationen sondern ist ist für jede Stelle die gleiche. Man erhält also
(4)
V10 = 104 = 10000
△
verschiedene PIN-Codes.
Variation
Definition 1.8 (Variation mit Wiederholung) Möchte man eine k-fache Auswahl unter
mit
n Elementen treffen, wobei jedes Element beliebig oft ausgewählt werden darf und die
Wiederholung
Reihenfolge berücksichtigt wird, so spricht man von einer Variation mit Wiederholung:
(k)
Vn
Vn(k) = nk
(1.7)
❍
Beispiel 1.15 (Byte)
Ein Byte enthält 8 bit und kann somit 28 = 256 verschiedene Zeichen darstellen.
26
△
1.2. KOMBINATORIK
1.2.4 Zusammenfassung der Kombinatorik
Art der Auswahl bzw.
Anzahl der Möglichkeiten
Zusammenstellung von
ohne Wiederholungen
mit Wiederholungen
(k ≤ n)
(k ≤ n)
k aus n Elementen
(k)
Pn = n! (n = k)
(k)
n!
Cn = nk = k!(n−k)!
(k)
n!
Vn = k! nk = (n−k)!
Permutationen
Kombinationen
Variationen
Pn
(k)
Cn =
(k)
Vn
n!
k!
n+k−1
k
=
= nk
Beispiel 1.16 (Geburtstage)
Wie groß ist die Wahrscheinlichkeit, dass unter k Personen mindestens zwei sind, die am
gleichen Tag Geburtstag haben?
Man geht hierbei von folgenden Voraussetzungen aus:
• N = 365 Tage/Jahr
• gleichverteilte Geburtstage
• k Personen werden zufällig ausgewählt
⇒ 365k mögliche Fälle, wie die Geburtstage verteilt sein können (Variation mit Wiederholung)
Statt die gegebene Fragestellung direkt zu beantworten, also die Wahrscheinlichkeit zu
berechnen, dass mindestens 2 (d.h. 2. . . k) Personen am gleichen Tag Geburtstag haben,
ist es einfacher, zunächst die Wahrscheinlichkeit für das komplementäre Ereignis A zu betrachten: Zur Berechnung der Wahrscheinlichkeit P (A), dass alle k an verschiedenen Tagen Geburtstag haben, ermittelt man die Anzahl der günstigen Fälle durch die Betrachtung
der Variation ohne Wiederholung:
(k)
• Anzahl günstiger Fälle: NA = PN =
• P (A) =
N!
(N −k)!
= 365 · 364 · · · (365 − k + 1)
365·364···(365−k+1)
365k
• Somit ist die Wahrscheinlichkeit für einen gleichen Geburtstag: P (A) = 1 − P (A)
Setzt man nun einige Werte für die Anzahl k der betrachteten Personen ein, so erhält man
folgende Ergebnisse:
k
1
2
3
4
5
P (k)
1
0.9973
0.9918
0.9836
0.9729
P (k)
0
0.0027
0.0082
0.0164
0.0271
27
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
k
6
7
8
9
10
P (k)
0.9595
0.9438
0.9257
0.9054
0.8831
P (k)
0.0405
0.0562
0.0743
0.0946
0.1169
k
15
20
25
30
35
40
50
P (k)
0.7471
0.5886
0.4313
0.2937
0.1856
0.1088
0.0296
P (k)
0.2529
0.4114
0.5687
0.7063
0.8144
0.8912
0.9704
Schon bei einer Gruppe von 23 Personen ist die Wahrscheinlichkeit, dass mindestens
zwei Personen am gleichen Tag Geburtstag haben, größer als 50%.
△
1.3 Wahrscheinlichkeit (Teil 2)
Die wesentliche Voraussetzung, nach der die Elementarereignisse mit gleicher Wahrscheinlichkeit P =
1
N
auftreten, ist bei vielen aber nicht allen zufälligen Experimenten erfüllt. Es
ist deshalb typisch für die Entwicklung der Wahrscheinlichkeitstheorie, dass eine Erweiterung der Theorie entwickelt wird, um auch solche Fälle analysieren und modellhaft erfassen
zu können, bei denen die Annahme der Gleichwahrscheinlichkeit der Elementarereignisse
nicht erfüllt ist. Eine Erweiterung der Theorie bzw. eine Erweiterung des zu Grunde liegenden Modells bedeutet, dass die Aussagen über bisher betrachtete und diskutierte zufällige
Experimente zwar in unveränderter Form erhalten bleiben und in die neue bzw. erweiterte
Modellbildung integriert werden können. Neue, bisher nicht betrachtete Zufallsexperimente können allerdings mit dem erweiterten Modell erfasst und ebenfalls quantitativ analysiert werden. Es findet also eine tatsächliche Erweiterung des theoretischen Modells und
eine Erweiterung des Begriffs Wahrscheinlichkeit statt. Im Softwarebereich spricht man in
vergleichbaren Fällen auch von einer Aufwärtskompatibilität.
Für Johann Bernoulli war das Prinzip der Gleichwahrscheinlichkeit der Elementarereignisse die zentrale Basis seiner Wahrscheinlichkeitstheorie. Diese modellhaften Betrachtungen beziehen sich allerdings immer auf konkrete und anschauliche Karten-, Urnen- oder
Würfelbeispiele. Aus der Definition des so geprägten Begriffs der Wahrscheinlichkeit ergeben sich dann definierte Aussagen.
Es gibt aber viele Zufallsexperimente, auf die diese Annahme nicht zutrifft, bzw. bei
denen von diesen Annahmen nicht ausgegangen werden kann. Höchstens in Sonderfällen
kann es bei diesen Experimenten auftreten, dass die Elementarereignisse gleichwahrscheinlich sind. Die modellhafte Erweiterung besteht also in der zusätzlichen Erfassung von
Zufallsexperimenten, deren Elementarereignisse mit unterschiedlicher Wahrscheinlichkeit
auftreten. Solche Fälle können mit dem Modell von Bernoulli per Definition nicht erfasst
28
1.3. WAHRSCHEINLICHKEIT (TEIL 2)
werden.
Die Situation bei der Betrachtung und Analyse von Experimenten mit zufälligen Ereignissen ändert sich deshalb vom Grundsatz her, wenn die Gleichwahrscheinlichkeit der
Elementarereignisse nicht mehr vorausgesetzt werden kann. Ein neuer Begriff, ein neues
Modell, eine neue Definition des Begriffs der Wahrscheinlichkeit ist jetzt gefragt.
Dieser Sachverhalt wurde 1919 von Richard von Mises analysiert, der zu einer messtechnischen Definition des Begriffs der Wahrscheinlichkeit kommt. Richard von Mises
wurde am 19. April 1883 in Lemberg, damals Kaiserreich Österreich (heute Lvov, Ukraine) geboren und starb am 14. Juli 1953 in Boston, USA. Er ging von einer messtechnischen
Erfassung des Begriffs Wahrscheinlichkeit aus, indem ein Zufallsexperiment vielfach wiederholt wird und dabei das Auftreten eines bestimmten diskreten (Elementar-)Ereignisses
überprüft bzw. gezählt oder empirisch erfasst wird. Es werden nach wie vor (wie auch
in dem Modell von Bernoulli) endlich bzw. abzählbar viele diskrete Elementarereignisse betrachtet. Die dabei entstandene Definition der Wahrscheinlichkeit ist in diesem Fall
allerdings allgemeiner gewählt, verglichen mit der von Bernoulli benutzten Methode.
Diese Betrachtung wurde von R. von Mises durchgeführt, der eine Folge von insgesamt n gleichartigen Versuchen eines wohl definierten Zufallsexperiments betrachtete und
die Anzahl nA durch Zählung festgestellt hat, bei denen das zufällige Ereignis A aufgetreten ist. Dabei wird von dem Zufallsexperiment erwartet, dass der Quotient nA /n für sehr
große Werte n konvergiert und dem Ereignis A damit eine Wahrscheinlichkeit eindeutig
zugeordnet werden kann.
1.3.1 Grenzwert der relativen Häufigkeit (R.
VON
M ISES, 1919)
Durch messtechnische (empirische) Vorgehensweise kann man die Wahrscheinlichkeit P
eines Ereignisses A wie folgt definieren und quantitativ beschreiben:
Definition 1.9 (Wahrscheinlichkeit nach R. von Mises)
nA
n→∞ n
P (A) = lim H(A, n) = lim
n→∞
(1.8)
mit
H(A, n)
Relative Häufigkeit für das Auftreten eines definierten Ereignisses A
nA
Zahl der günstigen Fälle
❍
(Anzahl der Versuche, bei denen das Ereignis A eintritt)
n
Anzahl der durchgeführten Versuche des Zufallsexperiments
29
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
Allerdings ist diese Definition der Wahrscheinlichkeit P als Grenzwert der relativen
Häufigkeit auch anwendbar auf die oben beschriebenen Karten- und Würfelspiele von Bernoulli, bei denen die Elementarereignisse als gleichwahrscheinlich angenommen wurden.
In der hier betrachteten Gedankenwelt würden sich diese identischen Wahrscheinlichkeiten
der Elementarereignisse als Grenzwert unendlich vieler Versuche des Zufallsexperiments
automatisch ergeben. Die bisher betrachteten Zufallsexperimente können aber in unveränderter Weise mit diesem neuen Begriff der Wahrscheinlichkeit beschrieben, in das erweiterte Modell integriert und analysiert werden. Darin liegt die Modellerweiterung.
Beispiel 1.17 (Auftrittswahrscheinlichkeit von Buchstaben)
Im folgenden Abschnitt werden Texte der deutschen Literatur unter rein stochastischen Gesichtspunkten analysiert. Es ist natürlich völlig klar, dass dieser durchaus komplizierte und
kreative Entstehungsprozess nicht als rein zufälliges Ereignis betrachtet werden kann. Man
darf es deshalb nicht als Kulturfrevelei auffassen, wenn wir uns in diesem Beispiel nur für
die Wahrscheinlichkeit interessieren, mit der die einzelnen Buchstaben in der deutschsprachigen Literatur auftreten. Es ist jedem Leser unmittelbar klar, dass die einzelnen Buchstaben mit unterschiedlichen Wahrscheinlichkeiten auftreten werden und deshalb der Bernoulli’sche Modellgedanke auf dieses Beispiel nicht anwendbar ist. Dieses Beispiel ist deshalb
aber gut geeignet, um die wesentliche Struktur in dem von Mises Modell beispielhaft zu
betrachten. Die folgende Tabelle enthhält die Auftrittswahrscheinlichkeiten der einzelnen
Buchstaben in deutschsprachigen Texten.
xi
p(xi )
xi
p(xi )
_
0.1515
o
0.0177
e
0.1470
b
0.0160
n
0.0884
z
0.0142
r
0.0686
w
0.0142
i
0.0638
f
0.0136
s
0.0539
k
0.0096
t
0.0473
v
0.0074
d
0.0439
ü
0.0058
h
0.0436
p
0.0050
a
0.0433
ä
0.0049
u
0.0319
ö
0.0025
l
0.0293
j
0.0016
c
0.0267
y
0.0002
Auftrittswahrscheinlichkeiten (Fortsetzung auf der nächsten Seite)
30
1.3. WAHRSCHEINLICHKEIT (TEIL 2)
xi
p(xi )
xi
p(xi )
g
0.0267
q
0.0001
m
0.0213
x
0.0001
Tabelle 1.1: Auftrittswahrscheinlichkeiten der Buchstaben in der deutschen Sprache
In dieser Tabelle sind die 26 Buchstaben, 3 Umlaute und das Leerzeichen als zufällige
Ereignisse eines Schreibprozesses betrachtet worden. Aus dieser Kenntnis des Auftrittsverhaltens einzelner Buchstaben werden nicht unerhebliche technische Vorteile z.B. in der
Codierung und Übertragung von Nachrichten erreicht.
Dieser Modellgedanke kann erweitert werden auf Buchstabenpaare und es kann die
Wahrscheinlichkeit nach Gleichung (1.8) berechnet werden, mit der einzelne Buchstabenpaare in deutschsprachigen Texten auftreten. Insgesamt können 900 verschiedene Buchstabenpaare auftreten und in der folgende Tabelle sind die am häufigsten auftretenden Paare
und deren Wahrscheinlichkeit aufgelistet.
xi
p(xi )
100%
xi
p(xi )
100%
xi
p(xi )
100%
xi
p(xi )
100%
xi
p(xi )
100%
en
4.47
is
0.64
td
0.34
du
0.20
no
0.15
er
3.40
li
0.64
ur
0.34
mi
0.20
nv
0.15
ch
2.80
nu
0.64
vo
0.34
nb
0.20
rf
0.15
nd
2.58
em
0.63
ec
0.33
nk
0.20
ut
0.15
ei
2.26
et
0.58
hr
0.33
rk
0.20
br
0.14
de
2.14
le
0.58
um
0.33
rz
0.20
ez
0.14
in
2.04
eb
0.57
hi
0.31
su
0.20
ho
0.14
es
1.81
it
0.56
uf
0.30
ag
0.19
ka
0.14
te
1.78
me
0.56
ve
0.30
ef
0.19
os
0.14
ie
1.76
rd
0.56
on
0.29
ga
0.19
bl
0.13
un
1.73
nw
0.55
la
0.28
im
0.19
dw
0.13
ge
1.68
us
0.54
lt
0.28
rm
0.19
ep
0.13
st
1.24
nn
0.53
ri
0.28
uc
0.19
hm
0.13
ic
1.19
nt
0.52
ew
0.27
ee
0.18
hw
0.13
he
1.17
ta
0.51
ih
0.27
gu
0.18
pr
0.13
ne
1.17
eg
0.50
rg
0.27
hl
0.18
zi
0.13
se
1.17
eh
0.50
ze
0.27
ld
0.18
ba
0.12
ng
1.07
zu
0.50
at
0.26
ls
0.18
ev
0.12
Tabelle 1.2: Bigrammhäufigkeiten der deutschen Sprache (in %)
31
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
xi
p(xi )
100%
xi
p(xi )
100%
xi
p(xi )
100%
xi
p(xi )
100%
xi
p(xi )
100%
re
1.07
al
0.49
hn
0.26
nl
0.18
fd
0.12
au
1.04
ed
0.48
ke
0.26
tr
0.18
fu
0.12
di
1.02
ru
0.48
ab
0.25
am
0.17
gd
0.12
be
0.96
rs
0.47
il
0.25
fa
0.17
nh
0.12
ss
0.94
ig
0.45
mm
0.25
hd
0.17
oc
0.12
ns
0.93
ts
0.45
nz
0.25
ol
0.17
ah
0.11
an
0.92
ma
0.43
sg
0.25
rb
0.17
ft
0.11
si
0.83
sa
0.43
sw
0.25
rw
0.17
hu
0.11
ue
0.82
wa
0.43
rn
0.24
tn
0.17
ko
0.11
da
0.81
ac
0.42
ro
0.24
bi
0.16
kt
0.11
as
0.78
eu
0.42
ea
0.23
gl
0.16
nf
0.11
ni
0.70
so
0.41
fr
0.23
nm
0.16
rr
0.11
ae
0.69
ar
0.40
sd
0.23
pe
0.16
tl
0.11
na
0.69
tu
0.40
tt
0.23
rl
0.16
wu
0.11
ra
0.69
ck
0.37
tw
0.23
sm
0.16
gi
0.10
el
0.68
or
0.37
gr
0.22
sp
0.16
ki
0.10
wi
0.68
rt
0.36
tz
0.22
th
0.16
ms
0.10
ht
0.67
ir
0.35
fe
0.21
wo
0.16
od
0.10
sc
0.66
ll
0.35
gt
0.21
af
0.15
sn
0.10
we
0.65
oe
0.35
rh
0.21
lu
0.15
sz
0.10
ha
0.64
ti
0.35
ds
0.20
mu
0.15
Bigrammhäufigkeiten – Fortsetzung
Dieser Prozess kann weiter auf Buchstabentripel ausgedehnt werden und die folgende
Tabelle enthält die am häufigsten auftretenden Kombinationen und deren Wahrscheinlichkeit.
xi
p(xi )
100%
xi
p(xi )
100%
xi
p(xi )
100%
xi
p(xi )
100%
xi
p(xi )
100%
ese
0.27
ins
0.19
erk
0.15
ihr
0.13
ieb
0.11
auf
0.26
mer
0.19
ehr
0.15
iss
0.13
nli
0.11
ben
0.26
rei
0.19
eis
0.15
kei
0.13
rda
0.11
ber
0.26
eig
0.18
man
0.15
mei
0.13
rsc
0.11
eit
0.26
eng
0.18
men
0.15
nsi
0.13
std
0.11
ent
0.26
erg
0.18
mit
0.15
nem
0.13
sst
0.11
Tabelle 1.3: Trigrammhäufigkeiten der deutschen Sprache (in %)
32
1.3. WAHRSCHEINLICHKEIT (TEIL 2)
xi
p(xi )
100%
xi
p(xi )
100%
xi
p(xi )
100%
xi
p(xi )
100%
xi
p(xi )
100%
est
0.26
ert
0.18
nac
0.15
ndw
0.13
tre
0.11
sei
0.26
erz
0.18
rdi
0.15
rue
0.13
uss
0.11
and
0.25
fra
0.18
sel
0.15
ret
0.13
all
0.10
ess
0.25
hre
0.18
sin
0.15
ser
0.13
aft
0.10
ann
0.24
hei
0.18
chi
0.14
uch
0.13
bes
0.10
esi
0.24
lei
0.18
ehe
0.14
ell
0.12
dei
0.10
ges
0.24
nei
0.18
enl
0.14
env
0.12
erf
0.10
nsc
0.24
nau
0.18
erl
0.14
ina
0.12
ess
0.10
nwi
0.24
sge
0.18
erm
0.14
ied
0.12
esw
0.10
tei
0.24
tte
0.18
erw
0.14
lun
0.12
gew
0.10
eni
0.23
wei
0.18
ger
0.14
nwa
0.12
hab
0.10
ige
0.23
abe
0.17
hae
0.14
nwe
0.12
hat
0.10
aen
0.22
chd
0.17
nne
0.14
nis
0.12
ieg
0.10
era
0.22
des
0.17
nes
0.14
swe
0.12
ken
0.10
ern
0.22
nte
0.17
ond
0.14
ssi
0.12
och
0.10
rde
0.22
rge
0.17
oen
0.14
spr
0.12
rha
0.10
ren
0.22
tes
0.17
sdi
0.14
tde
0.12
rec
0.10
tun
0.22
uns
0.17
sun
0.14
ufd
0.12
rin
0.10
ing
0.21
vor
0.17
von
0.14
war
0.12
rso
0.10
sta
0.21
dem
0.16
bei
0.13
wer
0.12
res
0.10
sie
0.21
hin
0.16
chl
0.13
zei
0.12
sag
0.10
uer
0.21
her
0.16
chn
0.13
auc
0.11
son
0.10
ege
0.20
lle
0.16
chw
0.13
als
0.11
tsc
0.10
eck
0.20
nan
0.16
ech
0.13
alt
0.11
tli
0.10
eru
0.20
tda
0.16
edi
0.13
eic
0.11
uec
0.10
mme
0.20
tel
0.16
enk
0.13
esc
0.11
uen
0.10
ner
0.20
ueb
0.15
eun
0.13
enh
0.11
was
0.10
nds
0.20
ang
0.15
enz
0.13
eil
0.11
twi
0.10
nst
0.20
cha
0.15
hau
0.13
fen
0.11
tal
0.10
run
0.20
enb
0.15
ite
0.13
gan
0.11
tet
0.10
sic
0.20
ete
0.15
ief
0.13
hte
0.11
enn
0.19
erh
0.15
imm
0.13
iea
0.11
Trigrammhäufigkeiten – Fortsetzung
33
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
△
In diesen grundsätzlich unterschiedlichen wahrscheinlichkeitstheoretischen Modellen,
in denen die Einzelbuchstaben, Buchstabenpaare oder -tripel als zufällige Ereignisse betrachtet werden, die zusätzlich mit unterschiedlichen Wahrscheinlichkeiten auftreten, könnte man in einem Syntheseschritt Texte automatisch erstellen. Bei der Synthese würden die
entsprechenden Wahrscheinlichkeiten der Elementarereignisse berücksichtigt. Im Folgenden werden vier Beispiele einer solchen Synthese dargestellt, in denen das Modell der
Einzelbuchstaben, der Buchstabenpaare, -tripel und -quadrupel berücksichtigt wurde. Anschaulich ist aus den Texten bzw. Buchstabenfolgen zu erkennen, dass die Lesbarkeit mit
der Länge des Buchstabenvektors zunimmt.
Synthese aus Einzelbuchstaben:
EME GK NEET ERS TITBL BTZENFNDGBGD EAI E LASZ BETEATR IASMIRCH EGEOM
Synthese aus Buchstabenpaaren:
AUSZ KEINU WONDINGLIN DURFN ISAR STEISBERER ITEHM ANORER
Synthese aus Buchstabentripeln:
PLANZEUNDGES PHIN INE UNDEN ÜBBEICHT GES AUF ES SO UNG GAN
DICH WOANDERSO
Synthese aus Buchstabenquadrupeln:
ICH FOLGEMÄSZIG BIS STEHEN DISPONIN SEELE NAMEN
Das Beispiel zeigt allerdings auch, dass deutschsprachige Texte eine wesentlich komplexere Struktur beinhalten, die nicht durch ein einfaches wahrscheinlichkeitstheoretisches
Modell erfasst und beschrieben werden kann.
Der grundsätzliche Unterschied zwischen den beiden Definitionen (Bernoulli und von
Mises) zur Erfassung des Begriffs Wahrscheinlichkeit liegt also wesentlich in der Messanordnung und in den Modellannahmen begründet. Für Bernoulli ist die Annahme der Gleichwahrscheinlichkeit der Elementarereignisse ein zentraler Punkt. Wenn die Annahme über
die Gleichwahrscheinlichkeit der Elementarereignisse allerdings sinnvoll nicht getroffen
werden kann, dann kann und muss auf die allgemeinere Definition der Wahrscheinlichkeit
nach Richard v. Mises zurückgegriffen werden.
Beispiel 1.18 (Relative Häufigkeit der Augensumme)
Trägt man die relative Häufigkeit H(A, n) des Ereignisses „Augensumme ist 7“ (Beispiel
1.2) über der Anzahl der Versuche n in einem Diagramm auf, so sieht man, dass H(A, n)
mit wachsendem n gegen die Wahrscheinlichkeit P (A) =
1
6
strebt (Abbildung 1.4). Man
erkennt aus diesem Beispiel, dass die Wahrscheinlichkeitsdefinition nach von Mises auch
34
1.3. WAHRSCHEINLICHKEIT (TEIL 2)
0.4
H(A,n)
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
50
100
150
200
250
300
350
400
450
500
n
Abbildung 1.4: Relative Häufigkeit des Ereignisses „Augensumme ist 7“ bei 2 Würfeln in
Abhängigkeit von der Anzahl der Versuche n
auf Fälle anwendbar ist, die vorher schon mit mit der Wahrscheinlichkeitsdefinition nach
Bernoulli betrachtet wurden. Dieses Modell umfasst sämtliche von Bernoulli betrachteten
Zufallsexperimente und stellt somit eine Verallgemeinerung oder eine Modellerweiterung
△
dar.
Wenn die einzelnen Wahrscheinlichkeiten eines Zufallsexperiments messtechnisch erfasst und bekannt sind (so wie in den Tabellen 1.1, 1.2 und 1.3 beispielhaft dargestellt),
dann gelten auch weiterhin die selben Eigenschaften für das Wahrscheinlichkeitsmaß P ,
wie bereits für die Bernoulli´schen Experimente hergeleitet:
(1) 0 ≤ P (A) ≤ 1 für alle Ereignisse A
(2) P (Ω) = 1
(3) Sei An eine Folge von zufälligen Ereignissen, die sich einander paarweise ausschließen, so gilt
P
[
n
An
!
=
X
P (An ).
n
D.h. die Wahrscheinlichkeit eines aus disjunkten Mengen zusammengesetzten Ereignisses kann direkt aus der Summe der einzelnen Wahrscheinlichkeiten für die
disjunkten Teilmengen berechnet werden.
Eine zusätzliche, völlig abstrakte Definition des Begriffs Wahrscheinlichkeit geht auf
Kolmogorov zurück, der kein konkretes bzw. anschauliches Experiment vor Augen hat,
35
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
sondern sich auf die Eigenschaften des Wahrscheinlichkeitsmaßes P unter messtechnischen Gesichtspunkten konzentriert. Andrey Nikolaevich Kolmogorov wurde am 25. April
1903 in Tambov, Russland geboren und starb am 20. Oktober 1987 in Moskau.
1.3.2 Allgemeingültige Definition der Wahrscheinlichkeit
Bisher wurde der Begriff „Wahrscheinlichkeit“ für einzelne Ereignisse nach den zwei
betrachteteten Definitionen konstruktiv geprägt und die Werte der Wahrscheinlichkeit P
quantitativ berechnet. Die resultierenden Eigenschaften dieses Wahrscheinlichkeitsmaßes
wurde in drei charakteristischen Gleichungen zusammengefasst. Der Wahrscheinlichkeitsbegriff selber lässt sich allerdings alternativ auch durch Forderung der drei fundamentalen
Eigenschaften eines abstrakten Wahrscheinlichkeitsmaßes P beschreiben. Das ist der von
Kolmogorov gewählte Ansatz, indem er jede Abbildung P , die die drei Eigenschaften erfüllt, ohne Kenntnis eines konkreten Zufallsexperimentes, als Wahrscheinlichkeitsmaß P
bezeichnet.
Wahrschein-
Definition 1.10 Eine Abbildung P (wie probability), die jedem Ereignis eine reelle Zahl
lichkeit
zuordnet, heißt Wahrscheinlichkeitsmaß, falls gilt:
P (A)
(i) 0 ≤ P (A) ≤ 1 für alle Ereignisse A
(ii) P (Ω) = 1
(iii) Ist An eine Folge von Ereignissen, die einander paarweise ausschließen, so gilt
!
X
[
P
P (An ).
An =
n
n
D.h. die Wahrscheinlichkeit eines Ereignisses ergibt sich aus der Summe der Wahrscheinlichkeiten der disjunkten Teilmengen des gegebenen Ereignisses.
❍
In dieser Abstraktion, die auf Kolmogorov zurückgeht, werden die fundamental wichtigen Eigenschaften des Begriffs der Wahrscheinlichkeit per Definition gefordert, beschrieben und erfasst. Die drei in der obigen Definition beschriebenen Eigenschaften waren bereits in den Definitionen von Bernoulli und Richard von Mises erfüllt, wurden dort aber
nicht explizit gefordert, sondern ergaben sich in der Analyse als eine Folgerung aus den
Modellannahmen und Definitionen. Insofern ist diese Definition von Kolmogorov wiederum eine Modellerweiterung. Die mengentheoretisch erfassten Ereignisse behalten zunächst
dieselbe Bedeutung wie bisher.
36
1.3. WAHRSCHEINLICHKEIT (TEIL 2)
Beispiel 1.19 (Werfen einer Münze)
Als Experiment wird eine Münze (Kopf und Zahl) N -mal geworfen. Wir warten auf das
Ereignis, bis erstmalig eine „Zahl“ erscheint. Dieser Sachverhalt kann analytisch wie folgt
beschrieben und quantitativ ausgewertet werden: Der Ereignisraum Ω ist durch die Menge
aller Binärvektoren der Länge N bestehend aus den Symbolen „K“ (für Kopf) und „Z“ (für
Zahl), die sich durch Werfen der Münze ergeben, festgelegt:
Ω := Menge aller Binärvektoren der Länge N
Beim N -maligen Werfen einer Münze gibt es genau 2N (gleichwahrscheinliche) Binärvektoren bzw. Elementarereignisse ωi mit i = 1 . . . 2N . Damit sind die Voraussetzungen eines
Bernoullischen Experimentes gegeben und die Wahrscheinlichkeit eines einzigen Elementarereignisses berechnet sich also zu:
P (ωi ) =
1
.
2N
Dieses Experiment hat allerdings die Besonderheit, dass die Wahrscheinlichkeit eines Einzelereignisses ωi , also eines einzelnen Binärvektors der Länge N , mit steigender Zahl der
Würfe gegen 0 strebt. Dieser Fall wurde bisher im Bernoullischen Modell mit jeweils nur
endlich vielen Elementarereignissen nicht betrachtet. Trotzdem muss sich für alle Werte N
das sichere Ereignis Ω als Vereinigung aller Elementarereignisse ωi die Wahrscheinlichkeit
1 ergeben:
P (Ω) = P
[
ωi =
N
2 N
X
1
i=1
2
= 2N ·
N
1
= 1.
2
Wir betrachten jetzt das Ereignis Ak und fassen darin alle Binärvektoren zusammen,
bei denen in den ersten (k − 1) Würfen jeweils das Ergebnis „Kopf“ auftritt und erstmalig
im k-ten Wurf das Ereignis „Zahl“ erscheint:
A1
= {Z, . . . }
A2
= {K, Z, . . . }
..
.
Ak
= {K, K, . . . , K , Z, . . . }
{z
}
|
(k−1)
..
.
AN
= {K, K, . . . , K , Z}, N ∈ N
|
{z
}
(N −1)
Hinter diesen Ereignissen Ak stehen unterschiedlich viele Elementarereignisse und deshalb auch unterschiedliche Auftrittswahrscheinlichkeiten. In dem Ereignis A1 sind insgesamt 2N −1 Elementarereignisse und im Ereignis Ak insgesamt 2N −k Elementarereignisse
37
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
enthalten. Die Summe der disjunkten Ereignisse Ak für k = 1, . . . , N sowie das Ereignis Arest = {K, K, . . . , K} bilden das sichere Ereignis Ω. Mit anderen Worten spannt
die Vereinigungsmenge der einzelnen disjunkten Ereignisse Ak und Arest wiederum den
gesamten Ereignisraum Ω auf:
Ω=
N
[
k=1
Ak ∪ Arest , k ≤ N ∧ k, N ∈ N
Wird bei diesem Experiment die Münze genau N Mal geworfen, so fasst das Ereignis
Ak genau 2(N −k) gleichwahrscheinliche Elementarereignisse zusammen. Somit berechnet
sich die Wahrscheinlichkeit für das Ereignis Ak zu
P (Ak ) = 2(N −k) · 2−N = 2−k
In der Bernoullischen Modellvorstellung kann dieses Experiment nur für eine endliche
Anzahl von Münzwürfen ausgewertet werden. In diesem Fall kann die dritte Eigenschaft
des Wahrscheinlichkeitsmaßes zu folgender Überprüfung herangezogen werden:
P (Ω) = P
N
[
k=1
Ak ∪ Arest
!
=
N
X
P (Ak ) + P (Arest ) =
k=1
N
X
2−k + 2−N = 1.
k=1
Das Bernoullische Modell kann dagegen nicht fortgeführt werden, wenn ein Grenzübergang für N → ∞ betrachtet wird. In diesem Fall würde die Wahrscheinlichkeit der betrachteten Elementarereignisse zwar immer noch identisch sein, aber gegen Null konvergieren. Mit diesem Grenzübergang entsteht ein Stichprobenraum mit abzählbar vielen (also
nicht mehr wie bisher betrachtet mit endlich vielen) Elementarereignissen.
Dagegen kann der Sachverhalt sehr wohl nach dem von Mises Modell analysiert werden, wenn wir annehmen, dass die Wahrscheinlichkeiten für die einzelnen Ereignisse Ak
bereits messtechnisch erfasst wurden und mit P (Ak ) = 2−k bekannt seien. Selbst für den
Grenzübergang N → ∞ bleiben diese Angaben gültig. In diesem Fall können die bisherigen Angaben überprüft werden, indem die Wahrscheinlichkeit des sicheren Ereignisses Ω
für N → ∞ wie folgt berechnet wird:
P (Ω) = P
∞
[
k=1
Ak
!
=
∞
X
P (Ak ) =
k=1
∞
X
k=1
2−k =
1
− 1 = 1.
1 − 0.5
Dieses Beispiel erläutert die Grenzen des von Bernoulli entwickelten Modells und motiviert
zusätzlich eine Modellerweiterung.
Wir bezeichnen jetzt mit der Menge Agerade das Ereignis, mit dem erstmalig eine Zahl
in einem Wurf mit gerader Nummer (also im zweiten, vierten, sechsten, . . . Wurf) auftritt.
Spontan könnte man vermuten, dass die Wahrscheinlichkeit hierfür 50% beträgt. Die ge38
1.4. EREIGNISSE
naue Berechnung ergibt allerdings:


∞
∞
∞ k
[
X
X
1
1
1
P (Agerade ) = P 
=
−1=
Ak  =
2−2k =
4
1 − 0.25
3
k=2,4,...
k=1
k=1
Dass die Wahrscheinlichkeit unterhalb von 50% liegen muss, lässt sich allerdings auch
schon ohne jede Rechnung begründen: Da die Wahrscheinlichkeit, bereits im ersten Wurf
das Ereignis „Zahl“ zu werfen, 50% beträgt, muss dementsprechend die Wahrscheinlichkeit
△
für das Ereignis Agerade kleiner als 50% sein.
1.4 Ereignisse
1.4.1 Ereignisse und Merkmalsräume
Da die zufälligen Ereignisse durch Mengen beschrieben werden, spielen relative Beziehungen der Ereignisse untereinander eine wichtige Rolle. Dazu betrachten wir zwei
Ereignisse A und B, die in folgenden Beziehungen zueinander stehen können:
A⊂B
: das Ereignis A zieht das Ereignis B nach sich
A∪B
: Vereinigungsmenge, Summe der Ereignisse A und B (es tritt A oder B ein)
A∩B
: Schnittmenge, Produkt der Ereignisse A und B (sowohl A als auch B tritt ein)
A ∩ B = ∅ : sich ausschließende Ereignisse
A\B
: Differenz der Ereignisse A und B (es tritt A aber nicht B ein)
A := Ω\A : das zu A komplementäre Ereignis (es tritt A nicht ein)
1.4.2 Ereignisse
• ωi ist ein einelementiges Versuchsergebnis und wird als Elementarereignis bezeichnet.
Beispiel: Augenzahl beim Würfeln, gezogene Kugel beim Lotto
• Die Menge aller möglichen Elementarereignisse ist das sichere Ereignis Ω oder der
Ereignisraum.
Ω = {ωi }
∀ i
Beispiel: Augenzahlen des Würfels Ω = {1, 2, 3, 4, 5, 6}
• Jede Menge von Elementarereignissen {ωi } ist eine Teilmenge des sicheren Ereignisses Ω.
A⊂Ω
39
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
• Das Komplement zu Ω ist das unmögliche Ereignis ∅.
Ω=∅
1.4.3 Mengen und Ereignisse
• Zusammenhang zwischen Mengen und Ereignissen:
Menge
↔
sicheres Ereignis Ω, Ereignisraum
Element einer Menge
↔
Elementarereignis {ωi }
Teilmenge
↔
Ereignis A ⊂ Ω
leere Menge
↔
unmögliches Ereignis ∅
• Aus Ereignissen können neue Ereignisse mit Hilfe von Mengenoperationen gebildet
werden, beispielsweise durch Bildung der Vereinigungsmenge (vgl. Abschnitt 1.4.1).
1.4.4 Weitere Mengenoperationen in Ereignisräumen
• Transitivität:
A1 ⊂ A2
und A2 ⊂ A3
⇒
A1 ⊂ A3
(1.9)
A1 ⊂ A2
und A2 ⊂ A1
⇒
A1 = A2
(1.10)
• Gleichheit:
• De Morgan’sches Gesetz:
(A1 ∪ A2 ) = A1 ∩ A2
1.4.5
und (A1 ∩ A2 ) = A1 ∪ A2
(1.11)
V ENN-Diagramme
Beziehungen zwischen Mengen können in V ENN-Diagrammen veranschaulicht werden.
Die Mengen werden dabei als Kreisflächen gezeichnet. Die Schnittmengen ergeben sich
dann aus den Überlappungen der Kreisflächen der beteiligten Mengen (Abbildung 1.5).
John Venn wurde am 4. August 1834 in Hull, England geboren und starb am 4. April 1923
in Cambridge.
Der von Johann Bernoulli und der von Richard v. Mises geprägte Begriff der Wahrscheinlichkeit betrachtet diskrete zufällige Ereignisse, von denen lediglich endlich bzw.
abzählbar viele Elementarereignisse existieren. Dies ist wichtig zu erwähnen, weil man
sonst geneigt wäre, die dortige Definition des Begriffs der Wahrscheinlichkeit auch auf
andere Situationen mit überabzählbar vielen Elementarereignissen anwenden zu wollen.
An dieser Stelle ist das Betrand’sche Paradoxon ein wichtiges Beispiel, das zur Vorsicht
40
1.5. BERTRANDS PARADOXON
111111
000000
B
000000
111111
000000
111111
000000
111111
000000
A 111111
000000
111111
000000
111111
000000
111111
11111111
00000000
0000
00000000
11111111
A 1111
B
0000
1111
00000000
11111111
00000000
11111111
Ω
Ω
A∩B
A∪B
(a) Untermenge B ⊂ A ⊂ Ω
(b) Schnittmenge A ∩ B und Vereinigung A ∪ B
Abbildung 1.5: Venn-Diagramme
beim Umgang mit dem für diskrete Ereignisse entwickelten Begriff der Wahrscheinlichkeit
mahnt. Joseph Louis Francois Bertrand wurde am 11. März 1822 in Paris geboren und starb
dort am 5. April 1900.
1.5
B ERTRANDs Paradoxon
Bertrand betrachtet einen experimentellen Versuchsaufbau und formuliert eine Frage nach
der Wahrscheinlichkeit, mit der zufällige Ergebnisse am Ausgang der betrachteten Versuche auftreten. Der Versuchsaufbau ist einfach beschrieben. Es wird ein Kreis mit dem
Radius r betrachtet. In diesen Kreis wird ein Stab geworfen, der eine zufällige Position
im Kreis annimmt. Alle Fälle, in denen der geworfene Stab außerhalb des Kreises landet,
bleiben unberücksichtigt. Der zufällig im Kreis angeordnete Stab beschreibt also in Form
einer Sekante einen Kreisabscnitt.
Frage:
Wie groß ist die Wahrscheinlichkeit P, dass die Länge l einer beliebigen Sekante eines Krei√
ses C mit Radius r größer ist als die Seitenlänge r 3 eines eingeschriebenen gleichseitigen
Dreiecks? In diesen Fällen liegt der Stab also anschaulich nahe am Kreismittelpunkt.
C
D
E
A
Zu dieser sehr klar gestellten Frage bzw. Aufgabe werden 3 verschiedene Lösungswege
angeboten, die allerdings erstaunlicherweise zu jeweils unterschiedlichen Ergebnissen bei
Angabe der resultierenden Wahrscheinlichkeit P führen.
Lösung:
41
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
1.) Dem Kreis mit Radius r ist ein gleichseitiges Dreieck eingezeichnet, dem wiederum ein Innenkreis mit Radius r/2 eingezeichnet ist. Wenn der Mittelpunkt M einer
beliebigen Sekante innerhalb des Innenkreises mit Radius r/2 liegt, dann ist die Se√
kantenlänge größer als r 3.
Setzt man jetzt nach der Bernoulli’schen Definition die Anzahl der günstigen zur
Anzahl der möglichen Fälle zueinander ins Verhältnis, dann müssen die Flächen des
Innenkreises und des äußeren Kreises ermittelt werden. Die Wahrscheinlichkeit P
berechnet sich wie folgt:
P =
Ainnen
1
πr2 /4
=
=
Aaußen
πr2
4
C
A
M
r/2
C1
r
B
r/2
r
2.) In dieser zweiten Betrachtung nehmen wir an, dass ohne Beschränkung der Allgemeinheit ein Ende der Sekante mit einer Ecke des gleichseitigen Dreiecks überein√
stimmt. Die resultierende Sekantenlänge ist größer als r 3, falls das andere Ende der
Sekante zwischen den Punkten D und E liegt. Der durch die Punkte D und E gekennzeichnete Umfangsabschnitt beschreibt also die günstigen Fälle. Dementsprechend
berechnet sich die Wahrscheinlichkeit wie folgt:
P =
2πr/3
1
B liegt zwischen D und E
=
=
B liegt auf dem Umfang
2πr
3
D
B
E
A
3.) In diesem dritten und letzten Lösungsweg nehmen wir ohne Beschränkung der Allgemeinheit an, dass die Sekante orthogonal zur Strecke zwischen den Punkten F und
√
K sei. Die Sekantenlänge ist größer als r 3 falls der Mittelpunkt M der Sekante
42
1.6. DEFINITION DER σ -ALGEBRA
zwischen den Punkten H und G liegt. Dementsprechend berechnet sich die Wahrscheinlichkeit wie folgt:
P =
M zwischen G und H
r
1
=
=
M zwischen F und K
2r
2
F
G
r/2
r/2
M
H
K
Dieses Beispiel zeigt, dass die klassischen auf höchstens endlich viele Elementarereignisse basierende Definition der Wahrscheinlichkeit nicht sinnvoll auf Situationen mit überabzählbaren Elementarereignissen übertragen werden kann. Aus diesem Grund wird eine
axiomatische Beschreibung der Ereignisse und zugehöriger Wahrscheinlichkeiten vorgenommen. Dabei wird allerdings erwartet, dass die zu entwickelnden Axiome nicht im Widerspruch zu den bisher gewonnenen Ergebnissen und Erkenntnissen der Wahrscheinlichkeitstheorie stehen und damit jeweils eine Erweiterung der Modellbildung zur Beschreibung zufälliger Experimente entsteht.
Für abzählbar viele Elementarereignisse, konnte man noch sämtliche Teilmengen des
Ereignisraumes Ω, also die Potenzmenge, als Ereignisse betrachten. Falls Ω aber eine überabzählbar große Menge ist, dann ist die Potenzmenge zu groß. Aus diesem Grund betrachtet man ein bestimmtes Teilmengensystem A, in dem sämtliche interessanten Ereignisse
enthalten sind und das die im folgenden beschriebenen Eigenschaften erfüllt.
Die Elementarereignisse haben nur noch eine untergeordnete Bedeutung.
1.6 Definition der σ-Algebra
Definition 1.11 (Potenzmenge) Die Potenzmenge P(Ω) bezeichnet die Menge aller Teil-
Potenzmenge
mengen von Ω. Die Mächtigkeit der Potenzmenge |P(Ω)| gibt die Anzahl der Elemente der
P(Ω)
❍
Potenzmenge an.
Definition 1.12 (σ-Algebra) Eine Teilmenge A der Potenzmenge P(Ω) bzw. ein abstraktes
σ-Algebra
Mengensystem heißt σ-Algebra (in Ω), wenn folgende Eigenschaften erfüllt sind:
A
43
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
(i)
Ω ∈ A
(ii)
A ∈ A
⇒
A ∈ A
(iii) Für jede Folge (An ) von Mengen aus A liegt
S∞
n=1
An in A
❍
Beispiele für σ-Algebren
• Für jede Menge Ω ist das System aller A ⊂ Ω, für welche entweder A oder A
abzählbar ist, eine σ-Algebra.
Beispiel: Augenzahlen beim Würfeln
• Falls der Ereignisraum Ω = R ist, so wird als σ-Algebra das am wenigsten Teilmengen von R umfassende System von Teilmengen von R genommen, welches eine
σ-Algebra bildet und alle Intervalle der Form (a, b] mit a < b enthält.
Diese σ-Algebra wird als System der Borel-Mengen bezeichnet.
Beispiel: Betrachten wir die zufällige Lebensdauer eines Produktes. In diesem Fall
nimmt das zufällige Ereignis keine diskreten, sondern kontinuierliche Werte zufällig
an. In diesem Fall werden später die Borel-Mengen als geeignetes Mengensystem
zur Beschreibung einer Wahrscheinlichkeit benutzt.
1.7 Axiomatische
Definition
der
Wahrscheinlichkeit
(A. KOLMOGOROV, 1933)
Bisher wurde die Wahrscheinlichkeit für einzelne zufällige Ereignisse definiert. Aufbauend
auf den bereits beschriebenen Eigenschaften, die sich aus dem Begriff der Wahrscheinlichkeit herleiten lassen, wird jetzt eine neue Definition der Wahrscheinlichkeit beschrieben.
Dazu wird eine Maßfunktion P definiert, die auf eine σ-Algebra A im Ereignisraum Ω angewandt wird, und die einzelnen Ereignisse A in den Zahlenbereich zwischen 0 und 1 mit
folgenden Eigenschaften abbildet:
Jedem Ereignis A wird eine Wahrscheinlichkeit P (A) zugeordnet.
P (A) :
A 7→ [0, 1]
44
(1.12)
1.8. FOLGERUNGEN AUS DEN KOLMOGOROVSCHEN AXIOMEN
Voraussetzung: Als Mengensystem wird eine σ-Algebra A auf Ω betrachtet:
1. P (A) ≥ 0 (Maßaxiom)
(1.13)
2. P (Ω) = 1 (Normierungsaxiom)
(1.14)
3. P (A ∪ B) = P (A) + P (B) für A ∩ B = ∅
(Additivitätsaxiom)
(1.15)
1.8 Folgerungen aus den KOLMOGOROVschen Axiomen
Gleichung (1.15) gibt eine Rechenvorschrift für die Ermittlung von Wahrscheinlichkeiten
an, die jedoch auf disjunkte Ereignisse beschränkt ist. Deshalb suchen wir nun eine Rechenvorschrift für nicht disjunkte Ereignisse.
Da die Wahrscheinlichkeit für alle Elemente der σ-Algebra definiert ist, müssen wir
bei den Gleichungen darauf achten, nur Elemente der σ-Algebra zu verwenden. Für zwei
Ereignisse A1 , A2 kann man nach der Definition der σ-Algebra schreiben:
A1 , A2 ∈ A
⇒
A1 , A2 ∈ A
⇒
A1 ∪ A2 ∈ A
Unter Anwendung des de Morganschen Gesetz aus (1.11) folgt daraus:
⇒
A1 ∪ A2 = A1 ∩ A2 ∈ A
Auf die gleiche Weise ergibt sich damit auch:
A1 ∩ A2 = A1 ∪ A2 ∈ A
Somit lassen sich innerhalb der σ-Algebra folgende Mengenumformungen durchführen:
A1 ∪ A2
A2
= A1 ∪ (A1 ∩ A2 )
= (A1 ∩ A2 ) ∪ (A1 ∩ A2 )
Mit dem Additivitätsaxiom aus Gleichung (1.15) folgt daraus:
P (A1 ∪ A2 ) =
P (A2 ) =
⇔
P (A1 ∩ A2 ) =
P (A1 ) + P (A1 ∩ A2 )
P (A1 ∩ A2 ) + P (A1 ∩ A2 )
P (A2 ) − P (A1 ∩ A2 )
Durch Einsetzen erhält man:
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 )
45
(1.16)
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
Für die Ermittlung der Summenwahrscheinlichkeit zweier Ereignisse ist somit bei nicht
disjunkten Mengen zusätzlich zu deren Einzelwahrscheinlichkeiten noch die Wahrscheinlichkeit ihrer Schnittmenge erforderlich. Dies unterstreicht die Bedeutung einer σ-Algebra,
die von vornherein alle Kombinationsmöglichkeiten der Ereignisse enthält.
1.9 Definition eines Wahrscheinlichkeitsraums
Durch die abstrakte Definition eines geeigneten Mengensystems und eines Wahrscheinlichkeitsmaßes kann nun ein Zufallsexperiment in völlig abstrakter Form durch einen Wahrscheinlichkeitsraum definiert werden:
Experiment
Definition 1.13 (Wahrscheinlichkeitsraum/Experiment) Ein Wahrscheinlichkeitsraum
(Ω, A, P )
oder ein Experiment ist definiert durch das folgende Tripel
(Ω, A, P )
Dieses umfasst
• eine Menge von Ereignissen Ω
• eine σ-Algebra A, die bestimme Ereignisse innerhalb des Ereignisraumes Ω definiert
• ein Wahrscheinlichkeitsmaß P(A), das zu jedem Ereignis eine Wahrscheinlichkeit,
d.h. eine Wahrscheinlichkeit für das Auftreten des Ereignisses A, angibt.
❍
Diese abstrakte Definition wird im folgenden ausschließlich eingesetzt. Zu bemerken ist
aber, dass mit dieser abstrakten Definition sämtliche bisher besprochenen Beispiele vollständig erfasst werden können. Die Wahrscheinlichkeitsbegriffe nach Bernoulli und von
Mises sind in der Kolmogorovschen Definition aufgegangen und das Mengensystem kann
jeweils als die Potenzmenge des Ereignisraumes Ω betrachtet werden. Die bisherigen konkreten Beispiele sind also Sonderfälle der abstrakten Kolmogorovschen Definition.
Nachdem ein solcher Wahrscheinlichkeitsraum definiert ist, wollen wir uns üblichen
Fragestellungen innerhalb der Wahrscheinlichkeitstheorie widmen. Beispielsweise wird
häufig die Frage gestellt: Wie groß ist die Wahrscheinlichkeit, das unter einer bestimmten Voraussetzung ein definiertes Ereignis eintritt. Diese Frage führt uns auf den Begriff
der bedingten Wahrscheinlichkeit.
46
1.10. BEDINGTE WAHRSCHEINLICHKEIT
1.10 Bedingte Wahrscheinlichkeit
Definition 1.14 (Bedingte Wahrscheinlichkeit) Als bedingte Wahrscheinlichkeit be-
bedingte
zeichnet man die Wahrscheinlichkeit für das Auftreten von A bedingt durch bzw. unter der
scheinlichkeit
Voraussetzung, dass das Ereignis B erfüllt ist:
P (B|A)
P (A|B) =
P (A ∩ B)
P (B)
oder P (B|A) =
P (B ∩ A)
P (A)
(1.17)
❍
W
AÇB=BÇA
B
A
Ω
8
B
1
A
19992
Abbildung 1.6: Venn-Diagramm für die Wahrscheinlichkeiten im Simpson-Prozess
Beispiel 1.20 (O. J. Simpson)
Das zu Beginn dieses Kapitels aufgeführte Beispiel um den Mordprozess um O. J. Simpson
kann hier aufgegriffen und anhand eines Venn-Diagramms erläutert werden. Abbildung 1.6
stellt die folgenden Ereignisse dar:
Ω:
alle Männer
A:
Männer, die ihre Frau ermordet haben
B:
Männer, die ihre Frau geschlagen haben
Der Verteidiger gab an, dass weniger als einer von 2500 Männern, die ihre Partnerin schlagen, auch so weit ginge, sie zu ermorden. Bezogen auf das Venn-Diagramm entspricht das
der Wahrscheinlichkeit
P (A|B) =
1
8
P (A ∩ B)
≤
=
.
P (B)
2500
20.000
47
Wahr-
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
Diese Angabe ist zwar richtig, aber im vorliegenden Fall irrelvant, da man davon ausgehen
muss, dass schon ein Mord geschehen ist. Man müsste also fragen, bei wie vielen Männern,
die ihre Frau ermordet haben, wurden diese zuvor auch von ihrem Mann geschlagen? Dies
führt zu einer viel grösseren Wahrscheinlichkeit
P (B|A) =
P (A ∩ B)
8
≈ ,
P (A)
9
△
wie man im obigen Venn-Diagramm erkennen kann.
Beispiel 1.21 (Qualität elektronischer Bauelemente)
Von 10000 elektronischen Bauelementen wurden 3000 von einer Firma X und 7000 von
einer Firma Y gefertigt. 10% der Bauelemente, die von der Firma X hergestellt wurden,
haben nicht die geforderte Qualität und 5% der von Y gefertigten. Wie groß ist die Wahrscheinlichkeit, dass ein zufällig gewähltes Bauelement, das nicht die geforderte Qualität
besitzt, von der Firma X gefertigt wurde?
Wir definieren
A := {Bauelement wurde von der Firma X hergestellt}
B := {Bauelement erfüllt nicht die geforderte Qualität}
Dann gilt
P (A) =
3000 · 10% + 7000 · 5%
= 6.5%,
10000
3000 · 10%
P (A ∩ B) =
= 3%,
10000
3000
,
10000
P (B) =
so dass wir erhalten:
P (A|B) =
P (A ∩ B)
3%
=
≈ 46, 15%
P (B)
6.5%
△
Beispiel 1.22 (Partei 1)
Zur Interpretation des Wahlverhaltens der Bevölkerung werden folgende Ereignisse definiert:
A18 := {Personen im Alter zwischen 18 - 30 }
B := {Wähler einer bestimmten Partei (SPD)}
Gegeben sind nun folgende Angaben:
P (B) = 40%
P (A18 ) = 20%
48
P (B|A18 ) = 60%
1.11. TOTALE WAHRSCHEINLICHKEIT
Gesucht ist nun die Wahrscheinlichkeit dafür, dass ein SPD-Wähler im Alter zwischen 18
und 30 ist:
P (A18 |B) =
60% · 20%
0.12
=
= 30%
40%
0.4
△
Von allen SPD-Wählern sind 30% zwischen 18 und 30 Jahren.
1.11 Totale Wahrscheinlichkeit
Definition 1.15 (Totale Wahrscheinlichkeit) Sind die Ereignisse A1 , A2 , . . . , An paar-
totale
weise unvereinbar, d.h.
scheinlichkeit
Ai ∩ Aj = ∅
∀i 6= j
und spannen diese das sichere Ereignis Ω auf (vgl. auch Abbildung 1.7)
A1 ∪ A2 ∪ · · · ∪ An = Ω,
dann gilt für ein beliebiges Ereignis B mit
B ⊂ A1 ∪ A2 ∪ · · · ∪ An
die totale Wahrscheinlichkeit
P (B) =
n
X
P (B|Ai )P (Ai )
(1.18)
i=1
❍
W
B
A3
A4
A2
A1
Abbildung 1.7: Unterteilung von Ω in paarweise unvereinbare Ereignisse Ai
Beispiel 1.23 (Partei 2)
Die Anzahl der Gesamtwähler einer Partei aus Beispiel 1.22 kann aus dem Wahlverhalten
in den einzelnen Altersgruppen ermittelt werden:
P (SPD) = P (A18 ) · P (SPD|A18 ) + P (A30 ) · P (SPD|A30 ) + P (A50 ) · P (SPD|A50 )
49
Wahr-
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
△
Beispiel 1.24 (Binärer Kanal)
Auf einem Übertragungskanal zur Übermittlung binär (0, 1) kodierter Daten (Abbildung 1.8) können Fehler auftreten, wenn ein übertragenes Zeichen nicht richtig erkannt
wird. Im Folgenden entspreche die Aussendung des Zeichens i dem Ereignis Ai und der
Empfang dem Ereignis Bi .
Sender
P(A1)
Kanal
Empfänger
P(B1|A1)
1
1
P(B1)
0
P(B0)
P(B0|A1)
P(B1|A0)
P(A0)
0
P(B0|A0)
Abbildung 1.8: Binärer Kanal
Durch Messungen wurden folgende Daten ermittelt:
• 95% aller „1“ werden richtig übertragen, d.h. P (B1 |A1 ) = 0.95
• 92% aller „0“ werden richtig übertragen, d.h. P (B0 |A0 ) = 0.92
• 45% aller übertragenen Zeichen sind „0“, d.h. P (A0 ) = 0.45 ⇒ P (A1 ) = 0.55
Wie groß ist die Wahrscheinlichkeit dafür, dass ein Übertragungsfehler auftritt?
Zur Lösung dieser Fragestellung verwendet man als Stichprobenraum Ω = {0, 1}2,
wobei das Ereignis (A, B) ∈ Ω beschreibt, dass das Bit A gesendet und B empfangen
wurde. Als σ-Algebra wird die Potenzmenge von Ω verwendet.
Gesucht ist nun P (Error) = P ({(0, 1), (1, 0)}). Nach Gleichung (1.18) ergibt sich
daraus:
P (Error) = P (B1 ∩ A0 ) + P (B0 ∩ A1 )
= P (A0 )P (B1 |A0 ) + P (A1 )P (B0 |A1 )
= 0.45 · 0.08 + 0.55 · 0.05 = 0.0635
△
50
1.12. FORMEL VON BAYES
1.12 Formel von Bayes
In vielen Fällen, in denen eine bekannte bedingte Wahrscheinlichkeit P (B|A) bekannt
ist, wird jedoch die Rückschlusswahrscheinlichkeit P (A|B) gesucht. Thomas Bayes hat
für die Umrechnung dieser Wahrscheinlichkeiten ineinander eine Berechnungsvorschrift
entwickelt.
Aus der bedingten Wahrscheinlichkeit zweier Ereignisse B und Ai
P (Ai |B)P (B) = P (Ai ∩ B) = P (B|Ai )P (Ai )
erhält man mit (1.17)
P (Ai |B) =
P (B|Ai )P (Ai )
.
P (B)
(1.19)
Sind alle Ai unvereinbar und spannen sie Ω auf, so kann mit der totalen Wahrscheinlichkeit für B das Theorem von BAYES beschrieben werden.
Theorem
BAYES
P (B|Ai )P (Ai )
P (Ai |B) = Pn
.
i=1 P (B|Ai )P (Ai )
(1.20)
Die P (Ai |B) werden auch als a posteriori Wahrscheinlichkeiten bezeichnet.
Thomas Bayes wurde 1702 (Datum nicht bekannt) in London geboren und starb am 17.
April 1761 in Tunbridge Wells, Kent, England.
Beispiel 1.25 (Qualitätskontrolle)
In einem Betrieb wird ein Produkt von drei Maschinen gefertigt. Die folgende Tabelle zeigt
den Anteil jeder Maschine an der Gesamtproduktion und den Ausschussanteil:
Maschine
Anteil(%)
Ausschuss(%)
1
50
1
2
30
2
3
20
5
Wie groß ist die Wahrscheinlichkeit, dass ein zufällig aus dem Lager entnommenes Erzeugnis nicht den Qualitätsansprüchen genügt?
Wir definieren
Ai := {Produkt wurde mit Maschine i erzeugt},
B := {Produkt ist Ausschuß}.
51
i = 1, 2, 3
von
KAPITEL 1. ZUFÄLLIGE EREIGNISSE
Da die Ai ein vollständiges System von Ereignissen bilden, erhalten wir die totale Wahrscheinlichkeit als
P (B) = P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + P (B|A3 )P (A3 )
= 0.01 · 0.5 + 0.02 · 0.3 + 0.05 · 0.2 = 0.021.
Nun wollen wir die Wahrscheinlichkeit wissen, dass ein dem Lager entnommenes, defektes
Produkt mit der Maschine i gefertigt wurde. Nach (1.19) erhalten wir:
P (A1 |B) =
0.01 · 0.5
5
0.02 · 0.3
6
=
, P (A2 |B) =
=
,
0.021
21
0.021
21
0.05 · 0.2
10
P (A3 |B) =
=
0.021
21
△
Beispiel 1.26 (MAP-Detektor)
Bei einem MAP (Maximum a posteriori) -Detektor wird die Klassifikation des Empfangssignals aufgrund der a posteriori Wahrscheinlichkeit durchgeführt.
Wir setzen das Beispiel 1.24 fort und fragen nun nach der Wahrscheinlichkeit, dass eine
„1“ gesendet wurde unter der Bedingung, dass eine „0“ empfangen wurde:
A1 = {(1, 0), (1, 1)}
B0 = {(0, 0), (1, 0)}
P (B0 |A1 ) · P (A1 )
P (B0 |A0 ) · P (A0 ) + P (B0 |A1 ) · P (A1 )
0.05 · 0.55
=
0.92 · 0.45 + 0.05 · 0.55
P (A1 |B0 ) =
≈ 0.062
△
Beispiel 1.27 (Marihuana)
Bei der Diskussion über die Legalisierung von Mariuhana/Cannabis wird als Gegenargument angebracht, dass die meisten Heroinabhängigen zunächst Marihuana geraucht hätten:
P (vorher Cannabis|Heroin) = 1 − ǫ
Dies heisst jedoch nicht, dass die meisten Mariuhana-Raucher auch heroinsüchtig werden:
P (Heroin|vorher Cannabis) ≤ 10−5
△
52
Kapitel 2
Zufallsvariable, statistische
Unabhängigkeit
Die Definition des Begriffes Wahrscheinlichkeit und das Verständnis der zufälligen Ereignisse durch die abstrakte Beschreibung von Teilmengen des Ereignisraumes Ω waren das
zentrale Thema des vorausgegangen Kapitels. Damit sind die Grundelemente der Wahrscheinlichkeitstheorie bereits betrachtet und beschrieben.
Die zufälligen Ereignisse müssen dabei nicht mehr, wie zunächst angenommen, diskreter Natur sein, sondern können auch kontinuierliche Werte annehmen. Beispiele dazu
sind die Lebensdauer von Maschinen, Temperaturverläufe, Zeitmessung für die Dauer von
Telefonaten usw. Auf solche Zufallsexperimente, in denen überabzählbar viele Elementarereignisse auftreten, konnte die Bernoullische Definition der Wahrscheinlichkeit nicht
angewandt werden. Alternativ wurde deshalb die abstrakte Definition des Wahrscheinlichkeitsbegriffes von Kolmogorov eingeführt.
In diesem Kapitel werden Situationen betrachtet, in denen Experimente mit zufälligem Ausgang mehrfach nacheinander durchgeführt werden. Solche Situationen wurden
bereits anschaulich in der Vorstellungswelt von Richard v. Mises betrachtet, indem mehrere Versuche eines Zufallsexperiments zeitlich nacheinander durchgeführt wurden, z.B. das
mehrfach nacheinander durchgeführte Werfen einer Münze. Die genauen Bedingungen der
Versuchsanordnung wurden dabei nicht explizit angegeben, sondern es wurde anschaulich
vorausgesetzt, dass das Zufallsexperiment immer wieder neu gestartet wird und keine Abhängigkeit zwischen vorausgegangenen Versuchen existiert. Mit anderen Worten gesagt, in
der Versuchsanordnung ist kein Gedächtnis enthalten.
Dieser Sachverhalt einer genauen Versuchsanordnung soll in diesem Kapitel präzisiert
und formal betrachtet werden. Dabei spielt der Begriff der statistischen Unabhängigkeit
53
KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT
eine zentrale Rolle.
Desweiteren wird eine Beschreibungsmöglichkeit für Zufallsexperimente in Form von
Zufallsvariablen diskutiert. Das ist eine neue Vorgehensweise, ein neues Konzept und eine neue Methode zur Analyse von Zufallsexperimenten, die zunächst in das Weltbild der
bereits definierten Wahrscheinlichkeitsräume integriert werden muss. Mit dieser Methode lassen sich Zufallsexperimente, deren zufällige Ereignisse nicht nur diskrete, sondern
auch kontinuierliche Werte bzw. Zustände annehmen können, relativ einfach und vor allen Dingen in einheitlicher Form beschreiben. Dabei wird zunächst jeweils ein abstrakter
Wahrscheinlichkeitsraum, beschrieben durch das Tripel (Ω, A, P ), betrachtet. Dieser Wahrscheinlichkeitsraum beschreibt ein Zufallsexperiment in mathematisch eindeutiger Weise.
2.1 Statistische Unabhängigkeit
statistisch
hängig
unab-
Definition 2.1 (Statistische Unabhängigkeit) Zwei zufällige Ereignisse werden als statistisch unabhängig bezeichnet, falls gilt
P (A ∩ B) = P (A) · P (B)
(2.1)
❍
Wenn in einem Zufallsexperiment mehrere Versuche nacheinander durchgeführt werden, dann wird sehr häufig von statistisch unabhängigen Versuchen ausgegangen. In der Experimentieranordnung soll also kein Gedächtnis enthalten sein. Diese Annahmen können
leicht bei Karten- oder Würfelbeispielen anschaulich nachvollzogen und validiert werden.
Diese Eigenschaft der statistischen Unabhängigkeit ist für wahrscheinlichkeitstheoretische
Analysen außerordentlich wichtig. Zentrale mathematische Sätze bzw. Behauptungen innerhalb der Wahrscheinlichkeitstheorie basieren auf der Annahme der statistischen Unabhängigkeit.
Allerdings ist diese Annahme kein Dogma für sämtliche Versuchsanordnungen in praktisch auftretenden Zufallsexperimenten. Wir werden in späteren Kapiteln das Konzept der
korrelierten Ereignisse bzw. der korrelierten Zufallsvariablen einführen. Mit diesem alternativen Konzept wird gezielt ein Gedächtnis in das Zufallsexperiment integriert. Diese beiden Konzepte der statistischen Unabhängigkeit und der Korrelation ergänzen sich dementsprechend und bieten die Möglichkeit, ganz unterschiedlich geartete Versuchsanordnung
auf statistische Art und Weise zwar mit unterschiedlichen Methoden aber doch mit denselben modellhaften Vorstellungen analysieren zu können.
Für das im vorangegangenen Kapitel eingeführte Konzept der bedingten Wahrscheinlichkeit wirkt sich die Annahme für zwei statistisch unabhängiger Ereignisse A und B wie
54
2.1. STATISTISCHE UNABHÄNGIGKEIT
folgt aus:
P (A|B) = P (A)
und P (B|A) = P (B).
Da das zufällige Ereignis jeweils statistisch unabhängig von der Bedingung ist, wirkt
sich auch die Bedingung nicht auf die Wahrscheinlichkeit des zufälligen Ereignisses
aus. Die obige Behauptung kann mathematisch einfach überprüft werden, indem Gleichung (2.1) in Gleichung (1.17) eingesetzt wird.
Die obige Definition der statistischen Unabhängigkeit bezieht sich lediglich auf zwei
zufällige Ereignisse. Diese Definition kann auf n beliebige zufällige Ereignisse erweitert
werden.
Definition 2.2 (Statistische Unabhängigkeit von n Ereignissen) Mehrere zufällige Ereignisse sind nur dann statistisch unabhängig, wenn die beiden folgenden Eigenschaften
für beliebige Paare erfüllt sind:
• alle betrachteten zufälligen Ereignisse sind zunächst paarweise unabhängig, d.h.
P (Ai ∩ Aj ) = P (Ai ) · P (Aj )
∀ i 6= j
• und darüber hinaus erfüllen sämtliche Kombinationen der betrachteten zufälligen
Ereignisse die obige Eigenschaft der statistischen Unabhängigkeit:


n
Y
\
P (Ai )
Ai  =
P
i⊆{1,...,n}
i=1
❍
Beispiel 2.1 (Werfen zweier Münzen)
Zwei Münzen werden geworfen. Sei
A :={erste Münze zeigt Kopf} = {KK, KZ},
B :={zweite Münze zeigt Kopf} = {KK, ZK},
C :={genau eine Münze zeigt Kopf} = {KZ, ZK}
In diesem Experiment treten die obigen Ereignisse mit folgender Wahrscheinlichkeit auf:
P (A) = P (B) = P (C) =
1
2
Es soll geprüft werden, ob diese n = 3 zufälligen Ereignisse nach der obigen Definition
statistisch unabhängig zueinander sind.
55
KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT
Die Ereignisse sind paarweise unabhängig:
P (A ∩ B) =
1
= P (A)P (C)
4
1
und P (B ∩ C) = = P (B)P (C)
4
1
= P (A)P (B),
4
P (A ∩ C) =
Wegen A ∩ B ∩ C = ∅ und
0 = P (A ∩ B ∩ C) 6= P (A)P (B)P (C) = 1/8
sind die 3 zufälligen Ereignisse aber nicht als statistisch unabhängig zu bezeichnen, da die Ereignisse zwar paarweise zueinander unabhängig sind, die Bedingung
Q
T
n
△
P
i=1 P (Ai ) jedoch nicht erfüllt ist.
i⊆{1,...,n} Ai =
2.2 Produktwahrscheinlichkeitsräume
Führt man n statistisch unabhängige Versuche eines Zufallsexperiments mit zugehörigen
Wahrscheinlichkeitsräumen (Ωi , Ai , Pi ) durch, so ist der zusammengefasste Versuch
wieder ein statistisches Experiment bzw. ein Zufallsexperiment.
Der zugehörige und resultierende Ereignisraum ist dann das kartesische Produkt aus
den einzelnen Ereignisräumen:
Ω = Ω1 × Ω2 × . . . Ωn
Beispiele: Werfen mehrerer Würfel oder mehrmaliges Werfen eines Würfels, Zuverlässigkeit unabhängiger Systeme.
Wir sprechen in diesem Fall auch von der Produktwahrscheinlichkeit bzw. von der Verbundwahrscheinlichkeit.
Anwendung auf die Binomialverteilung: Wir betrachten ein Zufallsexperiment mit lediglich zwei möglichen Ausgängen („0” oder „1”). Ein solches Experiment entsteht z.B.
beim Werfen einer Münze oder bei der Betrachtung binärwertiger Sequenzen und wird auch
als Alternativverteilung bezeichnet. Beide Ereignisse seien statistisch unabhängig und die
Auftrittswahrscheinlichkeiten für die beiden einzelnen zufälligen Ereignisse seien:
P („1”) = p
und P („0”) = 1 − p
Bei einer n-fachen Wiederholung dieses Zufallsexperimentes entstehen in dem Produktwahrscheinlichkeitsraum Elementarereignisse, die durch einen Vektor der Länge n mit binären Koeffizienten beschrieben werden können. Ein solches Elementarereignis wird hier
als ω bezeichnet.
56
2.2. PRODUKTWAHRSCHEINLICHKEITSRÄUME
Die Wahrscheinlichkeit für ein Elementarereignis ω, in dem genau k mal eine „1“ an
fest vorgegebenen Positionen auftritt, z.B. bei der Übertragung einer Bitsequenz mit n Bits,
wird wie folgt berechnet:
P (ω) = pk (1 − p)n−k .
Diese Eigenschaft folgt unmittelbar aus der Annahme der statistischen Unabhängigkeit und
der Angabe der obigen Wahrscheinlichkeiten p und 1 − p. In dem betrachteten Binärvektor
werden genau k zufällige Ereignisse mit der Wahrscheinlichkeit p und n − k zufällige
Ereignisse mit der Wahrscheinlichkeit 1 − p beobachtet. Die Einzelwahrscheinlichkeiten
multiplizieren sich wegen der Annahme der statistischen Unabhängigkeit.
Ein solches Zufallsexperiment mit binärem Ausgang wird auch als Bernoulli-Versuch
bezeichnet. Fragen dieser Art entstehen z.B. bei der Analyse von fehlerbehafteten Binärsequenzen. Dabei steht eine 1 dann beispielsweise für eine fehlerhafte und eine 0 für eine
fehlerfreie Übertragung.
In diesem Zufallsexperiment wurde mit dem Elementarereignis zunächst eine fest definierte Binärsequenz betrachtet. Nicht immer ist ein solches Elementarereignis von Interesse, sondern häufig wird auch die Frage nach der Wahrscheinlichkeit gestellt, mit der genau
k-mal das zufällige Ereignis „1” innerhalb des Vektors der Länge n auftritt. Dabei spielen
die genauen Positionen, an denen die „1”en innerhalb des Vektors auftreten, keine Rolle.
Die Wahrscheinlichkeit, dass bei insgesamt n Versuchen eines Zufallsexperiments ein
Ereignis „1” genau k-mal auftritt, kann durch Berücksichtigung sämtlicher Kombinationen
aller möglichen Elementarereignisse, in denen die obige Bedingung erfüllt ist, berechnet
werden.
n k
P (k mal „1” in einem Vektor der Länge n) =
p (1 − p)n−k .
k
Diese Wahrscheinlichkeit P wird auch als Binomialverteilung bezeichnet.
Es gibt also genau nk Kombinationen bzw. unterschiedliche Elementarereignisse, in
denen k „1”en in einem Vektor der Länge n angeordnet sind.
Beispiel 2.2 (Systemzuverlässigkeit)
Die Zuverlässigkeit p eines Systems beschreibt die Wahrscheinlichkeit, mit der das System
fehlerfrei läuft. Mit (1 − p) wird die Wahrscheinlichkeit des Systemausfalls beschrieben.
Ein System bestehe aus vier statistisch unabhängigen Teilsystemen (Abbildung 2.1), welche jeweils eine Zuverlässigkeit p besitzen. System 3 stellt hierbei ein Backup-System für
die Systeme 1 und 2 dar. Bei der Analyse des Gesamtsystems stellt sich die Frage: Wie
hoch ist die Wahrscheinlichkeit, mit der das Gesamtsystem ausfällt?
57
KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT
S y s te m
1
S y s te m
2
S y s te m
S y s te m
4
3
A
B
Abbildung 2.1: Angenommener Systemaufbau im Beispiel 2.2
Die Zuverlässigkeit des Gesamtsystems ist
P (kein Ausfall) =
P (kein Ausfall von A und kein Ausfall von B)
=
P (kein Ausfall von A)P (kein Ausfall von B)
=
{1 − P (Ausfall A)} · p
(2.2)
Ausfallwahrscheinlichkeit des ersten Abschnitts:
P (Ausfall A) =
P (Ausfall 1 oder 2)P (Ausfall 3)
=
(1 − P (kein Ausfall 1 und 2))(1 − P (kein Ausfall 3))
=
(1 − P (kein Ausfall 1 und 2))(1 − p)
=
(1 − P (kein Ausfall 1)P (kein Ausfall 2))(1 − p)
=
(1 − p · p)(1 − p)
=
1 − p − p2 + p3
Einsetzen in (2.2):
P (kein Ausfall)
=
1 − (1 − p − p2 + p3 ) · p
= p2 + p3 − p4
Nimmt man an, ein Einzelsystem arbeitet zu 90% zuverlässig, ergibt sich für die Zuverlässigkeit des Gesamtsystems:
P (kein Ausfall) = 0.92 + 0.93 − 0.94 = 88.29%
△
2.3 Definition der Zufallsvariablen
In vielen technischen Anwendungen spielen Zufallsexperimente und zufällige Ereignisse
mit einem kontinuierlichen Ausgang eine zentrale Rolle. Zufällige Ereignisse mit diskreten
58
2.3. DEFINITION DER ZUFALLSVARIABLEN
Werten sind auch sehr wichtig, stellen aber doch eher einen Sonderfall in der praktischen
Anwendung dar.
Bisher wurde das Zufallsexperiment explizit durch die Versuchsanordnung und durch
den dahinter stehenden, das Zufallsexperiment eindeutig beschreibenden, Wahrscheinlichkeitsraum angegeben. Die Wahrscheinlichkeiten für die in der σ-Algebra enthaltenen zufälligen Ereignisse wurden jeweils direkt berechnet. In vielen praktischen Anwendungen
ist aber die genaue Beschreibung des Zufallsexperiments von untergeordneter Bedeutung.
Überwiegend wird das zufällige Ereignis durch eine messbare reellwertige Größe bzw. Variable beschrieben. Diesen Sachverhalt beschreiben wir durch das Konzept einer Zufallsvariablen, also einer Variablen mit zufälligem reellen Wert. Die Zufallsvariable wird durch
eine Abbildung des Ereignisraumes Ω in die reellen Zahlen formal definiert und mathematisch eingeführt.
Wir wollen deshalb in diesem Abschnitt auf die charakteristischen Eigenschaften einer
Variablen mit zufälligem Wert eingehen.
Definition 2.3 (Zufallsvariable) Eine Abbildung X, die den Ereignisraum Ω in die reellen
Zahlen abbildet (vgl. Abbildung 2.2):
Zufallsvariable
X
X:
Ω 7→ R
(2.3)
heißt Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P ), wenn für alle B ∈ B
(Borel-Mengen) das Ereignis
X −1 (B) = {ω|ω ∈ Ω und X(ω) ∈ B} ∈ A
(2.4)
ein Element der σ-Algebra A ist.
Eine solche Abbildung wird als messbar bezeichnet. Zufallsvariablen sind also messbare Abbildungen von Wahrscheinlichkeitsräumen in Euklidische Räume.
(
; A; P )
!
X :
7! R
(R; B; PX )
2
X (B ) A
1
B
Abbildung 2.2: Zufallsvariable
59
X (!)
❍
KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT
Dieser zunächst einfach anmutende Schritt ist außerordentlich wichtig, weil dann im
Folgenden sämtliche Zufallsexperimente insofern einheitlich zu betrachten sind, als dass
die zufälligen Ereignisse durch reelle Zahlenwerte beschrieben werden können. Wir sprechen dann nicht mehr von den zufälligen Ereignissen, sondern alternativ von der oder den
Zufallsvariablen. Der eigentliche Grund für dieses Vorgehen liegt aber in der einheitlichen
Beschreibungsweise von Zufallsvariablen durch geeignete Funktionen. Das tatsächliche
Zufallsexperiment tritt in den Hintergrund und die formale Eigenschaft der Zufallsvariablen X spielt künftig die zentrale Rolle.
Beispiele für Zufallsvariable
• Augensumme beim Werfen von drei Würfeln
Wahrscheinlichkeitsraum:
Ω = {(ω1 , ω2 , ω3 ) : ωi ∈ {1, 2, 3, 4, 5, 6}, i = 1, 2, 3}
Abbildung:
X :=


Ω → R

(ω1 , ω2 , ω3 ) → ω1 + ω2 + ω3
• Maximum und Minimum eines Temperaturverlaufs
Wahrscheinlichkeitsraum:
Ω = x(t)
(stetig)
Abbildung:
X :=


Ω → R2

Temperatur x(t) → (max{x(t)}, min{x(t)})
2.4 Neuer Wahrscheinlichkeitsraum
Nach den vorausgegangenen Erläuterungen nimmt jede Zufallsvariable jetzt reelle Werte
an. Der Unterschied zwischen den Zufallsexperimenten liegt lediglich in den Wahrscheinlichkeiten, mit denen die betrachtete Zufallsvariable bestimmte reelle Werte annimmt. Aus
diesem Grund wird eine einheitliche mathematische Beschreibung der Zufallsvariablen entwickelt, die für vergleichende Zwecke besonders geeignet ist. Zunächst wird aber der passende Wahrscheinlichkeitsraum für eine Zufallsvariable X entwickelt.
Ausgangspunkt der folgenden Betrachtung ist zunächst ein Zufallsexperiment beschrieben durch das Tripel eines Wahrscheinlichkeitsraums (Ω, A, P ). Die Zufallsvariable X
60
2.4. NEUER WAHRSCHEINLICHKEITSRAUM
wird auf diesen Wahrscheinlichkeitsraum (Ω, A, P ) angewandt. Durch die Einführung der
Zufallsvariablen X wird ein neuer Wahrscheinlichkeitsraum (ΩX , B, PX ) gebildet.
Definition 2.4 (Wahrscheinlichkeitsverteilung) Ist X : Ω 7→ R eine Zufallsvariable, so
Wahrscheinlich-
wird ein neues Wahrscheinlichkeitsmaß PX durch die folgende Abbildung von der Borel-
keitsverteilung
Menge B in die reellen Zahlen bzw. in das Intervall [0, 1] definiert:
PX
PX : B 7→ [0, 1] mit
PX (B) = P X −1 (B)
(2.5)
PX ist ein Wahrscheinlichkeitsmaß auf dem Mengensystem der Borel-Menge B.
Dieses Wahrscheinlichkeitsmaß PX enthält sämtliche charakteristischen Eigenschaften der Zufallsvariablen X. Sämtliche Eigenschaften der Kolmogorovschen Definition sind
selbstverständlich auch für das neue Wahrscheinlichkeitsmaß PX erfüllt und übertragen
sich in logischer Folge von dem bisherigen Wahrscheinlichkeitsmaß P .
Durch diese geschickte Definition des Wahrscheinlichkeitsmaßes PX ist ein neuer
Wahrscheinlichkeitsraum entstanden. Der neue Ereignisraum ist ΩX = R. Das Mengensystem der σ-Algebra ist durch die Borelsche-Menge B beschrieben und das Wahrscheinlichkeitsmaß ist PX . Der neue Wahrscheinlichkeitsraum wird durch das folgende Tripel formal
angegeben:
(ΩX = R, B, PX )
Dieser neu definierte Wahrscheinlichkeitsraum ist für die charakteristische Beschreibung
der Zufallsvariablen X von Bedeutung und enthält sämtliche Eigenschaften des ursprünglichen Zufallsexperiments einschließlich der Zufallsvariablen X.
❍
Rein aus der formalen Sicht des Wahrscheinlichkeitsraums kann die Wahrscheinlichkeit
für jedes Element der Borel-Menge bestimmt und angegeben werden. Die Borel-Menge ist
allerdings so mächtig, dass nicht für jedes Element dieser Borel-Menge die Angabe der
Wahrscheinlichkeit tatsächlich von Interesse ist. Dieser mathematische Formalismus mit
Angabe des neuen Wahrscheinlichkeitsraums soll allerdings kein Selbstzweck sein und
muss stets auf seine praktische Anwendbarkeit überprüft werden. Die Borel-Menge ist ein
relativ unübersichtliches und vor allem sehr großes Gebilde. Für einige Elemente der BorelMenge ist die Angabe der Wahrscheinlichkeit, mit der die jeweilige Zufallsvariable Werte
in den definierten Bereichen der reellen Achse annimmt, dagegen von großem Interesse.
Auf diese Elemente wollen wir uns im folgenden konzentrieren und können damit das
Verständnis im Umgang mit dem neuen Wahrscheinlichkeitsraum ganz wesentlich vereinfachen.
Mit dieser Definition des neuen Wahrscheinlichkeitsraums kann für jede Zufallsvariable
X die Frage nach der Wahrscheinlichkeit beantwortet werden, mit der die Zufallsvariable
61
KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT
fest definierte (reelle) Werte annimmt, die zum Beispiel kleiner sind als ein vorgegebener
beliebiger aber fester Wert x. Diese Frage kann formal durch den neuen Wahrscheinlichkeitsraum wie folgt beantwortet werden: Die Menge der reellen Zahlen, die kleiner sind
als x stellen ein Element der Borelschen Menge dar. Dementsprechend kann das Wahrscheinlichkeitsmaß PX formal auf diese Menge (bzw. dieses Intervall innerhalb der reellen
Zahlen) angewandt werden:
PX (X ≤ x) = P ({ω|X(ω) ≤ x})
Der Wert x kann beliebig vorgegeben und systematisch variiert werden. Damit wird im Folgenden der Begriff der Verteilungsfunktion eingeführt. Andere Elemente der Borel-Menge
sind ebenfalls von Interesse; sämtliche halboffenen Intervalle auf der reellen Achse zwischen den Punkten x0 , x1 . Diese halboffenen Intervalle gehören zu den Elementen der
Borel-Menge. Auch für diese Intervalle kann deshalb mit Hilfe des neuen Wahrscheinlichkeitsraums die Wahrscheinlichkeit berechnet werden, mit der die Zufallsvariable Werte
innerhalb des Intervalls annimmt:
PX (x0 < X ≤ x1 ) = P ({ω|x0 < X(ω) ≤ x1 })
Beispiel 2.3 (Augensumme beim Werfen mit drei Würfeln)
Das folgende Beispiel beschreibt das Wahrscheinlichkeitsmaß PX für den Sonderfall einer diskreten Zufallsvariablen, indem die Wahrscheinlichkeiten für das Auftreten einer bestimmten Augensumme beim zufälligen Werfen mit drei Würfeln berechnet werden.
Man berechnet die Wahrscheinlichkeit, mit der die diskrete Zufallsvariable X den Wert
k annimmt.
PX ({k}) = PX ({X = k}) = P ({(ω1 , ω2 , ω3 ) ∈ Ω|ω1 + ω2 + ω3 = k})
Durch systematische Variation der vorgegebenen Zahl k entsteht eine vom Parameter k
△
abhängige Funktion (vgl. Abbildung 2.3).
Die Angabe dieser Wahrscheinlichkeiten, mit der eine beliebige Zufallsvariable X Werte in den vorgegeben Bereichen der reellen Achse annimmt, wird im Folgenden eine zentrale Rolle spielen, weil damit eine völlig einheitliche Behandlung der durchaus ganz unterschiedlich gearteten Zufallsexperimente ermöglicht wird. Es muss auch keine Unterscheidung zwischen Zufallsvariablen mit diskreten oder kontinuierlichen reellen Werten
gemacht werden. Das Konzept der Zufallsvariablen ist umfassend und beinhaltet sämtliche
wichtigen Sonderfälle der diskreten und kontinuierlichen zufälligen Ereignisse.
62
2.5. VERTEILUNGSFUNKTION DER ZUFALLSVARIABLEN X
0.15
P
X
0.1
0.05
0
4
6
8
10
12
14
16
18
Augensumme
Abbildung 2.3: Wahrscheinlichkeit der Augensumme k beim Werfen von drei Würfeln
2.5 Verteilungsfunktion der Zufallsvariablen X
Mit den obigen Vorbereitungen und durch formale Angabe des neuen Wahrscheinlichkeitsraums wird jetzt ein wichtiger Schritt zur Vereinfachung bei der Berechnung der Wahrscheinlichkeiten für die von einer Zufallsvariablen angenommenen Werte durchgeführt.
Wir haben gesehen, dass das neue Wahrscheinlichkeitsmaß PX auf alle Elemente der BorelMenge angewandt werden kann, insbesondere auf die Abschnitte der reellen Achse bis zu
einem beliebigen Punkt x und auf die halboffenen Intervalle auf der reellen Achse mit
völlig beliebigen Grenzen x0 , x1 . Die Wahrscheinlichkeit, mit der die Zufallsvariable X
Werte annimmt, die kleiner sind als der Punkt x auf der rellen Achse ist dabei von zentraler
Bedeutung und wird auf den Begriff der Verteilungsfunktion führen. Durch systematische
Variation des Punktes, bzw. des Parameters x entsteht eine Funktion, die für jeden beliebigen Punkt x die Wahrscheinlichkeit angibt, mit der die Zufallsvariable X Werte annimmt,
die kleiner sind als der Punkt x. Die so entstehende, von x abhängige Funktion, wird Verteilungsfunktion der Zufallsvariablen X genannt.
Definition 2.5 (Verteilungsfunktion) Ist X eine Zufallsvariable auf dem Wahrscheinlich-
Verteilungs-
keitsraum (Ω, A, P ), so heißt die Abbildung
funktion
FX
FX : R 7→ [0, 1]
(2.6)
FX (x) := PX ([X ≤ x]) = P ({ω|ω ∈ Ω ∧ X(ω) ≤ x})
(2.7)
mit
63
KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT
❍
die Verteilungsfunktion der Zufallsvariablen X.
Die Verteilungsfunktion FX (x) entsteht ausschließlich aus dem Wahrscheinlichkeitsmaß PX und erfüllt damit einige wichtige charakteristische Eigenschaften. Es handelt sich
zunächst um eine über x monoton wachsende (bzw. präziser gesagt, um eine monoton nicht
fallende) Funktion, die für x → −∞ den Wert 0 und für x → +∞ den Wert 1 annimmt.
Diese Eigenschaft der Verteilungsfunktion FX (x) ist für jede Zufallsvariable in gleicher
Form erfüllt.
2.5.1 Eigenschaften der Verteilungsfunktion
• FX (x) ist normiert:
lim FX (x) = 0 und
x→−∞
lim FX (x) = 1
x→+∞
(2.8)
• FX (x) ist monoton nicht abnehmend:
x1 ≤ x2
⇒
FX (x1 ) ≤ FX (x2 )
(2.9)
• FX (x) ist rechtsseitig stetig
lim FX (x + h) = FX (x)
h→0
(2.10)
• Die Wahrscheinlichkeit, mit der die Zufallsvariable X Werte im Intervall x0 < X ≤
x1 annimmt, kann mit dem Konzept der Verteilungsfunktion relativ einfach wie folgt
berechnet werden:
PX (x0 < X ≤ x1 ) = FX (x1 ) − FX (x0 )
(2.11)
• Die Wahrscheinlichkeit, mit der genau eine einzige reelle Zahl x angenommen wird,
berechnet sich aus:
PX (X = x) = FX (x) − lim FX (x − h)
h→0
(2.12)
Die letzte Eigenschaft ist insbesondere für die Betrachtung von Zufallsvariablen mit
diskretem Wertevorrat von Bedeutung. Nur in diesem Fall ist die Wahrscheinlichkeit, mit
der die Zufallsvariable X einen der möglichen diskreten Werte [X = k] annimmt, von
Null verschieden. Für Zufallsvariable mit einem kontinuierlichen Wertevorrat ist die Wahrscheinlichkeit, mit der die Zufallsvariable X eine definierte reelle Zahl x annimmt, gleich
Null.
64
2.5. VERTEILUNGSFUNKTION DER ZUFALLSVARIABLEN X
2.5.2 Verteilungsfunktion für diskrete Zufallsvariable
Definition 2.6 (Diskretes Wahrscheinlichkeitsmaß) Eine Zufallsvariable X bzw. deren
Wahrscheinlichkeitsmaß PX heißt diskret, wenn X höchstens abzählbar viele verschiedene
Werte annimmt und die Verteilungsfunktion FX (x) damit eine Stufenfunktion über dem
Parameter x darstellt.
❍
Die Verteilungsfunktion FX (x) für eine diskrete Zufallsvariable X ergibt sich somit
als Summe von Wahrscheinlichkeiten der diskreten Werte xk ≤ x:
FX (x) =
X
fX (xk ) =
xk ≤x
X
P [X = xk ].
xk ≤x
Abbildung 2.4 zeigt ein Beispiel für die Verteilungsfunktion einer diskreten Zufallsvariablen.
Hinweis: Die Funktion fX (xk ) heißt diskrete Wahrscheinlichkeitsdichtefunktion (WDF)
der Zufallsvariablen X und gibt die Wahrscheinlichkeit an, mit der die diskrete Zufallsvariable X den Wert xk annimmt. Die Wahrscheinlichkeitsdichtefunktion wird in einem
späteren Abschnitt (Abschnitt 2.6.1) detaillierter vorgestellt.
FX(x)
1
x1
x
Abbildung 2.4: Verteilungsfunktion einer diskreten Zufallsvariable
2.5.3 Verteilungsfunktion für kontinuierliche Zufallsvariable
Definition 2.7 (Stetiges/kontinuierliches Wahrscheinlichkeitsmaß) Eine Zufallsvariable X bzw. deren Wahrscheinlichkeitsmaß PX heißt stetig oder kontinuierlich, wenn X
überabzählbar viele verschiedene reelle Werte annimmt und die Verteilungsfunktion FX (x)
als Stammfunktion einer nichtnegativen, stückweise stetigen Funktion fX dargestellt werden kann. In diesem Fall muss also die folgende Bedingung für alle reellen Zahlen x ∈ R
65
KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT
erfüllt sein:
FX (x) =
Zx
fX (ξ) dξ
(2.13)
−∞
Die Funktion fX (x) heißt Wahrscheinlichkeitsdichtefunktion (WDF) der Zufallsvaria❍
blen X.
In Abbildung 2.5 ist ein Beispiel für die Verteilungsfunktion einer kontinuierlichen Zufallsvariablen dargestellt.
FX(x)
1
0
x
Abbildung 2.5: Verteilungsfunktion einer kontinuierlichen Zufallsvariablen
2.6 Wahrscheinlichkeitsdichtefunktion
2.6.1 Wahrscheinlichkeitsdichtefunktion für diskrete Zufallsvariable
Wahrscheinlich-
Definition 2.8 (Wahrscheinlichkeitsdichte) Wenn eine Zufallsvariable X diskrete Werte
keitsdichte
annimmt, so heißt die Abbildung
fX
fX : R 7→ R
mit fX (x) := PX ({X = x})
die Wahrscheinlichkeitsdichte1 der Zufallsvariablen X.
(2.14)
❍
Abbildung 2.6 zeigt ein Beispiel für die Wahrscheinlichkeitsdichtefunktion einer diskreten
Zufallsvariablen.
Das Wahrscheinlichkeitsmaß PX und damit auch die Verteilungsfunktion FX (x) einer diskreten Zufallsvariablen X sind durch Angabe der Wahrscheinlichkeitsdichte fX (x)
bereits vollständig beschrieben.
PX (A) =
X
fX (x)
(2.15)
x∈A
1 andere
gebräuchliche Bezeichnungen: Verteilungsdichte, Verteilungsgesetz, Probability Density Functi-
on (PDF)
66
2.6. WAHRSCHEINLICHKEITSDICHTEFUNKTION
fX(x)
0.5
0
x
Abbildung 2.6: Wahrscheinlichkeitsdichtefunktion einer diskreten Zufallsvariablen
Beispiele für diskrete Zufallsvariable:
• Alternativverteilung Ap :
fX (1) =
p mit 0 < p < 1
fX (0) =
1−p
Anwendungsbeispiel: Bitfehleranalyse für eine binäre Übertragungsstrecke mit zufälligen Fehlern
• Binominialverteilung Bn,p : Wir betrachten ein Zufallsexperiment, in dem eine Zufallsvariable Yi , die einer Alternativverteilung gehorcht, n-mal gewürfelt und anschließend aufsummiert wird:
Xn =
n
X
Yi
i=1
Die resultierende Wahrscheinlichkeitsdichtefunktion dieser diskreten Zufallsvariablen Xn ist im Folgenden angegeben und wird als Binomialverteilung bezeichnet.
n k
Bn,p (k) := fX (k) =
p (1 − p)n−k
k
für k = 0, 1, 2, . . . , n
(2.16)
Abbildung 2.7 zeigt die Wahrscheinlichkeitsdichtefunktion fX (x) und die Verteilungsfunktion FX (x) einer diskreten binomialverteilten Zufallsvariablen X.
Anwendungsbeispiel: Bitfehler in einem übertragenen Datenpaket mit insgesamt n
Bits
67
KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT
1
0.16
n = 25, p = 0.5
0.9
0.14
0.8
0.12
0.7
0.6
FX(k)
fX(k)
0.1
0.08
0.5
0.4
0.06
0.3
0.04
0.2
0.02
0
0.1
0
5
10
15
20
25
0
0
5
10
15
20
25
k
k
Abbildung 2.7: Wahrscheinlichkeitsdichtefunktion und Verteilungsfunktion einer diskreten
binomialverteilten Zufallsvariablen Xn
Binomialverteilung
fX (k) =
FX (k) =


k
p (1 − p)n−k
n
k
 0
für k ≥ 0;

k

 P fX (i) für k ≥ 0;
V ar{X} = np(1 − p)
i=0

 0
E{X} = np
sonst.
sonst.
Hinweis: Der Erwartungswert E{X} sowie die Varianz V ar{X} werden erst im
folgenden Kapitel formal eingeführt. Sie sind in dieser tabellarischen Auflistung der
Vollständigkeit halber schon mit angegeben.
• Poisson-Verteilung Πλ : Für die Herleitung der Poisson-Verteilung wird ein Modell
einer Binomialverteilung betrachtet, mit der Zufallsvariablen Xn ,
Xn =
n
X
Yi
i=1
Zusätzlich werden folgende Annahmen getroffen:
a) Die Wahrscheinlichkeit p, mit der das Ereignis eintritt, ist extrem klein (p → 0).
Es handelt sich also um ein sehr seltenes Ereignis.
b) Es wird eine große Anzahl n von Einzelexperimenten zur Berechnung der Zufallsvariablen Xn durchgeführt (n → ∞).
c) Der Erwartungswert der Zufallsvariablen Xn ist wie folgt definiert:
E{Xn } =
n
X
x=0
68
xBn,p (x) = np = λ
2.6. WAHRSCHEINLICHKEITSDICHTEFUNKTION
und wird unabhängig von n als konstant angenommen. Diese mittlere als fest
angenommene Ankunftsrate λ bestimmt gleichzeitig auch die Auftrittswahrscheinlichkeit p =
λ
n.
Wir interessieren uns unter diesen Annahmen für die Wahrscheinlichkeit, mit der die
Zufallsvariable Xn = k ist, falls n gegen unendlich wächst:
n k
P (Xn = k) =
p (1 − p)n−k
k
n−k
k λ
n
λ
1−
=
n
n
k
n −k
k
λ
λ
λ
n!
1−
· 1−
·
=
k!(n − k)! nk
n
n
n
−k
k
λ
λ
n(n − 1)(n − 2) · · · (n − k + 1)
λ
=
1−
·
·
1
−
k!
n
nk
n
lim P (Xn = k) =
n
−k
λ
n(n − 1)(n − 2) · · · (n − k + 1)
λk
λ
1−
·
lim
1
−
n→∞ k!
n
n{zk
n
}|
| {z } |
{z
}
n→∞
→1
→e−λ
=
→1
λk −λ
e
k!
Diese sich aus dem obigen Grenzübergang ergebende diskrete Zufallsvariable X, mit
der Wahrscheinlichkeitsdichtefunktion
Πλ (k) := P (X = k) =
λk −λ
e
k!
(2.17)
wird als poissonverteilt bezeichnet.
1
0.08
λ = 25
0.9
0.07
0.8
0.06
0.7
0.6
FX(k)
fX(k)
0.05
0.04
0.5
0.4
0.03
0.3
0.02
0.2
0.01
0
0.1
0
5
10
15
20
25
30
35
40
45
50
0
0
5
10
15
20
25
30
35
40
45
50
k
k
Abbildung 2.8: Wahrscheinlichkeitsdichtefunktion und Verteilungsfunktion einer diskreten
poissonverteilten Zufallsvariablen
69
KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT
Beispiel 2.4 (Anwendungsbeispiel zur Poissonverteilung)
Frage: Auf einer Fläche von 5 cm2 seien 1000 Staubpartikel (in etwa gleichverteilt
über der betrachteten Fläche). Wie gross ist die Wahrscheinlichkeit, auf einer Teilfläche von 5 mm2 genau 6 Partikel zu finden?
Lösung: Gedanklich lässt sich die Teilfläche in eine sehr große Anzahl n Bereiche
aufteilen (Abbildung 2.9). Hierbei wird die Wahrscheinlichkeit p, in einem Bereich
ein Partikel anzutreffen, verschwindend klein. Dabei ist das Produkt pn jedoch konstant.
Abbildung 2.9: Illustration der gedanklichen Zerlegung der mit Staubpartikeln bedeckten
Fläche
Hier ist die Zufallsvariable X die Anzahl der Partikel auf einer Fläche von 5 mm2 .
Der Erwartungswert von X ist damit
λ=
1000
500 mm2
5 mm2
= 10.
In jedem Kästchen der Fläche 5 mm2 befinden sich also im Mittel genau 10 Partikel.
Die gesuchte Wahrscheinlichkeit, mit der sich genau 6 Partikel in einem Kästchen
befinden lässt sich mit Hilfe der Poisson Verteilung also folgendermaßen berechnen:
P (X = 6) = Πλ (6) ≈ 0.063
Demgegenüber ist die Wahrscheinlichkeit genau 10 Partikel auf der gleichen Fläche
zu finden wesentlich größer:
P (X = 10) = Πλ (10) ≈ 0.125
△
70
2.6. WAHRSCHEINLICHKEITSDICHTEFUNKTION
Poissonverteilung
fX (k) =


FX (k) =

k

 e−λ P
λk −λ
k! e
für k ≥ 0;
 0
E{X} = λ
sonst.
i=0
λi
i!

 0
für k ≥ 0;
V ar{X} = λ
sonst.
2.6.2 Wahrscheinlichkeitsdichtefunktion für kontinuierliche Zufallsvariable
Definition 2.9 Wenn eine Zufallsvariable X kontinuierliche Werte annimmt, so heißt die
Abbildung
fX : R 7→ [0, ∞),
(2.18)
für die gilt
Z∞
fX (x)dx = 1
(2.19)
−∞
die Wahrscheinlichkeitsdichte der Zufallsvariablen X.
❍
In Abbildung 2.10 ist ein Beispiel für die Wahrscheinlichkeitsdichtefunktion einer konti-
fX(x)
nuierlichen Zufallsvariable dargestellt.
x
Abbildung 2.10: Wahrscheinlichkeitsdichtefunktion einer kontinuierlichen Zufallsvariable
Die Verteilungsfunktion FX (x) einer kontinuierlichen Zufallsvariablen X ist durch
Angabe der Wahrscheinlichkeitsdichte fX (x) bereits mit Gleichung (2.13) vollständig be71
KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT
stimmt.
FX (x) =
Zx
fX (ξ)dξ
für alle
−∞
x∈R
(2.20)
Beispiele für kontinuierliche Zufallsvariable
• Gleichverteilung
Ein wichtiges Beispiel für eine kontinuierliche Zufallsvariable ist durch die sogenannte Gleichverteilung gegeben. Diese Zufallsvariable nimmt nur Werte in einem
vorgegebenen festen Intervall auf der Achse der reellen Zahlen an. Die Wahrscheinlichkeitsdichtefunktion ist eine Konstante innerhalb des betrachteten Intervalls. Mit
den gängigen Programmiersprachen können sehr einfach auf jedem Rechner gleichverteilte Zufallsvariable im Intervall [0, 1] erzeugt werden.
FX(x)
fX(x)
1
1/(b-a)
b
a
b
a
x
x
Abbildung 2.11: Gleichverteilung
Anwendungsbeispiel: Modellierung von Quantisierungsrauschen
Gleichverteilung
fX (x) =
FX (x) =



1
b−a

0



0



x−a
b−a




1
für x ∈ [a, b], a < b;
E{X} =
a+b
2
sonst.
für x < a
für a ≤ x ≤ b
V ar{X} =
1
12
· (b − a)2
für x ≥ b
• Gauß- bzw. Normalverteilung
Die vermutlich im Bereich der Wahrscheinlichkeitstheorie wichtigste Zufallsvariable
ist die Gaußsche bzw. normalverteile Zufallsvariable. Die Bezeichnung geht auf den
72
2.6. WAHRSCHEINLICHKEITSDICHTEFUNKTION
berühmten deutschen Mathematiker Carl Friedrich Gauß zurück, der am 30. April
1777 in Braunschweig geboren wurde, an der Universität in Helmstedt promovierte
und am 23. Februar 1855 in Göttingen starb.
Eine Gaußsche Zufallsvariable wird zur Modellierung von zufälligen, additiv überlagerten Fehlern herangezogen.
Die Wahrscheinlichkeitsdichtefunktion der Standard-Normalverteilung ist:
2
1
fX (x) = √ e−x /2
2π
für alle
x∈R
Allgemeine Normalverteilung:
1 x−µ 2
1
e− 2 ( σ )
fX (x) = √
2πσ
für alle
x∈R
Hierbei bezeichnet σ die Standardabweichung (vgl. Abschnitt 3.4.2).
Die Verteilungsfunktion FX (x) kann leider nicht in mathematisch geschlossener
Form, sondern nur als Integral über der Wahrscheinlichkeitsdichtefunktion angegeben werden (vgl. Anhang B.1).
FX (x) =
Zx
fX (ξ)dξ =
−∞
Zx
1 ξ−µ 2
1
√
e− 2 ( σ ) dξ
2πσ
−∞
0.04
1
0.8
0.03
fX(x)
(2.21)
0.6
FX(x)
0.02
0.4
0.01
0.2
0
-5
0
x
0
-5
5
0
x
Abbildung 2.12: Normalverteilung
Normalverteilung
fX (x) =
FX (x) =
1
√ 1
e− 2
2πσ2
Rx
−∞
(x−µ)2
σ2
2
1 (ξ−µ)
σ2
√ 1
e− 2
2πσ2
73
E{X} = µ
dξ
V ar{X} = σ 2
5
KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT
• Lognormalverteilung
Bei einer lognormalverteilten Zufallsvariablen X ist der Logarithmus naturalis der
Zufallsvariablen normalverteilt mit dem Erwartungswert µ und der Varianz σ 2 .
Anwendungsbeispiel: Modellierung der Fadingeinflüsse (slow fading) von Mobilfunkkanälen
0.7
1
0.6
0.8
0.6
X
F (x)
0.4
X
f (x)
0.5
0.3
0.4
0.2
0.2
0.1
0
0
1
2
3
4
0
0
5
1
x
2
3
4
5
x
Abbildung 2.13: Logormalverteilung (µ = 0, σ 2 = 1)
Lognormalverteilung

 0
fX (x) =
 √
für x < 0;
1
e−
2πσ2 x


 0
Rx
FX (x) =


−∞
(ln x−µ)2
2σ2
σ2
2
für x ≥ 0.
für x < 0;
√ 1
e−
2πσ2 ξ
E{X} = eµ+
(ln ξ−µ)2
2σ2
dξ
V ar{X} = e2µ+2σ
für x ≥ 0.
−e2µ+σ
2
2
• Rayleigh-Verteilung
Die Rayleigh-Verteilung entsteht aus einer komplexen Zufallsvariablen, deren Realund Imaginärteil jeweils normalverteilt sind. Dann ist deren Phase gleichverteilt,
während der Betrag rayleighverteilt ist.
Anwendungsbeispiel: Modellierung der Fadingeinflüsse (fast fading) von Mobilfunkkanälen (Betrag komplex normalverteilter Zufallsvariablen)
74
2.6. WAHRSCHEINLICHKEITSDICHTEFUNKTION
0.7
1
0.9
0.6
0.8
0.7
0.4
FX(x)
fX(x)
0.5
0.3
0.6
0.5
0.4
0.3
0.2
0.2
0.1
0
0.1
0
1
2
3
0
4
0
1
2
x
3
4
x
Abbildung 2.14: Rayleigh-Verteilung
Rayleigh-Verteilung
fX (x) =
FX (x) =


0


x
σ2 e


0
fürx < 0
x2
− 2σ
2

1 − e
E{X} = σ
für x ≥ 0
für x < 0
x2
− 2σ
2
pπ
V ar{X} =
für x ≥ 0
2
4−π 2
2 σ
• Exponentialverteilung
0.04
1
0.8
0.03
0.6
FX(x)
fX(x) 0.02
0.4
0.01
0
0
0.2
1
2
3
4
0
0
1
x
2
x
3
4
Abbildung 2.15: Exponentialverteilung
Anwendungsbeispiel: Beschreibung der Dauer von Vorgängen (Telefongespräche,
Bedienzeiten eines Rechners,...), Geburt- und Sterbeprozesse
75
KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT
Exponentialverteilung
fX (x) =
FX (x) =


0

αe−αx


0
für x ≤ 0
E{X} =
für x > 0, α > 0
für x ≤ 0

1 − e−αx
1
α
V ar{X} =
für x > 0, α > 0
1
α2
2.7 Zusammenfassung: Zufallsvariablen
Eine Zufallsvariable ist eine Variable mit zufälligem Ausgang, welche durch die Abbildung
X : Ω 7→ R
(2.22)
eindeutig definiert ist, und damit den zufälligen Ereignissen ω im ursprünglichen Zufallsexperiment reelle Zahlen zuordnet.
Das Konzept der Zufallsvariablen ist deshalb so wichtig, weil Zufallsexperimente dadurch in einheitlicher Form beschrieben und behandelt werden können.
Zufallsexperimente waren bisher eindeutig durch einen passend zugehörigen Wahrscheinlichkeitsraum beschrieben, der wiederum durch das folgende Tripel definiert ist:
(Ω, A, P ).
(2.23)
Durch das Konzept der Zufallsvariablen wird zunächst auf mathematisch natürliche Weise
das Zufallsexperiment durch einen neuen Wahrscheinlichkeitsraum beschrieben.
(ΩX = R, B, PX ).
(2.24)
Mit Einführung der Zufallsvariablen X vereinfacht sich der Wahrscheinlichkeitsraum zu
(R, B, PX ). Da die Menge der reellen Zahlen R sowie die Borel’sche Menge nicht weiter
definiert werden müssen, sondern als bekannt vorausgesetzt werden können, ist ein Zufallsexperiment somit allein schon durch das neue Wahrscheinlichkeitsmaß PX beschrieben.
Durch das Zufallsexperiment werden jetzt zufällige Ereignisse beschrieben, die einheitlich durch reellwertige Zahlen repräsentiert sind. Durch dieses Konzept der Zufallsvariablen wird die Möglichkeit einer einheitlichen Beschreibung der Zufallsexperimente
geschaffen. Die wichtigsten Eigenschaften des Zufallsexperiments sind durch die Verteilungsfunktion (2.7) einer Zufallsvariablen beschrieben, durch die die Wahrscheinlichkeit
76
2.7. ZUSAMMENFASSUNG: ZUFALLSVARIABLEN
angegeben wird, mit der die Zufallsvariable reelle Werte annimmt, die kleiner sind als ein
beliebig aber fest vorgegebener Wert x:
FX (x) = PX ([X(ω) ≤ x])
mit {ω|X(ω) ≤ x} ∈ A.
(2.25)
Alternativ kann das Verhalten der Zufallsvariablen X durch die Wahrscheinlichkeitsdichte fX (x) angegeben werden. Für kontinuierliche Zufallsvariable ist die Wahrscheinlichkeitsdichtefunktion fX (x) die Ableitung der Verteilungsfunktion:
′
fX (x) = FX
(x).
(2.26)
Daher kann umgekehrt die Verteilungsfunktion auch als Integral der Wahrscheinlichkeitsdichtefunktion berechnet werden:
FX (x) =
Zx
−∞
77
fX (ξ) dξ.
(2.27)
KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT
78
Kapitel 3
Beschreibung und Analyse von
Zufallsvariablen
Im vorangegangenen Kapitel wurde das wichtige Konzept der Zufallsvariablen eingeführt,
mit dem die einheitliche Beschreibung und Analyse von Zufallsexperimenten ermöglicht
wurde. Ein sehr wichtiges erstes Ergebnis dieser Analyse ist in der einheitlichen Beschreibung der Zufallsvariablen durch die jeweils zugehörige Verteilungsfunktion bzw. alternativ
durch die Wahrscheinlichkeitsdichtefunktion zu sehen. Durch Angabe der Verteilungsfunktion liegt die vollständige Kenntnis des Zufallsexperiments und deren Zufallsvariable X
vor.
In diesem Kapitel sollen weitere alternative Möglichen bzw. mathematische Konzepte
zur vollständigen oder auch teilweisen Beschreibung des Zufallsexperiments und deren
Zufallsvariablen diskutiert und vergleichend dargestellt werden.
3.1 Verteilungsfunktion und Wahrscheinlichkeitsdichtefunktion
Zur Wiederholung sind in dem folgenden Diagramm (Tabelle 3.1) die beiden wichtigen Funktionen zur vollständigen Beschreibung einer Zufallsvariablen X, die jeweilige Verteilungs- und Wahrscheinlichkeitsdichtefunktion, für die beiden zu unterscheidenden Fälle einer kontinuierlichen und diskreten Zufallsvariablen dargestellt. Diese beiden
Beschreibungsmöglichkeiten charakterisieren eine Zufallsvariable jeweils vollständig. Sie
sind äquivalent und können jeweils durch Integration oder Ableitung mathematisch ineinander umgerechnet werden.
79
KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN
Verteilungsfunktion
Wahrscheinlichkeitsdichtefunktion
10
0.4
9
0.35
8
0.3
kontinu-
7
X
X
f
5
F
ierlich
0.25
6
4
0.2
0.15
3
0.1
(Normal-
2
0.05
1
0
−4
verteilung)
−3
−2
−1
0
1
2
3
0
−4
4
−3
−2
−1
x
0
1
2
3
4
x
0.16
1
0.14
0.9
0.12
0.8
diskret
0.7
0.1
FX
(Binomial-
fX
0.6
0.5
0.06
0.4
0.3
verteilung)
0.08
0.04
0.2
0.02
0.1
0
0
5
10
15
20
25
0
0
5
10
15
20
25
30
x
x
Tabelle 3.1: Beschreibung durch Verteilungsfunktion/Wahrscheinlichkeitsdichtefunktion
Die Verteilungsfunktion eignet sich per Definition insbesondere dann zur charakteristischen Beschreibung einer Zufallsvariablen, wenn die Wahrscheinlichkeit bestimmt, bzw.
aus einem Diagramm abgelesen werden soll, mit der die jeweils betrachtete Zufallsvariable X Werte annimmt, die kleiner sind als ein vorgegebener Parameter x. Dagegen ist die
Wahrscheinlichkeitsdichtefunktion (WDF) einer Zufallsvariablen X bzw. deren graphische
Darstellung gut für vergleichende Darstellung unterschiedlicher Zufallsvariablen geeignet.
Außerdem bietet die WDF einen anschaulichen Überblick über die von der Zufallsvariablen
X angenommenen reellen Werte. Die Verteilungsfunktionen unterschiedlicher Zufallsvariablen sehen dagegen von der graphischen Darstellung her betrachtet meist sehr ähnlich
aus. Beide Funktionen beinhalten aber die vollständige Kenntnis über das Zufallsexperiment.
Im Folgenden wird jeweils zwischen diskreten und kontinuierlichen Zufallsvariablen
(siehe Tabelle 3.1) unterschieden.
Beispiele für kontinuierliche Zufallsvariable X
• Die Standard-Normalverteilung N (0, 1) nimmt Werte auf der gesamten reellen
Achse an. Es ist eine mittelwertfreie Zufallsvariable mit normierter Varianz. Die
Wahrscheinlichkeitsdichtefunktion ist in der folgenden Gleichung angegeben:
2
1
fX (x) = √ e−x /2
2π
für alle
x∈R
(3.1)
Diese Wahrscheinlichkeitsdichtefunktion wird sich im Verlauf dieser Vorlesung, z.B.
bei Behandlung der Grenzwertsätze, als eine der wichtigsten WDF herauskristalli80
3.1. VERTEILUNGSFUNKTION UND
WAHRSCHEINLICHKEITSDICHTEFUNKTION
sieren. Darüber hinaus hat diese WDF eine zentrale Bedeutung für Anwendungen in
Naturwissenschaft und Technik.
Für die zugehörige Verteilungsfunktion existiert leider keine mathematisch geschlossene Lösung, sondern lediglich die Darstellung als Integral über der WDF. Aus diesem Grund sind die Werte der Verteilungsfunktion häufig in tabellierter Form (vgl.
Anhang B.1) für praktische Anwendungen angegeben.
• Allgemeine Normalverteilung N (µ, σ 2 ):
(x−µ)2
1
fX (x) = √
e− 2σ2
2πσ
für alle
x∈R
(3.2)
Der Parameter µ wird später als der Erwartungswert (die mittlere Lage der Verteilungsfunktion) und σ 2 als die Varianz (dahinter steht anschaulich die Breite der
Wahrscheinlichkeitsdichte) der Zufallsvariablen X bezeichnet.
Wahrscheinlichkeitsdichtefunktion der Standard-Normalverteilung
Standard−Normalverteilung
0.5
0.45
0.4
X
f (x)
0.35
0.3
0.25
σ
0.2
0.15
0.1
0.05
0
−4
−3
−2
−1
0
1
2
3
4
x
1
1
1
fX (µ + σ) = √
e− 2
fX (µ) = √
2πσ 2
2πσ 2
fX (µ + σ)
1
= e− 2 ≈ 60, 7%
fX (µ)
Die Funktionswerte der WDF einer Normalverteilung an der Stelle µ und µ + σ stehen
in einem festen Verhältnis von 0.607 zueinander. Die Wahrscheinlichkeit, mit der die normalverteilte Zufallsvariable X Werte im Intervall [µ − σ, µ + σ] annimmt, berechnet sich
wie folgt zu 68,26%:
81
KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN
PX (µ − σ ≤ X < µ + σ) = Φ(1) − Φ(−1)
= Φ(1) − [1 − Φ(1)]
= 2Φ(1) − 1
≈ 0.6826
Die Funktion Φ(x) steht hier für das Integral über die WDF der Normalverteilung.
Anwendung des Integralgrenzwertsatzes
An dieser Stelle tritt eine numerische Besonderheit auf, weil das Integral über
die Wahrscheinlichkeitsdichtefunktion der Normalverteilung nicht geschlossen lösbar ist. Aus diesem Grund benutzt man alternativ zur Integralberechnung die in vielen Büchern tabellierten Werte des sogenannten G AUSSschen
G AUSS’sches
Fehlerintegrals Φ(·), die in diesem Fall aus einer Standard-Normalverteilung
Fehlerintegral
berechnet werden:
Φ(·)
Φ(x) =
Zx
−∞
ξ2
1
√ e− 2 dξ
2π
x≥0
Eine entsprechende Tabelle findet sich auch in Anhang B.1.
Bei einer Gauß´schen bzw. Normalverteilung liegen die von der zugehörigen Zufallsvariablen angenommenen Werte bereits mit 68% innerhalb eines engen Bereiches um den
Erwartungswert. In lediglich 32% aller Fälle nimmt die Zufallsvariable X größere oder
kleinere Werte außerhalb des Intervalls [µ − σ, µ + σ] an. Grundsätzlich nimmt die normalverteilte Zufallsvariable X Werte auf der gesamten reellen Achse an, allerdings mit sehr
unterschiedlicher Wahrscheinlichkeit.
3.2 p-Fraktile
Ausgehend von der Beobachtung, dass bei der Normalverteilung bereits 68% der Wahrscheinlichkeitsmasse innerhalb eines eng umgrenzten Intervalls liegt, wird in diesem Abschnitt eine wesentlich allgemeinere Frage gestellt. Man möchte wissen, bis zu welchem
82
3.2. P -FRAKTILE
Punkt xp bereits p% der Wahrscheinlichkeitsmasse durch die Zufallsvariable X angenommen wurden. Diese wichtige Frage kann mit Hilfe der Verteilungsfunktion relativ einfach
beantwortet werden.
Definition 3.1 (p-Fraktil) Sei FX (x) die Verteilungsfunktion einer Zufallsvariablen X, so
p-Fraktile
heißt für einen beliebig vorgegebenen Wert p ∈ [0, 1], der auf der reellen Achse angeord-
q-Quantile
nete Parameter xp , für den gilt
FX (xp ) = p
(3.3)
ein p-Fraktil der Zufallsvariablen X. Die p-Fraktile werden in der Literatur häufig auch
❍
als q-Quantile bezeichnet.
Diese p-Fraktile xp sind im Allgemeinen für ganz bestimmte Werte von p von Interesse. Man möchte wissen, bis zu welchem Punkt xp beispielsweise bereits p =25%, 50%,
75%, 90% oder 99% Wahrscheinlichkeitsmasse in der Verteilungsfunktion durch die Zufallsvariable X angenommen wird. Das p = 50%-Fraktil wird auch als Median bezeichnet.
(Anwendung: Median-Filter, Median der Studienzeiten, etc.)
Die p-Fraktile der meisten Verteilungsfunktionen liegen in tabellierter Form in der Literatur vor (→ Bronstein).
Die p-Fraktile können auch in einer graphischen Darstellung durch die Umkehrung der
Verteilungsfunktion einer Zufallsvariablen X analytisch angegeben werden, wie in Abbildung 3.1 für das Beispiel einer Normalverteilung mit µ = 0 illustriert.
xq
5
0
−5
0
0.2
0.4
0.6
0.8
1
q
Abbildung 3.1: Graphische Darstellung der q-Quantile durch Umkehrung der Verteilungsfunktion
Durch Angabe einiger p-Fraktile der Zufallsvariablen X können bereits charakteristische Eigenschaften über das zufällige Verhalten der Zufallsvariablen X abgelesen werden.
Allerdings liegt in diesem Fall nicht mehr die vollständige Kenntnis über das gesamte Zufallsexperiment vor.
83
KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN
3.3 Erwartungswert
3.3.1 Erwartungswert einer Zufallsvariablen
Die Verteilungsfunktion einer Zufallsvariablen beschreibt das Zufallsexperiment vollständig. Durch die p-Fraktile wurden einige charakteristische Eigenschaften aber nicht mehr
die volle Kenntnis einer Zufallsvariablen X beschrieben. In diesem Abschnitt beschreiben wir weitere charakteristische Größen einer Zufallsvariablen, mit denen ein schneller
Überblick über das zufällige Verhalten der Zufallsvariablen gewonnen werden soll. Mit der
Angabe eines einzigen Wertes oder mit zwei Werten soll das charakteristische Verhalten
der Zufallsvariablen bereits grob beschrieben werden. Es ist völlig klar, dass in der Angabe dieser Werte nicht mehr die vollständige Kenntnis des Zufallsexperiments steckt. Einer
dieser wichtigen charakteristischen Größen ist der Erwartungswert.
In praktischen Anwendungen wird häufig die Frage nach der „mittleren Lebensdauer“
oder nach dem „durchschnittlichen Gewinn“ gestellt. Bereits Bernoulli gab als „durchschnittlichen Gewinn“ G eines Spiels an, wenn ein Gewinn der Höhe gi mit der Wahrscheinlichkeit pi auftritt.
G=
X
i
g i · pi .
Hinter diesen eher anschaulich geprägten Begriffen (mittlere, durchschnittliche) steht mathematisch exakt argumentiert der Begriff des Erwartungswertes.
3.3.2 Erwartungswert für diskrete Zufallsvariable
Definition 3.2 (Erwartungswert für diskrete Zufallsvariable) Nimmt die Zufallsvariable X im Ereignisraum ΩX ausschließlich diskrete Werte xi mit i = 1, . . . , N an und
ist pi = PX (X = xi ) die zugehörige Wahrscheinlichkeitsdichte, dann ist der ErwartungsErwartungswert
wert E{X} dieser Zufallsvariablen X wie folgt definiert:
E{X}
E{X} :=
N
X
i=1
xi · pi .
(3.4)
❍
Der Erwartungswert beschreibt eine Größe, die bei dem Zufallsexperiment im Mittel angenommen wird. Der Erwartungswert selbst muss bei einer diskreten Zufallsvariablen allerdings kein Element des Ereignisraumes ΩX sein.
84
3.3. ERWARTUNGSWERT
3.3.3 Erwartungswert für kontinuierliche Zufallsvariable
Definition 3.3 (Erwartungswert für kontinuierliche Zufallsvariable) Sei X eine kontinuierliche Zufallsvariable mit der Wahrscheinlichkeitsdichte fX (x), so bezeichnet E(X)
mit
E{X} :=
Z∞
−∞
ξ · fX (ξ)dξ
den Erwartungswert der Zufallsvariablen X.
(3.5)
❍
Dabei ist noch eine kleine mathematische Bedingung zu berücksichtigen. Diese Definition
des Erwartungswertes gilt nur dann, falls das Integral
Z∞
−∞
|ξ|fX (ξ)dξ
(3.6)
im Riemannschen Sinne existiert.
Beispiele für Erwartungswerte
• Alternativverteilung: Die Zufallsvariable X nimmt in diesem Fall lediglich die
Werte 0 mit einer Wahrscheinlichkeit von p(0) = 1 − p und 1 mit einer Wahrscheinlichkeit von p(1) = p an. Der Erwartungswert dieser Zufallsvariablen X ist
dann:
E{X} =
1
X
x=0
x · p(x) = 0 · (1 − p) + 1 · p = p
• Binomialverteilung: Das obige binäre Experiment wird n-fach wiederholt und die
zufällig geworfenen Werte 0 und 1 in einem Vektor der Länge n angeordnet. Die
Frage, mit welcher Wahrscheinlichkeit Pk genau k 1en zufällig in diesem Vektor der
Länge n geworfen werden, wurde bereits durch die Binomialverteilung beantwortet.
n k
Pk =
p · (1 − p)(n−k)
k
Daraus berechnet sich der Erwartungswert dieser binomialverteilten Zufallsvariablen
wie folgt:
E{X} =
n
X
k=0
k · Pk =
n
X
n k
k
p · (1 − p)(n−k) = n · p
k
k=0
Dieses Ergebnis der Erwartungswertberechnung kann alternativ auch durch eine
n-fach wiederholte Versuchsanordnung der Alternativverteilung gedeutet werden.
Durch Summation der Zufallsvariablen (Anzahl der 1en im Vektor der Länge n)
wächst der Erwartungswert um den Faktor n.
85
KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN
• Normalverteilung: Der Erwartungswert einer normalverteilten Zufallsvariablen
wird mit Hilfe einer Variablentransformation berechnet: Mit t := (s − µ)/σ eingesetzt in das ursprüngliche Integral erhält man
E{X} =
=
1
√
2πσ
1
√
2π
Z∞
−∞
Z∞
−∞
(s − µ)2
ds
s exp −
2σ 2
2
t
(tσ + µ) exp −
dt = µ,
2
Die Funktion t exp(−t2 /2) ist eine über der reellen Achse ungerade Funktion,
dementsprechend verschwindet der Integralwert. Ferner kann der Wert des verbleibenden Integrals im Bronstein nachgelesen werden. Damit gilt:
Z∞
2
t exp(−t /2)dt = 0
und
−∞
Z∞
exp(−t2 /2)dt =
√
2π
−∞
Der Erwartungswert einer normalverteilten Zufallsvariablen ist also: E{X} = µ.
Diese Eigenschaft wurde bereits bei der Definition und Beschreibung der Normalverteilung und der Bedeutung des Parameters µ erwähnt.
3.3.4 Rechenregeln für Erwartungswerte
Der Erwartungswert einer Zufallsvariablen gibt bereits einen ersten wichtigen Hinweis,
in welchem Bereich auf der reellen Achse die Zufallsvariable X zufällige Werte ungefähr annehmen wird. Die Erwartungswertberechnung kann auch auf gewichtete und additiv
überlagerte (komponierte) Zufallsvariable angewandt werden. Deshalb sind allgemeine Rechenregeln zur Berechnung des Erwartungswertes von großem Interesse. Seien X, Y zwei
Zufallsvariable und a, b zwei konstante reelle Faktoren, dann gilt für die Erwartungswertberechnung dieser zusammengesetzten Zufallsvariablen:
E{a} = a
(3.7)
E{aX + b} = aE{X} + b
(3.8)
E{aX + bY } = aE{X} + bE{Y }
(3.9)
Der Erwartungswert ist also ein linearer Operator, d.h. der Erwartungswert angewandt auf
eine Summe von Zufallsvariablen ist gleich der Summe der einzelnen Erwartungswerte.
Für statistisch unabhängige Zufallsvariable X, Y (siehe Kapitel 3.6) gilt außerdem eine
sehr wichtige Beziehung, die hier bereits vorab genannt werden soll:
E{X · Y } = E{X} · E{Y }
86
(3.10)
3.3. ERWARTUNGSWERT
3.3.5 Erwartungswerte für Funktionen von Zufallsvariablen
Die Regeln zur Berechnung der Erwartungswerte können zusätzlich sehr nützlich erweitert werden, wenn nicht nur Linearkombinationen, sondern beliebige Funktionen auf die
betrachteten Zufallsvariablen angewandt werden. Dazu betrachten wir eine Zufallsvariable
X, auf die eine beliebige Funktion Ψ(X) angewandt wird. Ferner gehen wir davon aus,
dass es sich bei Ψ(·) um eine messbare Funktion handelt. Dann ist Ψ(X) wiederum eine
Zufallsvariable.
Der Erwartungswert von Ψ(X) wird dann folgendermaßen berechnet:
• Ist X eine diskrete Zufallsvariable mit der Wahrscheinlichkeitsdichte fX (x) für x ∈
ΩX , so ist der Erwartungswert
E{Ψ(X)} :=
N
X
i=1
Ψ(xi ) · pi =
N
X
i=1
P [X = xi ] · Ψ(xi ).
(3.11)
• Ist X dagegen eine kontinuierliche Zufallsvariable mit der Wahrscheinlichkeitsdichte
fX (x) für x ∈ ΩX , so ist der Erwartungswert
E{Ψ(X)} :=
Z∞
−∞
Ψ(ξ) · fX (ξ) dξ.
(3.12)
Beispiel 3.1 (Quadrieren einer Zufallsvariablen)
Die Zufallsvariable X sei gleichverteilt im Interval [0, 3]. Sie hat somit die Wahrscheinlichkeitsdichte
fX (x) =


1
3

0
0≤x≤3
sonst
Die Zufallsvariable X hat den Erwartungswert E{X} = 1.5. Auf diese gleichverteilte
Zufallsvariable X wird die folgende Funktion angewandt:
Ψ(x) =
1 2
·x
2
Der Erwartungswert von Ψ(X) errechnet sich somit als
E{Ψ(X)} =
Z∞
−∞
Ψ(x) · fX (x) dx =
3
3
1 1 1 3 =
= · · x 3 2 3 x=0
2
87
Z3
0
1 2 1
x · dx
2
3
△
KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN
In diesem Spezialfall bleibt der Erwartungswert der ursprünglichen Zufallsvariablen X und
der Funktion Ψ(X) gleich.
3.4 Momente
Der Erwartungswert charakterisiert den Wertebereich einer Zufallsvariablen X bereits in
geeigneter aber doch noch sehr oberflächlicher Weise. Es ist ein einzelner zur Charakterisierung einer Zufallsvariablen zwar geeigneter Wert, der allerdings nur eine sehr geringe
Kenntnis über das gesamte Zufallsexperiment enthält. Die Details dieser Zufallsvariablen
werden durch den Erwartungswert nicht erfaßt.
Deshalb ist es wichtig, dass weitere Größen zur Charakterisierung einer Zufallsvariablen X definiert und berechnet werden. Neben dem Erwartungswert lassen sich noch weitere Parameter einer Zufallsvariablen bestimmen, die zusammengefasst als Momente bezeichnet werden. Wie man später noch sehen wird, kann man eine Zufallsvariable X ganz
ohne Kenntnis der Verteilungsfunktion FX (x) alternativ auch allein durch ihre Momente
beschreiben. Dies wird mathematisch über die charakteristische Funktion einer Zufallsvariablen erreicht und ist für praktische Anwendungen nicht sonderlich gut geeignet.
3.4.1 Definition der Momente
Momente
Ist X eine eindimensionale Zufallsvariable, so heißt im Falle der Existenz der betreffenden
Summen bzw. Integrale
mn = E{X n }
das n-te Moment der Zufallsvariablen X
n
zn = E {(X − E{X}) }
das n-te zentrale Moment von X
Die Momente dienen zur Beschreibung des Streuverhaltens und der Details im zufälligen
Verhalten einer Zufallsvariablen.
3.4.2 Varianz
Aus der Sicht der Momente einer Zufallsvariablen X ist der Erwartungswert das erste MoVarianz
2
σ = V ar{X}
ment. Neben dem Erwartungswert ist die Varianz das wichtigste Moment zur Beschreibung und Charakterisierung einer Zufallsvariablen X. Die Varianz ist das zweite zentrale
Moment z2 einer Zufallsvariablen:
V ar{X} = E{(X − E{X})2 } = z2 = σ 2
Standardabweichung
σ
(3.13)
Die aus der Varianz abgeleitete Größe
σ :=
p
V ar{X}
88
(3.14)
3.4. MOMENTE
wird als Standardabweichung der Zufallsvariablen X bezeichnet. Dieser Parameter beschreibt anschaulich die Breite der Wahrscheinlichkeitsdichtefunktion bzw. das Streuverhalten der Zufallsvariablen.
Per Definition ist die Varianz das zweite zentrale Moment. Bei der praktischen Berechnung der Varianz wird häufig vom Verschiebungssatz Gebrauch gemacht, nach dem die
Varianz alternativ aus dem zweiten (nicht zentralen) Moment und dem Quadrat des Erwartungswertes EX mit der folgenden mathematischen Herleitung berechnet werden kann:
V ar{X} =
E{X 2 − 2XE{X} + E{X}2 }
=
E{X 2 } − 2E{X}2 + E{X}2
=
E{X 2 } − E{X}2
Bei der Varianz handelt es sich, im Gegensatz zum Erwartungswert, um keinen linearen Operator. Es gilt für die Zufallsvariable X und die Konstanten a, b aber die folgende
Beziehung:
V ar{aX + b} = a2 V ar{X}
(3.15)
Satz von B IENAYMÉ
Einer der wichtigsten mathematischen Sätze greift die Frage auf, wie sich die Varianz für
eine Summe von Zufallsvariablen (Linearkombination) berechnet. Unter der Annahme statistisch unabhängiger Zufallsvariablen kommt Bienaymé auf eine einfache Lösung. Jules
Bienaymé wurde am 28. August 1796 in Paris geboren und starb dort am 19. Oktober 1878.
Obwohl die Varianz laut Gleichung (3.15) kein linearer Operator ist, lässt sich die Varianz in dem Sonderfall einer Summe statistisch unabhängiger Zufallsvariablen als Summe
der Einzelvarianzen berechnen:
V ar{X1 + X2 + · · · + XN } =
N
X
i=1
V ar{Xi }
(3.16)
Diese Eigenschaft kann in vielen wahrscheinlichkeitstheoretischen Analysen sehr hilfreich
eingesetzt werden und unterstreicht damit die hohe Bedeutung dieses Satzes von Bienaymé.
Beispiel 3.2 (Quantisierer)
Die Abtastung zeitkontinuierlicher Signale und die Quantisierung wertkontinuierlicher Signale findet praktisch in jedem A/D-Wandler statt. Der Vorgang der Quantisierung kann
durch die Addition einer gleichverteilten Zufallsvariablen modelliert werden. Bei der
Quantisierung wird zu der wahren wertkontinuierlichen Größe x ein Quantisierungsfehler in Form einer Zufallsvariablen e addiert, um dadurch eine wertdiskrete Größe xQ zu
erhalten (Abbildung 3.2).
89
KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN
xmax
x
xQ
xQ
Q
2Q
Q
xQ=x+e
x
x
-Q
-2 Q
e
Abbildung 3.2: Quantisierer
Die Breite eines Quantisierungsfaches sei Q. Dann kann die Wahrscheinlichkeitsdichte
i
h
Q
des resultierenden Fehlers e durch eine im Intervall − Q
2 , 2 gleichverteilte Zufallsvariable E angegeben werden (Abbildung 3.3):
fE (e) =
1
rect
Q
e
Q
fE (e)
1/Q
−Q/2
Q/2
e
Abbildung 3.3: Rechteckförmige Verteilungsdichte des Rauschens
Q ist die Breite einer Quantisierungsstufe und ergibt sich aus der maximalen Aussteuerung ±xmax und der Anzahl der mit w Bit darstellbaren Stufen.
Q=
2xmax
2w
Mit dieser Annahme ist der Erwartungswert des Fehlers E gleich Null, d.h., im Mittel wird
durch die Quantisierung das Signal nicht verfälscht. An dieser Stelle ist aber für praktische
Anwendungen der durch die Quantisierung resultierende quadratische Fehler von Interesse,
der im statistischen Sinn direkt durch die Varianz des Quantisierungsrauschens quantitativ
ausgedrückt werden kann. Dabei wird die Gleichverteilung des resultierenden Fehlers im
h
i
Q
Intervall − Q
2 , 2 berücksichtigt. Mit diesen Voraussetzungen und mit diesen Annahmen
2
berechnet sich die Varianz σE
des Quantisierungsfehlers wie folgt:
2
σE
2
= E{e } =
Z∞
−∞
2
ξ · fE (ξ)dξ =
Q/2
Z
−Q/2
90
ξ2 ·
Q/2
Q2
1
1
1
=
dξ = ξ 3 · Q
3
Q ξ=−Q/2
12
3.5. ZUFALLSVEKTOREN
Mit dieser Berechnung und diesem wichtigen Ergebnis ist gleichzeitig die Varianz für jede gleichverteilte Zufallsvariable mit einer Fachbreite von Q angegeben. Für viele nachrichtentechnische Anwendungen wird der Quantisierungsfehler als ein Rauschsignal aufgefasst und aus dem Quantisierungsrauschen der Signal-zu-Rauschabstand in logarithmischem Maßstab angegeben:
SN R = 10 log10
2
σX
2
σE
in [dB]
Wenn mit den wertkontinuierlichen Größen x beispielsweise ein Sinussignal x =
sin(ωt) und xmax = 1 beschrieben wird, dann erhält man mit der obigen Analyse folgenden Signal-zu-Rauschabstand:
SN R
=
=
=
=
=
1/2
10 log10
Q2 /12
6
10 log10
Q2
6
10 log10
(2/2w )2
6 · 2−2
10 log10
2−2w
6.02 · w + 1.76dB
△
Praktisch besagt diese Analyse, dass mit jedem zusätzlich bei der Quantisierung eingesetzten Bit das SNR um 6dB vergrößert werden kann. Die durch den Quantisierungsvorgang verursachten Fehler verringern sich also mit jedem weiteren im A/D-Wandler eingesetzten Bit.
3.4.3 Schiefe einer Verteilung
Das 3. Moment, E{x3 }, beschreibt die Schiefe (skewness) einer Verteilung. Die Schiefe
gibt den Grad der Asymmetrie einer Verteilung an. Eine Verteilung die nach links geneigt
ist, hat eine positive Schiefe, entsprechend hat eine nach rechts geneigte Verteilung eine
negative Schiefe. Normalverteilte Zufallsvariablen beispielsweise haben eine Schiefe von
0, da die Verteilung symmetrisch um den Erwartungswert ist.
3.5 Zufallsvektoren
In vielen praktischen Anwendungsfällen werden Zufallsexperimente beobachtet, in denen
nicht nur wie bisher betrachtet eine einzelne Zufallsvariable, sondern gleichzeitig mehrere
91
KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN
Zufallsvariable auftreten. In dieser Situation werden die einzelnen Zufallsvariablen dann
mathematisch formal und sinnvollerweise in einen Vektor zusammengefasst.
Zufallsvektor
Definition 3.4 (Zufallsvektor) Betrachtet man mehrere Zufallsvariable X1 , . . . , Xn auf
X
dem selben Ereignissraum Ω, so definiert die Abbildung
X : Ω 7→ Rn
(3.17)
❍
einen Zufallsvektor X.
3.5.1 Verteilungsfunktion von Zufallsvektoren
• Für
das
gemeinsame
Wahrscheinlichkeitsmaß,
bzw.
das
Verbund-
Wahrscheinlichkeitsmaß PX dieses Zufallsvektors wird die gemeinsame Verteilungsfunktion bzw. Verbund-Verteilungsfunktion wie folgt hergeleitet:


n
\
FX (t) : Rn 7→ [0, 1], FX (t) := PX  [Xj ≤ tj ]
(3.18)
j=1
Für einen Zufallsvektor, in dem lediglich zwei Zufallsvariable X1 und X2 auftreten,
ist die bei der Definition der gemeinsamen bzw. Verbund-Verteilungsfunktion betrachtete Situation in Bild 3.4 dargestellt, in dem die schraffierte Fläche als ein Element der zweidimensionalen Borel-Menge aufgefasst wird. Diese dort dargestellte
zweidimensionale Situation kann abstrakt auf mehrere Dimensionen leicht erweitert
werden.
X2
t
111111111111
000000000000
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
t
000000000000
111111111111
000000000000
111111111111
[X ≤ t ] ∩ [X ≤ t ]
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
2
1
1
2
1
X1
2
Abbildung 3.4:
• Die Eigenschaften der gemeinsamen bzw. Verbund-Verteilungsfunktion sind selbstverständlich direkt vergleichbar mit der Verteilungsfunktion einer einzelnen eindimensionalen Zufallsvariablen X:
92
3.5. ZUFALLSVEKTOREN
∀ t ∈ Rn
1. 0 ≤ FX (t) ≤ 1
2. FX (t) ≤ FX (s), falls tj ≤ sj , j = 1, . . . , n
3. FX ist rechtsseitig stetig, d.h. limtj →t̂j +0 FX (t) = FX t̂
• Für einen Zufallsvektor mit kontinuierlichen Werten kann die VerbundVerteilungsfunktion
direkt
aus
der
gemeinsamen
bzw.
Verbund-
Wahrscheinlichkeitsdichte fX (s) per Mehrfachintegral berechnet werden:
FX (t) =
Zt1
−∞
...
Ztn
fX (s1 , s2 , . . . , sn ) dsn . . . ds1
(3.19)
−∞
Die Wahrscheinlichkeit, mit der ein Zufallsvektor Werte innerhalb einer ndimensionalen Borel-Menge annimmt, berechnet sich aus dem gemeinsamen bzw.
Verbund-Wahrscheinlichkeitsmaß PX wie folgt:
Z
PX (B) = PX ([X ∈ B]) = fX (s) ds1 . . . dsn .
(3.20)
B
• Für einen diskreten Zufallsvektor X erhält man entsprechend
X
PX (B) = PX ([X ∈ B]) =
fX (t).
(3.21)
t∈B
3.5.2 Randverteilungen
Bei der Analyse eines Zufallsvektors interessiert man sich häufig auch für das zufällige Verhalten einer einzelnen Zufallsvariablen, die wiederum durch die Verteilungsfunktion mathematisch beschrieben wird. Im Falle des Zufallsvektors sprechen wir von einer Randverteilung, sozusagen als Projektion eines mehrdimensionalen Raumes auf eine
einzige Dimension. Formal wird die Randverteilung durch Integration über die VerbundWahrscheinlichkeitsdichte berechnet. Die Randverteilung für die Zufallsvariable Xi , bzw.
die zugehörige Verteilungsfunktion FXi (ti ) wird mit diesen Erläuterungen nach der folgenden Gleichung berechnet:
FXi (ti ) =
Zti Z∞
−∞ −∞
...
Z∞
fX (s1 , s2 , . . . , sn ) dsn . . . dsi+1 dsi−1 . . . ds1 dsi
(3.22)
−∞
Die Rand-Wahrscheinlichkeitsdichte der Zufallsvariablen Xi (i-te Komponente eines
Zufallsvektors) wird für kontinuierliche und diskrete Zufallsvariablen Xi wie folgt berechnet:
Kontinuierliche Zufallsvektoren:
Z∞
Z∞
fXi (si ) =
...
fX (s1 , . . . , si−1 , si , si+1 , . . . , sn ) ds1 , . . . dsi−1 , dsi+1 , . . . , dsn
−∞
−∞
(3.23)
93
KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN
Die Rand-Wahrscheinlichkeitsdichte ist gleichzeitig die Ableitung der Randverteilung.
Diskrete Zufallsvektoren:
fXi (ti ) =
∞
X
t1 =−∞
···
∞
X
∞
X
···
ti−1 =−∞ ti+1 =−∞
∞
X
fX (t1 , . . . , ti−1 , ti , ti+1 , . . . , tn )
tn =−∞
(3.24)
3.6 Unabhängigkeit von Zufallsvariablen
In diesem Skript wurde bereits die Unabhängigkeit zufälliger Ereignisse im Kapitel 2 ausführlich diskutiert und praktisch ausgewertet. Dieses Konzept der Unabhängigkeit von Ereignissen wird nun auf die Unabhängigkeit von Zufallsvariablen übertragen. Zufallsvariable beschreiben Zufallsexperimente und es soll mathematisch beschrieben werden, wann
solche Zufallsexperimente im statistischen Sinn als unabhängig angesehen und betrachtet
werden können.
unabhängige Zufallsvariablen
Die zunächst beliebigen Zufallsvariablen X1 , . . . , Xn heißen unabhängig, wenn für
alle Borelschen Mengen Bj ⊂ R, j = 1, . . . , n, und das zugehörige gemeinsame bzw.
Verbund-Wahrscheinlichkeitsmaß PX gilt:
PX ([Xj ∈ Bj , j = 1, . . . , n]) =
n
Y
j=1
PXj ([Xj ∈ Bj ]).
(3.25)
Im Falle der unabhängigen Zufallsvariablen kann das gemeinsame Wahrscheinlichkeitsmaß
PX direkt aus dem Produkt der einzelnen Wahrscheinlichkeitsmaße für die Zufallsvariablen Xj berechnet werden.
Bei zwei Zufallsvariablen X1 und X2 stellt sich der Sachverhalt der Unabhängigkeit
mathematisch etwas einfacher wie folgt dar:
PX ([X1 ∈ B1 ], [X2 ∈ B2 ]) = PX1 ([X1 ∈ B1 ]) · PX2 ([X2 ∈ B2 ]).
Die Unabhängigkeit von Zufallsvariablen kann alternativ auch mit Hilfe der
Verbund-Verteilungsfunktion beschrieben werden. In diesem Fall wird die VerbundVerteilungsfunktion aus dem Produkt der Randverteilungen für die einzelnen Zufallsvariablen Xj berechnet.
FX (t1 , . . . , tn ) =
n
Y
j=1
FXj (tj ) ∀ t ∈ Rn
(3.26)
Dieses Konzept der Unabhängigkeit von Zufallsvariablen kann alternativ auch durch die
Verbund-Wahrscheinlichkeitsdichte definiert werden.
fX (t1 , . . . , tn ) =
n
Y
j=1
94
fXj (tj ) ∀ t ∈ Rn
(3.27)
3.6. UNABHÄNGIGKEIT VON ZUFALLSVARIABLEN
Beispiel 3.3 (R AYLEIGH-Verteilung)
Dieses wichtige Konzept der Unabhängigkeit von Zufallsvariablen soll an Hand eines zunächst einfachen Beispiels anschaulich erläutert werden. Dazu betrachten wir zwei unabhängige Zufallsvariable X und Y . Diese beiden Zufallsvariablen seien statistisch unabhängig und gehorchen jeweils einer Gauß´schen Wahrscheinlichkeitsdichtefunktion.
fX (x)
=
fY (y) =
x2
1
√
e− 2σ2
2πσ 2
y2
1
√
e− 2σ2
2πσ 2
Auf Grund der statistischen Unabhängigkeit wird die Verbund-Wahrscheinlichkeitsdichte
direkt aus dem Produkt der einzelnen Wahrscheinlichkeitsdichtefunktionen wie folgt berechnet:
fX,Y (x, y) = fX (x) · fY (y) =
1 − (x2 +y2 2 )
e 2σ
2πσ 2
Anschaulich können die beiden unabhängigen Zufallsvariablen X und Y als der Real- bzw.
Imaginärteil einer komplexen Zufallsvariablen in einem kartesischen Koordinatensystem
angesehen werden. Dementsprechend lassen sich aus den beiden Zufallsvariablen X und
Y alternativ auch der Betrag r und die Phase φ in einem Polarkoordinatensystem eindeutig
darstellen und berechnen.
X
=
r · cos(φ)
Y
=
r · sin(φ)
mit φ ∈ [0, 2π);
r≥0
und
r2 = X 2 + Y 2 .
Die Verbund-Wahrscheinlichkeitsdichte für den Betrag r und die Phase φ kann durch
die obige Koordinatentransformation unter Berücksichtigung der Jacobi-Determinante wie
folgt bestimmt werden:

X
f(r,φ) = J 
r

Y
 · f(X,Y ) (X = r cos(φ), Y = r sin(φ))
φ mit dem Betrag der Jacobi-Determinante




∂X
∂X
X Y ∂φ 
J 
 = det  ∂r
∂Y
∂Y
r φ ∂r
∂φ


cos(φ) −r sin(φ) 
= det 
sin(φ) r cos(φ) =
r · (cos2 (φ) + sin2 (φ)) = r
95
KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN
folgt
f(r,φ) (r, φ) =
r2
r
e− 2σ2 .
2
2πσ
1.4
σ=0.5
σ=1
σ=2
1.2
1
fR(r)
0.8
0.6
0.4
0.2
0
0
1
2
3
4
5
6
r
Abbildung 3.5: Rayleigh-Verteilung
Mit diesen Vorbereitungen kann die Rand-Wahrscheinlichkeitsdichte für den Betrag r
per Integration über φ wie folgt ermittelt werden:
fr (r) =
Z2π
f(r,φ) (r, φ) dφ =
r − r22
e 2σ
σ2
(3.28)
0
Dies entspricht der schon aus Abschnitt 2.6.2 bekannten Rayleigh-Verteilung.
In Abbildung 3.5 sind einige Wahrscheinlichkeitsdichtefunktionen für die RayleighVerteilung für einige Parameter σ grafisch dargestellt.
△
3.7 Erwartungswerte von statistisch unabhängigen Zufallsvariablen
Bei der praktischen Berechnung der Erwartungswerte von Zufallsvariablen wurde bereits
die Bedeutung der Linearität bei der Erwartungswertbildung angesprochen. Danach ist der
Erwartungswert einer Summe unterschiedlicher Zufallsvariablen gleich der Summe der
einzelnen Erwartungswerte:
96
3.8. KOVARIANZ
• Linearität:
E
(
X
i
ci X i
)
=
X
i
ci E{Xi }
(3.29)
• Für das Produkt statistisch unabhängiger Zufallsvariablen gilt insbesondere die folgende wichtige Beziehung:
(
E
Y
i
)
Ψi (Xi )
=
Y
E{Ψi (Xi )}
(3.30)
i
Danach ist der Erwartungswert eines Produktes verschiedener Zufallsvariablen
gleich dem Produkt der einzelnen Erwartungswerte.
3.8 Kovarianz
Das Konzept der statistischen Unabhängigkeit zwischen unterschiedlichen Zufallsvariablen steht anschaulich für Zufallsexperimente, die völlig unabhängig voneinander betrieben werden. Dieser Fall liegt in der praktischen Anwendung sehr häufig vor, z.B. beim
wiederholten Werfen von Münzen oder Würfeln. Trotzdem handelt es sich beim Konzept
der statistischen Unabhängigkeit um einen Sonderfall. Dieses Konzept wird deshalb ergänzt durch ein weiteres Konzept, in dem Abhängigkeiten zwischen Zufallsvariablen zunächst anschaulich vorkommen und dieser Fall mathematisch formal durch den Begriff der
Kovarianz beschrieben wird.
Kovarianz
Zur quantitativen Beschreibung der Abhängigkeit zwischen Zufallsvariablen wird die
Kovarianz definiert. Für zwei Zufallsvariable X und Y wird die Kovarianz σXY oder
Cov{X, Y } im Wesentlichen durch den Erwartungswert des Produktes dieser beiden Zufallsvariablen beschrieben:
σXY = Cov{X, Y } := E {[X − E{X}][Y − E{Y }]} .
(3.31)
Durch Multiplikation der einzelnen Faktoren und Bildung des Erwartungswertes kann
die Kovarianz alternativ durch die Differenz zwischen dem Erwartungswert des Produktes
und dem Produkt der Erwartungswerte mit Hilfe des Verschiebungssatzes wie folgt berechnet werden:
Cov{X, Y } = E{X · Y } − E{X} · E{Y }.
(3.32)
Diese allgemeine Definition der Kovarianz, mit der die Abhängigkeit zwischen Zufallsvariablen formal erfasst werden kann, beinhaltet auch das Konzept der Unabhängigkeit
zweier Zufallsvariablen. Falls X und Y nämlich unabhängig voneinander sind, dann ist
der Erwartungswert des Produktes dieser beiden Zufallsvariablen gleich dem Produkt der
Erwartungswerte, es gilt also E{X · Y } = E{X} · E{Y }.
97
σij
KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN
Dementsprechend folgt für die Kovarianz zweier unabhängiger Zufallsvariablen X und
Y , dass die Kovarianz verschwindet: Cov{X, Y } = 0. Allerdings ist diese Aussage im
Allgemeinen nicht umkehrbar, d.h., aus der Eigenschaft einer verschwindenden Kovarianz
folgt nicht immer die statistische Unabhängigkeit der Zufallsvariablen.
statistische Unabhängigkeit
=⇒
⇐=
6
Cov{X, Y } = 0
Das Konzept der Kovarianz kann auf mehrere Zufallsvariable, bzw. auf einen Zufallsvektor entsprechend erweitert werden. Für einen Zufallsvektor X berechnet sich die Kovarianz zwischen den einzelnen Komponenten entsprechend:
σij = Cov{Xi , Xj } := E {[Xi − E{Xi }][Xj − E{Xj }]} .
In dieser Definition entsteht bei der Berechnung der Kovarinz formal die Varianz σi2 der
Zufallsvariablen Xi , falls die bei der Berechnung der Kovarianz erforderlichen beiden Zufallsvariablen identisch sind:
σii = V ar{Xi } = σi2 .
Die paarweise berechneten Kovarianzen werden im Fall eines Zufallsvektors X in der
Kovarianz-Matrix
σ
(Varianz-)Kovarianz-Matrix zusammengefasst, die wie folgt definiert ist:

σ12

 σ
21


..

σ=
.


 σ(n−1)1

σn1
σ12
...
σ1n
σ22
...
..
.
σ2n
..
.
...
..
.
2
σ(n−1)
σ(n−1)n
σn(n−1)
σn2











Dieses Konzept der Kovarianz zur analytischen Beschreibung voneinander abhängiger Zufallsvariablen gestattet die statistische Analyse von Zufallsexperimenten, in deren Versuchsanordnung ein Gedächtnis eingebaut ist. Aufgaben und Zufallsexperimente dieser
Art treten in der praktischen Anwendung sehr häufig auf. Wenn beispielsweise die Erzeugung von Texten, aufgebaut aus jeweils 26 Buchstaben, als ein Zufallsexperiment aufgefasst wird, dann werden die einzelnen Buchstaben nicht unabhängig voneinander gezogen.
Vielmehr steckt eine i.A. kompliziert geartete Abhängigkeit benachbarter Buchstaben in
dieser Versuchsanordnung. Mit dem Konzept der Kovarianz können aber auch solche Zufallsexperimente wahrscheinlichkeitstheoretisch erfasst und analysiert werden.
Mit dem Konzept der Kovarianz soll zunächst ein erstes durchaus wichtiges Beispiel
betrachtet werden. In den vorausgegangenen Kapiteln wurde das Verhalten von Zufallsvariablen grob durch Angabe des Erwartungswertes und der Varianz charakterisiert. Wenn
98
3.8. KOVARIANZ
die zu analysierende Zufallsvariable selber bereits aus einer gewichteten Summe verschieP
dener (durchaus voneinander abhängiger) Zufallsvariablen aufgebaut ist, ni=1 ci Xi , dann
kann zwar der Erwartungswert dieser Summe relativ einfach, aufgrund der Linearität des
Erwartungswertes, berechnet werden, siehe Gl. (3.29). Allerdings ist die Berechnung der
Varianz dieser Summe nicht so einfach durchzuführen.
Mit Hilfe des Konzeptes der Kovarianz kann die Varianz einer Summe von Zufallsvariablen wie folgt bestimmt werden:
V ar
(
n
X
i=1
ci X i
)
=
n
X
i=1
c2i V ar{Xi } +
n X
n
X
i=1 j=1
j6=i
ci cj Cov{Xi , Xj }
(3.33)
Für n = 2 und c1 = c2 = 1 gilt speziell:
V ar{X1 + X2 } = V ar{X1 } + V ar{X2 } + 2Cov{X1 , X2 }
(3.34)
Aus dieser Angabe kann wiederum der in Gleichung (3.16) angegebene Satz von Bienaymé
hergeleitet, bewiesen und direkt abgelesen werden. Dort wurden unabhängige Zufallsvariable betrachtet, dementsprechend verschiedenen die Werte der Kovarianzen und die Varianz
der Summe ist in diesem Sonderfall mit der Summe der Varianzen identisch.
3.8.1 Mehrdimensionale Normalverteilung
Ein Zufallsvektor X heißt normalverteilt oder N (µ, σ)-verteilt mit den Parametern
µ = (µ1 , . . . , µn )T ∈ Rn
und der positiv definiten Kovarianzmatrix
σ = (σij ) ∈ R(n,n) ,
wenn der Zufallsvektor X die folgende Verbund-Wahrscheinlichkeitsdichte
1
1
T −1
√
exp − (s − µ) σ (s − µ)
fX (s) =
2
(2π)n/2 · det σ
(3.35)
besitzt.
Wir sprechen in diesem Zusammenhang von einer positiv definiten (Kovarianz-)Matrix
σ, falls für alle vom Nullvektor verschiedene Vektoren ~x 6= ~0 das folgende Produkt ~xσ~x >
0 positive Werte aufweist. Es kann leicht nachgewiesen werden, dass eine Kovarianzmatrix
stets die Eigenschaft der positiven Definitheit erfüllt.
Falls der Zufallsvektor X einer N (µ, σ)-Verteilung gehorcht, dann gilt für jede Komponente des Vektors, also auch für die i-te Komponente der Zufallsvariablen Xi , dass die
99
KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN
Randverteilung selber wieder einer Normalverteilung mit N (µi , σii ) gehorcht. Die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen Xi ist dann:
1
1
(si − µi )2
(si − µi )2
= p
.
fXi (si ) = √
exp −
exp −
2σii
2σi2
2πσii
2πσi2
(3.36)
Beispiel 3.4 (Zweidimensionale Normalverteilung)
Falls der Zufallsvektor X nur zwei Komponenten enthält, die statistisch unabhängig und
identisch normalverteilt sind, mit dem Erwartungswert Null (E{X} = E{Y } = 0) und
gleicher Varianz σ 2 , dann ist die Verbund-Wahrscheinlichkeitsdichte:
(x2 +y2 )
y2
x2
1
1
1
e− 2σ2 · p
e− 2σ2 =
fX (x, y) = p
e− 2σ2
2
2
2
(2π)σ
(2π)σ
(2π)σ
Diese Verbund-Wahrscheinlichkeitsdichtefunktion ist in Abbildung 3.6 anschaulich darge△
stellt.
2−dim Normalverteilung
0.2
f
X
0.15
0.1
0.05
0
3
2
3
1
2
0
1
0
−1
−1
−2
s
−2
−3
−3
2
s
1
Abbildung 3.6: Zweidimensionale Normalverteilung
3.9 Korrelationskoeffizient
Das Konzept der Kovarianz gestattet die Analyse von Zufallsexperimenten mit abhängigen Zufallsvariablen. Allerdings wird durch den mathematischen Begriff der Kovarianz
noch keine für vergleichende Zwecke einsetzbare Güte dieser Abhängigkeit in quantitativer Form angegeben. Aus diesem Grund wird das erweiterte Konzept des Korrelationskoeffizienten eingeführt, dessen Wertebereich in dem Intervall [−1, +1] normiert ist. Diese
Normierung der Kovarianz wird mit den zugehörigen Varianzen der betrachteten Zufallsvariablen vorgenommen. Der Korrelationskoeffizient ist mathematisch wie folgt definiert:
100
3.10. CHARAKTERISTISCHE FUNKTION
Definition 3.5 (Korrelationskoeffizient) Der Korrelationskoeffizient zweier Zufallsva-
Korrelations-
riablen ist definiert durch
koeffizient
Cov{X, Y }
p
.
ρX,Y := p
V ar{X} V ar{Y }
ρX,Y
(3.37)
❍
Wären die betrachteten Zufallsvariablen bereits auf eine einheitliche Varianz normiert gewesen (V ar{X} = 1), dann wären der Wert der Kovarianz und der des Korrelationskoeffizienten identisch.
Die Definition des Korrelationskoeffizienten erfüllt folgende Eigenschaften:
• Für unabhängige Zufallsvariable X und Y ist ρX,Y = 0. In diesem Fall werden X
und Y als unkorreliert bezeichnet.
• Für linear abhängige X und Y gilt ρX,Y = ±1.
• Für beliebige Zufallsvariable gilt −1 ≤ ρX,Y ≤ 1.
Mit diesen Vorbereitungen und Herleitungen können bereits wichtige Aussagen gemacht werden. Wenn eine Zufallsvariable Y sich aus der Summe mehrerer gewichteter
Zufallsvariablen (in einer Linearkombination) zusammensetzt,
Y =
n
X
ci X i ,
i=1
dann können bereits der Erwartungswert und die Varianz dieser neuen Zufallsvariablen
Y ohne explizite Kenntnis der Verteilungsfunktion FY (y) berechnet werden. Damit liegt
eine zunächst grobe Kenntnis des zufälligen Verhaltens dieser neuen Zufallsvariablen Y
vor. Was allerdings noch nicht gelingt, ist die präzise Herleitung der Verteilungs- oder der
Wahrscheinlichkeitsdichtefunktion dieser neuen Zufallsvariablen Y . Für die Berechnung
der genauen Verteilungsfunktion müssen einige mathematische Vorbereitungen getroffen
werden, die mit der Einführung der Charakteristischen Funktion einer Zufallsvariablen
beginnen.
3.10 Charakteristische Funktion
3.10.1 Summe von Zufallsvariablen
In der Praxis entsteht häufig die Aufgabe, das zufällige Verhalten eines Experiments zu
analysieren, in dem sich die auftretende Zufallsvariable als Summe von unabhängigen Zufallsereignissen Z = X1 + X2 + · · · + Xn analytisch darstellen lässt. Für solche Aufgaben
101
KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN
und für solche Beispiele wurden bereits erste Abschätzungen für das Zufallsverhalten der
Variablen Z in Form des berechneten Erwartungswertes und der Varianz angegeben. Die
Zielsetzung in diesem Kapitel liegt darin, das Zufallsverhalten der Variablen Z mathematisch genau und vollständig berechnen zu können. Das Zufallsverhalten der Variablen Z ist
vollständig bekannt, wenn die Verteilungsfunktion FZ (z), oder alternativ die Wahrscheinlichkeitsdichtefunktion fZ (z) angegeben sind. Diesen hier skizzierten allgemeinen Fall behandeln wir zunächst vereinfachend anhand eines Beispiels mit lediglich zwei statistisch
unabhängigen Zufallsvariablen X und Y .
Ausgehend von den beiden unabhängigen Zufallsvariablen X und Y wird nach der
Wahrscheinlichkeitsdichte der neuen Zufallsvariablen Z = X + Y gefragt. Weiterhin wird
wiederum zunächst vereinfachend angenommen, dass die Zufallsvariablen X und Y diskrete Werte im Ereignisraum ΩX annehmen. Der Wertebereich bzw. der Ereignisraum wird
jeweils mit N0 angenommen. Dieser Sachverhalt spiegelt sich in den Wahrscheinlichkeitsdichtefunktionen fX (x) bzw. fY (y). Wegen der angenommenen Unabhängigkeit der Zufallsvariablen X und Y kann zunächst das Wahrscheinlichkeitsmaß PZ für die resultierende
Zufallsvariable Z analytisch berechnet werden. In der folgenden Gleichung wird das Wahrscheinlichkeitsmaß PZ für jeden Wert i ∈ N0 über das Verbund-Wahrscheinlichkeitsmaß
und unter Berücksichtigung der Unabhängigkeit der beiden Zufallsvariablen X und Y wie
folgt berechnet:
PZ (Z = X + Y = i) =
i
X
j=0
PX,Y (X = j, Y = i − j) =
i
X
j=0
PX (X = j)·PY (Y = i − j).
Die Wahrscheinlichkeitsdichte fZ (i) der Zufallsvariablen Z = X + Y kann also durch
folgende Gleichung mathematisch geschlossen angegeben werden:
fZ (i) =
i
X
j=0
fX (j)fY (i − j) =: fX (i) ∗ fY (i).
Damit ist das gesamte Verhalten der Zufallsvariablen Z im statistischen Sinn vollständig
bekannt. Diese Berechnungsvorschrift ist aus der Theorie linearer zeitinvarianter Systeme
als Faltung bekannt. Damit liegt eines der wichtigsten Ergebnisse der Wahrscheinlichkeitstheorie vor. Die Wahrscheinlichkeitsdichte fZ (i) einer Zufallsvariablen Z, die sich wiederum als Summe unabhängiger Zufallsvariablen X und Y darstellen lässt, kann durch eine
Faltungsoperation angewandt auf die Wahrscheinlichkeitsdichten fX (i) und fY (i) mathematisch geschlossen angegeben werden.
Diese erste beispielhafte Analyse kann leicht auf eine endliche Anzahl n additiv überlagerter Zufallsvariablen übertragen werden. In diesem Fall wird die Wahrscheinlichkeits102
3.10. CHARAKTERISTISCHE FUNKTION
dichte fZ (x) durch eine n-fache Faltung berechnet.
Z = X1 + X2 + · · · + Xn
m
fZ (x) = fX1 (x) ∗ fX2 (x) ∗ · · · ∗ fXn (x)
Zusätzlich gilt diese erste Analyse nicht nur für diskrete, sondern auch für kontinuierliche
Zufallsvariable.
Die Faltung zweier Funktionen ist eine mathematisch sehr unfreundliche sowie numerisch sehr aufwendige Operation. Aus diesem Grund möchte man auch in der Wahrscheinlichkeitstheorie dieselbe Vorgehensweise wie in der Systemtheorie wählen, indem man den
sogenannten Faltungssatz anwendet. Dabei wird der Zusammenhang zwischen dem Zeitund Frequenzbereich in Form der Fourier-Transformation ausgenutzt.
In diesem Faltungssatz ist folgende mathematische Aussage enthalten: Jeder Funktion (und damit auch jeder Wahrscheinlichkeitsdichte) ist durch die Fourier-Transformation
F{...} in eindeutiger Form ein Spektrum zugeordnet. Das Spektrum einer Funktion fZ (x),
die sich durch Faltung zweier Funktionen fX (x) und fY (x) ergibt, kann dann durch das
Produkt der beiden Spektren relativ einfach berechnet werden.
fZ (x)
=
∗
fY (x)
◦
|
•
◦
|
•
◦
|
•
F{fZ (x)}
fX (x)
=
F{fX (x)}
·
F{fY (x)}
Entsprechend diesem aus der Systemtheorie bekannten Faltungssatz soll auch hier
in der Wahrscheinlichkeitstheorie eine entsprechende Rechenvereinfachung bei der Berechnung der Faltung eingeführt werden. Dazu wird jeder Zufallsvariablen Xi mit der
Wahrscheinlichkeitsdichtefunktion fXi (x) eine charakteristische Funktion ΦXi (jω) zugeordnet, die eine mathematisch vergleichbare und ähnliche Rolle spielt, wie die FourierTransformation in der Systemtheorie.
Mit der nachfolgenden Definition der charakteristischen Funktion ΦZ (jω) kann die
im Zeitbereich durchzuführende Faltungsoperation zwischen mehreren Wahrscheinlichkeitsdichten fXi (x) ersatzweise rechentechnisch wesentlich einfacher im Frequenzbereich
durch eine Multiplikation zwischen den zugehörigen charakteristischen Funktionen der
einzelnen Zufallsvariablen Xi durchgeführt werden.
Y
ΦXi (jω)
ΦZ (jω) =
(3.38)
i
Falls zusätzlich die Zufallsvariablen Xi statistisch unabhängig und identisch verteilt
sind und damit auch die zugehörigen charakteristischen Funktionen identisch sind, dann
103
KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN
vereinfacht sich die obige Multiplikation und das obige Produkt der charakteristischen
Funktionen zusätzlich in der folgenden Beziehung:
n
ΦZ (jω) = [ΦX (jω)] .
(3.39)
Die Wahrscheinlichkeitsdichte der Zufallsvariablen Z wird schließlich mit Hilfe der
Rücktransformation der charakteristischen Funktion ΦZ (jω) berechnet. Dieser Umweg
über die Berechnung der charakteristischen Funktion ist rechentechnisch wesentlich günstiger als die Berechnung des n-fachen Faltungsproduktes.
Zusätzlich können die Momente einer Zufallsvariablen rechentechnisch sehr einfach
aus der charakteristischen Funktion hergeleitet werden.
3.10.2 Definition der Charakteristischen Funktion
charakteristische
Definition 3.6 (Charakteristische Funktion) Gegeben sei eine Zufallsvariable X und
Funktion
die zugehörige Wahrscheinlichkeitsdichtefunktion fX (x). Dann ist die charakteristische
ΦX
Funktion ΦX wie folgt definiert:
ΦX (jω) :


R 7→ C
(3.40)

ΦX (jω) := E{ejωX }
Für die beiden Spezialfälle diskreter und kontinuierlicher Zufallsvariabler kann die charakteristische Funktion wie folgt mathematisch präzisiert werden:
• diskrete Zufallsvariable:
ΦX (jω) =
∞
X
ejωxk PX (X = xk )
(3.41)
k=1
• kontinuierliche Zufallsvariable:
ΦX (jω) =
Z∞
ejωx fX (x) dx
(3.42)
−∞
❍
3.10.3 Eigenschaften der charakteristischen Funktion
• Die charakteristische Funktion ΦX (jω) der Zufallsvariablen X ist die konjugiert
komplexe Fourier-Transformierte der Wahrscheinlichkeitsdichtefunktion fX (x). Mit
dem Zusatz ∗ wird die konjugiert komplexe Funktion beschrieben.
ΦX (jω) = F∗ {fX (x)}
104
(3.43)
3.10. CHARAKTERISTISCHE FUNKTION
• Die Wahrscheinlichkeitsdichtefunktion fX (x) ermittelt man aus ΦX (jω) durch die
entsprechende Rücktransformation:
1
fX (x) =
2π
Z∞
ΦX (jω)e−jωx dω.
(3.44)
−∞
• An der Stelle ω = 0 besitzt jede charakteristische Funktion ΦX (jω) den reellen Wert
1.
Z∞
ΦX (j0) =
fX (x) dx = 1.
(3.45)
−∞
Beispiel 3.5 (Normalverteilung)
Sei X eine normalverteilte Zufallsvariable mit dem Erwartungswert µ und der Varianz σ 2 .
Diese Zufallsvariable X besitzt die Wahrscheinlichkeitsdichtefunktion
(x−µ)2
1
fX (x) = √
e− 2σ2 .
2πσ 2
Zu dieser normalverteilten Zufallsvariablen X soll die charakteristische Funktion nach
Gleichung (3.42) berechnet werden. Dabei ist es nützlich und hilfreich, den Wert des folgenden uneigentlichen Integrals zu kennen:
Z∞
e−
x2
2
dx =
√
2π.
−∞
Mit dieser Vorbereitung kann die charakteristische Funktion definitionsgemäß wie folgt auf
die obige Wahrscheinlichkeitsdichte angewandt werden:
Z∞
(x − jσ 2 ω)2
σ2 ω2
dx.
exp −
ΦX (jω) = √
exp jµω −
2
2σ 2
2πσ 2
1
−∞
und schließlich mit dem obigen Integralwert:
σ2 ω2
ΦX (jω) = exp jµω −
2
.
(3.46)
Dieses wichtige Ergebnis zeigt, dass die charakteristische Funktion einer erwartungsfreien (µ = 0) Gaußschen Zufallsvariablen ebenfalls durch eine Gaußsche Glockenfunktion dargestellt werden kann (Abbildung 3.7).
△
105
KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN
Gauss−Verteilung
char. Funktion der Gauss−Verteilung
0.4
1
0.9
0.35
0.8
0.3
0.7
0.6
ΦX(jω)
fX(x)
0.25
0.2
0.5
0.4
0.15
0.3
0.1
0.2
0.05
0
−4
0.1
−2
0
2
0
−4
4
x
−2
0
ω
2
4
Abbildung 3.7: Gauss-Verteilung mit entsprechender char. Funktion
Beispiel 3.6 (Cauchy-Verteilung)
Die Zufallsvariable X sei Cauchy-verteilt, mit der folgenden Wahrscheinlichkeitsdichtefunktion:
fX (x) =
a/π
.
x2 + a2
Man erhält die charakteristische Funktion dieser Zufallsvariablen durch Integration über
die Wahrscheinlichkeitsdichte fX (x). Häufig ist die vertraute Anwendung aus dem Bereich
der Systemtheorie und der bekannten Fourier-Transformationen etwas einfacher.
Es gilt:
o
n
F e−a|t| =
2a
ω 2 + a2
Mit Beachtung des Dualitätsprinzips der Fourier-Transformation erhält man somit für
die charakteristische Funktion (siehe Abbildung 3.8):
ΦX (jω) = e−a|ω| .
(3.47)
△
3.10.4 Zusammenhang mit den Momenten einer Zufallsvariablen
Es existiert ein nützlicher Zusammenhang zwischen der charakteristischen Funktion und
den Momenten einer gegebenen Zufallsvariablen X.
106
3.10. CHARAKTERISTISCHE FUNKTION
Cauchy−Verteilung
char. Funktion der Cauchy−Verteilung
0.35
1
0.9
0.3
0.8
0.25
0.7
0.6
fX(x)
ΦX(jω)
0.2
0.5
0.15
0.4
0.3
0.1
0.2
0.05
0.1
0
−4
−2
0
2
0
−4
4
−2
x
0
ω
2
4
Abbildung 3.8: Cauchy-Verteilung und ihre Charakteristische Funktion
Differenziert man die charakteristische Funktion nach ω
dΦX (jω)
=j
dω
Z∞
xejωx fX (x) dx
(3.48)
−∞
und bestimmt den Wert der jeweiligen Ableitung an der Stelle ω = 0, so erhält man
Z∞
dΦX (jω) =
j
xfX (x) dx = jE{X}.
dω
ω=0
(3.49)
−∞
Für höhere Momente der Zufallsvariablen kann folgende allgemeine Berechnungsvorschrift angewandt werden:
E{X n } = (−j)n
dn ΦX (jω) dω n
ω=0
(3.50)
Sämtliche Momente einer Zufallsvariablen X können also auch mit Hilfe der charakteristischen Funktion unmittelbar bestimmt werden. Diese Berechnungsmethode bringt häufig analytische, aber zusätzlich auch rechentechnische Vorteile. Hierzu entwickelt man die
charakteristische Funktion ΦX (jω) in eine Taylorreihe um den Punkt ω = 0
∞ n
X
ωn
d ΦX (jω)
ΦX (jω) =
dω n
ω=0 n!
n=0
(3.51)
und ersetzt die Ableitungen durch die entsprechenden Erwartungswerte bzw. Momente.
ΦX (jω) =
∞
X
n=0
E{X n }
∞
X
(jω)n
(jω)n
=
mn
.
n!
n!
n=0
107
(3.52)
KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN
Diese wichtige Gleichung beschreibt den Zusammenhang zwischen der charakteristischen
Funktion und der Kenntnis sämtlicher Momente dieser Zufallsvariablen X und zeigt, dass
bei Kenntnis sämtlicher Momente das gesamte zufällige Verhalten der Zufallsvariablen X
vollständig erkannt ist.
Beispiel 3.7 (Normalverteilung)
Seien X und Y zwei statistisch unabhängige normalverteilte Zufallsvariable mit N (µx , σx2 )
bzw. N (µy , σy2 ). Dann gilt für die charakteristische Funktion der Zufallsvariablen Z, die
sich aus der Summe Z = X + Y berechnet:
ΦZ (jω) = ΦX (jω) · ΦY (jω).
Mit der charakteristischen Funktion einer Normalverteilung (3.46)
1 2 2
ΦX (jω) = exp jµx ω − σx ω
2
ergibt sich unter Ausnutzung der angenommenen statistischen Unabhängigkeit
1 2 2
1 2 2
ΦZ (jω) = exp jµx ω − σx ω · exp jµy ω − σy ω
2
2
1 2
= exp j(µx + µy )ω − (σx + σy2 )ω 2
2
Die Zufallsvariable Z ist also wiederum normalverteilt mit µz = µx +µy und σz2 = σx2 +σy2 .
Zusammengefasst gilt, dass die Summe aus unabhängigen Gauß´verteilten Zufallsvariablen wiederum eine gaussverteilte Zufallsvariable ergibt.
△
3.10.5 Zweidimensionale Charakteristische Funktion
Lediglich der Vollständigkeit halber sei erwähnt, dass das Konzept der charakteristischen
Funktion auch auf mehrere Dimensionen ausgedehnt werden kann. Bei entsprechendem
Vorgehen erhält man für die charakteristische Funktion eines Zufallsvektors mit zwei Elementen durch Integration über die Verbund-Wahrscheinlichkeitsdichte:
Φ(X1 ,X2 ) (jω) =
=
o
n
E e(jω1 X1 +jω2 X2 )
Z∞ Z∞
ej(ω1 x1 +ω2 x2 ) f(X1 ,X2 ) (x1 , x2 ) dx1 dx2 .
(3.53)
−∞ −∞
Durch entsprechende Berechnung der partiellen Ableitungen können hieraus die Verbundmomente berechnet werden.
∂ 2 Φ(X1 ,X2 ) (jω1 , jω2 ) .
E{X1 , X2 } = −
∂ω1 ∂ω2
ω1 =ω2 =0
108
(3.54)
Kapitel 4
Funktionen von Zufallsvariablen
y
y=g(x)
X, fX (x)
Y, fY (y)
x
In vielen praktischen Anwendungen treten Situationen auf, in denen eine Zufallsvariable X mit bekanntem wahrscheinlichkeitstheoretischem Verhalten als Argument einer
monoton wachsenden oder fallenden Funktion g(X) auftritt. Hierdurch entsteht eine neue
Zufallsvariable Y = g(X). Ein einfaches Beispiel für eine solche Situation in einer technischen Anwendung ist in der Beschreibung einer monoton wachsenden Verstärkerkennlinie
gegeben, die durch die Funktion g(.) analytisch beschrieben wird. Eine zufällig gewählte
Amplitude, mit bekannter Verteilungsfunktion, wird auf diese Verstärkerkennlinie angewandt. Dabei wird die Frage nach dem wahrscheinlichkeitstheoretischen Gesetz der neuen
Zufallsvariablen Y gestellt. Diese Frage kann mit Angabe der Verteilungs- oder Wahrscheinlichkeitsdichtefunktion für die Zufallsvariable Y direkt und vollständig beantwortet
werden.
Dieselbe Frage stellt sich bei Anwendung von Kompander- und Expanderkennlinien.
Die neue Zufallsvariable Y besitzt demnach eine eigene, neue Verteilungsdichtefunktion
fY (y), welche aus der Verteilungsdichtefunktion fX (x) hergeleitet werden kann.
109
KAPITEL 4. FUNKTIONEN VON ZUFALLSVARIABLEN
4.1 Bestimmung der Wahrscheinlichkeitsdichtefunktion
durch Transformation
4.1.1 Eindeutig umkehrbare Funktionen
Gegeben sei eine beispielsweise monoton wachsende Funktion y = g(x). Die Wahrscheinlichkeit, mit der die Zufallsvariable X in einem beliebigen Intervall der Breite dx auftritt,
muß gleich der Wahrscheinlichkeit sein, mit der die neue Zufallsvariable Y im zugehörigen
Intervall dy Zufallswerte annimmt (siehe Abbildung 4.1):
fX (x)|dx| = fY (y)|dy|.
(4.1)
y
P(dx)
y=g(x)
y1
dy
dx
x1 x
fy
P(dx)
fx
Abbildung 4.1: Transformation der Wahrscheinlichkeitsdichtefunktion
Wir betrachten die zur Funktion y = g(x) zugehörige eindeutig bekannte Umkehrfunktion x = h(y). Es gilt
h(y) = g −1 (y) = x
(4.2)
und
dx
dh(y)
=
dy
dy
entsteht folgende mathematische Beziehung zwischen den Wahrscheinlichkeitsdichtefunktionen der Zufallsvariablen X und Y :
dh(y) .
fY (y) = fX (x = h(y)) dy 110
(4.3)
4.1. BESTIMMUNG DER WAHRSCHEINLICHKEITSDICHTEFUNKTION DURCH
TRANSFORMATION
Aus der Sicht der monoton wachsenden Funktion g(x) erhält man alternativ:
dg(x)
dy
=
= g ′ (x)
dx
dx
fX (x) .
fY (y) = ′
|g (x)| x=h(y)
(4.4)
Durch die Angabe des Betragszeichens wird gleichzeitig sowohl der Fall monoton steigender als auch monoton fallender Funktionen g(x) berücksichtigt. Das Vorzeichen der
Steigung ist für die Angabe der Wahrscheinlichkeit unbedeutend.
Beispiel 4.1 (Funktionen von Zufallsvariablen)
Sei X eine gleichverteilte Zufallsvariable im Intervall [0, 1]
fX (x) =


0

1
für x < 0 ∨ x > 1
für 0 < x < 1
und g(x) = sinh(x) die betrachtete monoton wachsende Funktion. Dann ist die Ableitung
dieser Funktion g(x)
g ′ (x) = cosh(x).
Unter Berücksichtigung der allgemein gültigen Beziehung
cosh2 (x) − sinh2 (x) = 1
kann die gesuchte Wahrscheinlichkeitsdichtefunktion fY (y) der neuen Zufallsvariablen
Y = sinh(x) wie folgt berechnet werden:


0
fY (y) =

 1
√1
cosh(x) =
für y < 0 ∨ y > sinh(1)
1+y 2
.
für 0 < y < sinh(1)
△
4.1.2 Nicht eindeutig umkehrbare Funktionen
Monoton wachsende und fallende Funktionen besitzen eine eindeutige Umkehrfunktion.
Dies ist ein Sonderfall, der hier auch erweitert werden soll auf solche Funktionen, zu denen
zunächst keine eindeutige Umkehrfunktion existiert.
Für nicht eindeutig umkehrbare Abbildung treten Fälle auf, in denen mehrere Werte x
auf exakt denselben Funktionswert y = g(x) abgebildet werden. In diesem Fall müssen
sämtliche Wahrscheinlichkeiten der zugehörigen Intervalle mit der Länge dx zur Berechnung der neuen Wahrscheinlichkeitsdichtefunktion fY (y) berücksichtigt werden. Für einen
111
KAPITEL 4. FUNKTIONEN VON ZUFALLSVARIABLEN
gegebenen Punkt y setzt sich die Wahrscheinlichkeitsdichtefunktion fY (y) dann additiv
aus den Punkten x unter Berücksichtigung des Intervalls dx zusammen, die alle denselben
Funktionswert y sowie das zugehörige Intervall dy besitzen. Dieser analytische Zusammenhang ist in Abbildung 4.2 anhand einer nicht eindeutig umkehrbaren Funktion g(x)
anschaulich erläutert. Für den dort angegebenen Funktionswert y2 gibt es insgesamt 3 unterschiedliche Werte x, die denselben Funktionswert y2 besitzen. Entsprechend berechnet
sich die Wahrscheinlichkeitsdichtefunktion fY (y) an dieser Stelle additiv aus drei verschiedenen Summanden.
y
b
y1
y=g(x)
x2(1)
x2(2)
x2(3)
x1
x
a
Abbildung 4.2: Transformation der Wahrscheinlichkeitsdichtefunktion bei nicht eindeutig
umkehrbarer Funktion g(x)
Beispiel 4.2 (Quadratische Gleichung)
Gegeben sei die quadratische Funktion (Abbildung 4.3)
y = g(x) = a(x − c)2 + b
mit den Umkehrfunktionen
x1 = c −
r
y−b
,
a
x2 = c +
r
y−b
.
a
Diese quadratische Funktion ist nicht eindeutig umkehrbar und besitzt zu einem gegebenen Funktionswert y = g(x) entweder keinen oder zwei Punkte auf der x-Achse,
für welche die Funktion diesen Funktionswert y annimmt. Nur im Scheitelpunkt entsteht
112
4.2. VERTEILUNGSFUNKTION DER ZUFALLSVARIABLEN Y = G(X)
y
y=g(x)
y
y+dy
b
x1 x1+dx
x2 x2+dx
c
x
Abbildung 4.3: Quadratische Transformation
ein einziger zugehöriger Wert auf der x-Achse. Die Wahrscheinlichkeitsdichtefunktion der
neuen Zufallsvariablen Y = g(X) berechnet sich dementsprechend wie folgt:
Für die Wahrscheinlichkeitsdichten gilt für jeden vorgegeben Wert y mit den zugehörigen Werten x1 und x2 :
fY (y)|dy| = fX (x1 )|dx1 | + fX (x2 )|dx2 |.
Für die Wahrscheinlichkeitsdichtefunktion der neuen Zufallsvariablen Y erhält man deshalb
fY (y) =
fX (x2 ) fX (x1 ) +
.
g ′ (x1 ) x1 =g−1 (y)
g ′ (x2 ) x2 =g−1 (y)
−
+
Mit der Ableitung der Funktion g(x)
g ′ (x) = 2a(x − c) = 2
p
a(y − b)
ist die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen Y in diesem Spezialfall vollständig bestimmt.
1
"
fY (y) = p
fX
2 a(y − b)
c−
r
y−b
a
!
+ fX
c+
r
y−b
a
!#
.
△
4.2 Verteilungsfunktion der Zufallsvariablen Y = g(X)
Bisher haben wir uns auf die Berechnung der Wahrscheinlichkeitsdichtefunktion fY (y)
der neuen Zufallsvariablen konzentriert. In diesem Abschnitt wollen wir zusätzlich, oder
alternativ, die zugehörige Verteilungsfunktion berechnen. Für eine beispielsweise monoton
113
KAPITEL 4. FUNKTIONEN VON ZUFALLSVARIABLEN
wachsende Funktionen g(x) folgt aus Y ≤ y und damit X ≤ h(y) = g −1 (y) für die
Verteilungsfunktion von Y
FY (y) = FX (h(y)).
(4.5)
Für eine monoton fallende Funktionen g(x) folgt aus Y ≤ y und damit X > h(y) =
g −1 (y) für die Verteilungsfunktion
FY (y) = 1 − FX (h(y)).
(4.6)
Beispiel 4.3 (Monoton fallende Transformation)
Sei die Transformation der Zufallsvariablen
y = g(x) = ax
und die zugehörige Umkehrfunktion h(y)
h(y) =
1
y,
a
dann ist die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen Y
y
1
.
fX
|a|
a
fY (y) =
Die zugehörige Verteilungsfunktion der neuen Zufallsvariablen Y kann mit den obigen
Vorbereitungen relativ einfach ermittelt werden:


FX y
a
FY (y) =

1 − FX y a
für a > 0
.
für a < 0
△
4.3 Funktionen angewandt auf zwei Zufallsvariable
Um die Wahrscheinlichkeitsdichtefunktion einer Zufallsvariablen Z mit
Z = g(X, Y )
(4.7)
bestimmen zu können, ermittelt man die Verteilungsfunktion FZ (z) der Zufallsvariablen Z
FZ (z) = P (Z ≤ z) = P (g(X, Y ) ≤ z).
(4.8)
Hierdurch wird eine Fläche in der (x, y)-Ebene repräsentiert, welche durch die Kurve
g(x, y) = z begrenzt wird (Abbildung 4.4).
114
4.3. FUNKTIONEN ANGEWANDT AUF ZWEI ZUFALLSVARIABLE
y
z=g(x,y)
DZ
x
Abbildung 4.4: Funktion von zwei Zufallsvariablen
Man erhält FZ (z) durch Integration der Verbundwahrscheinlichkeitsdichte von X und
Y über dieser Fläche R
FZ (z) =
ZZ
f(X,Y ) (x, y) dx dy
(4.9)
R
und die Wahrscheinlichkeitsdichtefunktion von Z per Definition durch Differentiation von
FZ (z)
fZ (z) =
d FZ (z)
.
dz
(4.10)
Beispiel 4.4 (Verteilungsdichte von Z = X 2 + Y 2 )
Die Zufallsvariablen X und Y seien statistisch unabhängig und identisch normalverteilt, so
dass die gemeinsame Wahrscheinlichkeitssdichte durch die folgende Funktion angegeben
wird.
f(X,Y ) (x, y) =
1 − x2 +y2 2
e 2σ .
2πσ 2
Durch den Wechsel des Koordinatensystems zu Polarkoordinaten mit
x = r cos(θ),
y = r sin(θ),
dx dy = rdr dθ
erhält man für die Verteilungsfunktion der Zufallsvariablen Z:
2
ZZ
x + y2
1
dx dy
exp −
FZ (z) =
2πσ 2
2σ 2
R
√
Z zZ2π
r2
exp − 2 r dθ dr
2σ
0 0
z = 1 − exp − 2
∀z ≥ 0
2σ
=
1
2πσ 2
Durch Ableiten der Verteilungsfunktion FZ (z) erhält man die Wahrscheinlichkeitsdichtefunktion fZ (z) der Zufallsvariablen Z:
fZ (z) =
z 1
exp
− 2
2σ 2
2σ
115
z≥0
KAPITEL 4. FUNKTIONEN VON ZUFALLSVARIABLEN
△
Die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen Z genügt also einer Exponentialverteilung.
4.4 „Festhalten“ einer Zufallsvariablen
Eine weitere und alternative Möglichkeit zur Ermittelung der Wahrscheinlichkeitsdichte
der Zufallsvariablen Z erhält man durch „Festhalten“ einer der beiden Zufallsvariablen
X oder Y . Im folgenden Beispiel wird die Zufallsvariable Y beispielsweise als Konstante
betrachtet. Es wird die zweidimensionale, von den Parametern x und y abhängige Funktion
Z = g(x, y) betrachtet. Wenn der Wert y zunächst als konstant betrachtet wird, dann ist die
Funktion Z = g(x, y) nur noch von x aber nicht mehr vom Parameter y abhängig. Dieser
Sachverhalt kann analytisch wie folgt ausgenutzt werden:
fX (x|y) fZ (z|y) = ∂ g(x,y) ∂x (4.11)
x=g−1 (z,y)
Aus der gemeinsamen Wahrscheinlichkeitsdichte von Y und Z kann man mit der bedingten
Wahrscheinlichkeitsdichte dann fZ (z) berechnen:
Z∞
fZ (z) =
=
−∞
Z∞
f(Z,Y ) (z, y) dy
fZ (z|y)fY (y) dy
(4.12)
−∞
Beispiel 4.5 (Produkt von Zufallsvariablen)
Durch Festhalten von Y in der Beziehung
Z = g(x, y) = x · y
wird die durch Y bedingte Wahrscheinlichkeitsdichte von Z
fX yz |y
fZ (z|y) =
|y|
und die Wahrscheinlichkeitsdichte von Z
fZ (z) =
Z∞ fX
−∞
=
z
y |y
|y|
Z∞ f(X,Y )
|y|
−∞
fY (y) dy
z
y,y
dy
(4.13)
△
116
4.5. TRANSFORMATION VON ZUFALLSVEKTOREN
4.5 Transformation von Zufallsvektoren
Insbesondere bei einer Variablentransformation tritt das Problem auf, zwei Zufallsvariablen
X1 und X2 in zwei neue Zufallsvariablen Z1 und Z2 zu transformieren (z.B. Real- und
Imaginärteil in Betrag und Phase).
z1
= g1 (x1 , x2 )
z2
= g2 (x1 , x2 )
Mit dem gleichen Ansatz wie im Falle einer Zufallsvariablen, nach dem die Wahrscheinlichkeit einer transformierten Fläche gleich der Wahrscheinlichkeit der Originalfläche sein
muss (Abbildung 4.5), d.h.
f(Z1 ,Z2 ) (z1 , z2 ) dz1 dz2 = f(X1 ,X2 ) (x1 , x2 ) dx1 dx2
bzw.
f(Z1 ,Z2 ) (z1 , z2 ) |AZ | = f(X1 ,X2 ) (x1 , x2 ) |AX |
ist also lediglich das Verhältnis der Flächen AX und AZ zu bestimmen. (Zur Herleitung
geht man zunächst von der vereinfachenden Annahme aus, dass eindeutige Umkehrfunktionen g1−1 (z1 , z2 ) und g2−1 (z1 , z2 ) existieren. Falls diese Voraussetzung nicht erfüllt ist, so
sind – wie aus den Betrachtungen für eine einzelne Zufallsvariable bekannt – die einzelnen
Teilwahrscheinlichkeiten zu addieren.)
x2
z2
AX
z2
v2
Az
z2+dz
z2+dz
v1
z2
z1
z1+dz
x1
z1 z1+dz
z1
Abbildung 4.5: Variablentransformation
Wird die Fläche AX durch die zwei Vektoren v 1 und v 2 aufgespannt und ist β der
117
KAPITEL 4. FUNKTIONEN VON ZUFALLSVARIABLEN
eingeschlossene Winkel, so ist die Fläche des Parallelograms
|v 1 ||v 2 | sin(β)
=
=
=
=
=
1/2
|v 1 |2 |v 2 |2 (1 − cos2 (β)
1/2
v 21 v 22 − v 21 v 22 cos2 (β)
1/2
v 21 v 22 − (v 1 · v 2 )2
2
2
2
2
(v11
+ v12
)(v21
+ v22
) − (v11 v12 + v21 v22 )2


v11 v21 

|v11 v22 − v12 v21 | = det
v12 v22 1/2
(4.14)
Die Länge der Vektoren ermittelt man aus dem Anfangspunkt
(x1 , x2 ) = (g1−1 (z1 , z2 ), g2−1 (z1 , z2 ))
(4.15)
und dem Endpunkt
(g1−1 (z1 + dz1 , z2 ), g2−1 (z1 + dz1 , z2 )) =
∂ g1−1
∂ g2−1
x1 +
dz1 , x2 +
dz1 . (4.16)
∂z1
∂z1
Die Vektoren können also ausgedrückt werden als
−1
∂ g1
∂ g2−1
v1 =
dz1 ,
dz1
∂z1
∂z1
und
v2 =
Die Fläche AX ist damit
AX
Mit
∂ g1−1
∂ g2−1
dz2 ,
dz2 .
∂z2
∂z2


v11 v21 
= det 
v12 v22 
 −1
∂ g1−1
∂ g1
dz
dz
1
2 ∂z2
1

= det  ∂∂z
g2−1
∂ g2−1
dz
dz
1
2
∂z1
∂z2


x1 x2  |dz1 dz2 |
= J 
z1 z2 |AZ | = |dz1 dz2 |
(4.17)
(4.18)
(4.19)
(4.20)
kann man schließlich die gemeinsame Wahrscheinlichkeitsdichtefunktion von Z1 und Z2
durch die von X1 und X2 gegebene ausdrücken:
f(Z1 ,Z2 ) (z1 , z2 ) =
=

x1
f(X1 ,X2 ) (x1 , x2 ) J 
z1

x2 
z2 1

f(X1 ,X2 ) (x1 , x2 ) · 
z1 z2 J 

x1 x2 an der Stelle x1 = g1−1 (z1 , z2 ), x2 = g2−1 (z1 , z2 ).
118
(4.21)
4.5. TRANSFORMATION VON ZUFALLSVEKTOREN
Die Determinante J(·) wird als JACOBI-Determinante bezeichnet.
Dieses Vorgehen ist entsprechend auf Zufallsvektoren höher Dimension erweiterbar!
Beispiel 4.6 (Einfache Transformation)
Es sei die Transformation
z1
=
a11 x1 + a12 x2
z2
=
a21 x1 + a22 x2
gegeben. Die Umkehrabbildung (x1 , x2 ) = g −1 (z1 , z2 ) ist
x1
= b11 z1 + b12 z2
x2
= b21 z1 + b22 z2
Die Jacobi-Determinante ist

x1
J
z1
x2
z2


 = det 
b11
b12
b21
b22

,
so dass die gemeinsame Verteilungsdichte von Z1 und Z2 durch

x1
f(Z1 ,Z2 ) (z1 , z2 ) = f(X1 ,X2 ) (b11 z1 + b12 z2 , b21 z1 + b22 z2 )J 
z1
gegeben ist.
x2
z2


△
Beispiel 4.7 (Etwas schwierigere Transformation)
Die Transformation der Zufallsvariablen X und Y in die Zufallsvariablen Z und W sei
gegeben durch
z = xy,
Die Umkehrabbildung ist definiert durch
r
z
,
x=±
w
w=
y
.
x
√
y = ± zw.
Die Jacobi-Determinante ist



z w
y
 = det 
J
x y
− xy2
x

 = 2y = 2w.
1
x
x
p
p
√
√
Die Punkte ( z/w, zw) und (− z/w, − zw) werden beide in den Punkt (z, w) transformiert, d.h. die entsprechenden Wahrscheinlichkeiten sind zu addieren!
Außerdem sind Z und W beide positiv (negativ) falls X und Y das gleiche (verschiedene) Vorzeichen besitzen, so dass
f(Z,W ) (z, w) = 0 ∀(z > 0, w < 0) oder (z < 0, w > 0).
119
KAPITEL 4. FUNKTIONEN VON ZUFALLSVARIABLEN
Die transformierte Wahrscheinlichkeitsdichtefunktion ist hiermit (z und w haben gleiches
Vorzeichen)
r
r
√
1
z √
z
f(X,Y )
, ǫ zw + f(X,Y ) −
, −ǫ zw
f(Z,W ) (z, w) =
2|w|
w
w
mit
ǫ=


1

−1
für z > 0 ∧ w > 0
für z < 0 ∧ w < 0
△
4.6 Geordnete Statistik
In vielen Anwendungsfällen wird die Frage nach einer aufsteigenden oder absteigenden
Reihenfolge von Zufallsvariablen gestellt. Zu dieser Rangfolge von Zufallsvariablen, die
beispielsweise aus einer Menge von statistisch unabhängig und identisch verteilten Zufallsvariablen gebildet wurde, soll die Wahrscheinlichkeitsdichtefunktion eines definierten
Ranges1 gebildet werden. Eigentlich ist die Bildung einer Rangfolge ein durchaus komplexer Vorgang. Umso erstaunlicher ist es, dass den Zufallsvariablen auf den einzelnen Rängen
eine analytisch geschlossene Wahrscheinlichkeitsdichte zugeordnet werden kann.
Als Ausgangspunkt der Analyse wird eine Situation mit insgesamt N statistisch unabhängigen identisch verteilten reellwertigen Zufallsvariablen Xi betrachtet, i = 1, 2, . . . , N .
Die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen sei f (x) und die Verteilungsfunktion sei F (x). Diese Zufallsvariablen werden jetzt der Größe nach aufsteigend sortiert.
(Die in Klammern gesetzten Indizes weisen auf die Reihenfolge hin.)
X(1) ≤ X(2) ≤ X(3) ≤ · · · ≤ X(N )
Auf jedem individuellen Rang k wird mit der obigen Reihenfolge wiederum eine Zufallsvariable X(k) beobachtet, die einem speziellen wahrscheinlichkeitstheoretischen Gesetz
gehorcht. Zu diesen Zufallsvariablen X(k) soll nun die Wahrscheinlichkeitsdichte- und die
Verteilungsfunktion berechnet werden. Die WDF für die an der k-ten Position beobachtete
Zufallsvariable X(k) berechnet sich wie folgt:
N
fk (x) = k
(1 − F (x))N −k F (x)k−1 f (x).
k
1 Als Rang wird in diesem Zusammenhang der Wert der Zufallsvariablen
der Reihenfolge verstanden.
120
(4.22)
an einer definierten Position innerhalb
4.6. GEORDNETE STATISTIK
Die Verteilungsfunktion ist in der folgenden Gleichung für jeden individuellen Rang k
angegeben.
Fk (x) =
N X
N
j=k
j
· [F (x)]j · [1 − F (x)]N −j
(4.23)
Insbesondere gilt für die WDF bzw. für die Verteilungsfunktion des Minimums
f1 (x)
=
N · [1 − F (x)]N −1 f (x)
F1 (x)
=
1 − [1 − F (x)]N
(4.24)
und des Maximums
fN (x)
= N F (x)N −1 f (x)
FN (x)
= F (x)N .
(4.25)
Beispiel 4.8 (Minimum von N exponentialverteilten Zufallsvariablen)
Gegeben seien N statistisch unabhängige identisch verteilte Realisierungen einer exponentialverteilten Zufallsvariable X. Es soll die Wahrscheinlichkeitsdichtefunktion des Minimums dieser N Zufallsvariablen angegeben werden.
Für die einzelnen Zufallsvariablen gilt
f (x) =
λe−λx
F (x)
1 − e−λx .
=
Allgemein gilt in diesem Fall für die WDF des k-ten Ranges nach Gleichung 4.22:
k−1
N −(N −k+1)λx
fk (x) = kλ
1 − e−λx
.
e
k
Die WDF des Minimums, also der Zufallsvariablen des Ranges 1 der geordneten Statistik,
berechnet sich nach Gleichung 4.24 zu
f1 (x)
=
=
N −1
N 1 − (1 − e−λx )
· λe−λx
N λe−N λx .
Das Minimum gehorcht also einer Exponentialverteilung mit dem Parameter N λ.
△
Geordnete Statistiken werden beispielsweise in den Fällen eingesetzt, in denen der Erwartungswert einer Zufallsvariablen geschätzt werden soll, aber in den gemessenen Werten
mit einigen Ausreißern gerechnet werden muss. Zur Schätzung des Erwartungswertes wird
häufig der arithmetische Mittelwert eingesetzt, siehe Kapitel 9.4. Dieser Schätzwert würde
allerdings völlig verzerrt, falls einige Ausreißer in den Stichproben auftreten. An dieser
Stelle können ersatzweise geordnete Statistiken eingesetzt werden. In der Bildverarbeitung
121
KAPITEL 4. FUNKTIONEN VON ZUFALLSVARIABLEN
werden geordnete Statistiken (Rangordnungsfilter) zur Bildverbesserung bei gleichzeitiger
Konturerhaltung eingesetzt.
Beispiel 4.9 (Robustheit des Medians gegenüber Ausreißern)
Gegeben seien die folgenden 11 Messwerte:
5.0
4.2
4.6
4.5
4.9
4.8
4.5
4.0
4.8
4.4
4.6
Der arithmetische Mittelwert berechnet sich in diesem Fall zu 4.6 und der Median lässt sich
mit Hilfe der geordneten Stichprobe
4.0
4.2
4.4
4.5
4.5
4.6
4.6
4.8
4.8
4.9
5.0
ebenfalls zu 4.6 bestimmen (Wert auf Rang 6). Nimmt man jetzt an, dass als dritter
Messwert statt des Wertes 4.6 durch eine Störung ein Wert von 20.0 gemessen wurde,
so ergibt sich für das arithmetische Mittel der Wert 6.0. Es wird durch den Ausreißer also
stark verfälscht. Für den mit Hilfe der geordneten Statistik berechneten Median ergibt sich
jedoch immer noch der Wert 4.6 – der Median ist robust gegenüber Ausreißern.
△
Auf die Auswirkungen von Ausreißern und die Anwendung von geordneten Statistiken
bei der Parameterschätzung wird zu einem späteren Zeitpunkt (in Kapitel 9.7) nochmals
näher eingegangen.
122
Kapitel 5
Folgen stochastischer Größen
und Grenzwertsätze
In vielen Anwendungen wird die Summe einer durchaus großen Anzahl statistisch unabhängiger, identisch verteilter Zufallsvariablen betrachtet:
Z=
n
X
Xi
(5.1)
i=1
Diese Aufgabe tritt zum Beispiel bei der Berechnung relativer Häufigkeiten in der Analyse
eines Zufallsexperiments auf. Das statistische Verhalten dieser so gebildeten Zufallsvariablen Z soll in diesem Abschnitt analytisch untersucht werden.
In diesem Zusammenhang steht auch der Begriff des zentralen Grenzwertsatzes. Dieser ist, anders als andere Sätze in der Mathematik, ein Sammelbegriff für eine Reihe von
mathematischen Aussagen und Sätzen, welche alle die Konvergenz einer Verteilungsfunktion betrachten, die sich aus der Summierung statistisch unabhängiger identisch verteilter
Zufallsvariablen ergibt. Als ein wirklich interessantes Ergebnis kann nachgewiesen werden, dass die Summe bzw. das arithmetische Mittel dieser Zufallsvariablen für große Werte
n stets gegen eine Standardnormalverteilung konvergiert. Es werden Bedingungen angegeben, unter denen die Konvergenz der Zufallsvariablen Z gegen die Normalverteilung
eintritt.
Man betrachtet also im Folgenden eine Zufallsvariable Zn , die sich als Summe von
statistisch unabhängigen, identisch verteilten Zufallsvariablen Xi ergibt:
Zn =
n
X
Xi
i=1
Der Erwartungswert für diese neue Zufallsvariable Zn kann bereits durch Anwendung der
123
KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE
Linearität der Erwartungswertbildung wie folgt berechnet werden:
E{Zn } =
n
X
i=1
E{Xi }
Wegen der angenommenen statistischen Unabhängigkeit kann auch die Varianz der Zufallsvariablen Z bereits mit dem Satz von Bienaymé wie folgt berechnet werden:
V ar{Zn } =
n
X
i=1
V ar{Xi }
Zusätzlich wurde bereits in den vorangegangen Kapiteln gezeigt, dass die resultierende Wahrscheinlichkeitsdichtefunktion fZ (z) durch Faltung der einzelnen Wahrscheinlichkeitsdichtefunktionen der Zufallsvariablen Xi vollständig berechnet werden kann:
fZ (x) = fX1 (x) ∗ fX2 (x) ∗ · · · ∗ fXn (x)
(5.2)
Die eigentliche Zielsetzung dieses Kapitels liegt aber darin, nicht nur Erwartungswert
und Varianz sondern auch die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen Zn
insbesondere für große Werte n explizit zu bestimmen bzw. geeignet abzuschätzen.
5.1 Grenzwertsätze der Binomialverteilung
Im ersten Schritt soll ein B ERNOULLI-Experiment auf sein Grenzwertverhalten untersucht
werden. D. h. die Zufallsvariable Zn setzt sich in diesem Fall aus einer Summe von binärwertigen Zufallsvariablen Xi zusammen:
Zn =
n
X
Xi
i=1
Dieses Zufallsexperiment wurde bereits ausführlich in Abschnitt 2.6.1 für eine fest vorgegebene Versuchsanzahl n analysiert und es wurde die resultierende Wahrscheinlichkeitsdichtefunktion angegeben.
B ERNOULLI-Experiment
• Es wird ein Experiment mit binärem Ausgang (Alternativverteilung) n-mal nacheinander durchgeführt oder es werden alternativ n identische Experimente gleichzeitig
durchgeführt.
• Die Wahrscheinlichkeit, mit der die Zufallsvariable Xi eine Eins annimmt, soll p
betragen:
P [Xi = 1] = p
124
P [Xi = 0] = 1 − p
5.1. GRENZWERTSÄTZE DER BINOMIALVERTEILUNG
• Die zufälligen Ereignisse seien unabhängig von vorhergehenden oder nachfolgenden
Versuchen, d.h., die Zufallsvariablen Xi seien statistisch unabhängig und identisch
verteilt.
• Pn (k) beschreibt die Wahrscheinlichkeit, mit der k Einsen in einer Folge von n Versuchen auftreten, d.h. mit der die Zufallsvariable Zn den Wert k annimmt [Zn = k]:
Pn (k) = P [Z = k]
• Die Wahrscheinlichkeit Pn (k), dass in n Versuchen k-mal eine Eins auftritt kann
explizit und analytisch wie folgt angegeben werden:
n k
Pn (k) = P [Z = k] =
p (1 − p)n−k
k
(5.3)
Damit ist das Zufallsexperiment eigentlich vollständig beschrieben. Im Folgenden wird
aber die spezielle Frage diskutiert, wie das wahrscheinlichkeitstheoretische Verhalten des
Bernoulli-Experiments sich für große Werte von n entwickelt und wie die Berechnung der
relevanten Wahrscheinlichkeiten vereinfacht werden kann.
Beispiel 5.1 (Paketfehlerwahrscheinlichkeit)
Verwendet man zum Fehlerschutz einer digitalen Übertragung einen Blockcode der Länge
n, so können durch diesen beispielsweise maximal m Bitfehler korrigiert werden. Treten
mehr Bitfehler auf, so ist das komplette Datenpaket fehlerhaft.
Es soll die Wahrscheinlichkeit berechnet werden, mit der Paketfehler am Ausgang der
Fehlerkorrektur auftreten. Dazu müssen die Wahrscheinlichkeiten für die Fälle summiert
werden, in denen m + 1 oder mehr Bitfehler auftreten:
P (Paketfehler)
= 1 − P (kein Paketfehler)
= 1 − P (weniger als m + 1 Bitfehler)
m
X
= 1−
P (k Bitfehler)
k=0
Die Wahrscheinlichkeit für k Bitfehler wird bestimmt aus der Bitfehlerwahrscheinlichkeit p und der Zahl der Anordnungsmöglichkeiten der Bitfehler:
n k
P (k Bitfehler) =
p (1 − p)n−k
k
Die Bitfehlerwahrscheinlichkeit p hängt vom eingesetzten Modulationsverfahren und
dem Zustand des Übertragungskanals ab. Zur Übertragung werden mehrere Bits zu einem
Datenpaket der Länge n zusammengefasst. Im Folgenden sind drei bekannte Blockcodes
und deren Datenpaketlänge n sowie deren Korrigierfähigkeit beispielhaft angegeben.
125
KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE
Code
Blocklänge n
Korrigierbare Fehler m
Hamming
31
1
Reed-Muller
64
15
BCH
127
14
Bei der praktischen Berechnung der Paketfehlerrate tritt bei großen Blocklängen n eine rein rechentechnische Besonderheit auf. Die Binomialkoeffizienten nehmen sehr große
Werte an und es stellt sich die Frage der Rechengenauigkeit. Dies zeigt das folgende einfache Beispiel:
64
127
≈ 1.6 · 1014 ,
≈ 1.6 · 1018
15
14
Daher gestaltet sich auch die Berechnung der Summe über die Einzelwahrscheinlichkeiten zur Berechnung der Paketfehlerwahrscheinlichkeit um so schwieriger:
P (Kein Paketfehler) =
15 X
64 k
p (1 − p)(64−k)
k
k=0
Zur Lösung dieser Aufgabe bedient man sich eines Grenzwertsatzes, der im folgenden
△
Abschnitt erläutert werden soll.
5.1.1 Lokaler Grenzwertsatz von M OIVRE -L APLACE
Für ein B ERNOULLI-Experiment mit insgesamt n Versuchen können die einzelnen Auftrittswahrscheinlichkeiten wie folgt angegeben werden:
n k
Pn (k) = P [Zn = k] =
p (1 − p)n−k .
k
(5.4)
Die Berechnung der Verteilungsfunktion eines solchen B ERNOULLI-Versuchs
P [Zn ≤ k] =
k X
n i
p (1 − p)n−i
i
i=0
(5.5)
kann unter praktischen Gesichtspunkten zum Teil erhebliche rechentechnische
Schwierigkeiten bereiten. Aus diesem Grund ist eine Approximation, mit der die
Wahrscheinlichkeitsdichte- oder Verteilungsfunktion berechnet werden kann, sehr gefragt.
Diese Approximation kann durch den lokalen Grenzwertsatz von Moivre-Laplace
lokaler
wertsatz
Grenzvon
Moivre-Laplace
hergeleitet werden.
Bei diesem Experiment mit binärem Ausgang ist der Erwartungswert der Zufallsvariablen Zn (also beispielsweise die mittlere Fehleranzahl pro Paket) wie folgt zu berechnen:
µn = E{Zn } = n · p
126
5.1. GRENZWERTSÄTZE DER BINOMIALVERTEILUNG
Die Varianz von Zn , aus der das Streuverhalten der Zufallsvariablen Zn abgelesen werden
kann, ist
V ar{Zn } = n · p · (1 − p)
bzw. die Standardabweichung ist:
σn =
p
n · p · (1 − p).
Wenn die Bedingungen des B ERNOULLI-Experiments erfüllt sind, dann können die
Wahrscheinlichkeiten Pn (k) für große Werte n wie folgt berechnet bzw. approximiert werden:
1
lim {Pn (k)} = lim p
e
n→∞
2πnp(1 − p)
− 12
„
√ k−np
np(1−p)
n→∞
«2
(5.6)
Aus dieser analytischen Gleichung ist zu erkennen, dass die Paketfehlerwahrscheinlichkeiten gegen eine Gauß’sche Normalverteilung mit dem obigen Erwartungswert E{Zn } =
np und der Varianz V ar{Zn } = np(1−p) konvergieren. Damit sind diese Wahrscheinlichkeiten Pn (k) wesentlich leichter berechenbar und direkt aus den Werten der Gauß’schen
Glockenkurve ablesbar.
Anwendung des lokalen Grenzwertsatzes
Mit Hilfe des lokalen Grenzwertsatzes kann man auch bei einer in den durchgeführten Versuchen eingestellten endlichen Blocklänge n eine sehr gute Abschätzung der Wahrscheinlichkeit Pn (k) angeben:
1
e
Pn (k) ≈ p
2πnp(1 − p)
− 12
„
√ k−np
np(1−p)
«2
(5.7)
Die in Gleichung (5.7) beschriebene Approximation wird kontinuierlich mit wachsendem Wert n verbessert. Dieser Sachverhalt ist in Abbildung 5.1 für Blocklängen n =
25, 80, 160 anschaulich dargestellt. Einerseits sind dort die exakten diskrete Wahrscheinlichkeit Pn (k) und andererseits die approximierten Werte, beschrieben durch die Wahrscheinlichkeitsdichte einer Normalverteilung mit dem Erwartungswert E{Zn } = µ = n · p
und der Varianz V ar{Zn } = σ 2 = np(1 − p) dargestellt.
1
e
Nµ,σ (x) = p
2πnp(1 − p)
− 21
„
√ x−np
np(1−p)
«2
Während für eine Blocklänge von n = 25 noch kleine Abweichungen zwischen den
exakten und approximierten Werten feststellbar sind, ist die Approximation für n = 160
fast schon perfekt.
127
KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE
p = 0.1
Pn(k),Nµ,σ(x)
0.4
Nµ,σ(x)
Pn(k)
0.3
0.2
0.1
n = 25
0
0
2
4
6
8
10
12
14
k,x
Pn(k),Nµ,σ(x)
0.2
0.15
0.1
0.05
n = 80
0
0
2
4
6
8
10
k,x
12
14
16
18
20
Pn(k),Nµ,σ(x)
0.2
0.15
0.1
0.05
n = 160
0
0
5
10
15
20
k,x
25
30
35
40
Abbildung 5.1: Bernoulli-Versuch, Abschätzung der Wahrscheinlichkeit Pn (x) bei endlicher Anzahl der Versuche n.
Beispiel 5.2 (Werfen einer Münze)
Mit Hilfe des Theorems von DeMoivre-Laplace kann man eine gute Abschätzung der
Wahrscheinlichkeiten Pn (k) auch bei endlicher Blocklänge n angeben:
Eine Münze wird n = 1000 mal geworfen. Man ermittle die Wahrscheinlichkeit, mit
der bei diesem Experiment das Ereignis „Kopf“ genau k = 510 mal auftritt. Mit
p = 0.5,
n = 1000,
k = 510,
erhält man die folgende Abschätzung
p
√
np(1 − p) = 5 10,
n · p = 500
(510−np)2
1
Pn (k) = P1000 (510) ≈ p
· e− 2np((1−p) = 0, 0207
2πnp(1 − p)
△
5.1.2 Integralgrenzwertsatz von M OIVRE -L APLACE
Zur Bestimmung der Wahrscheinlichkeit, mit der in einem Bernoulli Experiment die Zufallsvariable Zn Werte in einem Interval zwischen k1 und k2 annimmt
P [k1 ≤ Zn ≤ k2 ]
128
5.1. GRENZWERTSÄTZE DER BINOMIALVERTEILUNG
müssen die Wahrscheinlichkeiten Pn (k) für die Werte k von k1 bis k2 (also insgesamt
k2 − k1 + 1 Werte) aufsummiert werden, da die Ereignisse unabhängig voneinander sind.
P [k1 ≤ Zn ≤ k2 ] =
k2
X
k=k1
k2 X
n k
Pn (k) =
p (1 − p)n−k
k
k=k1
Zur Lösung der Aufgabe und der Bestimmung der Wahrscheinlichkeit kann man den
lokalen Grenzwertsatz erweitern, so dass unter den gleichen Voraussetzungen eines B ER NOULLI
Experiments für den Integralgrenzwertsatz gilt:
1
P [k1 ≤ Zn ≤ k2 ] ≈ p
2πnp(1 − p)
0.4
N0,1(x)
0.3
0.2
0.1
Zk2
Integralwertsatz
von
e
− 12
„
np(1−p)
«2
dx
(5.8)
k1
11111111111111111111
00000000000000000000
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
0
−3
√ x−np
Φ(x)
−2
−1
0
x
1
2
3
Abbildung 5.2: Illustration des für das Argument x = 1 tabellierten Wertes der StandardNormalverteilung. Der Wert Φ(x) entspricht der schraffierten Fläche und beträgt für x = 1
etwa 0,84.
Über eine sinnvolle Normierung lässt sich mit Hilfe des tabellierten Gauß’schen Fehlerintegrals (s. Abschnitt 3.1 und Anhang B.1) die Wahrscheinlichkeit aus dem Integralgrenzwertsatz bestimmen:
1
P [Zn ≤ k] ≈ p
2πnp(1 − p)
Zk
2
e
(x−np)
− 2np(1−p)
−∞
129
dx = Φ
k − np
p
np(1 − p)
!
(5.9)
Laplace
Moivre-
KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE
Die Wahrscheinlichkeit für den in Gleichung (5.8) gesuchten Intervalwert ergibt sich damit
dann zu
P [k1 ≤ Zn ≤ k2 ] ≈ Φ
k − np
p 2
np(1 − p)
!
−Φ
k − np
p 1
np(1 − p)
!
(5.10)
Da das Gauß’sche Fehlerintegral in den meisten Fällen nur für positive Werte tabelliert ist, erhält man die Ergebnisse für negative Werte aus der Kenntnis der Symmetrie
der Standard-Normalverteilung. Abbildung 5.2 veranschaulicht an einem Beispiel, welche
Werte für Φ(·) tabelliert sind und wie man mit diesen Werten ein gesuchtes Interval bestimmt: In den Tabellen finden sich nur positive Werte für x, da die Verteilung symmetrisch
zum Ursprung ist. Für negative Argumente berechnet sich das Gauß’sche Fehlerintegral
dann als Φ(−x) = 1 − Φ(x). Somit ist dann z.B.
P (|X| ≥ a) = 1−P (|X| ≤ a) = 1−(Φ(a)−Φ(−a)) = 1−(2·Φ(a)−1) = 2·(1−Φ(a))
Beispiel 5.3 (Telefonanrufe)
An einer Telefonzentrale sind 180 Telefone angeschlossen. Für jedes Telefon beträgt die
Wahrscheinlichkeit, dass von ihm innerhalb von vier Stunden ein Telefonat geführt wird
p = 13 . Mit dieser Angabe kann die Wahrscheinlichkeit dafür, dass insgesamt ein einziges
Gespräch in 4 Stunden in der Telefonzentrale auftritt, wie folgt berechnet werden:
P180 (1) =
1 179
180
1
2
= 1.81 · 10−30
1
3
3
Ganz allgemein gilt: k Anrufe werden in 4 Stunden mit folgender Wahrscheinlichkeit getätigt:
P180 (k) =
k 180−k
2
180
1
.
3
3
k
Die Wahrscheinlichkeit für 50 bis 70 Anrufe innerhalb von 4 Stunden (Abbildung 5.3)
kann nach der obigen Abschätzung wie folgt berechnet werden:

70 − 180 · 31
50 − 60


√
P180 (k) ≈ Φ q
−Φ
40
180 · 31 · 32
k=50
p
p
p
= Φ( 2, 5) − Φ(− 2, 5) = 2Φ( 2, 5) − 1 ≈ 0, 886
70
X

△
130
5.1. GRENZWERTSÄTZE DER BINOMIALVERTEILUNG
0.08
N (x)
µ,σ
P180(k)
0.07
0.06
0.04
P
180
(k), N
µ,σ
(x)
0.05
0.03
0.02
0.01
0
40
45
11111111111111111
00000000000000000
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
00000000000000000
11111111111111111
50
55
60
x,k
65
70
75
80
Abbildung 5.3: Verteilung des Beispiels Telefonanrufe
Stetigkeitskorrektur
Eine noch bessere Approximation (insbesondere für kleine Werte von n) erhält man im
Integralwertsatz von Moivre-Laplace, wenn die ursprünglichen diskreten Grenzen k1 und
k2 durch zwei neue Grenzen (k1 − 0, 5) und (k2 + 0, 5) ersetzt werden. Dadurch erhält das
Integrationsintervall die gewollte Länge von k2 − k1 + 1. Dieser Vorgang wird auch als
Stetigkeitskorrektur bezeichnet. Hierzu ersetzt man im Argument der Normalverteilung die
Grenzen k1 und k2 durch (k1 − 0, 5) und (k2 + 0, 5):
P [k1 ≤ Zn ≤ k2 ] ≈ Φ
k2 + 0, 5 − np
p
np(1 − p)
!
−Φ
k1 − 0, 5 − np
p
np(1 − p)
!
(5.11)
wobei Φ(·) wieder die Standard-Normalverteilung bezeichnet.
Beispiel 5.4
Wie groß ist die Wahrscheinlichkeit dafür, dass bei insgesamt 100 Würfen mit einem Würfel mindestens 10 mal und höchstens 20 mal eine Sechs auftritt? Es soll ein Näherungswert
für diese Wahrscheinlichkeit angegeben werden. Die Zahl der Sechsen in 100 Würfen wird
durch eine Bn,p -verteilte (n = 100, p = 1/6) Zufallsvariable Zn beschrieben. Mit k1 = 10
und k2 = 20 ergibt sich:
131
KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE
1. Approximation ohne Stetigkeitskorrektur:




1
1
20 − 100 · 6
10 − 100 · 6
 − Φ q

P [10 ≤ Zn ≤ 20] ≈ Φ  q
1 5
100 · 6 · 6
100 · 61 · 65
= Φ(0.894) − Φ(−1.789) = 0.777
2. Approximation mit Stetigkeitskorrektur:




10 − 0.5 − 100 · 61
20 + 0.5 − 100 · 16
 − Φ q

P [10 ≤ Zn ≤ 20] ≈ Φ  q
100 · 16 · 56
100 · 16 · 56
= Φ(1.03) − Φ(−1.92) = 0.821
3. Exakte Berechnung über Summe:
P [10 ≤ Zn ≤ 20] =
k 100−k
20 X
100
1
5
·
·
6
6
k
k=10
= 0.827
Anhand dieses Beispiels wird deutlich, dass sich die Güte der Approximation bei relativ
kleinen n durch die Stetigkeitskorrektur deutlich verbessert.
△
Die hier diskutierten Ergebnisse unterstreichen die Bedeutung der Normalverteilung als
Mittel zur einfachen numerischen Berechnung.
5.1.3 Zentraler Grenzwertsatz von L INDEBERG -L ÉVY
Die bisherige Annahme basierte auf einer Zufallsvariablen Zn , die einer Binomialverteilung gehorcht. In vielen anderen Anwendungsfällen ist aber lediglich bekannt, dass die
Zufallsvariablen Xi , aus denen die Summe oder der arithmetische Mittelwert gebildet werden, statistisch unabhängig und identisch verteilt sind. Auch in diesem Fall stellt sich die
Frage nach dem statistischen Verhalten der Zufallsvariablen Zn :
Zn =
n
X
Xi
i=1
Es kann auch in diesem Fall eine präzise Aussage über die Konvergenz der Zufallsvariablen
Zn getroffen werden.
Zentraler Grenzwertsatz
L INDEBERG L ÉVY
von
Definition 5.1 (Zentraler Grenzwertsatz von L INDEBERG -L ÉVY) Wenn die statistisch
unabhängigen Zufallsgrößen Xi alle die gleiche (bzw. eine identische) Verteilung mit dem
132
5.1. GRENZWERTSÄTZE DER BINOMIALVERTEILUNG
fX(x)=rect(x)
Y1=X
Y2=X+X
Y3=X+X+X
Y4=X+X+X+X
1
0.8
fY(y)
0.6
0.4
0.2
0
−2
−1.5
−1
−0.5
0
y
0.5
1
1.5
2
Abbildung 5.4: Überlagerung identischer Verteilungen
Mittelwert µ und der Varianz σ 2 > 0 haben, dann konvergiert die Folge der Verteilungsfunktionen der normierten Zufallsgröße
Zn =
n
P
Xi − nµ
√
nσ 2
i=1
(5.12)
gegen die Verteilungsfunktion der Standardnormalverteilung:
1
lim P [Zn ≤ z] = Φ(z) = √
n→∞
2π
Zz
e−
ζ2
2
dζ
(5.13)
−∞
❍
5.1.4 Zentraler Grenzwertsatz von L JAPUNOW
Zentraler GrenzDefinition 5.2 (Zentraler Grenzwertsatz von L JAPUNOW) Genügen die stochastisch
wertsatz von L JA -
unabhängigen Zufallsgrößen Xi jeweils einer Verteilungsfunktion mit endlichem Erwar-
PUNOW
tungswert µi sowie einer Varianz σi2 > 0 und kann man zusätzlich eine positive Zahl δ > 0
133
KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE
mit
σn2 =
n
X
σi2
(5.14)
i=1
so wählen, dass
lim
n→∞
n
X
E{|Xi − µi |2+δ }
σn2+δ
i=1
=0
(5.15)
gilt, dann konvergiert die Verteilungsfunktion der Zufallsvariablen Zn mit:
Zn =
n
1 X
(Xi − µi )
σn i=1
(5.16)
❍
gegen die Standardnormalverteilung.
Bedeutung des Satzes
• Die Bedingung, dass die betrachteten Zufallsvariablen Xi als identisch verteilt angenommen werden, entfällt in diesem Fall.
• Jede Zufallsvariable Zn , die als Summe einer großen Zahl von unabhängigen Zufallsvariablen dargestellt werden kann, gehorcht also für große Werte n einer Normalverteilung.
Damit ist die hohe Bedeutung der Normalverteilung für die Wahrscheinlichkeitstheorie
deutlich unterstrichen.
5.2 Tschebyscheff’sche Ungleichung
In einigen Anwendungsfällen ist von einer Zufallsvariablen X nur wenig über das explizite
Zufallsverhalten bekannt; insbesondere liegt die Kenntnis der Wahrscheinlichkeitsdichtefunktion nicht vor.
Wenn allerdings wenigstens der Erwartungswerts E{X} und die Standardabweichung
σ dieser Zufallsvariablen bekannt sind, dann kann man bereits eine gute Abschätzung über
das wahrscheinlichkeitstheoretische Verhalten der Zufallsvariablen X berechnen. Das ist
die Ausgangssituation für die Tschebyscheff’sche Ungleichung, die für alle Zufallsvariablen gilt, für die der Erwartungswert und die Standardabweichung bekannt sind. Lediglich
aus der Kenntnis des Erwartungswertes und der Standarabweichung einer Zufallsvariablen
X kann folgende grobe Abschätzung über das wahrscheinlichkeitstheoretische Verhalten
dieser Zufallsvariablen hergeleitet werden:
134
5.2. TSCHEBYSCHEFF’SCHE UNGLEICHUNG
Tschebyscheff’sche
Ungleichung
Definition 5.3 (Tschebyscheff’sche Ungleichung) Es sei X eine reelle Zufallsvariable
mit dem Erwartungswert E{X} und der Varianz σ 2 . Dann gilt für alle t > 0
P (|X − E{X}| ≥ tσ) ≤
bzw.
P (|X − E{X}| ≥ t) ≤
1
t2
σ2
t2
❍
Die Tschebyscheff’sche Ungleichung gilt für alle Zufallsvariablen auch bei unbekannter Wahrscheinlichkeitsdichtefunktion. An den beiden folgenden Beispielen wird die Genauigkeit der Tschebyscheff’schen Approximation überprüft:
Beispiel 5.5 (Produktion von Maschinenteilen)
In einer Fabrik für Maschinenteile hat ein bestimmtes Teil einen Solldurchmesser von
12,5 mm. Dieser Wert darf um maximal 0,2 mm über- bzw. unterschritten werden, d.h.
fehlerfreie Teile haben einen Durchmesser im Intervall [12, 3; 12, 7]mm.
Von den produzierten Maschinenteilen sei bekannt, dass der Erwartungswert E{X}
sämtlicher gemessenen Durchmessers genau 12,5 mm betrüge und dass die resultierenden
Abweichungen bzw. Produktionsfehler durch eine Standardabweichung von σ = 0, 08mm
quantitativ angegeben werden kann.
Mit Hilfe der Tschebyscheff’schen Ungleichung kann jetzt ohne explizite Kenntnis der
Wahrscheinlichkeitsdichtefunktion die Wahrscheinlichkeit berechnet bzw. eine Abschätzung angegeben werden, mit denen die produzierten Maschinenteile außerhalb des geforderten Toleranzbereiches liegen.
P (|X − 12, 5| ≥ 0, 2) ≤
0, 082
= 0, 16.
0, 22
Maximal 16% der produzierten Maschinenteile können also außerhalb der vorgegebenen
Toleranzgrenzen liegen. Aus Kenntnis des Erwartungswertes und der Standardabweichung
kann aber sicher ausgesagt werden, dass mindestens 84% der Maschinenteile innerhalb der
geforderten Toleranzgrenze liegen. Wäre die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen X explizit bekannt, dann könnte die Wahrscheinlichkeit, mit der die Maschinenteile innerhalb der Toleranzgrenzen liegen, genau berechnet und müsste nicht durch
eine Abschätzung angegeben werden.
△
135
KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE
Beispiel 5.6 (Anwendung der Tschebyscheff’schen Ungleichung auf die Normalverteilung)
Für eine beispielhafte Nµ,σ -normalverteilte Zufallsvariable können die in der Tschebyscheff’schen Ungleichung auftretenden Wahrscheinlichkeiten explizit wie folgt berechnet
werden:
P (|X −µ| ≥ 2σ) = 2(1−Φ(1)) ≈ 0.0454
P (|X −µ| ≥ 3σ) = 2(1−Φ(2)) ≈ 0.0026
0.5
0.45
0.4
0.35
fX
0.3
0.25
0.2
0.15
0.1
0.05
11111111111
00000000000
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
0
−3
−2
−1
0
11111111111
00000000000
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
1
2
3
x
Abbildung 5.5: Beispiel: Anwendung der Tschebyscheff’schen Ungleichung auf die Normalverteilung
Mit Hilfe der Tschebyscheff’schen Ungleichung erhält man folgende für jede beliebige
Zufallsvariable X gültige sowie grob genäherte Schranken (vgl. Abbildung 5.5):
P (|X − µ| ≥ 2σ) ≤
σ2
1
=
4σ 2
4
P (|X − µ| ≥ 3σ) ≤
1
σ2
=
49σ 2
9
Aus diesem Beispiel ist zu erkennen, dass die Aussagen der Tschebyscheff’schen Ungleichung durchaus sehr grob sind, gemessen an der expliziten Kenntnis der Wahrscheinlichkeitsdichtefunktion. Aber die Abschätzung liefert trotzdem ein interessantes Ergebnis, weil
diese Angaben für alle Zufallsvariablen X gültig sind.
△
5.3 Gesetz der großen Zahlen
In der Praxis ist die Verteilungsfunktion einer Zufallsvariablen oder zumindest deren Parameter (Erwartungswert, Varianz) fast immer unbekannt. Falls von einer Zufallsvariablen
X mehrere Realisierungen bekannt sind, dann können die unbekannten Parameter der Verteilungsfunktion durch Anwendung der obigen Grenzwertsätze sehr gut geschätzt werden.
Um die unbekannten Parameter der Verteilungsfunktion einer Zufallsvariablen X zu
bestimmen, werden mehrere Realisierungen Xi dieser Zufallsvariablen gewonnen. Aus
diesen zufälligen Werten Xi sollen Parameter der Verteilungsfunktion, wie Erwartungswert und Varianz, geschätzt werden. Das Gesetz der großen Zahlen sagt beispielsweise
136
5.3. GESETZ DER GROSSEN ZAHLEN
aus, dass der Erwartungswert mit steigender Anzahl von Messwerten bzw. Realisierungen
immer genauer durch das arithmetische Mittel geschätzt werden kann.
5.3.1 Schwaches Gesetz der großen Zahlen
Grenzwerte von Zahlenfolgen und deren Konvergenzverhalten sind aus dem Bereich der
Analysis bekannt. Bei einer Folge von Funktionen wurde zusätzlich zwischen punktweiser
und gleichmäßiger Konvergenz unterschieden. Dieser Sachverhalt soll hier auf Folgen von
Zufallsvariablen und eine stochastische Konvergenz übertragen werden.
Schwaches
Ge-
Definition 5.4 (Schwache stochastische Konvergenz) Eine Folge Xn , n ∈ N von Zu-
setz der großen
fallsvariablen konvergiert stochastisch gegen eine Zufallsvariable X, falls gilt
Zahlen
lim P (|Xn − X| ≥ ǫ) = 0.
n→∞
(5.17)
Diese Aussage der schwachen stochastischen Konvergenz kann auf das folgende Beispiel übertragen und dort direkt angewandt werden. Es wird eine Folge X1 , X2 , . . . statistisch unabhängiger identisch verteilter Zufallsvariablen betrachtet. Daraus wird eine
weitere Folge von Zufallsvariable Zn berechnet, die jeweils den arithmetischen Mittelwert
über insgesamt n Zufallsvariable Xi bildet.
n
Zn =
1X
Xi
n i=1
(5.18)
Erwartungswert E{Zn } und Varianz V AR{Zn } dieser Zufallsfolge Zn können wie folgt
berechnet werden:
E{Zn } = E{X}V AR{Zn } =
2
σX
n
(5.19)
Mit der Tschebyscheff’schen Ungleichung gilt:
P
n
!
1 X
σ2
Xi − E{X} > ǫ = P (|Zn − E{X}| > ǫ) ≤ X 2
n
n·ǫ
i=1
(5.20)
Die Folge dieser Zufallsvariablen Zn konvergiert also gegen den gemeinsamen Erwartungswert E{X} im Sinne des obigen Konvergenzkriteriums, wenn man in der obigen
Gleichung den Grenzübergang für n gegen Unendlich berechnet, d.h.
lim P
n→∞
n
!
1 X
Xi − E{X} > ǫ = 0.
n
i=1
137
(5.21)
❍
KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE
1.4
n=1
n=2
n=4
n=10
1.2
1
fX(x)
0.8
0.6
0.4
n
0.2
0
−3
−2
−1
0
x
1
2
3
Abbildung 5.6: Mit steigender Anzahl n der Messungen sinkt die mittlere Abweichung des
gemessenen arithmetischen Mittelwerts vom Erwartungswert.
Bei dieser stochastischen Konvergenz handelt es sich um eine schwache Form der Konvergenz, vergleichbar mit der punktweisen Konvergenz bei Funktionenfolgen in der Analysis. Auch hier sind bei großen Werten für n noch starke Ausreißer bzw. Abweichungen
grundsätzlich möglich, allerdings geht deren Wahrscheinlichkeit im Grenzfall gegen Null.
Bedeutung
Abbildung 5.6 zeigt beispielhaft die Verteilungsfunktion der berechneten arithmetischen
n
P
Mittelwerte Zn = n1
Xi für unterschiedliche Werte n, siehe Gleichung (5.18). Aus
i=1
diesem Bild ist erkennbar, dass die resultierende Varianz mit wachsendem n gegen den
Wert Null geht. Dementsprechend sinkt auch die Wahrscheinlichkeit, mit der die Werte
Zn außerhalb einer vorgegebenen ǫ-Umgebung liegen. Falls der Wert n gegen unendlich
geht, dann schrumpft die Verteilungsfunktion auf einen einzigen Punkt, den Erwartungswert E(X), der Zufallsvariablen Xi .
Die Folge der Zufallsvariablen Zn konvergiert also stochastisch gegen der Erwartungswert E(X) im Sinne des in Gleichung (5.21) beschriebenen Konvergenzkriteriums. Danach
verringert sich die Wahrscheinlichkeit, mit der die Werte Zn außerhalb einer vorgegebenen
ǫ Umgebung liegen kontinuierlich mit wachsendem Wert n. Für jeden Wert n kann die in
Gleichung (5.21) angegebene Wahrscheinlichkeit
n
!
1 X
Xi − E{X} > ǫ = P (|Zn − E{X}| > ǫ)
P n
(5.22)
i=1
direkt berechnet werden. Diese so entstandene reellwertige Zahlenfolge konvergiert im Sin138
5.3. GESETZ DER GROSSEN ZAHLEN
Zn
9
ε−Blende
8
µ+ε
7
µ
6
µ−ε
5
ε−Blende
4
3
0
5
10
15
n1
n(ε, ε‘)
20
25
n2
30
n
Abbildung 5.7: Passieren einzelner Partikel an einer Blende
ne der Analysis gegen Null.
Anschauliche Darstellung der schwachen stochastischen Konvergenz
Es werden Partikel beobachtet, die eine Blende passieren. Dazu wird ein ǫ Umgebung vorgegeben. Die Werte der Wahrscheinlichkeiten P (|Zn − E{X}| > ǫ) stellen eine gegen
Null konvergierende Zahlenfolge dar. Das bedeutet, die Wahrscheinlichkeit, mit der die
Partikel außerhalb der ǫ Umgebung angeordnet sind, wird mit wachsendem Wert n kontinuierlich kleiner. In Abbildung 5.7 sind zwei Realisierungen einer Folge Zn zusammen
mit zwei ǫ Blenden zu unterschiedlichen Zeiten n dargestellt.
5.3.2 Starkes Gesetz der großen Zahlen
Bei der schwachen stochastischen Konvergenz konnte es durchaus passieren, dass eine Zufallsvariable Zn eine ǫ Blende zum Zeitpunkt n1 passiert, aber zu einem späteren Zeitpunkt
n2 sich außerhalb der ǫ Blende befindet. Die Wahrscheinlichkeit für solche Ereignisse ist
allerdings sehr klein.
Starkes
Definition 5.5 (Starke stochastische Konvergenz) Eine Folge von Zufallsvariablen
Xn , n ∈ N konvergiert fast sicher (mit der Wahrscheinlichkeit 1) gegen eine Zufallsvariable X, falls gilt
P
lim |Xn − X| = 0 = 1.
n→∞
139
(5.23)
Gesetz
der großen Zahlen
KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE
9
8
7
ε−Streifen
µ+ε
Zn
µ
6
µ−ε
5
4
3
0
5
10
15
20
25
n
30
35
40
45
50
n(ε, ε‘)
Abbildung 5.8: Verbleiben in einem ǫ Streifen bei der starken stochastischen Konvergenz
Bei dieser starken stochastischen Konvergenz wird gefordert, dass ab einem gegebenen
Index n alle folgenden Zufallsvariablen Zn innerhalb der ǫ Blende liegen müssen. Die
Folge der Zufallsvariablen Zn verbleibt somit in einem vorgegebenen ǫ Streifen.
Dies Forderung führt auf die folgende Konvergenzbedingung:
P
lim |Zn − µ| = 0 = 1
n→∞
und wird als starke stochastische Konvergenz bezeichnet.
Anschauliche Darstellung der starken Konvergenz
In Abbildung 5.8 ist eine ǫ Blende eingezeichnet verbunden mit der oben formulierten Forderung, dass sämtliche Zufallsvariable Zn ab einem vorgegebenen Index n Werte innerhalb
der ǫ Blende annehmen müssen. In Abbildung 5.8 sind zwei Zufallsfolgen Zn basierend auf
den berechneten arithmetischen Mittelwerten beispielhaft dargestellt. Mit großer Wahrscheinlichkeit verbleibt die Folge Zn im Bereich eines vorgegebenen ǫ Streifens.
Die aus den statistisch unabhängigen und identisch verteilten Zufallsvariablen
X1 , X2 , . . . berechnete Folge der arithmetischen Mittelwerte Zn ,
n
Zn =
1X
Xi
n i=1
(5.24)
konvergiert auch nach dem Kriterium der starken stochastischen Konvergenz gegen den
140
5.4. ZUSAMMENFASSUNG
gemeinsamen Erwartungswert E{X}, d.h.
n
P
1X
Xi = E{X}
lim
n→∞ n
i=1
!
=P
lim Zn = E{X} = 1.
n→∞
(5.25)
❍
5.4 Zusammenfassung
• Grenzwertsätze
Beschreiben die Konvergenz der Summe von unabhängigen Zufallsvariablen gegen
die Normalverteilung.
Besondere Bedeutung der Normalverteilung!
• Gesetz der Großen Zahlen
Beschreibt die Konvergenz einer Zufallsfolge Zn gegen deren Erwartungswert µ.
lim P (|Zn − µ| < ǫ) = 1
stark: P lim Zn = µ = 1
schwach:
n→∞
n→∞
141
KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE
142
Teil II
Stochastische Prozesse
143
Kapitel 6
Stochastische Prozesse
Das in der Wahrscheinlichkeitstheorie wichtige Konzept der Zufallsvariablen wurde in den
vorausgegangenen Kapiteln ausführlich behandelt. Bei dieser Betrachtung wurde das Eintreten zufälliger Ereignisse durch das Konzept der Zufallsvariablen quantitativ beschrieben. Das stochastische Verhalten dieser Zufallsvariablen wurde durch Verteilungsfunktion,
Wahrscheinlichkeitsdichtefunktion oder durch zugehörige Momente eindeutig bestimmt.
Zusätzlich wurden Folgen von Zufallsvariablen und deren Grenzwert betrachtet, wobei
die wichtige Annahme im Vordergrund stand, dass diese Zufallsvariablen statistisch unabhängig und identisch verteilt seien. Dementsprechend wurde bei den Grenzwertsätzen die
hohe Bedeutung des arithmetischen Mittelwertes vor dem Hintergrund dieser Annahmen
erkannt.
In der Theorie der stochastischen Prozesse wird ein anderer, zusätzlicher Sachverhalt
in den Vordergrund gestellt. Dabei geht es beispielsweise um die Beobachtung eines zufälligen Signals über der Zeit. Es wird also nicht nur eine einzelne Zufallsvariable, sondern
eine Vielzahl, eine Menge von Zufallsvariablen, ein so genannter Zufallsprozess betrachtet.
Dabei soll insbesondere der zeitlich dynamische Aspekt im Verhalten der Zufallsvariablen
untersucht werden. Von zentraler Bedeutung ist die stochastische Bindung der zeitlich benachbarten zufälligen Werte, die durch den Begriff der Korrelation zwischen Zufallsvariablen ausgedrückt wird.
Stochastische Prozesse sind Familien (Mengen) von Zufallsvariablen X(t), die durch
einen Parameter t, bzw. eine Indexmenge gekennzeichnet sind. Dabei durchläuft t einen
geeigneten Parameterraum, der den natürlichen Zahlen N oder auch den reellen Zahlen R
entsprechen kann und in den meisten Anwendungen die Bedeutung einer Zeitvariablen hat.
Beispiel 6.1 (Lagerhaltung)
Ein bestimmter Artikel werde in einem Lager gehalten. Am Ende jeder Periode, ausge145
KAPITEL 6. STOCHASTISCHE PROZESSE
drückt durch den Zeitpunkt t (Tag, Woche, . . . ), wird der Lagerbestand X(t) festgestellt.
Dieser Lagerbestand hängt ab vom momentanen Bedarf Y (t) zum Zeitpunkt t und von
den Bestellregeln, welche die Lagerzufuhr bestimmen und damit eine Grundlage für ein
Regelsystem bilden.
Eine mögliche Annahme über den Bedarfsprozess wäre, dass Y (t) unabhängige identisch verteilte diskrete Zufallsvariable sind mit
P {Y (t) = k} = ak ,
k = 0, 1, 2, . . .
k: Anzahl der bis zum Zeitpunkt t nachgefragten Einheiten des Artikels,
und dass die Bestellregel vom (s, S)-Typ ist, d.h. das Lager wird bis auf S Einheiten aufgefüllt, wenn der Bestand unter den Bestellpunkt s gesunken ist. Negative Lagerbestände
sind als Vormerkungen zu interpretieren.
Interessieren wird man sich zum Beispiel für eine kostenoptimale Größe S des Lagers
△
und des Bestellpunktes s.
Beispiel 6.2 (Warteschlangen)
Zu zufälligen Zeitpunkten treffen „Kunden“ vor einem „Schalter“ ein und fordern eine
„Bedienung“. Diese Bedienung erfordert eine bestimmte zufällige Abfertigungszeit. Der
Stochastische Prozess X(t) ist in diesem Fall durch die Anzahl der zur Zeit t wartenden
Kunden beschrieben. Die Warteschlangen- (Bedienungs-) Theorie stellt die Methoden bereit, um wichtige Kenngrößen – wie z.B. die mittlere Wartezeit eines Kunden oder den
Auslastungsgrad – eines Warteschlangensystems zu ermitteln.
△
Bei jedem Betriebssystem eines Digitalrechners kann der Zugriff auf den Prozessor
durch ein Warteschlangensystem beschrieben werden. Aus den theoretischen Analysen
kann dann der mittlere Durchsatz und die mittlere Wartezeit berechnet werden.
6.1 Definition eines stochastischen Prozesses
Gegeben sei ein Wahrscheinlichkeitsraum (Ω, A, P ) und eine nichtleere Indexmenge T .
Stochastischer
Definition 6.1 (stochastischer Prozess) Ein stochastischer Prozess ist durch eine Menge
Prozess
(Familie) X(t) = {Xt , t ∈ T } von Zufallsvariablen auf (Ω, A, P ) mit dem gemeinsamen
X(t)
Wertebereich E beschrieben. Der Wertebereich E wird als Zustandsraum bezeichnet und
ist im allgemeinen durch die reellen Zahlen gekennzeichnet. Der Parameterraum wird mit
T beschrieben und hat im allgemeinen die Bedeutung einer reellen Zeitvariablen.
146
❍
6.1. DEFINITION EINES STOCHASTISCHEN PROZESSES
X(t) wird als zeitdiskreter stochastischer Prozess bezeichnet, falls der Parameterraum
T abzählbar viele Zeitpunkte enthält. Ein stochastischer Prozess wird dagegen als zeitkontinuierlich bezeichnet, falls der Parameterraum T überabzählbar viele Zeitpunkte enthält.
Entsprechend kann auch zwischen einem diskreten und einem kontinuierlichen Zustandsraum E unterschieden werden. Wir wollen uns im Folgenden im Wesentlichen darauf beschränken, dass der Zustandsraum E durch die Menge der reellen Zahlen beschrieben ist.
6.1.1 Musterfunktionen
In Definition 6.1 wird ein stochastischer Prozess als eine Menge von Zufallsvariablen (ZV)
erklärt, d.h. es steht dabei (scheinbar) folgende Auffassung eines stochastischen Prozesses
im Vordergrund: Man hält zunächst t und damit eine bestimmte Zufallsvariable Xt , d.h.
eine (messbare) Abbildung
Xt : Ω → E,
ω → Xt (ω)
fest. Verschiedene Elemementarereignisse ω liefern dann die verschiedenen Realisierungen
Xt (ω) einer einzelnen Zufallsvariablen X(t).
Man kann sich aber alternativ auch vorstellen, dass zunächst ein Elementarereignis ω
ausgewählt und für alle Zufallsvariablen X(t) fixiert wird:
Definition 6.2 (Musterfunktion) Für jedes (fest gewählte) Elementarereignis ω ∈ Ω wird
die resultierende Funktion
Musterfunktion
xω : T → E,
x(t)
t → xω (t),
die man für einen festgewählten Wert ω aber für einen variablen Parameter t erhält, als
Musterfunktion bzw. als Pfad, Trajektorie oder Realisierung des stochastischen Prozesses
X(t) bezeichnet.
Da bei stochastischen Prozessen meist unerheblich ist, welches Elementarereignis zu
einer Musterfunktion führt, schreibt man häufig x(t) anstelle xω (t).
❍
Beispiel 6.3 (Nachrichtenübertragung)
Zufallsvariable: Eine Signalquelle erzeugt zufällige digitale Sendesymbole X
∈
{−3, −1, 1, 3} (Abbildung 6.1). Die Wahrscheinlichkeiten P (X) bestimmen die Verteilung der Zufallsvariablen X.
Stochastischer Prozess: Die Signalquelle erzeugt eine Nachricht {Xn }∞
n=0 als Sequenz
der Sendesymbole Xn , die auch als Modulationssymbole bezeichnet werden. Die so entstehende Musterfunktion x(t) des betrachteten stochastischen Prozesses ist gegeben durch
147
KAPITEL 6. STOCHASTISCHE PROZESSE
Im
4-ASK
Re
-3
-1
1
3
Abbildung 6.1: Verteilung des Signals zum betrachteten Zeitpunkt
den Signalverlauf über der Zeit (Abbildung 6.2), der sich durch die zufällige Auswahl der
Sendesymbole Xn ergibt:
x(t) =
∞
X
n=0
xn · rect(t − nT ).
In diesem Beispiel werden ein rechteckförmiger Modulationsimpuls und eine Symboldauer
△
von T angenommen.
x(t)
3
1
t
-1
-3
Abbildung 6.2: Verlauf des Signals über der Zeit
Beispiel 6.4 (Thermisches Rauschen)
Jede Spannung einer Schaltung wird durch Störgrößen verändert. Ursache hierfür ist
u. a. das thermische Rauschen. Die thermische Rauschleistung eines Widerstandes in einem Frequenzinterval fg berechnet sich aus:
E{u2 (t)} = 4fg kTabs R
mit k = 1, 38 · 10−23 W
K
(Boltzmann-Konstante) und der absoluten Temperatur Tabs .
Jede Messung der Rauschspannung ergibt eine Musterfunktion des Rauschprozesses.
148
△
6.2. BESCHREIBUNG STOCHASTISCHER PROZESSE
6.2 Beschreibung stochastischer Prozesse
Zunächst stellt sich die wichtige Frage, wie das Verhalten eines solchen stochastischen
Prozesses analytisch beschrieben werden kann. Um die analytische Beschreibung vereinfachen und verallgemeinern zu können, werden einige über das Konzept der Zufallsvariablen
hinausgehende Eigenschaften definiert. Diese können bei vielen stochastischen Prozessen
vorausgesetzt werden und ermöglichen damit eine stark vereinfachte Beschreibung.
6.2.1 Stationarität
Da ein stochastischer Prozess durch eine Menge von Zufallsvariablen dargestellt werden
kann, lässt er sich auch entsprechend durch eine Menge von Wahrscheinlichkeitsdichtefunktionen beschreiben. So existiert für jedes t ∈ T = {t1 , . . . , tN } eine Wahrscheinlichkeitsdichtefunktion fx(t) (x). Der gesamte stochastische Prozess lässt sich dann durch
die Verbund-Wahrscheinlichkeitsdichte fx(t1 ),...,x(tN ) (x1 , . . . , xN ) erfassen und analytisch
beschreiben.
Definition 6.3 (streng stationär) Ein stochastischer Prozess X(t) = {Xt , t ∈ T } heißt
streng stationär, falls gilt:
streng stationär
∀n ∈ N : ∀τ, t1 , . . . , tn ∈ T :
f(x(t1 ),...,x(tn )) (x1 , . . . , xn ) = f(x(t1 +τ ),...,x(tn +τ )) (x1 , . . . , xn ).
D.h., die (endlich-dimensionalen) Wahrscheinlichkeitsdichtefunktionen sind invariant ge❍
genüber Zeitverschiebungen.
Diese Definition ist technisch aber nur sehr schwer überprüfbar, weshalb in den meisten
Fällen eine abgeschwächte Bedingung zur Stationarität verlangt wird. Diese ist für viele
praktische Anwendungen ausreichend und günstig anwendbar.
Definition 6.4 (Autokorrelation/-kovarianz) Sei X(t) ein beliebiger stochastischer Prozess bei dem die zweiten Momente der einzelnen Zufallsvariablen endliche Werte annehmen. Dann heißt die auf T × T definierte Funktion
r(t, s) = Cov(Xt , Xs ) = E{(Xt − µt ) · (Xs − µs )}
Kovarianzfunktion
Korrelationskoef(6.1)
(Auto-) Kovarianzfunktion und
Cov(Xt , Xs )
ρ(t, s) = p
V ar{Xt }V ar{Xs }
(Auto-) Korrelationskoeffizient von X(t).
149
(6.2)
❍
fizient
KAPITEL 6. STOCHASTISCHE PROZESSE
Aufgrund der Normierung liegt der Wert des Korrelationskoeffizienten stets im Bereich
zwischen -1 und +1.
Sei X(t) ein streng stationärer Prozess. Dann sind E{Xt } = µ und V ar{Xt } = σ 2
unabhängig von t und die Kovarianzfunktion hängt nur von der Differenz h = t − s ab.
Bezeichnen wir sie mit r(τ ), so gilt also
r(τ ) = Cov(Xt+τ , Xt ) = Cov(Xτ , X0 ).
(6.3)
Die Autokovarianzfunktion r(τ ) besitzt dann folgende Eigenschaften:
•
r(τ ) = r(−τ ), d.h. r(τ ) ist eine gerade Funktion,
(6.4)
•
r(τ ) ≤ r(0) = σ 2 ,
(6.5)
•
r(τ ) ist positiv definit:
∀n ∈ N : ∀a1 , . . . , an ∈ R;
n
X
ai aj · r(ti − tj ) ≥ 0.
∀t1 , . . . , tn ∈ T
(6.6)
i,j=1
Anstelle der Forderung nach strenger Stationarität reicht es in den meisten Fällen aus,
wenn die obigen Eigenschaften der Autokovarianzfunktion erfüllt sind.
Definition 6.5 ((schwach) stationär) Ein stochastischer Prozess heißt (schwach) statio(schwach)
stationär
när oder stationär im weiteren Sinne, falls gilt:
Für alle t ist E{Xt } = µ, und die Kovarianzfunktion hängt für beliebiges τ nur von
der Zeitdifferenz t − s = τ aber nicht von der absoluten Zeit t ab, also
r(τ ) = Cov(Xt+τ , Xt ).
❍
Wenn im Folgenden von Stationarität gesprochen wird, ist i.A. von schwacher Stationarität die Rede. Die Angabe der Autokovarianzfunktion (oder der in Abschnitt 6.3 beschriebenen Autokorrelationsfunktion) übernimmt die Beschreibung der stochastischen Bindung
der einzelnen auf der Zeitachse angeordneten Zufallsvariablen untereinander. Diese Autokovarianzfunktion bzw. Autokorrelationsfunktion erweitert das bisherige Konzept der einzelnen Zufallsvariablen und eröffnet die Möglichkeit stochastische Prozesse zu analysieren.
Mit Hilfe dieser Definition der Stationarität ist es möglich, die Momente eines stochastischen Prozesses zu jedem beliebigen Zeitpunkt aus einer Schar von Musterfunktionen zu
bestimmen. Dies wird veranschaulicht in Abbildung 6.3.
150
6.2. BESCHREIBUNG STOCHASTISCHER PROZESSE
x(1)(t)
t
x(2)(t)
t
x(3)(t)
t
Schaarmittelwerte
E{x(t1)}=E{x(t2)}
Abbildung 6.3: Bestimmung des Erwartungswertes über eine Schar von Musterfunktionen
6.2.2 Ergodizität
Die Annahme der Stationarität ist für praktische Anwendungen außerordentlich hilfreich,
weil der beobachtete Prozess zu jedem Zeitpunkt sofort analysiert und durch seine Autokorrelationsfunktion vollständig beschrieben werden kann. Allerdings ist die Beobachtung
vieler Musterfunktionen notwendig, um einen genügend großen Stichprobenumfang zur
Schätzung der Prozessparameter zur Verfügung zu haben. In der Praxis ist aber in der Regel nur eine Musterfunktion eines stochastischen Prozesses bekannt, so dass auch nur diese
Information für eine statistische Analyse zur Verfügung steht. Aus diesem Grund wird das
Konzept der Stationarität erweitert und eine zusätzliche Forderung erhoben, die durch den
Begriff der Ergodizität definiert wird.
Definition 6.6 (Ergodizität) Gegeben ist ein im weiteren Sinne stationärer stochastischer
Prozess X(t). Wenn sämtliche Schaarmittelwerte E{Xt } des Prozesses X(t) identisch sind
mit den Zeitmittelwerten X jeder einzelnen Musterfunktion x(t), d.h.
n
E{x(t) } =
Z∞
−∞
1
ξ fX (ξ) dξ = lim
T →∞ 2T
n
so spricht man von einem ergodischen Prozess.
ZT
xni (t) dt
∀n.
−T
❍
Wenn von vornherein bekannt ist, dass es sich bei einem gegebenen stochastischen Prozess um einen ergodischen Prozess handelt, dann können die gesuchten Momente durch die
Mittelung über eine einzige Musterfunktion bestimmt werden, wie man in Abbildung 6.4
erkennen kann. Ein ergodischer Prozess beinhaltet bereits in einer einzigen Realisierung
151
Ergodizität
KAPITEL 6. STOCHASTISCHE PROZESSE
x(1)(t)
t
x(2)(t)
t
x(3)(t)
t
Schaarmittelwert E{x(t1)} = Zeitmittelwert x(t)
Abbildung 6.4: Ergodizität
die gesamte dem Prozess innewohnende stochastische Vielfalt und bietet damit den Stichprobenumfang zur Schätzung der Prozessparameter.
6.3 Autokorrelationsfunktion
In Definition 6.4 wurden schon die Autokorrelations- und Autokovarianzfunktionen vorgestellt. Diese unterscheiden sich nur durch einen Normierungsfaktor V ar{X(t)}.
Die Autokorrelationsfunktion (AKF) rxx (t1 , t2 ) eines stochastischen Prozesses X(t)
berechnet sich allgemein mittels:
rxx (t1 , t2 ) = E{x(t1 )x(t2 )}
(6.7)
Für einen im weiteren Sinne stationären Prozess vereinfacht sich die Rechenvorschrift,
da nur noch die Differenz der Betrachtungszeitpunkte von Interesse ist:
rxx (τ ) = E{x(t)x(t − τ )}
(6.8)
Bei einem stationären und ergodischen Prozess ergibt sich die AKF aus einer Musterfunktion x(t):
1
T →∞ 2T
rxx (τ ) = lim
ZT
−T
152
x(t) · x(t − τ ) dt
(6.9)
6.3. AUTOKORRELATIONSFUNKTION
6.3.1 Beschreibung von diskreten stochastischen Prozessen
Die Autokorrelationsfolge (AKF) eines zeitdiskreten, stationären und ergodischen stochastischen Prozesses berechnet sich entsprechend:
N
X
1
x(n) · x(n + m)
N →∞ 2N + 1
rxx (m) = lim
(6.10)
n=−N
6.3.2 Eigenschaften der Autokorrelationsfunktion
Die Autokorrelationsfunktion besitzt einige Eigenschaften, mit denen man einige Kenngrößen direkt ablesen kann:
• Mittlere Leistung des Prozesses
rxx (m) ≤ rxx (0) = E{|X(m)|2 } = σx2 + µ2x
(6.11)
• Reelle, gerade Funktion
rxx (−m) = rxx (m)
(6.12)
• Konvergenz für nicht periodische Prozesse
lim rxx (m) = µ2x
m→∞
(6.13)
6.3.3 Kreuzkorrelation von stochastischen Prozessen
In vielen Anwendungen werden stochastische Prozesse miteinander kombiniert. Ein häufiger Fall ist hierbei die Addition zweier stochastischer Prozesse. Dies tritt zum Beispiel dann
auf, wenn ein Nachrichtensignal bei der Übertragung mit einem Kanalrauschen überlagert
wird.
Wir betrachten also den Fall der Addition von zwei stationären Prozessen:
X(t) = U (t) + V (t)
(6.14)
Da wir wissen, dass ein (ergodischer) stochastischer Prozess eindeutig durch seine Autokorrelationsfunktion beschrieben ist, interessiert uns nun vor allem, wie die Autokorrelationsfunktion des Summenprozesses aussieht:
rxx (τ )
=
E{(U (t) + V (t))(U (t + τ ) + V (t + τ ))}
=
E{U (t)U (t + τ )} + E{U (t)V (t + τ )} +
E{V (t)U (t + τ )} + E{V (t)V (t + τ )}
=
ruu (τ ) + ruv (τ ) + rvu (τ ) + rvv (τ )
153
(6.15)
KAPITEL 6. STOCHASTISCHE PROZESSE
Wie man sieht, kommen bei der Überlagerung der Prozesse zu den AKF der einzelnen
Prozesse noch Korrelationsterme beider Prozesse hinzu.
Definition 6.7 (Kreuzkorrelationsfunktion) Man bezeichnet
ruv (τ ) = E{U (t)V (t + τ )} = rvu (−τ )
Kreuzkorrelation
ruv (τ )
(6.16)
als Kreuzkorrelationsfunktionen (KKF) der stochastischen Prozesse U (t) und V (t).
❍
Als Leistung des Summenprozesses ergibt sich:
rxx (0) = ruu (0) + rvv (0) + 2ruv (0)
(6.17)
6.3.4 Autokovarianzfolge
Autokovarianz
Die Autokovarianz cxx (m) beschreibt die korrelativen Eigenschaften eines mittelwertfrei-
cxx (m)
en Prozesses:
cxx (m)
= E{(X(n) − µx ) · (X(n + m) − µx )}
= rxx (m) − µ2x
(6.18)
Mit Hilfe der Autokovarianz kann man die Varianz eines stochastischen Prozesses ermitteln:
V ar{x(t)} = cxx (0) = E{x2 (t)} − µ2x
(6.19)
6.4 Prognoseverfahren für stochastische Prozesse
Gegeben sei ein stochastischer ergodischer Prozess v(n) mit seiner Autokorrelationsfunktion rvv (k). Die einzelnen Zufallsvariablen v(n) dieses stochastischen Prozesses sollen so
gut es geht aus den in der Vergangenheit beobachteten Werten durch eine lineare Verarbeitung vorhergesagt werden. Der vorhergesagte Wert wird mit v̂(n) bezeichnet und ist wie
folgt definiert:
v̂(n) =
N
X
i=1
pi · v(n − i)
Die Koeffizienten pi sollen so berechnet und eingestellt werden, dass ein minimaler
quadratischer Fehler zwischen dem nächsten Wert v(n) und dem prognostizierten Wert
v̂(n) entsteht.
FN =
min
p1 ,p2 ,...pN
E{(v(n) − v̂(n))2 }
154
6.4. PROGNOSEVERFAHREN FÜR STOCHASTISCHE PROZESSE
Zur Lösung dieser Optimierungsaufgabe wird die Zielfunktion FN partiell nach den
Parametern bzw. Koeffizienten pλ mit λ = 1 . . . N abgeleitet:
FN = E
δFN
=E
δpλ
(



v(n) −
−2 · v(n − λ) ·
N
X
i=1
!2 

pi · v(n − i)

v(n) −
N
X
i=1
!)
pi · v(n − i)
!
=0
Unter Zuhilfenahme der Autokorrelationsfunktion rvv (λ) = E{v(n) · v(n − λ)} folgt die
Vereinfachung:
−2rvv (λ) + 2
N
X
i=1
!
pi rvv (λ − i) = 0
Hieraus ergibt sich ein lineares Gleichungssystem, das für λ = 1, . . . , N wie folgt ausführlich angegeben werden kann:








rvv (0)
rvv (1)
· · · rvv (n − 2)
rvv (n − 1)
rvv (1)
..
.
rvv (0)
..
.
· · · rvv (n − 3)
..
..
.
.
rvv (n − 2)
..
.
rvv (n − 2) rvv (n − 3) · · ·
rvv (0)
rvv (1)
rvv (n − 1) rvv (n − 2) · · ·
rvv (1)
rvv (0)
Somit ergibt sich in kompakter Matrixschreibweise:








p1
p2
..
.
pN−1
pN


 
 
 
=
 
 
 
rvv (1)
rvv (2)
..
.
rvv (N − 1)
rvv (N )




.



[Rvv ] · ~p = ~rvv
Dieses lineare Gleichungssystem kann durch Invertierung der Kovarianzmatrix Rvv direkt
gelöst werden:
p~ = [Rvv ]−1 · ~rvv
Im Folgenden wird zusätzlich ein sehr einfaches Lösungsverfahren dieses linearen Gleichungssystems beschrieben, das rekursiv aufgebaut ist.
6.4.1 Levinson-Algorithmus
Bei diesen Prognoseverfahren muss zur Bestimmung der Prädiktorkoeffizienten pi folgendes lineare Gleichungssystem gelöst werden:
[Rvv ] ~p = ~rvv
155
KAPITEL 6. STOCHASTISCHE PROZESSE
Die Kovarianzmatrix Rvv hat in ausgeschriebener Form folgende Streifenstruktur, die auch
als Toeplitz-Matrix bezeichnet wird:

   

· · · rvv (n − 1)
p1
rvv (1)

   


   

rvv (0)
· · · rvv (n − 2)  p2   rvv (2) 
 rvv (1)

· =

..
..
..

  ..   .. 
..

 .   . 
.
.
.
.

   

pn
rvv (n − 1) rvv (n − 2) · · ·
rvv (0)
rvv (n)
rvv (0)
rvv (1)
Löst man dieses lineare Gleichungssystem mit Hilfe des Gauß-Algorithmus, so erfordert dies einen Aufwand von O(n3 ) Rechenoperationen. Da es sich hier um eine ToeplitzMatrix handelt, lässt sich zur Lösung des linearen Gleichungssystems der stark aufwandsreduzierte Levinson-Algorithmus verwenden. Dieses Verfahren berechnet die Lösung für
die Koeffizientenanzahl bzw. Ordnung n rekursiv aus der Lösung für die Ordnung n − 1.
Dadurch reduziert sich der Aufwand dann auf O(n2 ).
Bei bekannter Lösung des Gleichungssystems für die Ordnung n − 1
pn−1 = [Rvv ]−1
~
rvv,n−1
n−1 ~
hat das Gleichungssystem für die Ordnung n folgende Gestalt:









rvv (0)
rvv (1)
· · · rvv (n − 2)
rvv (n − 1)
rvv (1)
..
.
rvv (0)
..
.
· · · rvv (n − 3)
..
..
.
.
rvv (n − 2)
..
.
rvv (n − 2) rvv (n − 3) · · ·
rvv (0)
rvv (1)
rvv (n − 1) rvv (n − 2) · · ·
rvv (1)
rvv (0)
p1,n







p2,n
..
.
pn−1,n
pn,n


 
 
 
=
 
 
 
rvv (1)
rvv (2)
..
.
rvv (n − 1)
rvv (n)








Zur besseren Übersicht kann man das lineare Gleichungssystem in einer vereinfachten
Schreibweise darstellen:








[Rvv ]n−1
([Q] ~rvv,n−1 )T



[Q] ~rvv,n−1   ~p·,n




rvv (0)
pn,n
Hierbei bezeichnet man mit Q die Inversionsmatrix:

0 0 ··· 0


0 0 · · · 1

.
. .
Q =  .. .. . . . ..


0 1 · · · 0

1 0 ··· 0
1


 
 
  ~rvv,n−1
=
 
 
 
rvv (n)











0

.. 
.


0

0
mit der die Reihenfolge der Koeffizienten in einem Vektor vertauscht wird. Zur Lösung des
gesamten Gleichungssystems teilt man die Aufgabe in zwei Teilaufgaben der folgenden
156
6.4. PROGNOSEVERFAHREN FÜR STOCHASTISCHE PROZESSE
Form auf:
[Rvv ]n−1 ~
p·,n + pn,n [Q] ~rvv,n−1 = ~rvv,n−1
(6.20)
([Q] ~rvv,n−1 )T p~·,n + pn,n rvv (0) = rvv (n)
(6.21)
Wird der Koeffizient pn,n zunächst als bekannt vorausgesetzt, so erhält man aus dem oberen
Gleichungssystem (6.20):
−1
p·,n = [Rvv ]n−1
~
(~rvv,n−1 − pn,n [Q] ~rvv,n−1 )
−1
= p~n−1 − pn,n [Q][Rvv ]n−1~rvv,n−1
= p~n−1 − pn,n [Q]~
pn−1




pn−1,n−1
p1,n−1








pn−2,n−1 
 p2,n−1 




=
..
..

 − pn,n 




.
.




p1,n−1
pn−1,n−1
Dieses sehr erstaunliche Ergebnis zeigt, dass aus der Kenntnis der Lösung für die Ordnung n − 1 direkt die Lösung für die Ordnung n mit dieser einfachen Vorschrift berechnet
werden kann.
Aus der zweiten Gleichung (6.21) wird schließlich der noch zu berechnende Koeffizient
pn,n durch einsetzen von ~
p·,n hergeleitet:
([Q] ~rvv,n−1 )T · (~
pn−1 − pn,n [Q]~
pn−1 ) + pn,n rvv (0) = rvv (n)
pn,n (rvv (0) − ([Q] ~rvv,n−1 )T · [Q]~
pn−1 ) = rvv (n) − ([Q] ~rvv,n−1 )T · p~n−1
⇒ pn,n =
=
rvv (n) − ([Q] ~rvv,n−1 )T · p~n−1
rvv (0) − ([Q] ~rvv,n−1 )T · [Q]~
pn−1
n−1
P
pk,n−1 · rvv (n − k)
rvv (n) −
k=1
n−1
P
rvv (0) −
k=1
pk,n−1 · rvv (k)
Das rekursive Verfahren wird für die Ordnung 1 direkt durch Berechnung des einzigen
Koeffizienten p1,1 begonnen:
p1,1 =
rvv (1)
.
rvv (0)
Die Lösungen des linearen Gleichungssystems für alle höheren Ordnungen können direkt
aus der obigen Rekursion mit dem einfachen mathematischen Verfahren berechnet werden.
Gleichzeitig wird ein einfaches Kriterium zum Abbruch des Verfahrens hergeleitet: Wenn
sich der quadratische Fehler für eine Prognose bei Berechnung der nächst höheren Ordnung
nicht wesentlich verändert, dann wird das Verfahren gestoppt.
157
KAPITEL 6. STOCHASTISCHE PROZESSE
Dabei ist es sehr hilfreich, dass auch der resultierende quadratische Fehler in jedem
Rekursionsschritt wie folgt mit berechnet werden kann.
FN = FN −1 · (1 − p2N,N )
6.5 Stochastische Signale in LTI-Systemen
Lineare zeitinvariante Systeme (Linear Time Invariant, LTI) haben eine zentrale Bedeutung
in der gesamten Nachrichten- und Elektrotechnik. Die Übertragungseigenschaften von LTI
Systemen sind für deterministische Signale ausführlich in der Vorlesung Systemtheorie
beschrieben und erläutert worden. In der Systemtheorie wird zunächst die Transformationsgleichung hergeleitet, die als Ergebnis zeigt, dass für jedes beliebige Eingangssignal
x(t) das resultierende Ausgangssignal y(t) durch eine Faltung
y(t) = x(t) ∗ h(t)
(6.22)
mit der Impulsantwort h(t) des Systems hergeleitet werden kann. Dabei ist h(t) die Antwort des Systems auf einen Dirac-Impuls δ(t). Aus diesem Grund wird h(t) auch kurz als
Impulsantwort des Systems bezeichnet.
Eigenfunktionen Einige Eingangssignale xE (t), die so genannten Eigenfunktionen, werden bei der Übertragung durch ein solches LTI-System nicht in ihrer Form geändert, sondern lediglich mit einem vom System abhängenden Faktor multipliziert:
y(t) = xE (t) ∗ h(t) = H · xE (t).
(6.23)
Bei diesen Eigenfunktionen handelt es sich um komplexe Exponentialfunktionen:
xE (t) = ejωt = cos(ωt) + j sin(ωt).
(6.24)
Setzt man diese Eigenfunktionen nach Gleichung 6.24 in Gleichung 6.22 ein, so ergibt sich
y(t) = e
jωt
∗ h(t) =
Z∞
h(τ )e
jω(t−τ )
−∞
dτ = e
jωt
Z∞
−∞
|
h(τ )e−jωτ dτ
{z
H(jω)
(6.25)
}
Somit ist die in Gleichung 6.23 geforderte Eigenschaft erfüllt. Die Funktion H(jω) wird
in der Systemtheorie als Übertragungsfunktion des LTI-Systems bezeichnet. Sie beschreibt
anschaulich die Amplituden- und Phasenverzerrungen sämtlicher Eigenfunktionen mit vorgegebener Frequenz.
158
6.5. STOCHASTISCHE SIGNALE IN LTI-SYSTEMEN
Faltungssatz Ein beliebiges Eingangssignal lässt sich als Überlagerung von Eigenfunktionen beschreiben, wobei sich die frequenzabhängigen Amplitudenfaktoren X(jω) durch
Fourier-Transformation des Eingangssignals berechnen lassen. Daraus ergibt sich ein zentraler Satz der Systemtheorie, der Faltungssatz:
y(t)
=
x(t)
*
h(t)
◦
|
•
◦
|
•
◦
|
•
Y (jω)
=
X(jω)
·
H(jω)
In dieser bisherigen Analyse wurden determinischtische Zeitfunktionen betrachtet, die
durch ein LTI System transformiert wurden. In den meisten Fällen praktischer Anwendungen sind die zu übertragenden Signale jedoch nicht deterministischer, sondern stochastischer Natur. Desweiteren wird – wie schon in Kapitel 6.3.3 erwähnt – ein stochastisches
Nachrichtensignal in der Regel bei der Übertragung über einen Kanal mit einem RauschProzess additiv überlagert. Aus diesem Grund erweitern wir an dieser Stelle das Konzept
der Systemtheorie mit deterministischer Anregung auf ein Konzept mit stochastischer Anregung. Es soll dabei untersucht werden, welcher Prozess am Ausgang eines LTI Systems
beobachtet wird, wenn das System mit einem stochastischen Prozess angeregt wird.
Glücklicherweise handelt es sich bei den Nachrichtensignalen in den meisten Fällen
um ergodische stochastische Prozesse, so dass wir uns in diesem Skript auch nur auf diese
Sonderfälle beschränken können.
6.5.1 Kreuzkorrelation zwischen Eingangs- und Ausgangsprozess
Gegeben sei ein LTI-System mit der Impulsantwort h(t). Dieses System wird mit einem
stochastischen Prozess x(t) angeregt, so dass am Ausgang wiederum ein stochastischer
Prozess y(t) anliegt (Abbildung 6.5).
x(t)
h(t)
y(t)
Abbildung 6.5: Allgemeines LTI-System mit Impulsantwort h(t)
Betrachtet man eine Musterfunktion der stochastischen Prozesse, so ergibt sich das Ausgangssignal durch Faltung zu:
y(t) = h(t) ∗ x(t)
Bei der Transformation in den Frequenzbereich erhält man daraus:
Y (jω) = H(jω) · X(jω)
159
KAPITEL 6. STOCHASTISCHE PROZESSE
KKF
zwischen
Eingangs-
und
An dieser Stelle interessiert nun zunächst die Kreuzkorrelation zwischen Eingangs- und
Ausgangsprozess:
Ausgangsprozess
rxy (τ )
= E{x(t)y(t − τ )}


Z∞


= E x(t)
h(ξ)x(t − τ − ξ) dξ


=
Z∞
−∞
−∞
h(ξ)E{x(t)x(t − τ − ξ)} dξ
rxy (τ ) = h(−τ ) ∗ rxx (τ )
(6.26)
Wenn der stochastische Prozess x(t) also eine dirac-förmige AKF besitzt, dann beschreibt die Kreuzkorrelationsfunktion direkt die Impulsantwort h(t) des Systems.
6.5.2 Leistungsdichtespektrum
Jeder stochastische Prozess ist eindeutig durch die zugehörige Autokorrelationsfunktion
beschrieben. Das Leistungsdichtespektrum eines stochastischen Prozesses kann durch die
Fouriertransformation der AKF hergeleitet werden:
Definition 6.8 Das Leistungsdichtespektrum (LDS) Sxx (jω) eines stochastischen ProLeistungsdichte-
zesses X(t) ergibt sich aus der Fouriertransformierten der AKF rxx (τ ):
spektrum
Sxx (jω)
Sxx (jω) = F{rxx (τ )} =
Z∞
rxx (τ )e−jωτ dτ
(6.27)
−∞
❍
Bei Betrachtung der inversen Transformation an der Stelle τ = 0
Z∞
Z∞
1
1
jωτ
−1
Sxx (jω) e
dω Sxx (jω) dω
=
rxx (0) = F {Sxx (jω)} τ =0 =
2π
2π
−∞
τ =0
−∞
(6.28)
entsteht die Leistung des stochastischen Prozesses.
Interpretation: Der Term Sxx (jω)dω kann als Teilleistung des stochastischen Prozesses
aufgefasst werden, die auf das Frequenzband der Breite dω entfällt.
6.5.3 Kreuzleistungsdichtefunktion
Kreuzleistungsdichtefunktion
Sxy (jω)
Die Fourier-Transformation der Gleichung (6.26) mit
h(−τ ) ◦−• H ∗ (jω)
160
6.5. STOCHASTISCHE SIGNALE IN LTI-SYSTEMEN
ergibt die Kreuzleistungsdichtefunktion
Sxy (jω) = H ∗ (jω) · Sxx (jω)
(6.29)
der stochastischen Prozesse X(t) und Y (t).
6.5.4 Wiener-Lee-Beziehung
Ähnlich erhält man die Autokorrelation des Ausgangsprozesses als
ryy (τ ) = h(τ ) ∗ rxy (τ )
(6.30)
Einsetzen der Kreuzkorrelierten (6.7) liefert:
ryy (τ ) = h(τ ) ∗ x(τ ) ∗ h(−τ ) ∗ x(−τ ) = h(τ ) ∗ rxy (τ ) = h(τ ) ∗ h(−τ ) ∗ rxx (τ )
(6.31)
E
Mit der Energie-Autokorrelationsfunktion des LTI-Systems rhh
(τ )
E
rhh
(τ ) = h(τ ) ∗ h(−τ ),
(6.32)
die sich aus dessen Impulsantwort h(t) ergibt, und deren Fourier-Transformierten
E
rhh
(τ ) ◦−• |H(jω)|2
(6.33)
Syy (jω) = |H(jω)|2 · Sxx (jω).
(6.34)
erhält man
Dieser Zusammenhang wird als W IENER -L EE-Beziehung bezeichnet:
W IENER -L EEBeziehung
ryy (τ )
=
*
=
|H(jω)|2
rxx (τ )
◦
|
•
◦
|
•
◦
|
•
Syy (jω)
E
rhh
(τ )
·
Sxx (jω)
Beispiel 6.5 (Weißes Rauschen)
Weißes Rauschen (konstante Rauschleistungsdichte) ist ein stochastischer Prozess, dessen
LDS folgende Form hat:
Sxx (jω) = N0
Die Autokorrelationsfunktion des weißen Rauschens ist diracförmig und kann wie folgt
analytisch angegeben werden:
rxx (τ ) = N0 δ(τ )
161
KAPITEL 6. STOCHASTISCHE PROZESSE
Dieser stochastische Prozess besitzt eine unendlich große mittlere Leistung Nx ! Die Filterung dieses stochastischen Prozesses X(t) mit einem idealem Tiefpassfilter mit der Übertragungsfunktion H(jω) und der Grenzfrequenz ωg führt auf das folgende Leistungsdichtespektrum des Prozesses Y (t) am Filterausgang:
2
ω N0 .
Syy (jω) = |H(jω)|2 · N0 = rect
2ωg Die mittlere Leistung Ny des Prozesses Y (t) am Ausgang des LTI Systems kann wie folgt
berechnet werden:
N0
Ny = ryy (0) =
2π
Z∞
−∞
|H(jω)|2 dω =
1
N0 ωg = 2N0 fg .
π
△
Durch die Transformation des stochastischen Prozesses X(t) mit einem LTI System der
Übertragungsfunktion H(jω) entsteht ein stochastischer Prozess Y (t) am Filterausgang,
der eine endliche mittlere Leistung Ny aufweist.
6.5.5 Anwendung: Systemidentifikation durch weißes Rauschen
Die Impulsantwort eines unbekannten Systems kann durch Anregung des zu untersuchenden Systems mit breitbandigem weißen Rauschen bestimmt werden.
Sxx (jω) = N0 ◦−• rxx (τ ) = N0 · δ(τ )
Der Rauschprozess ist mittelwertfrei und unkorreliert. Die Kreuzkorrelation am Ausgang
beträgt
rxy (τ ) = h(τ ) ∗ N0 · δ(τ ) = N0 · h(τ )
Die Impulsantwort des Systems ist also direkt aus der Kreuzkorrelation bestimmbar:
h(τ ) =
rxy (τ )
N0
(6.35)
Weißes Gaußsches Rauschen
Bei der Untersuchung von Nachrichtenübertragungseinrichtungen ist das additive weiße
gaußsche Rauschen (Additive White Gaussian Noise, AWGN) von besonderer Bedeutung.
Dieser stochastische Prozess n(t) ist durch seine diracförmige Autokorrelationsfunktion
oder alternativ durch sein Leistungsdichtespektrum gekennzeichnet. Er besitzt
• ein weißes Leistungsdichtespektrum mit dem Wert1
Snn (jω) = N0
1 Mitunter
wird das Leistungsdichtespektrum auch mit dem Wert Snn (jω) =
162
N0
2
definiert.
6.5. STOCHASTISCHE SIGNALE IN LTI-SYSTEMEN
• und einer normalverteilten Amplitudendichte für jede der betrachteten Zufallsvariablen n(t).
6.5.6 Anwendung: Korrelationsempfänger, Matched Filter
n (t)
S
k
g (t)
x (t)
r(t)
h (t)
y (t)
T
A
y (T
A
)
Abbildung 6.6: Anwendungsbeispiel Korrelationsempfänger
In der digitalen Nachrichtenübertragung wird der eingehende Bitstrom zunächst auf
die Modulationssymbole Sk abgebildet. Durch die in der Bitfolge enthaltene Zufälligkeit
entsteht auch in der folge der Modulationssymbole eine Zufälligkeit. Das Sendesignal x(t)
wird durch die zu übertragenden durchaus komplexwertigen Modulationssymbole Sk und
die Modulationsimpulse g(t) gebildet und stellt wegen der zufälligen Folge der Modulationssymbole einen stochastischen Prozess dar. Die Symboldauer ist durch T beschrieben.
x(t) =
X
k
Sk g(t − kT )
In der Nachrichtenübertragung wird das übertragene Signal x(t) auf dem Übertragungsweg durch äußere Einflüsse und durch Rauschen gestört oder verfälscht. Dieses Rauschen wird modellhaft durch einen entsprechenden AWGN Prozess n(t) beschrieben, der
dem Nutzsignal additiv überlagert ist.
Die an den Empfänger gerichtete wesentliche Forderung besteht in der Minimierung
der resultierenden Bitfehler. Diese Forderung wird zunächst nicht direkt erfüllt, sondern
über einen Umweg erreicht. Die Bitfehlerwahrscheinlichkeit wird genau dann minimiert,
wenn das Signal-zu-Rauschleistungsverhältnis (SNR) zum Entscheidungszeitpunkt maximiert wurde.
Aus diesem Grund wird das Empfangssignal r(t) = x(t) + n(t) zunächst mit einem
Filter verarbeitet, dessen Impulsantwort h(t) so berechnet und optimiert wird, dass das
resultierende Signal am Filterausgang ein maximales Signal-zu-Rauschleistungsverhältnis
(signal-to-noise-ratio, SNR) zum jeweiligen Abtastzeitpunkt aufweist. Über diesen Schritt
wird gleichzeitig die Bitfehlerwahrscheinlichkeit minimiert.
Der Filterprozess kann alternativ auch als eine Korrelationsverarbeitung zwischen dem
Empfangssignal und dem Modulationsimpuls g(t) interpretiert werden. Aus diesem Grund
163
KAPITEL 6. STOCHASTISCHE PROZESSE
wird auch häufig der Begriff des Korrelationsempfängers verwendet. Die hier diskutierten
Verarbeitungsschritte sind in Abbildung 6.6 als Blockdiagramm anschaulich dargestellt.
Ein solcher Korrelationsempfänger verwendet ein Empfangsfilter, dessen Impulsantwort h(t) an den Modulationsimpuls g(t) angepasst ist, weshalb auch häufig die Bezeichnung „matched“-Filter oder Optimalfilter verwendet wird.
Dieser anschaulich erläuterte Sachverhalt wird im Folgenden in einer analytischen Beschreibung untersucht, indem die Frage nach der Form der Impulsantwort h(t) im Empfangsfilter gestellt wird, so dass zum Abtastzeitpunkt ein jeweils maximales SNR entsteht.
Das mit Rauschen überlagerte Empfangssignal kann am Filterausgang und vor der Abtastung wie folgt beschrieben werden:
y(t) = [x(t) + n(t)] ∗ h(t)
Zur Berechnung des SNR benötigt man die Signalleistung und die mittlere Rauschleistung
im Empfangssignal y(t). Die im Filterausgangssignal enthaltene Nutzsignalleistung S wird
in den Abtastzeitpunkten TA wie folgt berechnet:
 ∞
2
Z
S = 
h(τ )g(TA − τ ) dτ 
−∞
Die mittlere Rauschleistung N am Filterausgang kann mit Hilfe des Parsevallsches Theorems wie folgt berechnet werden:
N = N0
Z∞
1
h (t) dt =
2π
2
Z∞
−∞
−∞
|H(jω)|2 dω
Damit kann das SNR des Signals am Filterausgang wie folgt angegeben werden:
R
2
∞
h(τ
)g(T
−
τ
)
dτ
A
S
1
−∞
R∞
=
2
N
N0
−∞ h dt
Mit der C AUCHY-S CHWARZschen Ungleichung kann der Zähler in dem obigen SNR
wie folgt nach oben abgeschätzt werden.
 ∞
2
Z
Z∞
Z∞
2


h(τ )g(TA − τ ) dτ
≤
g (t) dt ·
h2 (t) dt
−∞
−∞
−∞
Unter Berücksichtigung dieser Abschätzung und der für jedes übertragene Binärzeichen
eingesetzten Energie Eb
Eb =
Z∞
g 2 (t) dt
−∞
kann das resultierende SNR wie folgt nach oben abgeschätzt werden:
R∞ 2
g (t) dt
Eb
S
=
.
≤ −∞
N
N0
N0
164
6.5. STOCHASTISCHE SIGNALE IN LTI-SYSTEMEN
Das maximale SNR kann mit dieser Beziehung auf jeden Fall nicht größer sein als das
Verhältnis der pro Bit eingesetzten Energie Eb zur Rauschleistungsdichte N0 . Diese Tatsache wird zur Herleitung des Optimalfilters bzw. des matched Filters ausgenutzt, indem das
SNR für die explizit vorgebene Filterimpulsantwort
h(t) = g(TA − t).
berechnet wird, die durch die zeitinverse Form des Modulationsimpulses definiert ist. In
diesem Fall berechnet sich das SNR wie folgt:
1
S
=
N
N0
R
∞
g(TA − τ )g(TA − τ ) dτ
−∞
R∞
2
−∞ g(TA − τ ) (t) dt
2
=
R∞
−∞
g(τ )2 dτ
N0
=
Eb
.
N0
Diese Filterimpulsantwort h(t) = g(TA −t) maximiert also das SNR am Filterausgang und
zu den einzelnen Abtastzeitpunkten und wird deshalb als Optimalfilter bezeichnet. Weil die
Form der Impulsantwort h(t) mit der Form des Modulationsimpulses g(t) übereinstimmt
wird alternativ die Bezeichnung matched Filter benutzt.
165
KAPITEL 6. STOCHASTISCHE PROZESSE
166
Kapitel 7
Warteschlangen und
Ankunftsprozesse
In diesem Kapitel wird eine spezielle Gruppe stochastischer Prozesse definiert und analysiert, die man in der Theorie der Warteschlangen- und Ankunftsprozesse zusammenfasst.
Ein Warteschlangensystem ist durch zwei Komponenten charakterisiert. Zunächst betrachten wir eine Bedieneinheit in abstrakter Form, die eine bestimmte Verarbeitung durchführt. Diese Bedieneinheit kann ein gesamtes Telefonnetz oder der zentrale Prozessor in
einem Rechenzentrum sein. Auf diese Bedieneinheit greifen unterschiedliche Nutzer in zufällig gewählten Zeitpunkten zu. Das Zugreifen auf die Bedieneinheit wird als Ankunftsprozess bezeichnet. Wir interessieren uns dafür, wie häufig Nutzer bzw. in welchen zeitlichen Abständen unterschiedliche Nutzer auf die Bedieneinheit zugreifen oder wir sie sich
in eine Warteschlange einreihen. Diesen anschaulich beschriebenen Vorgang beschreiben
wir durch einen Ankunftsprozess.
In vielen Warteschlangensystemen wird der Ankunftsprozess durch einen sogenannten Poisson-Prozess modelliert. Dieses Modell und die dahinter stehenden Annahmen soll
im folgenden beschrieben und quantitativ analysiert werden. Wir interessieren uns einerseits für die Verteilungsfunktion, die bei Analyse der zeitlichen Abstände zwischen zwei
aufeinanderfolgenden Ankünften entsteht. Andererseits interessiert und die Ankunftsrate,
d.h., die Verteilung der Anzahl Ankünfte pro Zeiteinheit. Beide Fragen können durch das
folgende Modell vollständig durch Angeabe der Verteilungsfunktion oder Wahrscheinlichkeitsdichtefunktion beantwortet werden.
167
KAPITEL 7. WARTESCHLANGEN UND ANKUNFTSPROZESSE
7.1 Poisson-Prozess
Der jeweilige zeitliche Abstand Zn zwischen zwei aufeinanderfolgenden Ankünften wird
als Zufallsvariable betrachtet. Dabei wird angenommen, dass die einzelnen Zeitintervalle
Zn durch statistisch unabhängige und identisch verteilte Zufallsvariable beschrieben werden können. Die Verteilungsfunktion der Zufallsvariablen Zn wird explizit berechnet. Auch
für die Anzahl der Ankünfte innerhalb eines vorgegebenen Zeitintervalls wird die Wahrscheinlichkeitsdichtefunktion, die sognannte Poisson-Verteilung explizit hergeleitet.
7.1.1 Zählprozess
Die Länge der Zeitintervalle Z1 , Z2 , . . . , Zn zwischen zwei aufeinanderfolgenden Ankünften werden als statistisch unabhängige identisch verteilte Zufallsvariable beschrieben.
Z1 Z2
N (t0 ) =
6
t
4
t
5
t
t=0
t = t0
Abbildung 7.1: Musterfunktionen des Ankunftprozesses
Summiert man die ersten n Zeiten Zi , so erhält man den Zeitpunkt, der bis zum Eintreffen der n-ten Ankunft vergangen ist:
G∗n =
n
X
Zi
i=1
Es wird zunächst die Frage aufgegriffen, wie viele Ankünfte bis zum Zeitpunkt t = t0
Zählprozess
registriert wurden. Dies wird durch den sogenannten Zählprozess
N (t)
N (t) = n,
mit G∗n ≤ t ∧ G∗n+1 > t
(7.1)
beschrieben und durch Musterfunktionen in Abbildung 7.1 anschaulich verdeutlicht.
Es wird hierbei zunächst ein fester Zeitpunkt t = t0 betrachtet. Der Zählprozess ist
durch die Zufallsvariable N (t0 ) beschrieben, die darüber Auskunft gibt, wie viele Ankünfte
im Intervall [0, t0 ] tatsächlich registiert wurden.
168
7.1. POISSON-PROZESS
7.1.2 Ankunftsrate
Betrachtet man ein sehr grosses Zeitintervall [0, t0 ], so kann man aufgrund der angenommenen Ergodizität des Ankunftsprozesses davon ausgehen, dass im Mittel bei allen Musterfunktionen die gleiche Anzahl von Ankünften gezählt wurden.
Beim Eintreffen von insgesamt nA = N (t0 ) Einheiten in einem festen Interval [0, t0 ]
erhält man eine als konstant betrachtete Ankunftsrate λ, mit der die mittlere Anzahl An-
Ankunftsrate
künfte pro Zeiteinheit beschrieben wird:
λ
λ=
nA
t0
(7.2)
7.1.3 Poissonverteilung
Die betrachtete Zeit t0 soll nun in kleine Intervalle ∆t =
t0
n
unterteilt werden. Diese Inter-
valle ∆t werden so klein gewählt, dass man davon ausgehen kann, dass in einem Intervall
maximal eine Ankunft stattfindet.
Eine Ankunft in einem Intervall ∆t kann somit als ein Bernoulli-Versuch aufgefasst
und modellhaft beschrieben werden. Die Wahrscheinlichkeit p, mit der eine Ankunft in
dem Zeitintervall ∆t vorkommt wird wie folgt berechnet:
p = P (N (∆t) = 1) = λ · ∆t = λ
t0
n
Entsprechend beträgt die Wahrscheilichkeit dafür, dass in diesem Intervall ∆t keine Ankunft registriert wird
q = P (N (∆t) = 0) = 1 − p.
Wir betrachten jetzt wiederum ein längeres Zeitintervall [0, t0 ], in dem also insgesamt
n kleine Intervalle der Länge ∆t angeordnet sind und stellen die Frage, wie viele Ankünfte
in diesem Zeitintervall auftreten können. Dieses Zufallsexperiment kann mit der Bernoullischen Versuchsanordnung beschrieben und die resultierenden Wahrscheinlichkeit von k
Ankünften im Intervall t0 durch die bereits bekannte Binomialverteilung quantitativ berechnet werden. Die Wahrscheinlichkeit für k Ankünfte innerhalb des Zeitintervalls [0, t0 ]
berechnet sich also wie folgt:
P (N (t0 ) = k) =
n k
p (1 − p)n−k
k
Ersetzt man jetzt die Wahrscheinlichkeit p durch λ tn0 dann entsteht folgende Beziehung:
k n−k
n!
λt0
λt0
P (N (t0 ) = k) =
1−
k!(n − k)!
n
n
169
KAPITEL 7. WARTESCHLANGEN UND ANKUNFTSPROZESSE
1
0.8
k
fZ (t)
0.6
0.4
0.2
0
0
1
2
3
4
k
4
2
0
6
10
8
t
Abbildung 7.2: Poisson-Verteilung (P (N (t) = k)) für unterschiedliche Werte des Parameters k
Diese Binomialverteilung analysieren wir für große Werte n und berechnen den Grenzübergang für n → ∞. In diesem Fall entsteht folgende Beziehung:
P (N (t0 ) = k) =
n(n − 1) · · · (n − k + 1) (λt0 )k
k
n
|
{z
} k!
n→∞
= 1
n −k
λt0
λt0
1−
1−
n
n
{z
}|
{z
}
|
n→∞ −λt
= e
n→∞
= 1
In diesem Modell mit wachsendem Parameter n wird die Intervall-Größe ∆t → 0 monoton
verkleinert. Für den Grenzübergang n → ∞ berechnet sich aus der obigen Analyse die so
genannte Poisson-Verteilung mit der folgenden diskreten WahrscheinlichkeitsdichtefunkPoisson-
tion:
Verteilung
Πk (t0 ) = P (N (t0 ) = k) =
Πk (t)
(λt0 )k −λt0
e
k!
(7.3)
Die Poisson Verteilung gibt die Wahrscheinlichkeit an, mit in dem oben beschriebenen
Zählprozess insgesamt k Ankünfte innerhalb des vorgegebenen Zeitintervalls [0, t0 ] registriert wurden.
170
7.1. POISSON-PROZESS
Erwartungswert und Varianz der Poisson-Verteilung
Es soll jetzt der Erwartungswert und die Varianz der Poisson-Verteilung bestimmt werden.
Hierzu betrachtet man zunächst die Taylor-Entwicklung der Exponentialfunktion eλt0 :
eλt0 =
∞
k
X
(λt0 )
(7.4)
k!
k=0
Erste und zweite Ableitung nach λ berechnen sich dann zu
(eλt0 )′
(eλt0 )′′
=
=
t0 eλt0 = t0
t20 eλt0 = t20
∞
∞
k−1
k
X
1 X (λt0 )
(λt0 )
=
k
k
k!
λ
k!
k=0
∞
X
k=0
k=1
k−2
k(k − 1)
(λt0 )
k!
=
∞
∞
1 X 2 (λt0 )k
1 X (λt0 )k
−
k
k
λ2
k!
λ2
k!
k=1
k=1
Mit Hilfe dieser Beziehungen lassen sich jetzt das erste und das zweite Moment folgendermaßen berechnen:
E{N (t0 )}
E{(N (t0 ))2 }
= e−λt0
= e−λt0
∞
X
k=1
∞
X
k=1
k·
(λt0 )k
= λt0
k!
(7.5)
k
k2 ·
(λt0 )
= (λt0 )2 + λt0 .
k!
(7.6)
Somit erhält man für die Varianz
VAR{N (t0 )} = E{(N (t0 ))2 } − (E{N (t0 )})2 = λt0 .
(7.7)
7.1.4 Ankunftsabstände
Die Herleitung der Poisson Verteilung soll jetzt benutzt werden, um die Verteilungsfunktion der Zufallsvariablen Zn , mit der das Zeitintervall zwischen zwei aufeinanderfolgenden
Ankünften beschrieben wird, berechnen zu können. Im Zeitintervall [0, t0 ]wird also eine
Anzahl k von Ankünften mit folgender Wahrscheinlichkeit registriert:
P (N (t0 ) = k) =
(λ · t0 )k −λt0
e
k!
Für den in Gleichung (7.1) formal beschriebenen Zählprozess und die Summe G∗k der Ankunftsabstände Zk gilt dann:
P (N (t0 ) = k) = P (G∗k ≤ t0 ∧ G∗k+1 > t0 )
(7.8)
An dieser Stelle ist die Verteilung der einzelnen Ankunftsabstände Zk von Interesse.
Diese Zufallsvariablen Zk sind als statistisch unabhängig und identisch verteilt angenommen worden. Ohne Beschränkung der Allgemeinheit kann deshalb die Zufallsvariable Z1
in ihrem wahrscheinlichkeitstheoretischen Verhalten untersucht werden.
171
KAPITEL 7. WARTESCHLANGEN UND ANKUNFTSPROZESSE
Wir betrachten die Zufallsvariable Z1 , mit der die Länge des Zeitintervalls bis zur ersten
Ankunft beschrieben wird und einen beliebigen Zeitpunkt t. Zur Berechnung der Verteilungsfunktion FZ1 wird die Wahrscheinlichkeit hergeleitet, mit der im Zeitintervall [0, t0 ]
keine Ankunft registriert wurde.
FZ1 (t) = P (Z1 ≤ t) = 1 − P (Z1 > t)
= 1 − P (keine Ankunft in [0, t])
Nach Gleichung (7.8) kann man diese Wahrscheinlichkeit direkt durch den Zählprozess
N (t) ausdrücken:
FZ1 (t) = 1 − P (N (t) = 0)
= 1 − e−λt
t≥0
Die Ankunftsabstände Zn sind nach dieser Herleitung negativ exponentialverteilt mit der
Verteilungsfunktion FZ (t) und der Wahrscheinlichkeitsdichtefunktion fZ (t):
FZ (t)
= P (Z ≤ t)
(7.9)
= 1 − e−λt ,
fZ (t) =
t≥0
λe−λt
(7.10)
t≥0
(7.11)
Aus diesen Angaben kann der Erwartungswert einer Zufallsvariablen Z, die einer Exponentialverteilung gehorcht, wie folgt berechnet werden:
E{Z} =
Z∞
−∞
t · fZ (t) dt =
Z∞
0
t · λe
−λt
dt = λ ·
Z∞
te−λt dt =
1
.
λ
0
|
{z
1
λ2
}
Mit einer ähnlichen Rechnung ergibt sich für die Varianz der Exponentialverteilung
VAR{Z} =
1
.
λ2
(7.12)
Der mittlere zeitliche Abstand zwischen zwei aufeinanderfolgenden Ankünften ist
somit durch
1
λ
und die mittlere Ankunftsrate durch den Parameter λ beschrieben.
Abbildung 7.3 zeigt ein Beispiel für die Verteilung der Ankunftsabstände mit λ =
1
20 .
Zusammenfassend können zwei wichtige Ergebnisse der durchgeführten Analysen festgehalten werden. Die Anzahl k der Ankünfte innerhalb eines vorgegebenen Zeitintervalls
wird durch die Poisson Verteilung beschrieben. Die Zeitabstände Z zwischen zwei aufeinanderfolgenden Ankünften gehorchen einer Exponentialverteilung. Der betrachtete Ankunftsprozess beinhaltet kein Gedächtnis und deshalb gehorcht die Zufallsvariable Z, mit
der die Zeit bis zur nächsten Ankunft beschrieben wird, wiederum einer Exponentialverteilung.
172
7.2. MARKOV-KETTEN
Ankunftsabstaende mit λ = 1/20
1
0.9
0.8
0.7
FZ(t)
0.6
0.5
0.4
0.3
0.2
0.1
0
0
20
40
60
80
100
120
t
Abbildung 7.3: Verteilungsfunktion der Ankunftsabstände Z
7.2 Markov-Ketten
In der bisherigen Vorgehensweise dieses Kapitels konnten stochastische Prozesse durch die
Eigenschaft der Ergodizität vereinfacht beschrieben werden. In diesem Abschnitt soll nun
eine andere Möglichkeit zur Beschreibung stochastischer Prozesse diskutiert werden.
Dafür geht man wieder von der Beschreibung durch endlich-dimensionale Wahrscheinlichkeitsdichtefunktionen aus. Bei einigen Prozessen gilt die sogenannte M ARKOVEigenschaft (Eigenschaft der Gedächtnislosigkeit): „Der zukünftige Prozessverlauf hängt
bei bekanntem, gegenwärtigen Wert nicht vom vergangenen Prozessverlauf ab.“
Die zugehörigen M ARKOV-Prozesse werden unterteilt gemäß dem Typ des Parameterund Zustandsraumes. Im einfachsten Fall – der im Folgenden betrachtet werden soll – sind
beide Räume diskret, und wir sprechen von M ARKOV-Ketten.
Anwendungsbereiche von Markov-Ketten Mit Hilfe dieser Markov-Ketten lässt sich
eine in der Praxis häufig auftretende Art von Problemen, insbesondere aus dem Bereich
der Warteschlangentheorie, auf sehr einfache und elegante Weise lösen. Zudem werden
Markov-Ketten in vielen Bereichen der Informationstechnik und Nachrichtenverarbeitung
verwendet:
• als Simulationsmodelle, beispielsweise als einfaches Modell eines drahtlosen Kanals
(Gilbert-Elliot Modell) oder zur Simulation von gebündelt auftretenden Nutzeranfra173
KAPITEL 7. WARTESCHLANGEN UND ANKUNFTSPROZESSE
gen (z.B. Netzwerk-Anfragen)
• in der Leistungsbewertung von Telekommunikationsnetzen, z.B. zur Abschätzung
der mittleren Bedienzeit eines Nutzers
Beispiel 7.1 (Lagerhaltung, Teil 2)
Wir betrachten nochmals das Lagerhaltungsbeispiel (Beispiel 6.1): Es seien also:
• Xt , t ∈ N0 : Lagerbestand am Ende der Periode t,
• Yt , t ∈ N0 : Bedarf in der Periode t,
• Yt unabhängig, identisch verteilt mit P {Yt = k} = ak , k ∈ N0 ,
• Bestellregel: (s,S)-Politik.
Falls die Lieferfrist nur eine Periode beträgt, so gilt:


Xt − Yt+1
falls Xt > s
Xt+1 =

S − Yt+1
falls Xt ≤ s
(Negative Bestände seien als Vormerkungen zugelassen.)
Daraus lässt sich ablesen, dass der Lagerbestand am Ende der Periode t + 1 vom gegenwärtigen Lagerbestand der Periode t, nicht jedoch von den Lagerbeständen vergangener
△
Perioden abhängt.
Definition 7.1 (M ARKOV-Kette) Ein stochastischer Prozess X(t) = {Xt , t ∈ N0 } mit
M ARKOV-Kette
abzählbarem Zustandsraum E heisst M ARKOV-Kette (MK), falls gilt:
∀t ∈ N0 : ∀j, i, it−1 , . . . , i0 ∈ E :
P {Xt+1 = j|Xt = i, Xt−1 = it−1 , . . . , X0 = i0 } = P {Xt+1 = j|Xt = i}
bzw. in verkürzter Schreibweise:
P {Xt+1 = j|Xt , Xt−1 , . . . , X0 } = P {Xt+1 = j|Xt }
❍
Eine Markov-Kette ist also ein stochastischer Prozess, bei dem der „nächste“ Zustand
Xt+1 bei bekanntem „gegenwärtigem“ Zustand Xt unabhängig von den „vergangenen“
Zuständen Xt−1 , . . . , X0 ist. Da die Zukunft eines solchen stochastischen Prozesses nur
von der Gegenwart, nicht jedoch von der Vergangenheit abhängt, spricht man in einem
solchen Fall von Gedächtnislosigkeit.
174
7.2. MARKOV-KETTEN
7.2.1 Beschreibung und Eigenschaften von Markov-Ketten
Definition 7.2 (Übergangswahrscheinlichkeit) Die bedingte Wahrscheinlichkeit
Übergangswahrscheinlichkeit
pij (t, t + 1) := pj|i (t, t + 1) = P {Xt+1 = j|Xt = i}
heißt (einschrittige) Übergangswahrscheinlichkeit (ÜW) von i nach j.
pij
❍
Definition 7.3 (homogen) Eine Markov-Kette X(t) heißt homogen, falls die einschrittigen Übergangswahrscheinlichkeiten vom betrachteten Zeitpunkt t unabhängig sind, d.h.
homogen
pij (t, t + 1) = pij .
X(t) heißt dann auch Markov-Kette mit stationären Übergangswahrscheinlichkeiten pij .
❍
7.2.2 Chapman-Kolmogorov- oder Smoluchowsky-Gleichung
Mit Kenntnis dieser Übergangswahrscheinlichkeiten lassen sich im Prinzip die Verbundwahrscheinlichkeiten beliebiger Ordnung bestimmen. Als Beispiel betrachten wir die Verbundwahrscheinlichkeit dritter Ordnung pi,j,k (l, m, n) für das Auftreten der Zustände
i, j, k zu den Zeitpunkten l < m < n. Nach der Zerlegungsregel für Verbundwahrscheinlichkeiten gilt:



pk|i,j (l, m, n) · pj|i (l, m) · pi (l) allgemeine Prozesse



pi,j,k (l, m, n) = pk|j (m, n) · pj|i (l, m) · pi (l)
Markov-Ketten




p (n) · p (m) · p (l)
statistisch unabhängige Prozesse
k
j
i
Wird diese Zerlegung für den Fall der Markov-Kette auf zeitlich folgende Zustände
angewendet, so gibt sie die Wahrscheinlichkeit für eine Trajektorie von Prozesszuständen
an.
Beispiel 7.2 (Trellis-Diagramm)
Bei einem mit pi (l) gewähltem Anfangszustand eines zweiwertigen digitalen MarkovProzesses folgt eine Trajektorie X(l) = 1, X(m) = 0 und X(n) = 0 mit der Verbundwahrscheinlichkeit p1,0,0 (l, m, n) = p1 (l) · p10 (l, m) · p00 (m, n), die anschaulich
in Abbildung 7.4 dargestellt ist. Jede Musterfunktion ist ein möglicher Pfad in diesem Diagramm, deren Verbundwahrscheinlichkeit erfolgt durch Multiplikation der entsprechenden
△
Weggewichte.
175
KAPITEL 7. WARTESCHLANGEN UND ANKUNFTSPROZESSE
p11 (l, m)
p1 (l)
p0 (l)
p11 (m, n)
1
0
1
1
p01 (l, m)
p01 (m, n)
p10 (l, m)
p10 (m, n)
0
p00 (l, m)
l
p00 (m, n)
m
0
n
t
Abbildung 7.4: Trellis-Diagramm für eine zeitdiskrete Markov-Kette mit zwei Zuständen
Unter Zuhilfenahme der Trellis-Diagramme erkennt man, dass man auch für mehrschrittige Zustandsübergänge eine Übergangswahrscheinlichkeit berechnen kann. Man
C HAPMAN -
erhält daraus die sogenannte C HAPMAN -KOLMOGOROV- oder S MOLUCHOWSKY-
KOLMOGOROV
Gleichung zur Berechnung von (n − l) schrittigen Übergangswahrscheinlichkeiten:
Gleichung
pik (l, n) = pk|i (l, n) =
X
j
pij (l, m) · pjk (m, n)
(7.13)
Zur Berechnung der gesuchten Übergangswahrscheinlichkeiten werden also die Wahrscheinlichkeiten aller möglichen Pfade vom Zustand i zum Zustand k aufsummiert.
7.2.3 Übergangsmatrizen
Für die Handhabung von Markov-Ketten ist es sinnvoll, die ÜbergangswahrscheinlichkeiÜbergangsmatrix
ten pij in einem quadratischen Feld PÜ = (pij ) anzuordnen. PÜ heißt Übergangsmatrix
PÜ
(ÜM) der Markov-Kette X(t). Für E = {0, 1, 2, . . .} ist

p00 p01 p02


p10 p11 p12
PÜ = (pij ) = 

p20 p21 p22

..
..
..
.
.
.
PÜ besitzt folgende Eigenschaften:
∀i, j ∈ E :
∀i ∈ E :

...


. . .


. . .

..
.
pij ≥ 0
P
pij = 1 (Zeilensumme=1)
(7.14)
(7.15)
j∈E
stochastische Ma-
Definition 7.4 (stochastische Matrix) Jede |E|×|E|-Matrix mit den Eigenschaften (7.14)
trix
und (7.15) heißt stochastische Matrix.
❍
176
7.2. MARKOV-KETTEN
7.2.4 Kolmogorov’sche Vorwärts- und Rückwärtsgleichungen
Werden die Zustandswahrscheinlichkeiten
pk (n) =
X
i
pi (l) · pik (l, n)
als Komponenten eines Zeilenvektors P (n) = (p0 (n), p1 (n), . . . , pK (n)) betrachtet, so
lässt sich das Bildungsgesetz für zeitdiskrete Markov-Ketten mit Hilfe der Übergangsmatrix PÜ in der Form
P (n) = P (l) · PÜ (l, n)
(7.16)
zusammenfassen.
Ist nun die Anfangsverteilung der Zustände P (0) vorgegeben, so lautet die Verteilung
zum Zeitpunkt n:
P (n) = P (0) · PÜ (0, n)
Hierbei berechnet sich die Matrix der Übergangswahrscheinlichkeiten entsprechend der
Chapman-Kolmogorov-Gleichung (7.13):
PÜ (l, n) = PÜ (l, m) · PÜ (m, n)
Beispiel 7.3 (Signalprozess)
Gegeben sei ein binärer Signalprozess mit den Zuständen X(n) = 0 oder X(n) = 1
als Beispiel einer zweiwertigen Markov-Kette mit dem Anfangsvektor P (0) = (α, β) =
(p0 (0), p1 (0)) und den zeitunabhängigen symmetrischen Übergangswahrscheinlichkeiten
p01 = p10 = p sowie p00 = p11 = q = 1 − p oder als Übergangsmatrix geschrieben:

 

p00 p01
q p
=
 = P (0, 1) = P (1, 2) = . . .
PÜ = 
Ü
Ü
p10 p11
p q
Es soll die Zustandswahrscheinlichkeit nach 2 Zeitschritten bestimmt werden. Die zweischrittige Übergangsmatrix berechnet sich zu:

PÜ (0, 2) = PÜ (2) = PÜ (0, 1)·PÜ (1, 2) = 
q
p
p
q

q

p
p
q


=
q 2 + p2
2pq
2pq
q 2 + p2
Die Zustandswahrscheinlichkeit nach 2 Zeitschritten berechnet sich damit zu:
P (2) = P (0) · PÜ (0, 2) = (α · (q 2 + p2 ) + β · 2pq, α · 2pq + β · (q 2 + p2 ))
1
1 + (α − β) · (q − p)2 , 1 − (α − β) · (q − p)2
=
2
177


△
KAPITEL 7. WARTESCHLANGEN UND ANKUNFTSPROZESSE
Die bisherigen Berechnungsvorschriften erlauben nur eine iterative Berechnung für
langzeitige bzw. höhere Übergangswahrscheinlichkeiten. Im Folgenden soll nun eine direkte Berechnung der gesuchten Wahrscheinlichkeitsverteilungen angestrebt werden.
Zu diesem Zweck betrachten wir zwei ausgezeichnete Zeitpunkte t1 = m1 = n − 1
und t2 = m2 = l + 1. Die mehrschrittigen Übergangswahrscheinlichkeiten ergeben sich
damit zu
PÜ (l, n) =


P (l, n − 1) · P (n − 1, n)
Ü
Ü
(7.17)

P (l, l + 1) · P (l + 1, n).
Ü
Ü
Diese Gleichungen bezeichnet man als KOLMOGOROV’sche Vorwärts- bzw. Rückwärtsgleichungen. Sie ergeben sich aus der C HAPMAN -KOLMOGOROV-Gleichung durch Betrachtung eines vorwärts- bzw. rückwärtsgerichteten Zeitpunktes t1 bzw. t2 . Die Lösung
dieser Gleichungen ergibt sich durch wiederholte Anwendung von Gleichung (7.17):
PÜ (l, n) = PÜ (l, n − 2) · PÜ (n − 2, n − 1) · PÜ (n − 1, n) =
n
Y
i=l+1
PÜ (i − 1, i) (7.18)
7.2.5 Homogene Markov-Ketten
Für Markov-Ketten, die die Eigenschaft der Homogenität aus Definition 7.3 besitzen, vereinfacht sich die Berechnung der Übergangsmatrizen. Bei homogenen Markov-Ketten sind
die Übergangswahrscheinlichkeiten vom betrachteten Zeitpunkt unabhängig, so dass man
schreiben kann:
PÜ (n − 1, n) = PÜ (1) = PÜ
Für mehrschrittige Übergangswahrscheinlichkeiten gilt im homogenen Fall laut der Vorwärtsgleichung (7.18)
PÜ (l, n) = [PÜ ]n−l = PÜ (n − l)
wonach die Übergangswahrscheinlichkeiten nicht mehr gewählten Zeitpunkt, sondern nur
noch von der betrachteten Zeitdifferenz abhängen. Die Zustandswahrscheinlichkeiten lassen sich damit bei vorgegebenen Anfangs- und Randbedingungen P (0) für jeden gewünschten Zeitpunkt berechnen:
P (n) = P (0) · [PÜ ]n
(7.19)
Beispiel 7.4 (Markov-Kette)
Eine homogene zweistufige Markov-Kette mit den Übergangswahrscheinlichkeiten p00 =
p11 = q und p01 = p10 = p bilde den binären Prozess des Beispiels 7.3. Gefragt sei
nach dem Zustandsdiagramm und der zeitabhängigen Zustandsverteilung P (n) sowie dem
178
7.2. MARKOV-KETTEN
Anfangs- oder Startvektor P (0) = (α, β) für einen a priori stationären Prozessverlauf. Das
entsprechende Zustandsdiagramm zeigt Abbildung 7.5(a).
Die Elemente der n-schrittigen Übergangsmatrix PÜ (n) = [PÜ ]n sind in geschlossener Form angebbar und lauten:
1
1 + (q − p)n = q(n)
2
1
p01 (n) = p10 (n) = 1 − (q − p)n = p(n)
2
p00 (n) = p11 (n) =
Für die Zustandswahrscheinlichkeiten des binären Signalprozesses gilt dann nach Gleichung (7.19):
P (n) = P (0) · PÜ (n) = (p0 (n), p1 (n)) =
1
1 + (α − β)(q − p)n , 1 + (α − β)(q − p)n
2
Für n → ∞ liefert diese Gleichung unabhängig vom Anfangsvektor P (0) den stationären
Vektor der Zustandswahrscheinlichkeiten
P (∞) = lim P (n) =
n→∞
1 1
,
2 2
.
Der zeitliche Verlauf der Zustandswahrscheinlichkeiten ist für verschiedene Werte der
Übergangswahrscheinlichkeiten dem Bild 7.5(b) zu entnehmen. Für große Werte n strebt
P (n) somit gegen eine stationäre Verteilung. Die Markov-Kette ist von vorneherein statio△
när, wenn zum Zeitpunkt n = 0 die Binärzeichen gleichverteilt sind.
1
p = 0.2
p = 0.5
0.9
p11 = q
0.8
0.7
1
0.6
pk(n)
p1
p01 = p
p10 = p
0.5
0.4
0.3
p0
0.2
0
0.1
p00 = q
0
0
2
4
6
8
10
t=n
12
14
16
18
20
(b) Zeitverhalten
(a) Zustandsdiagramm
Abbildung 7.5: Zweiwertiger Markov-Prozess
Beispiel 7.5 (Bernoulli-Kette)
Eine Bernoulli-Kette ist dadurch gekennzeichnet, dass die zeitlich aufeinanderfolgenden
Zustände statistisch unabhängig sind. Damit können die Übergangswahrscheinlichkeiten
nicht beliebig vorgegeben werden, denn bei statistischer Unabhängigkeit gilt:
p00 = p10 = p0 = α
und p11 = p01 = p1 = β
179
KAPITEL 7. WARTESCHLANGEN UND ANKUNFTSPROZESSE
Für die Zustandswahrscheinlichkeiten ergibt sich deshalb zu jedem Zeitpunkt n
p0 = p0 p00 + p1 p10 = α2 + αβ = α2 + α(1 − α) = α und
p1 = p0 p01 + p1 p11 = αβ + β 2 = β.
Eine Bernoulli-Kette ist also von vornherein stationär.
180
△
Teil III
Detektion und Estimation
181
Kapitel 8
Detektion
In den vorangegangenen Kapiteln ist man davon ausgegangen, dass ein betrachteter stochastischer Prozess bzw. eine Zufallsvariable vorgegeben ist. Das heißt, man kennt dessen
Parameter oder eine Realisierung des stochastischen Prozesses. In der Praxis ist jedoch ein
zu untersuchendes Signal in der Regel nicht vollständig bekannt, so dass man dessen Eigenschaften bestimmen muss. Je nach Anwendungsfall unterscheidet man hier zwischen
Detektion und Estimation.
8.1 Detektion und Estimation
In der Nachrichtentechnik tritt häufig der Fall auf, dass ein Signalverlauf über einen Nachrichtenkanal übertragen wird. Diese Signalübertragung wird genutzt, um eine Information
von einer Quelle zu einer Senke zu übermitteln. Das Signal wird jedoch bei der Übertragung gestört, so dass der empfangene Signalverlauf nicht mehr exakt dem gesendeten
entspricht.
Entscheidung
über Sendesignal
Störung
Empfänger
Sender
Schätzung von
Signalparametern
Abbildung 8.1: Detektion und Estimation
Bei der Detektion wird das empfangene Signal einem möglichen gesendeten Signal
183
KAPITEL 8. DETEKTION
Entscheidungsregel
f(y|x)
Y1
X1
X2
Y2
Empfänger
Sender
d1
d2
Entscheidung
Abbildung 8.2: Detektion
zugeordnet. Da die Sendesignale in der Regel nur diskrete Werte annehmen, besteht die
Detektion aus einer Zuordnung des Empfangssignals zu einem Sendesignal, das mit der
größten Wahrscheinlichkeit von der Quelle übermittelt wurde.
Aus den vorherigen Kapiteln ist bekannt, dass man Zufallsvariablen und stochastische
Prozesse auf verschiedene Weisen beschreiben kann. Dies kann beispielsweise durch Wahrscheinlichkeitsdichten oder auch durch Momente, wie Erwartungswert und Varianz, geschehen. Bei der Estimation schätzt man die Parameter eines unbekanntes Prozesses, um
ihn damit beschreiben zu können.
Abbildung 8.1 zeigt die Beziehung zwischen Detektion und Estimation beim Empfänger.
8.2 Binäre Detektion
Wir betrachten nun die Übertragung eines einzelnen binären Sendesymbols xk . Senderseitig besteht der Wertebereich des Symbols also nur aus zwei Werten. Bei der Übertragung
wird das Signal verfälscht, so dass am Ende des Übertragungskanals ein kontinuierliches
Empfangssignal yk vorliegt. Die Aufgabe der Detektion besteht nun darin, eine Entscheidungsregel anzugeben, für welche Werte des Empfangssignals yk man sich sich für welchen
der beiden Werte xk entscheidet (Abbildung 8.2).
8.2.1 Entscheidungsregel
Mit Hilfe der Entscheidungsregel wird der durch die Übertragung entstandene kontinuierliche Wertebereich wieder auf einen diskreten Wertebereich E abgebildet, der dem Wertebereich des Sendesignals xk entspricht:
Definition 8.1 (Entscheidungsregel) Unter einer Entscheidungsregel versteht man eine
Entscheidungsregel
Abbildung
d : Ẽ → E,
dk = d(yk ).
184
8.3. BAYES-DETEKTOR
❍
Im Falle einer binären Entscheidung wird der Raum der Empfangssignale Y in zwei
Gebiete Y1 und Y2 unterteilt. Liegt y im Gebiet Yk , so wird auf dk entschieden. Man kann
die Entscheidungsregel dann wie folgt zusammenfassen:


d1 = x1 für y ∈ Y1
d(y) =

d2 = x2 für y ∈ Y2
(8.1)
Dabei gilt Y1 ∩ Y2 = ∅ und Y1 ∪ Y2 = Y .
8.2.2 Detektionsregeln
Je nach Art der Kenntnisse über a-priori-Wahrscheinlichkeiten P (xk ) und Wichtung von
Fehlentscheidungen ergeben sich unterschiedliche Detektionsverfahren:
P (xk )
Benötigte Parameter
Maximum-Likelihood
unbekannta
keine
Maximum-a-posteriori
bekannt
keine
Bayes
bekannt
Kostenfunktion
unbekannt
Fehldetektionswahrscheinlichkeit
Detektor
Neyman-Pearson
a Beim
ML-Detektor sind die P (xk ) unbekannt und werden als gleichverteilt vorausgesetzt.
Den allgemeinsten Fall stellt der Bayes-Detektor dar. Nimmt man eine spezielle Kostenfunktion an, so erhält man den Maximum-a-posteriori (MAP) Detektor. Geht man bei
diesem von gleichen a-posteriori Wahrscheinlichkeiten aus, so erhält man den MaximumLikelihood (ML) Detektor. Einen Sonderfall bildet der Neyman-Pearson (NP) Detektor.
Dieser minimiert das Risiko für eine vorgegebene Fehlentscheidung.
8.3 Bayes-Detektor
Bei der Wahl einer Entscheidungsregel für einen Detektor ist es immer das Ziel, sich möglichst immer für das „richtige“, d.h. das tatsächlich gesendete, Symbol zu entscheiden und
das Risiko für eine Fehlentscheidung zu minimieren. Deshalb wird eine Risikofunktion
definiert, die dann minimiert wird, um den Detektor zu optimieren.
8.3.1 Risiko
Das Risiko ist abhängig von den Verbundwahrscheinlichkeiten P (dk , xi ), dass bei einem
Sendesymbol xi auf ein Empfangssymbol dk entschieden wird. Da sich bestimmte Fehl185
KAPITEL 8. DETEKTION
entscheidungen unter Umständen weitaus gravierender auswirken können, werden die Verbundwahrscheinlichkeiten mit einem Kostenfaktor versehen.
Dies wird an folgendem Beispiel deutlich: Man stelle sich vor, man stehe vor einer Verkehrsampel, deren Licht man wegen der Sonneneinstahlung nicht genau erkennen kann. In
diesem Fall ist eine Entscheidung für „grün“, wenn die Ampel „rot“ zeigt, weitaus ungünstiger (also mit einem hohen Kostenfaktor zu versehen) als der umgekehrte Fall.
Definition 8.2 (Risiko) Das Risiko R ist die zu minimierende Kostenfunktion eines DetekRisiko
tors.
R = C11 P (d1 , x1 ) + C21 P (d2 , x1 ) + C12 P (d1 , x2 ) + C22 P (d2 , x2 )
R
(8.2)
❍
Es erfolgt also nicht in allen Fällen eine richtige Entscheidung. Mit dem Risiko wird
bestimmt, wie groß die Gefahr ist, die aus den jeweiligen (Fehl-)Entscheidungen resultiert.
Dabei geht jede Entscheidung mit einem Gewichtsfaktor multipliziert in die Berechnung
des Risikos ein. Dieser Faktor beschreibt, wie gravierend der jeweilige Fehler ist. Der Gewichtsfaktor Cik wird auch als Kostenfunktion bezeichnet.
In der Regel verursachen richtige Entscheidungen geringere Kosten als Fehlentscheidungen. Somit fallen auch die entsprechenden Kostenfaktoren geringer aus:
C11 < C21
und C22 < C12
Ziel ist es nun, eine Entscheidung so zu treffen, dass geringe Kosten entstehen. Dies ist
gleichzusetzen mit einer Minimierung der Kostenfunktion.
Anschaulich kann man sich diese Kosten auch anhand von Beispielen vorstellen:
• Kosten auf Grund der falschen Detektion eines Maschinendefekts, d.h. Kosten können sogar monetäre Größen darstellen!
• Falsch detektierter Empfangsbits bei einer Datenübertragung führen zu einer Wiederanforderung, welches die Verbindungsdauer und die damit verbundenen Kosten
ansteigen lässt.
8.3.2 Entscheidungsregel
Mit
P (xi , dk ) = P (dk |xi )P (xi ) = P (xi )
Z
fy|xi (y|xi ) dy
(8.3)
Yk
und
P (d2 |x1 ) = 1 − P (d1 |x1 )
und P (d2 |x2 ) = 1 − P (d1 |x2 )
186
(8.4)
8.3. BAYES-DETEKTOR
wird nun Gleichung 8.2 umgeformt zu
R =
C11 · P (d1 |x1 )P (x1 ) + C21 · (1 − P (d1 |x1 ))P (x1 ) +
C12 · P (d1 |x2 )P (x2 ) + C22 · (1 − P (d1 |x2 ))P (x2 )
=
P (x1 ) · (C21 + (C11 − C21 )P (d1 |x1 )) + P (x2 ) · (C22 + (C12 − C22 )P (d1 |x2 )).
Jetzt kann das Risiko nur in Abhängigkeit vom Gebiet Y1 geschrieben werden als
R = P (x1 )C21 + P (x2 )C22
Z
P (x2 )(C12 − C22 )fy|x2 (y|x2 ) − P (x1 )(C21 − C11 )fy|x1 (y|x1 ) dy. (8.5)
+
Y1
Ziel ist die Minimierung des Risikos der Entscheidung durch Wahl der Entscheidungsgrenze zwischen Y1 und Y2 .
⇒ Hierfür muss der Integrand für alle y ∈ Y1 negativ sein.
Beachtet man, dass auf Grund der Relation der Kosten gilt
P (x2 )(C12 − C22 )fy|x2 (y|x2 ) >
0
P (x1 )(C21 − C11 )fy|x1 (y|x1 ) >
0,
dann erkennt man, dass auf d1 oder d2 nach folgender Regel entschieden werden sollte:
d2
P (x2 )(C12 − C22 )fy|x2 (y|x2 ) ≷ P (x1 )(C21 − C11 )fy|x1 (y|x1 ).
(8.6)
d1
Da Y1 genau die Menge der Empfangssignale y bezeichnet, für die man auf d1 entscheidet,
ist durch diese Entscheidungsregel sichergestellt, dass der Integrand in Gleichung 8.5 für
alle y ∈ Y1 negativ ist.
8.3.3 Likelihood-Quotient
Falls für die Übergangswahrscheinlichkeitsdichten
fy|xi (y|xi ) > 0
(8.7)
gilt, so kann man die Entscheidungsregel auch mit Hilfe des Likelihood-Quotienten Λ(y)
Λ(y) =
fy|x2 (y|x2 ) d2 P (x1 )(C21 − C11 )
≷
fy|x1 (y|x1 ) d1 P (x2 )(C12 − C22 )
oder in logarithmierter Form als Log-Likelihood-Ratio (LLR)
fy|x2 (y|x2 ) d2
P (x1 )(C21 − C11 )
Λ(y) = ln
≷ ln
fy|x1 (y|x1 ) d1
P (x2 )(C12 − C22 )
(8.8)
(8.9)
angeben.
Durch Einführung des LLR vereinfacht sich insbesondere bei gaußsche Störungen die
Rechnung erheblich.
187
KAPITEL 8. DETEKTION
8.4 Maximum-a-posteriori Detektor (MAP)
Möchte man die Fehlerwahrscheinlichkeit
!
PE = P (d2 , x1 ) + P (d1 , x2 ) = min.
minimieren, so erkennt man, dass dies gerade einer Minimierung des Risikos des BayesDetektors mit der speziellen Kostenfunktion
C11 = C22 = 0,
C12 = C21 = 1
entspricht.
Die Entscheidungsregel für den MAP-Detektor lautet also
d(y) =
Mit Hilfe der Umformung


d1

d2
P (xk |y) =
Λ(y) <
P (x1 )
P (x2 )
Λ(y) ≥
P (x1 )
P (x2 )
(8.10)
P (xk )fy|xk (y|xk )
P (y)
erhält man die Entscheidungsregel des MAP-Detektors
d1
P (x1 |y) ≷ P (x2 |y)
(8.11)
d2
mit den a-posteriori Wahrscheinlichkeiten P (xk |y).
⇒ Der MAP-Detektor wählt also den Entscheidungswert dk , dessen Wahrscheinlichkeit
für den beobachteten Empfangswert y am größten ist! (Abbildung 8.3)
8.5 Maximum-Likelihood Detektor
In der Regel sind die a-priori Wahrscheinlichkeiten P (xi ) eines Sendesignals unbekannt.
Es wird versucht eine Gleichverteilung der a-priori Wahrscheinlichkeiten zu erreichen, so
dass gilt
P (xi ) =
1
n
i = 1, 2, . . . , n.
Die MAP-Entscheidungsregel vereinfacht sich hierdurch zu
d(y) =


d1

d2
Λ(y) < 1
Λ(y) ≥ 1
Abbildung 8.4 illustriert die Enscheidungsregel der ML-Detektion.
188
(8.12)
8.6. NEYMAN-PEARSON-DETEKTOR
MAP−Detektion
0.4
Y
Y
1
0.35
2
Klasse 1
0.3
Klasse 2
P(xi) fY|X(y|xi)
0.25
0.2
0.15
0.1
0.05
0
0
1
2
x
3
4
1
5
6
x
x
7
8
9
10
2
Abbildung 8.3: Entscheidungsregel MAP-Detektor
8.6 Neyman-Pearson-Detektor
In einigen Fällen besitzt ein Ereignis und somit auch eine Fehldetektionswahrscheinlichkeit
eine besondere Bedeutung. Beispiele hierfür wären ein Feueralarm-Melder, bei dem ein
Fehlalarm möglichst vermieden werden sollte, oder das in der Einleitung erwähnte AmpelSzenario. Auch die Unfallsensoren im Auto sollten keinen Fehlalarm produzieren, da es
ungünstig wäre, wenn bei normaler Fahrt plötzlich der Airbag auslöst.
Die Entscheidungsregel nach N EYMAN -P EARSON legt deshalb besonderes Gewicht
auf diese Fehldetektionswahrscheinlichkeit. Im Folgenden soll angenommen werden, dass
man mit dem Ereignis x1 ein Rauschen und mit dem Ereignis x2 eine Alarmsituation
bezeichnet. Hierbei unterscheidet man folgende Wahrscheinlichkeiten:
• Falschalarmwahrscheinlichkeit: α = P (d2 |x1 )
• Nichtdetektionswahrscheinlichkeit: P (d1 |x2 )
• Detektionswahrscheinlichkeit: P (d2 |x2 )
Der Neyman-Pearson-Detektor verfolgt das Ziel, bei vorgegebener Falschalarmwahrscheinlichkeit die Detektionswahrscheinlichkeit zu maximieren. Daher gibt man vor, welche Falschalarmwahrscheinlichkeit noch tolerierbar ist, und unter dieser Voraussetzung
wird dann die Detektionsschwelle gewählt (Abbildung 8.5).
189
KAPITEL 8. DETEKTION
ML−Detektion
0.4
Λ(y) < 1
0.35
Λ(y) > 1
Klasse 1
0.3
Klasse 2
fY|X (y|xi)
0.25
i
0.2
0.15
0.1
0.05
0
0
1
2
x
3
4
1
5
6
x
x
7
8
9
10
2
Abbildung 8.4: Maximum-Likelihood Detektion
Beispiel 8.1 (Alarmsensor)
Das Signal eines Alarmgebers X2 wird durch ein komplexes Rauschen X1 überlagert (Y =
X1 + X2 ). Das Alarmsignal ist um den Mittelwert µ2 = z = 4, 5 normalverteilt mit der
Varianz σ22 = 1. Das Rauschen ist Rayleigh-verteilt mit σ12 = 1. In Abbildung 8.5 sind die
beiden Verteilungsdichten dargestellt, wobei zur besseren Darstellung für die RayleighVerteilung ein Wert σ12 = 2 gewählt wurde.
• Das Alarmsignal ist um den Mittelwert µ2 = z = 4, 5 normalverteilt mit der Varianz
σ22 = 1.
• Das Rauschen ist Rayleigh-verteilt mit σ12 = 1 (gezeichnet: σ12 = 2)
• Die Fehldetektionswahrscheinlichkeit soll unter α = 10−3 bleiben:
PF =
Z∞
f (y|x1 ) dy =
s
Z∞
s
2
y
!
y − 2σ
2
e 1 dy ≤ 10−3
2
σ1
⇒ s ' 3, 72
• Die Detektionswahrscheinlichkeit ergibt sich daraus zu:
PD =
Z∞
s
f (y|x2 ) dy = 1 − Φ
s−z
σ2
=Φ
z−s
σ2
= Φ(4.5 − 3.72) ≈ 78, 23%
△
190
8.6. NEYMAN-PEARSON-DETEKTOR
0.5
Rauschen
Nutzsignal
0.4
f
Y|X
i
i
(y|x )
0.3
0.2
PD=1−PN
0.1
PN
0
0
1
2
PF
3
4
5
6
7
8
s x
Abbildung 8.5: Neyman-Pearson Detektor
Die Detektionswahrscheinlichkeit PD und die Falschalarmwahrscheinlichkeit PF sind
nicht unabhängig. Es existieren zwei Grenzfälle:
PD = PF = 0
und PD = PF = 1
Die Lösung des Optimierungsproblems
!
PD = max. mit α − PF = 0
(8.13)
erfolgt mit Hilfe der Lagrangen Multiplikatorenregel
F
=
=
PD + λ(α − PF )
Z
!
fY |X1 (y|x1 ) − λfY |X2 (y|x2 ) dy = max.
λα +
(8.14)
Y1
F wird maximal, wenn
fY |X1 (y|x1 ) > λfY |X2 (y|x2 )
(8.15)
gilt, so dass für die Entscheidungsregel des Neyman-Pearson Detektors gilt:
d=


d1

d2
falls Λ(y) =
fY |X2 (y|x2 )
fY |X1 (y|x1 )
<λ
falls Λ(y) =
fY |X2 (y|x2 )
fY |X1 (y|x1 )
≥λ
191
(8.16)
KAPITEL 8. DETEKTION
Oft ist statt der Schwelle für den Likelihood-Quotienten λ jedoch die Schwelle ys gesucht, mit der Nutz- und Rauschsignal direkt unterschieden werden können. (In Abbildung 8.5 der Einfachheit halber nur mit s bezeichnet.) Diese bestimmt man, wie aus obigem
Beispiel bekannt, aus der Nebenbedingung:
Z
PF = α = fY |X1 (y|x1 ) dy
Y2
Ist, wie im Beispiel, das Nutzsignal x2 in der Darstellung nach Abbildung 8.5 rechts vom
Rauschsignal x1 , so würde für Werte y > ys auf d2 entschieden. Somit lässt sich die
Integration über Y2 schreiben als
PF =
Z∞
fY |X1 (y|x1 )dy.
ys
(Bei umgekehrten Verhältnissen, also x1 > x2 , würde für Werte y < ys auf d2 entschieden.
In diesem Fall sind die Integrationsgrenzen selbstverständlich entsprechend anzupassen.)
Oft ist zur Festlegung des Neyman-Pearson Detektors die Angabe der so berechneten
Schwelle ys ausreichend. Gegebenenfalls lässt sich über die Definition des LikelyhoodQuotienten hieraus die entsprechende Schwelle λ in Gleichung 8.16 bestimmen.
192
Kapitel 9
Schätzverfahren (Estimation)
Bei den in Kapitel 8 diskutierten Verfahren zur Detektion bestand die Aufgabe darin, Signalwerte bzw. Zufallswerte und -vektoren jeweils einer Klasse zuzuordnen. Das Ziel war
demnach, eine Abbildung in Form einer Detektionsregel von einem kontinuerlichen Wertebereich in einen diskreten (manchmal binären) Definitionsbereich zu finden.
9.1 Zielsetzung der Schätzverfahren
Die Detektion trifft eine Aussage über das am wahrscheinlichsten gesendete aber diskrete
und einem endlichen Wertevorrat entstammende Symbol. Demgegenüber beschäftigt sich
die Estimation mit der Bestimmung eines Schätzwertes â zur Schätzung eines einem kontinuierlichen Wertebereich entstammenden Signalparameters a. Der zu schätzende Signalparameter a kann im Sonderfall auch aus einen diskreten Wertebereich stammen. So gesehen
ist die Detektion ein Sonderfall der Estimation.
Abbildung 9.1 stellt das benutzte Modell der Parameterschätzung grafisch dar.
Störung
f(y|a)
f(a)
X1
X2
Schätzregel
{â}
{a}
{y}
Parameterraum
Parameterraum
Sender
Empfangssignalraum
Abbildung 9.1: Modell der Parameterschätzung
193
KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION)
Beispiele für Parameterschätzungen
Von einer Zufallsvariablen liegen mehrere statistisch unabhängige und identisch verteilte
Beobachtung vor, aus denen beispielhaft die folgenden Parametern zu schätzen sind:
• Signalverarbeitung: Schätzung von Kenngrößen der unbekannten Wahrscheinlichkeitsdichtefunktion der beobachteten Zufallsvariablen wie z.B. Erwartungswert und
Varianz.
• Nachrichtenübertragung: Schätzung von Eigenschaften des Übertragungskanals wie
Übertragungsfunktion bzw. Impulsantwort, Laufzeiten, Signal-zu-Rausch Abstand
• Radartechnik: Schätzung von Laufzeit, Dopplerverschiebung, Signalamplitude
In Anwendungsbereichen mit beobachteten zeitvarianten stochastischen Prozessen ist die
Schätzung zeitlich variabler Parameter von Interesse, wie z.B. die Bestimmung
• zeitvarianter Erwartungswerte (Filterung), oder
• die Prognose zukünftiger Signalwerte (Prädiktion).
9.1.1 Arten von Schätzverfahren
Es sollen folgende Fälle der Parameterschätzung betrachtet werden:
Parameter
Vorraussetzung
deterministisch
keine
stochastisch
fy|a (y|a) und Fa (a) bekannt
stochastisch
fy|a (y|a) bekannt
stochastisch
AKF von a bekannt
stochastisch
AKF von a unbekannt
Man unterscheidet insbesondere zwischen Verfahren, welche auf der Kenntnis der apriori Wahrscheinlichkeiten des Parameters a beruhen, und Verfahren, welche ohne dieses
Vorwissen auskommen.
9.1.2 Beurteilung
Wenn ein Schätzverfahren entworfen wurde, dann stellt sich die Frage nach der stochastischen Beurteilung der Qualität dieser Schätzung. Dazu werden beispielsweise die folgenden drei Qualitätsmerkmale betrachtet:
• Erwartungstreue
194
9.1. ZIELSETZUNG DER SCHÄTZVERFAHREN
• Varianz der Schätzwerte bzw. Schätzvarianz
• Konsistenz
Diese drei Merkmale sollen in den folgenden Abschnitten an einigen wichtigen Beispielen
näher erläutert werden. Dazu wird folgende Situation angenommen: Von einer Zufallsvariablen Y liegen mehrere insgesamt N Realisierungen y(1), y(2), ..., y(N ) in statistisch
unabhängiger und identisch verteilter Form vor. Aus diesen Beobachtungen wird ein Verfahren zur Schätzung eines Parameters a hergeleitet, das in abstrakter Form durch die folgende Gleichung beschrieben werden kann:
â = g(y(1), y(2), ..., y(N ))
Hierbei wird â als Schätzung oder Schätzwert des durch die Funktion g ausgedrückten
Schätzverfahrens bezeichnet. Dieses zunächst abstrakte Schätzverfahren soll im Folgenden
unter stochastischen Gesichtspunkten analysiert werden.
9.1.3 Erwartungstreue
Bei Anwendung eines Schätzverfahrens werden immer Abweichungen vom wahren Wert
auftreten, es verbleibt also je nach Betrachtungsweise eine Schätzunsicherheit oder ein
Schätzfehler. Allerdings wird von einem guten Schätzverfahren erwartet, dass die Abweichungen der Schätzwerte vom wahren Wert einerseits möglichst klein sind und sich andererseits möglichst symmetrisch um dem wahren Wert herum anordnen werden. Diese
anschauliche Beschreibung wird im folgenden durch formale Kriterien konkretisiert. Die
Anordnung um den wahren Wert herum wird durch den Begriff der Erwartungstreue formal
erfasst.
Ein Schätzverfahren â wird als erwartungstreu oder unbiased bezeichnet, falls zumindest der Erwartungswert E(â) der Schätzwerte â mit dem gesuchten Parameter a übereinstimmt, d.h.:
E{â} = a.
Falls die Wahrscheinlichkeitsdichtefunktion fâ (â) der Schätzwerte â vollständig bekannt
ist, dann kann die Erwartungstreue auch wie folgt überprüft werden:
E{â} =
Z∞
!
âfâ (â) dâ = a
(9.1)
−∞
In der Regel ist die Wahrscheinlichkeitsdichtefunktion der Schätzwerte â allerdings nicht
oder nicht vollständig bekannt, so dass die analytische Überprüfung alternativ zu erfolgen
hat.
195
erwartungstreu
unbiased
KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION)
fÂ(â)
gute Schätzung
schlechte Schätzung
a
â
Abbildung 9.2: Vergleich einer guten mit einer schlechten Schätzung
Falls sich bei Überprüfung der Erwartungstreue eine konstante Abweichung b (bias)
zwischen den Schätzwerten â und dem wahren Wert a ergibt, so kann diese Abweichung
durch eine Modifikation der Schätzfunktion bereits von vornherein korrigiert werden.
9.1.4 Varianz der Schätzung
Der anschauliche Wunsch, dass die Schätzwerte möglichst gering vom wahren Wert abweichen, wird formal durch die Schätzvarianz erfasst.
Je geringer die Varianz der Schätzwerte ist, desto geringer ist die mittlere quadratische Abweichung der Schätzwerte â vom Erwartungswert der Schätzung.
V AR{â} = E (â − E{â})2 = E{â2 } − E{â}2
(9.2)
Falls das Schätzverfahren erwartungstreu ist, dann beschreibt die Schätzvarianz gleichzeitig die quadratische Abweichung vom wahren Wert a.
V AR{â} = E (â − a)2 = E (â − E{â})2
(9.3)
Schätzverfahren mit minimaler Schätzvarianz werden als wirksame Schätzverfahren bezeichnet, (vgl. Abbildung 9.2).
9.1.5 Konsistenz
Ein Schätzverfahren heißt konsistent, falls für eine wachsende Zahl der zur Schätzung herangezogenen Messwerte die Wahrscheinlichkeit, mit der die Schätzung vom wahren Wert
abweicht, gegen Null konvergiert:
lim P {|âN − a| ≥ ǫ} = 0 ∀ ǫ > 0
N →∞
196
(9.4)
9.2. BAYESSCHE SCHÄTZREGEL
Die Konsistenz einer Schätzung wird nur dann erreicht, wenn die Varianz der Schätzwerte
mit wachsendem N gegen Null konvergiert:
lim E (âN − a)2 = lim V AR {(âN )} = lim σâ2N = 0
N →∞
N →∞
N →∞
(9.5)
Diese Behauptung folgt aus der Tschebyscheffschen Ungleichung:
P (|âN − a| ≥ ǫ) ≤
σâ2N
.
ǫ2
(9.6)
9.2 Bayessche Schätzregel
Der BAYES-Detektor (Kapitel 8.3) minimiert das Risiko einer Entscheidung. Das Risiko ist
der Mittelwert der auftretenden Kosten. Es ist die Kenntnis einer Kostenfunktion C und der
bedingten Wahrscheinlichkeitsdichte fy|a (y|a) bzw. der a-priori Wahrscheinlichkeitsdichte
fa (a) erforderlich.
Im Falle der Estimation ist die Kostenfunktion C(â, a) eine kontinuierliche Funktion,
welche vom Schätzwert â und dem wahren Wert a abhängt. Häufig ist man nur an dem
Fehler e = â − a der Schätzung interessiert, so dass die Kostenfunktion nur von diesem
Fehler abhängt.
Das Risiko bei einer Schätzung berechnet man als
R = E{C(e)} =
=
Z∞ Z∞
−∞ −∞
=
Z∞
−∞
Z∞ Z∞
−∞ −∞
C(â − a)f(y,a) (y, a) dy da
C(â − a)f(y|a) (y|a)fy (y) dy da

fy (y) 
Z∞
−∞
|

C(â − a)f(y|a) (y|a) da dy
{z
(9.7)
}
I
Da fy (y) definitionsgemäß größer Null ist, wird das Risiko minimal, wenn das Integral I
seinen minimalen Wert annimmt:
∂
∂â
Z∞
−∞
!
C(â − a)f(y|a) (y|a) da = 0
(9.8)
Meist beschränkt man sich auf die in Abbildung 9.3 dargestellten drei Kostenfunktionen
C(e).
Es ergeben sich für diese drei verschiedenen Kostenfunktionen folgende Schätzwerte:
197
KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION)
C(e)=e2
C(e)=|e|
1
1
C(e)
1
D
-1
-1
1
1
-D/2
+D/2
Abbildung 9.3: Häufig verwendete Kostenfunktionen
1. für die Kostenfunktion des quadratischen Fehlers C(e) = e2 :
∂
I
∂â
=
∂
∂â
= 2â
Z∞
−∞
Z∞
−∞
âMS =
(â − a)2 fa|y (a|y) da
fa|y (a|y) da − 2
Z∞
afa|y (a|y) da = 0
−∞
Z∞
afa|y (a|y) da = E{a|y}
(9.9)
−∞
Anmerkung: Die Schätzung liefert den A-posteriori Mittelwert E{a|y}. Da dieser
Schätzwert die Varianz des Fehlers minimiert, ist diese Schätzung wirksam.
2. für die Kostenfunktion des absoluten Fehlers C(e) = |e|:
Zâ
fa|y (a|y) da =
−∞
Z∞
fa|y (a|y) da
(9.10)
â
Anmerkung: Die Schätzung liefert den Median von fa|y . Bei symmetrischer Verteilung stimmt dieser Schätzwert mit dem des quadratischen Fehlers überein.
3. für die Kostenfunktion des gleichförmigen Fehlers:


0 für |e| < ∆/2
C(e) =

1 für |e| > ∆/2
∂
I
∂â
=
=
≈
∂
∂â
â−∆/2
Z
fa|y (a|y) da +
−∞

∂ 
1 −
∂â
Z∞
â+∆/2
â+∆/2
Z
â−∆/2


fa|y (a|y) da
∆fa|y (a|y)a=â = ∆fa|y (â|y)
198
fa|y (a|y) da
9.3. MAXIMUM-LIKELIHOOD SCHÄTZREGEL
∂fa|y (a|y) =0
∂â
a=â
(9.11)
Anmerkung: Die Schätzung liefert die Stelle des Maximums von fa|y , den Maximuma-posteriori Schätzwert. Häufig ist die a-posteriori Dichte nicht verfügbar, so dass
eine Umrechnung auf a-priori Dichten erfolgt.
Die genannte drei Kostenfunktionen werden in Abbildung 9.4 nochmal zusammenfassend
dargestellt.
Bayes−Schätzer
0.07
konstante Wichtung großer Fehler
0.06
absoluter Fehler
0.05
quadratischer Fehler
fx
0.04
0.03
0.02
0.01
0
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
x
Abbildung 9.4: Bayes Schätzer mit den drei verschiedenen Kostenfunktionen
9.3 Maximum-Likelihood Schätzregel
Meist ist die a-posteriori-Wahrscheinlichkeitsdichte unbekannt. Es erfolgt deshalb die Umrechnung mit der BAYES-Formel
fa|y (a|y) =
fy|a (y|a)fa (a)
.
fy (y)
(9.12)
Da fy (y) unabhängig vom Parameter a eingeht, kann dies bei der Maximierung der aposteriori Wahrscheinlichkeit vernachlässigt werden.
Hat man keine Vorkenntnisse über die Wahrscheinlichkeitsdichtefunktion des zu schätzenden Parameters, so vernachlässigt man außerdem fa (a) und gelangt zur MaximumLikelihood-Schätzung:
∂
fy|a (y|a)
=0
∂a
a=â
199
(9.13)
KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION)
Wie im Falle der Detektion bestimmt man häufig das Maximum der Funktion
∂
ln(fy|a (y|a))
= 0,
∂a
a=â
(9.14)
was insbesondere bei gaußverteilten Störung vorteilhaft ist.
Man erkennt, dass diese Schätzregel der BAYES-Regel mit gleichverteilten Kosten bis
auf einen konstanten Term entspricht.
9.4 Schätzung des Erwartungswertes
Im Folgenden wird angenommen, dass von einer Zufallsvariablen Y insgesamt N statistisch unabhängige und identisch verteilte Beobachtungen y(1), y(2), ..., y(N ) vorliegen.
Über das wahrscheinlichkeitstheoretische Gesetz der Zufallsvariablen Y liegen keine konkreten Angaben vor, lediglich der Erwartungswert µy und die Varianz σy2 der Zufallsvariablen Y werden im Folgenden betrachtet.
Ein zunächst unbekannter Erwartungswert µy wird mit Hilfe des arithmetischen Mittelwertes geschätzt.
µˆy =
N
1 X
y(n)
N n=1
(9.15)
Eigenschaften: In der Analyse dieses Schätzverfahrens werden im folgenden die Erwartungstreue und die Schätzvarianz untersucht.
1. Die Erwartungstreue ist erfüllt:
E{µˆy }
=
=
=
E
(
)
N
1 X
y(n)
N n=1
N
1 X
E {y(n)}
N n=1
N
1 X
µy = µy
N n=1
2. Die Schätzvarianz kann wie folgt ermittelt werden:

!2 
N
 1 X

V AR{µˆy } = E (µˆy − µy )2 = E
y(n) − µy
 N

n=1
=
N
N
1 XX
E {(y(n) − µy )(y(m) − µy )}
N 2 n=1 m=1
(9.16)
(9.17)
Im Falle statistisch unabhängiger Zufallsvariablen y(n) ist der Erwartungswert für alle n 6=
m gleich Null, so dass gilt
N
N
1 X 2
1
1 X 2
E (y(n) − µy ) = 2
σ = σy2
V AR{µ̂y } = 2
N n=1
N n=1 y
N
200
(9.18)
9.5. SCHÄTZUNG DER VARIANZ
In dieser Herleitung wurden noch einmal sämtliche Details zur Begründung der mathematischen Aussage berücksichtigt. Wesentlich einfacher wäre die Herleitung unter Zuhilfenahme des Satzes von Bienaymé, der aussagt, dass die Varianz einer Summe gleich der
Summe der Varianzen ist, falls die Zufallsvariablen unkorreliert sind.
)
(
N
N
N
1 X
1 X 2
1
1 X
y(n) = 2
V AR{y(n)} = 2
σy = σy2
V AR{µ̂y } = V AR
N n=1
N n=1
N n=1
N
Die Varianz dieses Schätzverfahrens (arithmetischer Mittelwert) geht also gegen 0, falls
N gegen Unendlich wächst.
9.5 Schätzung der Varianz
9.5.1 Schätzung der Varianz bei bekanntem Erwartungswert µy
Der unbekannte Erwartungswert einer Zufallsvariablen konnte also, wie oben hergeleitet,
sehr gut durch das arithmetische Mittel geschätzt werden. Jetzt stellt sich die erweiterte Frage, wie die unbekannte Varianz einer Zufallsvariablen zuverlässig geschätzt werden kann,
wenn der Erwartungswert µy dieser Zufallsvariablen als bekannt angenommen wird. Dabei
lassen wir uns zunächst von der Tatsache leiten, dass die Varianz einer Zufallsvariablen aus
dem zweiten Moment und dem Erwartungswert der Zufallsvariablen Y berechnet werden
kann.
V AR{Y } = σy2 = E{Y 2 } − µ2y = m2,y − µ2y
(9.19)
Das zweite Moment einer Zufallsvariablen lässt sich wiederum durch das arithmetische
Mittel über die quadratischen Werte der Zufallsvariablen Y schätzen.
m̂2,y =
N
1 X 2
y (n)
N n=1
(9.20)
Daraus entsteht wiederum ein erwartungstreues Schätzverfahren für das zweite Moment der Zufallsvariablen Y .
N
1 X
E{y 2 (n)} = m2,y
E{m̂2,y } =
N n=1
(9.21)
Mit diesen Überlegungen und für den Fall, dass der Erwartungswert µy der Zufallsvariablen Y bekannt ist, kann ein Verfahren zur erwartungstreuen Schätzung der unbekannten
Varianz einer Zufallsvariablen wie folgt angegeben werden.
σ̂y2
= m̂2,y −
µ2y
N
1 X 2
y (n) − µ2y
=
N n=1
201
(9.22)
KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION)
Die Erwartungstreue dieses Schätzverfahrens zur Ermittlung der Varianz ergibt sich
unmittelbar aus dem oben gesagten.
E{σ̂y2 } = E{m̂2,y } − µy 2 = m2,y − µ2y = σy2
(9.23)
9.5.2 Schätzung der Varianz bei unbekanntem Erwartungswert µy
Etwas anders stellt sich die Situation dar, wenn die Varianz einer Zufallsvariablen Y geschätzt werden soll, wenn der Erwartungswert der Zufallsvariablen selber unbekannt ist
und geschätzt werden muss.
In Anlehnung an die obige Analyse würde man als Schätzverfahren zunächst vermuten,
dass eine Schätzung des zweiten Moments und eine Schätzung des Erwartungswertes wie
folgt berücksichtigt wird:
σ̂y2
= m̂2,y −
µ̂2y
N
1 X 2
=
y (n) −
N n=1
!2
N
1 X
y(n)
N n=1
(9.24)
Es wird sich allerdings zeigen, dass dieses Schätzverfahren bei unbekanntem Erwartungswert nicht erwartungstreu ist.
In diesem Fall gilt
E{σ̂y2 } = E{m̂2,y } − E{µ̂2y }
(9.25)
mit
E{m̂2,y } = E
und
(
)
N
N
1 X
1 X 2
y (n) =
E{y 2 (n)} = m2,y = σy2 + µ2y
N n=1
N n=1


!2 
N
N
N

X
1
1 XX
E{µ̂2y } = E
y(n)
E{y(n)y(m)}.
= 2
 N
 N
n=1
n=1 m=1
Für eine statistisch unabhängige, identisch verteilte Zufallsvariable Y gilt


σy2 + µ2y falls n = m
E{y(n)y(m)} =
.

µ2
falls n 6= m
y
(9.26)
(9.27)
(9.28)
Mit diesen Vorbereitungen erhält man




N
N


X
1 X
2
E{y
(n)}
+
E{y(n)y(m)}
E{µ̂2y } =

N 2 n=1 


m=1
m6=n
=
=
1
N2
N
X
(σy2 + µ2y + (N − 1)µ2y )
n=1
N
1
1 X 2
(σ + N µ2y ) = σy2 + µ2y
N 2 n=1 y
N
202
(9.29)
9.6. REKURSIVE SCHÄTZUNG DES ERWARTUNGSWERTES
und daraus schließlich
E{σ̂y2 } = σy2 + µ2y −
N −1 2
1 2
σy − µ2y =
σy .
N
N
(9.30)
Mit dieser Analyse wird gezeigt, dass das obige Schätzverfahren zur Berechnung der
unbekannten Varianz bei gleichzeitig unbekanntem Erwartungswert die Erwartungstreue
knapp verfehlt. Dieser Mangel kann allerdings durch eine leichte Modifikation des Schätzverfahrens behoben werden:
Eine erwartungstreue Schätzung der unbekannten Varianz erhält man mit
σ̂y2
N
1 X
=
(y(n) − µ̂y )2
N − 1 n=1
(9.31)
Die Erwartungstreue dieses Schätzverfahrens erkennt man aus:
E{σ̂y2 }
=
=
=
N
1 X
2
E{[(y(n) − µy ) − (µ̂y − µy )] }
N − 1 n=1
N
1 X
E{(y(n) − µy )2 } − 2E{(y(n) − µy )(µ̂y − µy )}
N − 1 n=1
+E{(µ̂y − µy )2 }
!
σy2
1
2
N σy − N
= σy2
N −1
N
9.6 Rekursive Schätzung des Erwartungswertes
In den obigen Betrachtungen wurde die große Bedeutung des arithmetischen Mittelwertes (Abschnitt 9.4) als geeignetes Schätzverfahren unterstrichen. Gleichzeitig wurden die
wichtigen Eigenschaften der Erwartungstreue und der minimalen Schätzvarianz hergeleitet.
Die Schätzvarianz nimmt kontinuierlich mit wachsendem Stichprobenumfang N ab und
damit nimmt die Qualität der Schätzung kontinuierlich zu. Aus diesem einfachen Grund
würde man in vielen praktischen Anwendungen gerne einen großen Stichprobenumfang
einsetzen. Allerdings muss dann immer wieder überprüft werden, ob die Zufallsvariablen
auch bei großem Stichprobenumfang noch als statistisch unabhängig und identisch verteilt
betrachtet werden können. An dieser Stelle kann es Einschränkungen geben, die zu einem
begrenzten Stichprobenumfang führen.
Bei einer Signalbeobachtung kann durchaus von einer Kurzzeitstationarität ausgegangen werden, d.h., die obige Annahme nach statistisch unabhängigen identisch verteilten
Zufallsvariablen ist in bestimmten Grenzen erfüllt. Darüber hinaus können sich allerdings
die statistischen Parameter verändern. Aus diesem Grund sucht man ein Verfahren zur
Schätzung des Erwartungswertes oder anderer stochastischer Parameter, das in der Lage
203
KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION)
ist, sich selbständig an veränderte Signalparameter anzupassen. In solchen Situationen ist
der Einsatz eines rekursiven (gedächtnisbehafteten) Schätzverfahrens ratsam.
Im Folgenden sollen jetzt die Eigenschaften eines solchen Verfahrens zur Schätzung
des Erwartungswertes betrachtet werden, welches in der Praxis häufig wegen seiner einfachen Realisierung angewendet wird: die rekursive Schätzung des Erwartungswertes. Dieses rekursive Schätzverfahren hat interessante statistische Eigenschaften. Es ist fast erwartungstreu und hat eine lediglich durch Wahl des Faktors α bestimmte Schätzvarianz. Beide
Eigenschaften werden im folgenden mathematisch hergeleitet.
Ausgehend von statistisch unabhängigen Messwerten y(1), y(2), . . . , y(N ), . . . wird
der Erwartungswert µ geschätzt durch den rekursiv berechneten Wert µ̂(N ).
µ̂(N ) = αµ̂(N − 1) + (1 − α)y(N );
0≤α≤1
(9.32)
Der Schätzwert µ̂(N ) bei Eintreffen des N -ten Messwertes berechnet sich also durch Addition des Schätzwertes µ̂(N −1) zum neuen Messwert y(n), wobei der vorherige Schätzwert
µ̂(N − 1) mit dem Faktor α und der neue Messwert mit dem Faktor (1 − α) gewichtet wird.
Zur Untersuchung der Eigenschaften dieses rekursiven Schätzverfahrens ist die folgende Darstellung nützlich:
µ̂(N ) = αµ̂(N − 1) + (1 − α)y(N )
= α [αµ̂(N − 2) + (1 − α)y(N − 1)] + (1 − α)y(N )
= α2 µ̂(N − 2) + (1 − α) [αy(N − 1) + y(N )] .
(9.33)
Wird der Summand α2 µ̂(N − 2) mit Hilfe dieses rekursiven Verfahrens weiter ersetzt und
geht man von einem Startwert µ̂(0) = 0 aus, erhält man
µ̂(N ) =
(1 − α) y(N ) + αy(N − 1) + α2 y(N − 2) + . . .
(9.34)
9.6.1 Erwartungstreue der rekursiven Schätzung
Der rekursive Schätzer für den Erwartungswert soll jetzt auf seine Erwartungstreue hin
untersucht werden. Hierzu wird der Erwartungswert der Schätzung wie folgt berechnet:
E{µ̂(N )} =
=
=
n
h
io
E (1 − α) y(N ) + αy(N − 1) + α2 y(N − 2) + · · · + α(N −1) y(1)
h
i
(1 − α) E{y(N )} + αE{y(N − 1)} + · · · + α(N −1) E{y(1)}
µ(1 − α) 1 + α + α2 + α3 + α4 + · · · + αN −1
{z
}
|
N
= 1−α
1−α
=
(Abschnitt einer geometrischen Reihe)
N
µ(1 − α )
(9.35)
204
9.6. REKURSIVE SCHÄTZUNG DES ERWARTUNGSWERTES
Der Schätzer ist asymptotisch erwartungstreu:
lim (E{µ̂}) = µ.
N →∞
(9.36)
9.6.2 Varianz der rekursiven Schätzung
Neben dem Erwartungswert der rekursiven Schätzung µ̂(N ) ist natürlich auch die Varianz
von Interesse. Sie lässt sich unter Ausnutzung von
V ar{aX} = a2 V ar{X}
und des Satzes von Bienaymé folgendermaßen berechnen:
V ar{µ̂(N )}
=
=
=
V ar (1 − α) y(N ) + αy(N − 1) + α2 y(N − 2) + . . .
(1 − α)2 V ar{y(N )} + α2 V ar{y(N − 1)} + α4 V ar{y(N − 2)} + . . .
i
h
σY2 (1 − α)2 1 + α2 + α4 + · · · + α2(N −1)
|
{z
}
2N
= 1−α
1−α2
=
σY2 (1 − α)
1 − α2N
1+α
(9.37)
Betrachtet man nun wieder den Grenzwert für N → ∞, so konvergiert die Potenzreihe
−1
gegen 1 − α2
und es ergibt sich:
σY2 (1 − α)2
1 − α2
1−α
.
= σY2
1+α
lim (V ar{µ̂(N )}) =
N →∞
(9.38)
Beispiel 9.1 (Rekursive Schätzung)
Abbildung 9.5(a) zeigt den Verlauf der Schätzwerte mehrerer rekursiver Schätzer mit unterschiedlichen Parametern α über den gleichen Messwerten y(n). Der Einfluss des Parameters α ist deutlich zu erkennen:
• Großes α: Kleine Schätzvarianz, aber langsames Einschwingen
• Kleines α: Schnelles Einschwingen, aber große Schätzvarianz
In Abbildung 9.5(b) ist für α = 0.99 der Verlauf des Erwartungswertes und der Varianz der
Schätzung dargestellt.
△
205
KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION)
7
6
5
µ̂(N )
4
3
2
α =0.5
α =0.9
α =0.99
α =0.999
1
0
0
500
1000
1500
2000
2500
N
3000
3500
4000
4500
5000
(a) Einfluss des Parameters α
5
4.5
4
Schätzung
3.5
3
2.5
2
1.5
1
mE
E{mE}
Var{mE}
0.5
0
0
50
100
N
150
200
(b) Erwartungswert/Varianz der Schätzung bei N → ∞
Abbildung 9.5: Beispiel eines rekursiven Schätzers
9.7 Schätzung mit geordneter Statistik
In vielen praktischen Anwendungen können im vorliegenden Stichprobenumfang Ausreißer enthalten sein, die durch die Messanordnung oder auch durch auftretende Interferenzen
verursacht werden können. Damit ist die mit dem arithmetischen Mittelwert verbundene
Voraussetzung identisch verteilter Zufallsvariablen nicht mehr erfüllt. In solchen Situationen werden bevorzugt geordnete Statistiken (siehe Abschnitt 4.6) eingesetzt, die sich in
ihrem Schätzverhalten robust gegenüber Ausreißern verhalten.
Beispiel 9.2 (Zeitsignal mit Ausreißern)
Bei einer Messung wurden die in Abbildung 9.6(a) dargestellten N = 1000 Werte eines Zeitsignals gemessen. In diesem Signal sind zehn Ausreißer vorhanden, die sich mit
bloßem Auge leicht erkennbar sind. In einer automatischen Signalauswertung liegt diese
Erkenntnis allerdings nicht vor. Um den Erwartungswert des Zeitsignals zu schätzen, wur206
9.7. SCHÄTZUNG MIT GEORDNETER STATISTIK
10
Messwert y(n)
8
6
4
2
0
200
400
600
800
Zeit n
(a) Messwerte
6
arith. Mittelwert
rekursive Schätzung
geordnete Statistik
5.8
5.6
5.4
5.2
5
4.8
4.6
4.4
200
400
600
800
Zeit n
(b) Geschätzter Erwartungswert
Abbildung 9.6: Auswirkung von Ausreißern auf die verschiedenen Schätzverfahren
den die drei bekannten Schätzverfahren
• Arithmetischer Mittelwert
• Rekursive Schätzung
• Geordnete Statistik
jeweils gleitend mit einer Fenstergröße von (T = 17) angewendet. Bei der Schätzung
mit Hilfe der geordneten Statistik wurden die T Messwerte innerhalb des Fensters der
Größe nach geordnet und der Median (bei dieser Fenstergröße also der Wert auf Rang 9)
als Schätzwert verwendet.
In Abbildung 9.6(b) sind die Schätzwerte für alle drei Verfahren über der Zeit grafisch
dargestellt. In Zeitabschnitten, in denen keine Ausreißer auftreten, sind die geschätzten Er207
KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION)
wartungswerte für alle drei Verfahren ähnlich gut. Es ist jedoch deutlich zu erkennen, dass
die beiden ersten Verfahren empfindlich auf Ausreißer reagieren und schon ein einziger
Ausreißer die Schätzung deutlich beeinflusst, z.B. bei n = 400. Die Schätzung mit Hilfe
der geordneten Statistik hingegen ist robust gegenüber diesen einzelnen Störungen.
△
9.8 Konfidenzintervall
Wird eine Parameterschätzung durchgeführt, so stimmt der geschätzte Parameter im Allgemeinen nicht mit dem wahren Parameter überein. Daher ist die Angabe eines Intervalls, in
dem sich der zu schätzende Parameter mit einer großen Wahrscheinlichkeit befindet, in der
Praxis von großem Interesse. Die Bestimmung eines solchen Intervalls bezeichnet man als
Intervallschätzung.
Definition 9.1 (Konfidenzintervall) Ein Intervall [âN,1 , âN,2 ], in dem sich der zu schätKonfidenzintervall
zende Parameter a mit einer Wahrscheinlichkeit von 1 − α befindet, wird als Konfidenzoder auch Vertrauensintervall bezeichnet.
[âN,1 , âN,2 ] mit P (âN,1 ≤ a ≤ âN,2 ) ≥ 1 − α
❍
Die Konstante α bezeichnet also die Wahrscheinlichkeit, dass der (unbekannte) wahre Wert
des Parameters a außerhalb des Konfidenzintervalls [âN,1 , âN,2 ] liegt. Typische Werte für
α sind 0.05, 0.01 und 0.001, die zugehörigen Konfidenzintervalle werden als 95%–, 99%–
und 99,9%–Konfidenzintervall bezeichnet.
Im Folgenden soll hier nur auf Konfidenzintervalle eingegangen werden, die symmetrisch um den jeweiligen Schätzwert angeordnet sind. In diesem Fall lässt sich das Konfidenzintervall durch den jeweiligen Schätzwert âN und einen einzigen weiteren Parameter
δ angeben:
P (âN − δ ≤ a ≤ âN + δ) ≥ 1 − α
(9.39)
9.8.1 Konfidenzintervall für den Erwartungswert
Die Schätzung des Erwartungswertes für eine unbekannte Zufallsvariable, von der insgesamt N Realisierungen vorliegen, ist eine wichtige und in der Praxis häufig auftretende
Aufgabe. Gegeben seien in diesem Fall N statistisch unabhängige Wiederholungen einer
normalverteilten Zufallsvariablen Y mit unbekanntem Erwartungswert µ und einer Varianz
208
9.8. KONFIDENZINTERVALL
σ 2 . Es soll jetzt ein Konfidenzintervall für den Erwartungswert von Y bestimmt werden.
Dazu werden zwei wichtige Fälle unterschieden:
Bei bekannter Varianz σ 2
Der Erwartungswert von Y wird mit Hilfe des arithmetischen Mittelwertes geschätzt1
(vgl. auch Kapitel 9.4):
N
1 X
y(i).
µ̂ =
N i=1
Das arithmetische Mittel µ̂ ist einerseits erwartungstreu und andererseits wie die Zufallsvariable Y ebenfalls normalverteilt – mit dem Erwartungswert µ aber der Varianz
der Normierung
Z=
µ̂ − µ √
N
σ
σ2
N .
Mit
(9.40)
erhält man eine Zufallsgröße Z, die der Standard-Normalverteilung genügt (vgl. Abbildung 9.7).
Abbildung 9.7: Das 1 − α Intervall für die Standardnormalverteilung.
Damit ergibt sich folgende Bedingung
P (−δ ≤ Z ≤ δ) ≥ 1 − α.
Die Konstante δ ist dabei das Fraktil (vgl. Abschnitt 3.2) der Standard-Normalverteilung
mit
1−α
P (−δ ≤ Z ≤ δ) = Φ(δ) − Φ(−δ) = 2Φ(δ) − 1
α
⇒ Φ(δ) = 1 − ⇐⇒ δ = z1− α2 .
2
=
(9.41)
Nun lässt sich der Ausdruck für das Konfidenzintervall wie folgt berechnen:
σ
µ̂ − µ √
σ
N ≤ δ = P µ̂ − δ √ ≤ µ ≤ µ̂ + δ √
P (−δ ≤ Z ≤ δ) = P −δ ≤
σ
N
N
σ
σ
.
(9.42)
⇒
µ̂ − z1− α2 √ , µ̂ + z1− α2 √
N
N
1 Zur
Vereinfachung der Schreibweise verzichten wir hier und im Folgenden auf die Verwendung der Indizes
N und Y .
209
KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION)
Bei unbekannter Varianz σ 2
In diesem Fall wird der Erwartungswert von Y wiederum durch den arithmetischen Mittelwert geschätzt. Zusätzlich wird die als unbekannt angenommene Varianz von Y ebenfalls
aus den Messwerten mit dem im Kapitel 9.5.2 beschriebenen Verfahren wie folgt geschätzt
N
σ̂ 2 =
1 X
(y(i) − µ̂)2 .
N − 1 i=1
Es lässt sich jetzt zeigen, dass die normierte Zufallsgröße T mit
T =
µ̂ − µ √
N
σ̂
(9.43)
einer t-Verteilung mit (N − 1) Freiheitsgraden genügt. (Die Studentsche t-Verteilung lässt
sich wie auch die Normalverteilung nicht geschlossen angeben und ist deshalb tabelliert im
Anhang angegeben, siehe Abschnitt B.2.)
Analog zum Vorgehen bei angenommener bekannter Varianz erhält man für das Konfidenzintervall:
σ̂
σ̂
[µ̂ − δ √ , µ̂ + δ √ ].
N
N
(9.44)
Die Konstante δ ist in diesem Fall das Fraktil der t-Verteilung mit (N − 1) Freiheitsgraden zur Irrtumswahrscheinlichkeit
α
2,
welches oft auch mit tα/2;n−1 abgekürzt wird. Sie
kann aus der tabellierten t-Verteilung im Anhang, Abschnitt B.2, abgelesen werden.
Das Konfidenzintervall ist wiederum symmetrisch um den arithmetischen Mittelwert angeordnet und berechnet sich in diesem Fall wie folgt:
σ̂
σ̂
µ̂ − tα/2;n−1 √ , µ̂ + tα/2;n−1 √
N
N
(9.45)
Beispiel 9.3 (Stichprobe von 10 Messwerten)
Gegeben sei die folgende aus 10 statistisch unabhängigen Messwerten bestehende Stichprobe:
0.8420
0.8460
0.8350
0.8390
0.8430
0.8380
0.8400
0.8310
0.8470
0.8500
Es soll nun das 95%- und das 99%-Konfidenzintervall für den Erwartungswert E{Y } angegeben werden.
210
9.8. KONFIDENZINTERVALL
Dazu wird der arithmetische Mittelwert berechnet und die Varianz wie folgt geschätzt:
µ̂ =
σ̂ 2
=
0.8411
3.2989 · 10−5 ⇒ σ̂ = 0.0057.
Für α = 0.05 liest man für die Studentsche t-Verteilung aus der Tabelle in Abschnitt B.2
den Faktor t0.025;9 = 2.26 ab, für eine noch geringere Fehlerwahrscheinlichkeit α = 0.01
erhält man den Wert t0.005;9 = 3.25. Mit diesen Vorbereitungen und diesen Angaben erhält
man für das 95%-Konfidenzintervall
0.0057
0.0057
= [0.8370, 0.8452]
, 0.8411 + 2.26 √
0.8411 − 2.26 √
10
10
und für das nur leicht vergrößerte 99%-Konfidenzintervall
0.0057
0.0057
= [0.8352, 0.8470].
, 0.8411 + 3.25 √
0.8411 − 3.25 √
10
10
△
Hinweis: Bei ausreichend großem Stichprobenumfang N (in der Literatur meist ab N>30,
Bronstein N>100) können in Gleichung 9.45 statt der Fraktile der t-Verteilung die der normierten Normalverteilung verwendet werden. Die Konstante δ wird in diesem Fall also
genau wie bei bekannter Varianz aus der Standardnormalverteilung bestimmt.
Beispiel 9.4 (Konfindenzintervall für mittlere Verzögerungszeit)
An einem Router werden die folgenden Verzögerungzeiten für Datenpakete (in ms) gemessen:
49
83
58
65
68
60
76
86
74
53
71
74
65
72
64
42
62
62
58
82
78
64
55
87
56
50
71
58
57
75
58
86
64
56
45
73
54
86
79
73
Anhand dieser Werte soll das 95%-Konfidenzintervall (α = 0.05) für den Erwartungswert
bestimmt werden.
Der durch den arithmetischen Mittelwert geschätzte Erwartungswert und die geschätzte
Varianz ergeben sich zu
µ̂ =
1
(49 + 83 + ... + 73) = 66.225
40
N
X
1
(Yi − µ̂)2 = 143.820
σ̂ =
(40 − 1) i=1
2
211
KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION)
Da eine große Anzahl von Stichproben vorliegt (N > 30), können mit den obigen Überlegungen die Fraktile der Normalverteilung verwendet werden. Der Wert für das z1− α2 Fraktil der Standardnormalverteilung lässt sich aus der entsprechenden Tabelle ablesen:
z0.975 = 1.96.
Das 95%-Konfidenzintervall ergibt sich somit zu
#
"
√
√
143.820
143.820
= [62.508, 69.942].
, 66.225 + 1.96 · √
66.225 − 1.96 · √
40
40
△
9.9 Minimale Varianz von Schätzwerten: Cramer-RaoSchranke
Ziel beim Entwurf eines Schätzverfahrens ist die Minimierung der Schätzvarianz bzw. des
Schätzfehlers. Zur Berechnung der Schätzvarianz eines erwartungstreuen Schätzverfahrens
geht man von der Definition der Erwartungstreue aus (Abschnitt 9.1.3)
E{â} =
Z∞
âfâ (â) dâ = a
(9.46)
−∞
und differenziert diese nach dem zu schätzenden Parameter a, so dass man aus
∂
∂a
Z∞
−∞
(â − a)fy|a (y|a) dy =
Z∞
−∞
∂
(â − a)fy|a (y|a) dy = 0
∂a
durch Anwendung der Produktregel
Z∞
(−1)fy|a (y|a) dy +
−∞
erhält.
|
{z
}
−1
Z∞
−∞
(â − a)
∂fy|a (y|a)
dy = 0
∂a
(9.47)
Mit
∂ ln fy|a (y|a)
∂fy|a (y|a)
1
=
∂a
fy|a (y|a)
∂a
wird hieraus
Z∞
−∞
(â − a)fy|a (y|a)
∂ ln fy|a (y|a)
dy = 1.
∂a
Mit der S CHWARZschen Ungleichung
| < x, y > |2 ≤ ||x||2 ||y||2
212
(9.48)
9.9. CRAMER-RAO-SCHRANKE
kann man diese Gleichung umformen in
1≤
Z∞
−∞
2
(â − a) f|a (y|a) dy
{z
|
Z∞
−∞
}|
2
σâ
∂ ln fy|a (y|a)
fy|a (y|a)
∂a
{z
E
»
∂ ln fy|a (y|a)
∂a
2
–2 ff
dy
(9.49)
}
Die letzte Gleichung
σâ2 ≥ E
(
2 )−1
∂ ln fy|a (y|a)
∂a
(9.50)
wird als C RAMER -R AO-Schranke bezeichnet.
C RAMER -R AO-
Bedeutung der C RAMER -R AO-Schranke:
Schranke
• Jeder erwartungstreue Schätzer besitzt eine Schätzvarianz, die größer als eine bestimmte untere Grenze ist.
• Gilt das Gleichheitszeichen, so wird die Schätzung als wirksam oder effizient bezeichnet.
• Ist die Schätzung wirksam, so wird die minimale Varianz durch die ML-Schätzung
erreicht.
Eine alternative Darstellung der C RAMER -R AO-Schranke ist gegeben mit:
σâ2 ≥ −E
∂ 2 ln fy|a (y|a)
∂a2
−1
(9.51)
Beweis:
∂2
1 =
∂a2
∂2
∂a2
Z∞
−∞
Z∞ 0 =
∂
∂a
0 =
Z∞ −∞
fy|a (y|a) dy
−∞
∂
ln(fy|a (y|a)) fy|a (y|a) dy
∂a
2
Z∞ ∂2
∂
ln(f
(y|a))
f
(y|a)
dy
+
ln(f
(y|a))
fy|a (y|a) dy
y|a
y|a
y|a
∂a2
∂a
−∞
Damit gilt
−E
(
2 )
∂
∂2
ln(fy|a (y|a)) = E
ln(fy|a (y|a))
∂a2
∂a
Beispiel 9.5 (C RAMER -R AO-Schranke bei AWGN Störungen)
Es möge die Messgröße y durch die additive Überlagerung einer erwartungswertfreien,
gaußverteilten Störgröße n aus a hervorgehen.
2
1
− (y−a)
e 2σn2
fy|a = √
2πσn
213
KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION)
Die untere Grenze der Fehlervarianz erhält man dann als
−E
∂ 2 ln fy|a (y|a)
∂a2
√
(y − a)2
∂2
2πσ
)
+
ln(
n
∂a2
2σn2
(y − a)
∂
−
E
∂a
σn2
1
1
E
= 2
σn2
σn
=
E
=
=
△
9.10 Lineare Schätzverfahren
Bei linearen Schätzverfahren soll der unbekannte Parametervektor a aus einer Linearkombination von gestörten Empfangswerten y gewonnen werden:
â = G · y
(9.52)
Lineare Schätzverfahren besitzen den Vorteil, dass sie leicht mit Hilfe eines Filters zu realisieren sind. Es ist keine Kenntnis der Statistik des Störprozesses erforderlich, sondern die
Schätzung beruht ausschließlich auf den Momenten zweiter Ordnung.
Die Koeffizientenmatrix G soll dabei so gewählt werden, dass der mittlere quadratische
Schätzfehler minimal wird:
!
E{(a − â)2 } = min.
9.10.1 Orthogonalitätsprinzip
Man erhält eine optimale Approximation durch den Schätzvektor â für den Parametervektor a mit minimalem quadratischen Fehler, wenn der resultierende (lineare) Fehlervektor
e = â − a senkrecht auf dem Schätzvektor â steht, d.h.:
!
E{â(a − â)T } = 0
(9.53)
9.10.2 Allgemeine Regeln eines linearen Schätzverfahrens
Aus der Orthogonalitätsforderung
E{r(a − â)T } =
E{raT } − E{rrT GT }
=
Rra − Rrr GT
=
0
214
(9.54)
9.11. ADDITIVE UNKORRELIERTE STÖRUNGEN
erhält man folgende Symmetriebeziehungen
Rra = E{raT } = E{(arT )T } = RTar
und
Rrr = E{rrT } = E{(rrT )T } = RTrr
sowie aus der folgenden Gleichung
GT = R−1
rr Rra
die optimale Matrix G für ein lineares Schätzverfahren
−1
T
G = RTra (R−1
rr ) = Rar Rrr .
(9.55)
9.10.3 Auftretende Fehler bei linearen Schätzverfahren
Den mittleren quadratischen Schätzfehler F ermittelt man durch Einsetzen der Koeffizientenmatrix G in die folgende Gleichung:
F
= E{(Gr − a)(Gr − a)T }
−1
T
= E{(Rar R−1
rr r − a)(Rar Rrr r − a) }
.
= ..
= Raa − Rar R−1
rr Rar
(9.56)
9.11 Additive unkorrelierte Störungen
Die beobachteten Messwerte sollen einen Zufallsprozess beschreiben und durch eine additive, mittelwertfreie Überlagerung der Störung n aus den zu schätzenden Werten a hervorgehen:
y(k) = a(k) + n(k)
(9.57)
n(k)
a(k)
Ä
y(k)
Linearer
Schätzer
â(k)
Unter der Voraussetzung, dass a(k) und n(k) stationär sind, ist die Bestimmungsgleichung der Koeffizienten g
N
−1
X
j=0
Rrr (k − j)g = Rar (k)
215
(9.58)
KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION)
Dieser Zusammenhang wird als W IENER -H OPF-Gleichung bezeichnet.
Für unkorrelierte a(k) und n(k) lassen sich Rrr und Rar mit Hilfe der Autokorrelationsfolgen Raa und Rnn darstellen.
Rrr (k)
= Raa (k) + Rnn (k)
Rar (k)
= Raa (k)
In diesem Fall ist g nur noch von der Autokorrelationsmatrix des zu schätzenden Parameters a(k) und der des Störprozesses n(k) abhängig.
216
W IENER -H OPFGleichung
Teil IV
Anhang
217
Anhang A
Verständnisfragen
A.1
Wahrscheinlichkeitsrechnung
• Was ist ein Ereignis?
• Wie ist Wahrscheinlichkeit definiert?
• Warum benötigt man eine axiomatische Definition der Wahrscheinlichkeit?
• Was ist eine Zufallsvariable?
• Was beschreibt die Wahrscheinlichkeitsdichtefunktion, was die Verteilungsfunktion?
• Was sind typische WDF und wo treten diese auf?
• Wie ist ein Moment definiert?
• Wann sind Zufallsvariablen statistisch unabhängig und wann sind sie unkorreliert?
• Was ist die charakteristische Funktion und wozu kann sie genutzt werden?
• Wie wird eine WDF an einer Kennlinie transformiert?
• Was sagt der zentrale Grenzwertsatz aus?
• Welche Aussagen kann man mit Hilfe der Tschebyscheffschen Ungleichung treffen?
A.2
Stochastische Prozesse
• Was ist ein stochastischer Prozess?
• Wann ist ein stochastischer Prozess stationär (im weiteren Sinne/im strengen Sinne)?
219
ANHANG A. VERSTÄNDNISFRAGEN
• Wozu benötigt man die Voraussetzung der Ergodizität eines stochastischen Prozesses?
• Wodurch beschreibt man stochastische Prozesse?
• Welche Struktur besitzt die Autokorrelationsmatrix eines im weiteren Sinne stationären Prozesse?
• Wie ist das Leistungsdichtespektrum definiert?
• Was sagt die Wiener-Lee-Beziehung aus?
• Welcher Zusammenhang besteht zwischen der Autokorrelationsfunktion eines Bandpassprozesses und der der zugehörigen komplexen Einhüllenden?
A.3
Detektion & Estimation
• Was ist das Ziel der (binären) Detektion?
• Was ist ein MAP-Detektor?
• Was ist ein ML-Detektor?
• Was zeichnet den Neyman-Pearson Detektor aus?
• Welcher Zusammenhang besteht zwischen Bayes-Detektor und MAP-Detektor?
• Was beschreibt die Empfängercharakteristik?
• Was ist das Ziel der Parameterschätzung?
• Was sind die Gütekriterien für eine Schätzregel?
• Was ist das Kriterium eines ML-Schätzers?
• Was sagt die Cramer-Rao-Schranke aus?
• Wie bestimmt man die Koeffizienten eines linearen Schätzers?
220
Anhang B
Tabellen
221
ANHANG B. TABELLEN
B.1 Normierte Normalverteilung
x
φ(x)
x
φ(x)
x
φ(x)
x
φ(x)
x
φ(x)
x
φ(x)
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,5000
0,5040
0,5080
0,5120
0,5160
0,5199
0,5239
0,5279
0,5319
0,5359
0,50
0,51
0,52
0,53
0,54
0,55
0,56
0,57
0,58
0,59
0,6915
0,6950
0,6985
0,7019
0,7054
0,7088
0,7123
0,7157
0,7190
0,7224
1,00
1,01
1,02
1,03
1,04
1,05
1,06
1,07
1,08
1,09
0,8413
0,8438
0,8461
0,8485
0,8508
0,8531
0,8554
0,8577
0,8599
0,8621
1,50
1,51
1,52
1,53
1,54
1,55
1,56
1,57
1,58
1,59
0,9332
0,9345
0,9357
0,9370
0,9382
0,9394
0,9406
0,9418
0,9429
0,9441
2,00
2,01
2,02
2,03
2,04
2,05
2,06
2,07
2,08
2,09
0,9773
0,9778
0,9783
0,9788
0,9793
0,9798
0,9803
0,9808
0,9812
0,9817
2,50
2,51
2,52
2,53
2,54
2,55
2,56
2,57
2,58
2,59
0,9938
0,9940
0,9941
0,9943
0,9945
0,9946
0,9948
0,9949
0,9951
0,9952
0,20
0,21
0,22
0,23
0,24
0,25
0,26
0,27
0,28
0,29
0,5793
0,5832
0,5871
0,5910
0,5948
0,5987
0,6026
0,6062
0,6103
0,6141
0,70
0,71
0,72
0,73
0,74
0,75
0,76
0,77
0,78
0,79
0,7580
0,7611
0,7642
0,7673
0,7704
0,7734
0,7764
0,7794
0,7823
0,7852
1,20
1,21
1,22
1,23
1,24
1,25
1,26
1,27
1,28
1,29
0,8849
0,8869
0,8888
0,8907
0,8925
0,8944
0,8962
0,8980
0,8997
0,9015
1,70
1,71
1,72
1,73
1,74
1,75
1,76
1,77
1,78
1,79
0,9554
0,9564
0,9572
0,9582
0,9591
0,9599
0,9608
0,9616
0,9625
0,9633
2,20
2,21
2,22
2,23
2,24
2,25
2,26
2,27
2,28
2,29
0,9861
0,9864
0,9868
0,9871
0,9875
0,9878
0,9881
0,9884
0,9887
0,9890
2,70
2,71
2,72
2,73
2,74
2,75
2,76
2,77
2,78
2,79
0,9965
0,9966
0,9967
0,9968
0,9969
0,9970
0,9971
0,9972
0,9973
0,9974
0,10
0,11
0,12
0,13
0,14
0,15
0,16
0,17
0,18
0,19
0,30
0,31
0,32
0,33
0,34
0,35
0,36
0,37
0,38
0,39
0,40
0,41
0,42
0,43
0,44
0,45
0,46
0,47
0,48
0,49
0,5398
0,5438
0,5478
0,5517
0,5557
0,5596
0,5636
0,5675
0,5714
0,5753
0,6179
0,6217
0,6255
0,6293
0,6331
0,6368
0,6406
0,6443
0,6480
0,6517
0,6554
0,6591
0,6628
0,6664
0,6700
0,6736
0,6772
0,6808
0,6844
0,6879
0,60
0,61
0,62
0,63
0,64
0,65
0,66
0,67
0,68
0,69
0,80
0,81
0,82
0,83
0,84
0,85
0,86
0,87
0,88
0,89
0,90
0,91
0,92
0,93
0,94
0,95
0,96
0,97
0,98
0,99
0,7257
0,7291
0,7324
0,7357
0,7389
0,7422
0,7454
0,7486
0,7517
0,7549
0,7881
0,7910
0,7939
0,7967
0,7995
0,8023
0,8051
0,8079
0,8106
0,8133
0,8159
0,8186
0,8212
0,8238
0,8264
0,8289
0,8315
0,8340
0,8365
0,8389
1,10
1,11
1,12
1,13
1,14
1,15
1,16
1,17
1,18
1,19
1,30
1,31
1,32
1,33
1,34
1,35
1,36
1,37
1,38
1,39
1,40
1,41
1,42
1,43
1,44
1,45
1,46
1,47
1,48
1,49
0,8643
0,8665
0,8686
0,8708
0,8729
0,8749
0,8770
0,8790
0,8810
0,8830
0,9032
0,9049
0,9066
0,9082
0,9099
0,9115
0,9131
0,9147
0,9162
0,9177
0,9192
0,9207
0,9222
0,9236
0,9251
0,9265
0,9279
0,9292
0,9306
0,9319
222
1,60
1,61
1,62
1,63
1,64
1,65
1,66
1,67
1,68
1,69
1,80
1,81
1,82
1,83
1,84
1,85
1,86
1,87
1,88
1,89
1,90
1,91
1,92
1,93
1,94
1,95
1,96
1,97
1,98
1,99
0,9452
0,9463
0,9474
0,9484
0,9495
0,9505
0,9515
0,9525
0,9535
0,9545
0,9641
0,9649
0,9656
0,9664
0,9671
0,9678
0,9686
0,9693
0,9699
0,9706
0,9713
0,9719
0,9726
0,9732
0,9738
0,9744
0,9750
0,9756
0,9761
0,9767
2,10
2,11
2,12
2,13
2,14
2,15
2,16
2,17
2,18
2,19
2,30
2,31
2,32
2,33
2,34
2,35
2,36
2,37
2,38
2,39
2,40
2,41
2,42
2,43
2,44
2,45
2,46
2,47
2,48
2,49
0,9821
0,9826
0,9830
0,9834
0,9838
0,9842
0,9846
0,9850
0,9854
0,9857
0,9893
0,9896
0,9898
0,9901
0,9904
0,9906
0,9909
0,9911
0,9913
0,9916
0,9918
0,9920
0,9922
0,9925
0,9927
0,9929
0,9931
0,9932
0,9934
0,9936
2,60
2,61
2,62
2,63
2,64
2,65
2,66
2,67
2,68
2,69
2,80
2,81
2,82
2,83
2,84
2,85
2,86
2,87
2,88
2,89
2,90
2,91
2,92
2,93
2,94
2,95
2,96
2,97
2,98
2,99
0,9953
0,9955
0,9956
0,9957
0,9959
0,9960
0,9961
0,9962
0,9963
0,9964
0,9974
0,9975
0,9976
0,9977
0,9977
0,9978
0,9979
0,9979
0,9980
0,9981
0,9981
0,9982
0,9983
0,9983
0,9984
0,9984
0,9985
0,9985
0,9986
0,9986
x
3,0
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
φ(x)
0,9987
0,9990
0,9993
0,9995
0,9997
0,9998
0,9998
0,9999
0,9999
0,9999
B.2. STUDENTSCHE T-VERTEILUNG
B.2 Studentsche t-Verteilung
Fraktile tα/2,m der Studentschen t-Verteilung
m
α = 0,50
α = 0,25
α = 0,10
α = 0,05
α = 0,02
α = 0,01
1
1,00
2,41
6,31
12,70
31,82
63,7
2
0,82
1,60
2,92
4,30
6,97
9,92
3
0,77
1,42
2,35
3,18
4,54
5,84
4
0,74
1,34
2,13
2,78
3,75
4,60
5
0,73
1,30
2,01
2,57
3,37
4,03
6
0,72
1,27
1,94
2,45
3,14
3,71
7
0,71
1,25
1,89
2,36
3,00
3,50
8
0,71
1,24
1,86
2,31
2,90
3,36
9
0,70
1,23
1,83
2,26
2,82
3,25
10
0,70
1,22
1,81
2,23
2,76
3,17
11
0,70
1,21
1,80
2,20
2,72
3,11
12
0,70
1,21
1,78
2,18
2,68
3,05
13
0,69
1,20
1,77
2,16
2,65
3,01
14
0,69
1,20
1,76
2,14
2,62
2,98
15
0,69
1,20
1,75
2,13
2,60
2,95
16
0,69
1,19
1,75
2,12
2,58
2,92
17
0,69
1,19
1,74
2,11
2,57
2,90
18
0,69
1,19
1,73
2,10
2,55
2,88
19
0,69
1,19
1,73
2,09
2,54
2,86
20
0,69
1,18
1,73
2,09
2,53
2,85
21
0,69
1,18
1,72
2,08
2,52
2,83
22
0,69
1,18
1,72
2,07
2,51
2,82
23
0,69
1,18
1,71
2,07
2,50
2,81
24
0,69
1,18
1,71
2,06
2,49
2,80
25
0,68
1,18
1,71
2,06
2,49
2,79
26
0,68
1,18
1,71
2,06
2,48
2,78
27
0,68
1,18
1,71
2,05
2,47
2,77
28
0,68
1,17
1,70
2,05
2,47
2,76
29
0,68
1,17
1,70
2,05
2,46
2,76
30
0,68
1,17
1,70
2,04
2,46
2,75
40
0,68
1,17
1,68
2,02
2,42
2,70
60
0,68
1,16
1,67
2,00
2,39
2,66
120
0,68
1,16
1,66
1,98
2,36
2,62
∞
0,67
1,15
1,64
1,96
2,33
2,58
223
Index
Abbildung
unmögliches, 17, 40
Ereignisraum, 17
meßbar, 59
Ankunftsrate, 169
Ergodizität, 151
Autokorrelationsfolge, 153
Erwartungstreue, 195
Autokorrelationsfunktion, 152
Erwartungswert, 84, 85
Autokovarianz, 154
Estimation, 184, 193
Experiment, 46
BAYES, Formel von, 51
Exponentialverteilung, 75
Bayes-Detektor, 185
BAYESsche Schätzregel, 197
Fakultät, 21
B ERNOULLI, 18
p-Fraktile, 82
Experiment, 124
Gauß
Bernoulli-Versuch, 57
Algorithmus, 156
B ERTRANDs Paradoxon, 41
Verteilung, 72
Binomialkoeffizient, 24
Gauß’sches Fehlerintegral, 82
Binomialverteilung, 57
gemeinsame Verteilungsfunktion, 92
Borel-Mengen, 44
geordnete Statistik, 120, 206
Gesetz der großen Zahlen, 136
Cauchy-Verteilung, 106
Gleichverteilung, 72
C HAPMAN -KOLMOGOROV-Gleichung,
Grenzwertsatz, 123
176
Integralgrenzwertsatz, 128
Charakteristische Funktion, 104, 106
lokaler, 126
C RAMER -R AO-Schranke, 212, 213
zentraler, 123
zentraler, von L INDEBERG -L ÉVY,
Detektion, 183
132
Eigenfunktion, 158
zentraler, von L JAPUNOW, 133
Entscheidungsregel, 184
Integralgrenzwertsatz, 129
Ereignis, 17, 39
Intervallschätzung, 208
Elementarereignis, 17, 39
sicheres, 17, 39
JACOBI-Determinante, 119
224
INDEX
KOLMOGOROV, 44
KOLMOGOROV’sche
Definition, 147
Vorwärts-
bzw.
N EYMAN -P EARSON-Detektor, 189
Rückwärtsgleichungen, 178
Normalverteilter Zufallsvektor, 99
Konfidenzintervall, 208
Normalverteilung, 72, 80, 105
Konsistenz, 196
Korrelationskoeffizient, 101
Poisson-Prozess, 168
Kostenfunktion, 186, 197
Ankunftsabstände, 171
Kovarianz, 97
grafisch, 170
Kovarianz-Matrix, 98
Verteilung, 170
Kreuzkorrelation, 154, 160
Potenzmenge, 43
Kreuzleistungsdichtefunktion, 161
Probability Density Function, PDF, 66
LDF, 160
p-Quantile, 83
Leistungsdichtespektrum, 160
Rand-Wahrscheinlichkeitsdichte, 93
L EVINSON
Randverteilung, 93
Algorithmus, 155
Likelihood-Quotient, 187
Rayleigh-Verteilung, 74
L INDEBERG -L ÉVY, 132
R AYLEIGH-Verteilung, 95
Lineare Schätzverfahren, 214
rekursive Schätzung, 204
Ljapunow, 133
Risiko, 186
Lognormalverteilung, 74
Satz von Bienaymé, 89
LTI-Systeme, 158
Schaarmittelwert, 151
Schätzung
M ARKOV
Eigenschaft, 173
effiziente, 213
Kette, 173
wirksame, 196, 213
Schätzung der Varianz, 201
M ARKOV-Kette
σ-Algebra, 43
Definition, 174
S MOLUCHOWSKY-Gleichung, 176
Markov-Kette
Standardabweichung, 89
homogene, 175
Stationarität, 149
Maximum-a-posteriori Detektor, 188
im strengen Sinne, 149
Maximum-Likelihood Detektor, 188
Maximum-Likelihood Schätzregel, 199
statistisch unabhängig, 89
M ISES, R. von, 29
Statistische Unabhängigkeit, 54
M OIVRE -L APLACE, 126
Stetigkeitskorrektur, 131
Momente, 88, 106
stochastische Matrix, 176
Musterfunktion, 147
Stochastische Prozesse, 145
225
INDEX
unkorrelierte, 101
Stochastischer Prozess
Zufallsvektor, 92
Definition, 146
Zählprozess, 168
t-Verteilung, 210
T SCHEBYSCHEFF’sche
Übergangsmatrix, 176
Ungleichung,
Übergangswahrscheinlichkeit, 175
134
unabhängige Zufallsvariablen, 94
Unabhängigkeit
paarweise, 55
statistische, 54
unbiased, 195
unkorrelierte Zufallsgrößen, 101
Varianz, 88
Varianz der Schätzwerte, 196
Varianz-Kovarianz-Matrix, 98
V ENN-Diagramm, 40
Verschiebungssatz, 89
Verteilungsdichtefunktion, 66
Verteilungsfunktion, 64
Verteilungsgesetz, 66
Vertrauensintervall, 208
Wahrscheinlichkeit, 18, 44
a posteriori, 51
bedingte, 47
totale, 49
Wahrscheinlichkeitsdichte, 66
Wahrscheinlichkeitsmaß, 36
Wahrscheinlichkeitsraum, 46, 56
Weißes Rauschen, 161
W IENER -H OPF-Gleichung, 216
W IENER -L EE-Beziehung, 161
Zeitmittelwert, 151
Zufallsvariable, 59
unabhängige, 94
226
Herunterladen