I NSTITUT FÜR NACHRICHTENTECHNIK Vorlesung Stochastische Prozesse Prof. Dr. Hermann Rohling Institut für Nachrichtentechnik Technische Universität Hamburg-Harburg Sommersemester 2006 Stand: 16. März 2006 Inhaltsverzeichnis I Wahrscheinlichkeitstheorie 11 1 13 Zufällige Ereignisse 1.1 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.1.1 1.2 1.3 1.4 Definitionen des Begriffs der Wahrscheinlichkeit nach Bernoulli . . 18 Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.2.1 Permutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.2.2 Kombination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.2.3 Variation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.2.4 Zusammenfassung der Kombinatorik . . . . . . . . . . . . . . . . 27 Wahrscheinlichkeit (Teil 2) . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.3.1 Grenzwert der relativen Häufigkeit (R. 1.3.2 Allgemeingültige Definition der Wahrscheinlichkeit . . . . . . . . 36 VON M ISES, 1919) . . . . . 29 Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 1.4.1 Ereignisse und Merkmalsräume . . . . . . . . . . . . . . . . . . . 39 1.4.2 Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 1.4.3 Mengen und Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . 40 1.4.4 Weitere Mengenoperationen in Ereignisräumen . . . . . . . . . . . 40 1.4.5 V ENN-Diagramme . . . . . . . . . . . . . . . . . . . . . . . . . . 40 1.5 B ERTRANDs Paradoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 1.6 Definition der σ-Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 1.7 Axiomatische Definition der Wahrscheinlichkeit (A. KOLMOGOROV, 1933) 44 1.8 Folgerungen aus den KOLMOGOROVschen Axiomen . . . . . . . . . . . . 45 1.9 Definition eines Wahrscheinlichkeitsraums . . . . . . . . . . . . . . . . . . 46 1.10 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . 47 1.11 Totale Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 1.12 Formel von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3 INHALTSVERZEICHNIS 2 Zufallsvariable, statistische Unabhängigkeit 2.1 Statistische Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.2 Produktwahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . . . . . 56 2.3 Definition der Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . 58 2.4 Neuer Wahrscheinlichkeitsraum . . . . . . . . . . . . . . . . . . . . . . . 60 2.5 Verteilungsfunktion der Zufallsvariablen X . . . . . . . . . . . . . . . . . 63 2.6 2.7 3 53 2.5.1 Eigenschaften der Verteilungsfunktion . . . . . . . . . . . . . . . . 64 2.5.2 Verteilungsfunktion für diskrete Zufallsvariable . . . . . . . . . . . 65 2.5.3 Verteilungsfunktion für kontinuierliche Zufallsvariable . . . . . . . 65 Wahrscheinlichkeitsdichtefunktion . . . . . . . . . . . . . . . . . . . . . . 66 2.6.1 Wahrscheinlichkeitsdichtefunktion für diskrete Zufallsvariable . . . 66 2.6.2 Wahrscheinlichkeitsdichtefunktion für kontinuierliche Zufallsvariable 71 Zusammenfassung: Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 76 Beschreibung und Analyse von Zufallsvariablen 79 3.1 Verteilungsfunktion und Wahrscheinlichkeitsdichtefunktion . . . . . . . . . 79 3.2 p-Fraktile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 3.3 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 3.4 3.5 3.3.1 Erwartungswert einer Zufallsvariablen . . . . . . . . . . . . . . . . 84 3.3.2 Erwartungswert für diskrete Zufallsvariable . . . . . . . . . . . . . 84 3.3.3 Erwartungswert für kontinuierliche Zufallsvariable . . . . . . . . . 85 3.3.4 Rechenregeln für Erwartungswerte . . . . . . . . . . . . . . . . . . 86 3.3.5 Erwartungswerte für Funktionen von Zufallsvariablen . . . . . . . 87 Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 3.4.1 Definition der Momente . . . . . . . . . . . . . . . . . . . . . . . 88 3.4.2 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 3.4.3 Schiefe einer Verteilung . . . . . . . . . . . . . . . . . . . . . . . 91 Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 3.5.1 Verteilungsfunktion von Zufallsvektoren . . . . . . . . . . . . . . . 92 3.5.2 Randverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.6 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 94 3.7 Erwartungswerte von statistisch unabhängigen Zufallsvariablen . . . . . . . 96 3.8 Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 3.8.1 3.9 Mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . . 99 Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 3.10 Charakteristische Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . 101 4 INHALTSVERZEICHNIS 3.10.1 Summe von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 101 3.10.2 Definition der Charakteristischen Funktion . . . . . . . . . . . . . 104 3.10.3 Eigenschaften der charakteristischen Funktion . . . . . . . . . . . 104 3.10.4 Zusammenhang mit den Momenten einer Zufallsvariablen . . . . . 106 3.10.5 Zweidimensionale Charakteristische Funktion . . . . . . . . . . . . 108 4 Funktionen von Zufallsvariablen 4.1 5 109 Bestimmung der Wahrscheinlichkeitsdichtefunktion durch Transformation . 110 4.1.1 Eindeutig umkehrbare Funktionen . . . . . . . . . . . . . . . . . . 110 4.1.2 Nicht eindeutig umkehrbare Funktionen . . . . . . . . . . . . . . . 111 4.2 Verteilungsfunktion der Zufallsvariablen Y = g(X) . . . . . . . . . . . . . 113 4.3 Funktionen angewandt auf zwei Zufallsvariable . . . . . . . . . . . . . . . 114 4.4 „Festhalten“ einer Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 116 4.5 Transformation von Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . 117 4.6 Geordnete Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 Folgen stochastischer Größen und Grenzwertsätze 5.1 123 Grenzwertsätze der Binomialverteilung . . . . . . . . . . . . . . . . . . . 124 5.1.1 Lokaler Grenzwertsatz von M OIVRE -L APLACE . . . . . . . . . . . 126 5.1.2 Integralgrenzwertsatz von M OIVRE -L APLACE . . . . . . . . . . . 128 5.1.3 Zentraler Grenzwertsatz von L INDEBERG -L ÉVY . . . . . . . . . . 132 5.1.4 Zentraler Grenzwertsatz von L JAPUNOW . . . . . . . . . . . . . . 133 5.2 Tschebyscheff’sche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . 134 5.3 Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 5.4 5.3.1 Schwaches Gesetz der großen Zahlen . . . . . . . . . . . . . . . . 137 5.3.2 Starkes Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . 139 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 II Stochastische Prozesse 143 6 145 Stochastische Prozesse 6.1 Definition eines stochastischen Prozesses . . . . . . . . . . . . . . . . . . 146 6.1.1 6.2 6.3 Musterfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 Beschreibung stochastischer Prozesse . . . . . . . . . . . . . . . . . . . . 149 6.2.1 Stationarität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 6.2.2 Ergodizität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 Autokorrelationsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 5 INHALTSVERZEICHNIS 6.4 6.3.1 Beschreibung von diskreten stochastischen Prozessen . . . . . . . . 153 6.3.2 Eigenschaften der Autokorrelationsfunktion . . . . . . . . . . . . . 153 6.3.3 Kreuzkorrelation von stochastischen Prozessen . . . . . . . . . . . 153 6.3.4 Autokovarianzfolge . . . . . . . . . . . . . . . . . . . . . . . . . . 154 Prognoseverfahren für stochastische Prozesse . . . . . . . . . . . . . . . . 154 6.4.1 6.5 7 Levinson-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . 155 Stochastische Signale in LTI-Systemen . . . . . . . . . . . . . . . . . . . . 158 6.5.1 Kreuzkorrelation zwischen Eingangs- und Ausgangsprozess . . . . 159 6.5.2 Leistungsdichtespektrum . . . . . . . . . . . . . . . . . . . . . . . 160 6.5.3 Kreuzleistungsdichtefunktion . . . . . . . . . . . . . . . . . . . . 160 6.5.4 Wiener-Lee-Beziehung . . . . . . . . . . . . . . . . . . . . . . . . 161 6.5.5 Anwendung: Systemidentifikation durch weißes Rauschen . . . . . 162 6.5.6 Anwendung: Korrelationsempfänger, Matched Filter . . . . . . . . 163 Warteschlangen und Ankunftsprozesse 7.1 7.2 167 Poisson-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 7.1.1 Zählprozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 7.1.2 Ankunftsrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 7.1.3 Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 7.1.4 Ankunftsabstände . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 7.2.1 Beschreibung und Eigenschaften von Markov-Ketten . . . . . . . . 175 7.2.2 Chapman-Kolmogorov- oder Smoluchowsky-Gleichung . . . . . . 175 7.2.3 Übergangsmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . 176 7.2.4 Kolmogorov’sche Vorwärts- und Rückwärtsgleichungen . . . . . . 177 7.2.5 Homogene Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . 178 III Detektion und Estimation 181 8 183 Detektion 8.1 Detektion und Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 8.2 Binäre Detektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 8.3 8.2.1 Entscheidungsregel . . . . . . . . . . . . . . . . . . . . . . . . . . 184 8.2.2 Detektionsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 Bayes-Detektor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 8.3.1 Risiko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 6 INHALTSVERZEICHNIS 9 8.3.2 Entscheidungsregel . . . . . . . . . . . . . . . . . . . . . . . . . . 186 8.3.3 Likelihood-Quotient . . . . . . . . . . . . . . . . . . . . . . . . . 187 8.4 Maximum-a-posteriori Detektor (MAP) . . . . . . . . . . . . . . . . . . . 188 8.5 Maximum-Likelihood Detektor . . . . . . . . . . . . . . . . . . . . . . . . 188 8.6 Neyman-Pearson-Detektor . . . . . . . . . . . . . . . . . . . . . . . . . . 189 Schätzverfahren (Estimation) 9.1 193 Zielsetzung der Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . 193 9.1.1 Arten von Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . 194 9.1.2 Beurteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 9.1.3 Erwartungstreue . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 9.1.4 Varianz der Schätzung . . . . . . . . . . . . . . . . . . . . . . . . 196 9.1.5 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 9.2 Bayessche Schätzregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 9.3 Maximum-Likelihood Schätzregel . . . . . . . . . . . . . . . . . . . . . . 199 9.4 Schätzung des Erwartungswertes . . . . . . . . . . . . . . . . . . . . . . . 200 9.5 Schätzung der Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 9.6 9.5.1 Schätzung der Varianz bei bekanntem Erwartungswert µy 9.5.2 Schätzung der Varianz bei unbekanntem Erwartungswert µy . . . . 202 . . . . . 201 Rekursive Schätzung des Erwartungswertes . . . . . . . . . . . . . . . . . 203 9.6.1 Erwartungstreue der rekursiven Schätzung . . . . . . . . . . . . . . 204 9.6.2 Varianz der rekursiven Schätzung . . . . . . . . . . . . . . . . . . 205 9.7 Schätzung mit geordneter Statistik . . . . . . . . . . . . . . . . . . . . . . 206 9.8 Konfidenzintervall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 9.8.1 9.9 Konfidenzintervall für den Erwartungswert . . . . . . . . . . . . . 208 Cramer-Rao-Schranke . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 9.10 Lineare Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 9.10.1 Orthogonalitätsprinzip . . . . . . . . . . . . . . . . . . . . . . . . 214 9.10.2 Allgemeine Regeln eines linearen Schätzverfahrens . . . . . . . . . 214 9.10.3 Auftretende Fehler bei linearen Schätzverfahren . . . . . . . . . . . 215 9.11 Additive unkorrelierte Störungen . . . . . . . . . . . . . . . . . . . . . . . 215 IV Anhang 217 A Verständnisfragen 219 A.1 Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . 219 7 INHALTSVERZEICHNIS A.2 Stochastische Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 A.3 Detektion & Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 B Tabellen 221 B.1 Normierte Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 222 B.2 Studentsche t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 8 Einleitung Trau keiner Statistik, die du nicht selbst gefälscht hast. So oder so ähnlich ist der gesellschaftliche und umgangssprachliche Zugang zu dem, was in dieser Vorlesung auf wissenschaftlich wohlfundierter Basis diskutiert werden soll. Mit dieser Redensart wird allerdings gleichzeitig auch die Bedeutung der Statistik unterstrichen. Wer diesen Sachverhalt beherrscht, hat sich offensichtlich Vorteile erarbeitet; er oder sie kann mitreden, wenn man von der Sache etwas versteht. Pfiffige Strategen nutzen die weit verbreitete Unkenntnis im Umgang zufälliger Ereignisse und in der Angabe quantitativer Werte der Wahrscheinlichkeit geschickt und gezielt aus, um sich Vorteile bei der Vermarktung neuer Medikamente oder auch vor Gericht zu verschaffen. Ein Paradebeispiel für diesen Sachverhalt ist der Mordprozess gegen den US-Football-Star O.J. Simpson in den neunziger Jahren. „Sein Verteidiger führte damals weitläufig aus, wie ungerecht es sei, es als belastendes Indiz für seinen Mandanten zu bewerten, dass Simpson seine Frau früher nachweislich misshandelt habe. Schließlich würde die Mehrzahl der geschlagenen Frauen ja keineswegs ermordet. Weniger als einer von 2500 Männern, die ihre Partnerin schlagen, so argumentierte der Verteidiger, gingen so weit, sie zu ermorden. Diese statistische Angabe stimmte, führte die Geschworenen jedoch an der Nase herum. Entscheidend für das Urteil hätte die ebenfalls relevante Frage sein können, bei wie vielen von allen getöteten Frauen, die zu Lebzeiten von ihrem Mann misshandelt wurden, dieser auch der Mörder war. Dies ist nachweislich bei 8 von 9 aller umgebrachten Frauen der Fall. Unabhängig von der objektiven Wahrheit hatte die Augenwischerei des Verteidigers wohl Erfolg: O.J. Simpson ist seither auf freiem Fuß“ [Die Zeit Nr. 33, vom 8.8.02]. Diese beiden unterschiedlichen Angaben und Aussagen müssen offensichtlich genau analysiert werden. Was steht also tatsächlich hinter diesen Aussagen, die sich auf wahrscheinlichkeitstheoretische Sachverhalte beziehen? Wir werden in den folgenden Kapiteln auf diesen wahrscheinlichkeitstheoretischen Sachverhalt zurückkommen. Sehr viele Ereignisse in unserem alltäglichen Leben, deren physikalische oder sonstige Gesetzmäßigkeiten uns unbekannt sind, betrachten und akzeptieren wir deshalb als zufällig 9 INHALTSVERZEICHNIS oder auch als nicht oder nur sehr vage vorhersagbar. Nicht nur das „ehrliche Glücksspiel“, sondern auch das „Wetter von morgen“ sowie Geburten- und Sterberaten, Aktienkurse und Wahlumfragen sind Beispiele dieser Kategorie von relevanten Fragen und von zu analysierenden Sachverhalten. Die hinter den zufälligen Ereignissen stehenden Fragestellungen können ganz unterschiedlicher Natur sein. Ein Beispiel dazu: Für Versicherungen ist zwar der einzelne Schadensfall ein rein zufälliges Ereignis, allerdings zunächst von relativ geringem Interesse. Die eigentlich wichtige Frage für Versicherungen besteht darin, trotz der Zufälligkeit der Einzelereignisse die jährlich zu erwartende gesamte Schadenssumme mit hoher Genauigkeit vorhersagen zu können. Aus der Sicht des Individuums ist eine Erkrankung oder ein Unglücksfall als rein zufälliges Ereignis zu betrachten und zu bewerten. Das Individuum interessiert sich für die Wahrscheinlichkeit, mit der es von einem Schaden betroffen sein kann, um dadurch Risiken abschätzen zu können. Für die Versicherung ist dagegen ausschließlich die Frage von Interesse, wie gut bzw. im stochastischen Sinne wie sicher die mittlere jährliche Schadenssumme vorhersagbar ist. In der Elektro- und Informationstechnik ist die Kenntnis von Methoden zur Beschreibung und Analyse von zufälligen Ereignissen von besonderer Wichtigkeit, da zufällige Ereignisse und stochastische Prozesse in praktisch allen Bereichen auftreten: Das Empfangssignal eines Kommunikationssystems, die Messwerte eines Sensors, die Daten eines Videodatenstromes, die Lebensdauer eines Bauteils sowie die Paketankunftszeiten an einem Router sind nur einige ausgewählte Beispiele. Sachverhalte dieser Art sollen in dieser Vorlesung analysiert und auch quantitativ berechnet werden. 10 Teil I Wahrscheinlichkeitstheorie 11 Kapitel 1 Zufällige Ereignisse Im technischen Anwendungsbereich ist der Begriff des Zufalls oder der Zufallsvariablen wichtig. Solche vom Zufall beeinflussten Vorgänge werden als Zufallsexperiment bezeichnet. Der Ingenieur ist darin geschult, durchaus komplexe Sachverhalte zu durchdringen und modellhaft zu beschreiben. Die Modellbildung spielt deshalb in dieser Vorlesung eine ausgezeichnete Rolle. Der Begriff des Zufalls beschäftigt Wissenschaftler schon seit mehreren Jahrhunderten. Dabei ist die Erkenntnis bzw. die Beobachtung von zentraler Bedeutung, dass solche im Grundsatz zwar einer strengen aber doch unbekannten Gesetzmäßigkeit gehorchenden Vorgänge vom Beobachter als zufällige Ereignisse wahrgenommen werden. Durch lange Beobachtung eines Experiments mit zufälligem Ausgang kann man versuchen, die Gesetzmäßigkeit zu analysieren. Dies gelingt selbstverständlich nicht im deterministischen sondern nur im stochastischen Sinn. Abbildung 1.1: Verlauf des DAX (Quelle: http://www.finanztreff.de) 13 KAPITEL 1. ZUFÄLLIGE EREIGNISSE Abbildung 1.2: Bevölkerungspyramide (Quelle: http://www.destatis.de) Wir werden im Alltag mit vielen Darstellungen konfrontiert, in denen im Prinzip wahrscheinlichkeitstheoretische Sachverhalte dargestellt und beschrieben sind, obwohl das auf den ersten Blick gar nicht erkennbar ist. Der zeitliche Verlauf eines Aktienkurses wird selbstverständlich von vielen Faktoren beeinflusst. Ohne detaillierte Kenntnis dieser Faktoren können wir den jeweiligen Kurs aber ersatzweise als zufälligen Verlauf betrachten und beispielsweise statistische Methoden zur Kursvorhersage anwenden. In den Börsennachrichten werden sogenannte Tages-, Monats- oder 90 Tagesmittel angegeben (Abbildung 1.1). Hinter dieser Berechnung der Mittelwerte steckt eine statistische Analyse des betrachteten Sachverhalts. Zur Angabe einer Bevölkerungsstatistik wird das Lebensalter eines Individuums als zufälliges Ereignis betrachtet. Eine Bevölkerungspyramide (Abbildung 1.2) gibt an, welches derzeitige Lebensalter die Menschen innerhalb einer Gesellschaft haben. Daraus lassen sich wichtige statistische Größen, wie mittleres Lebensalter, mittlere Lebenserwartung sowie charakteristische Abweichungen für das Lebensalter von Frauen und Männer ablesen. Ebenso können wir Wahlumfragen (Abbildung 1.3) als ein Ereignis mit zufälligem Ausgang betrachten. Objektiv betrachtet wird der Wahlausgang von einer Vielzahl von Faktoren beeinflusst. Zwischen diesen Faktoren und dem resultierenden Wahlausgang gibt 14 Abbildung 1.3: Wahlergebnis (Verteilung der Zweitstimmen bei der Bundestagswahl 2002, Quelle: http://www.bundeswahlleiter.de) es allerdings im Allgemeinen keinen klaren funktionalen Zusammenhang. Deshalb wird das Wahlverhalten und der Wahlausgang alternativ als ein Zufallsprozess beschrieben und betrachtet. Daraus lassen sich wiederum wichtige statistische Grössen herleiten, die zur Interpretation der Ergebnisse und Wahlanalyse genutzt werden können. Die Stochastik ist diejenige wissenschaftliche Disziplin, die eine präzise mathematische Beschreibung der zufälligen Vorgänge gestattet, die zwar einer Gesetzmäßigkeit unterliegen können, deren Ausgänge aber trotzdem als zufällig betrachtet und beobachtet werden. Damit ist das Thema für diese Vorlesung fixiert und beschrieben. Wir wollen den Umgang mit zufälligen Ereignissen mathematisch formal in geeigneten Modellen erfassen und die Interpretation der Ergebnisse ausführlich diskutieren. Zunächst wird die Wahrscheinlichkeitstheorie entwickelt. Später wird die Theorie der stochastischen Prozesse beschrieben und anschließend das wichtige Thema der statistischen Entscheidungs- und Schätztheorie analysiert. Offensichtliche Zufallsexperimente, bei denen die mathematischen Voraussetzungen deutlich nachprüfbar sind, werden in diesem Skript häufig als charakteristische Beispiele für einen allgemein betrachteten Sachverhalt herangezogen. Dabei beobachten wir die zufälligen Ergebnisse und analysieren das stochastische Geschehen. Einige Beispiele für solche Zufallsexperimente sind im Folgenden angegeben: • Zufallszahlengenerator: Zufalls− generator 15 zufällige Ereignisse ω1 , ω2 , . . . Elementarereignisse KAPITEL 1. ZUFÄLLIGE EREIGNISSE • Kartenspiel: • Lotto: • Münzwurf: • Urnenexperiment: • einarmiger Bandit: Kartenspiele, Münzwürfe, Urnenexperimente, Lotto und Spielautomaten sind dadurch charakterisiert, dass eine endliche Anzahl von Möglichkeiten beim Ausgang des zufälligen Experiments beobachtet werden. Die interessierende Frage besteht in der quantitativen Angabe, wie häufig bestimmte zufällige Ereignisse bzw. Kombinationen einzelner Ereignisse bei diesem Experiment auftreten. Es ist offensichtlich, dass eine positive Beantwortung dieser Frage Vorteile im Glücksspiel bringen kann. Diese allgemein formulierte Frage muss aber zunächst in ein formales mathematisches Gerüst eingebracht werden. Dazu werden im Folgenden geeignete mathematische Modelle entwickelt. 16 1.1. WAHRSCHEINLICHKEIT Definition 1.1 (Ereignisraum) Die Menge aller möglichen Ergebnisse eines Zufallsexperiments wird Ereignisraum genannt und mathematisch formal durch die Menge Ω be- Ereignisraum schrieben. In der Menge Ω sind also sämtliche Elementarereignisse des Zufallsexperiments Ω ❍ enthalten. Zur anschaulichen Darstellung dieser im Prinzip abstrakten Zufallsexperimente werden wir immer wieder auf ähnliche Beispiele zurückgreifen, auf Kartenspiele, Werfen von Münzen oder Würfeln, Verteilung von Kugeln in Urnen usw. Für jedes Zufallsexperiment muss zunächst der Ereignisraum Ω exakt beschrieben werden. Beispiel 1.1 Ereignisräume verschiedener beispielhafter Zufallsexperimente: 1. Werfen einer Münze: Ω1 = {Kopf, Zahl} 2. Werfen eines Würfels: Ω2 = {1, 2, 3, 4, 5, 6} 3. Werfen von zwei Würfeln: Ω 3 = Ω2 × Ω 2 4. Anzahl der Anrufe in einer Telefonzentrale: Ω4 = N0 = {0, 1, 2, . . .} 5. Laufzeit einer Maschine: Ω5 = R + 0 = [0, ∞[ △ Ein allgemeines zufälliges Ereignis des Zufallsexperiments ist demnach eine Teilmenge A des Ereignisraumes Ω. Die Eigenschaften dieser Teilmenge A sind zunächst noch nicht festgelegt, sondern abstrakt zu interpretieren. Wenn allerdings A = Ω bzw. A = ∅ ist, dann werden diese Situationen auch als sicheres bzw. unmögliches Ereignis bezeichnet. Einelementige Teilmengen des Ereignisraumes Ω werden Elementarereignisse des Zufallsexperiments genannt. 1.1 Wahrscheinlichkeit Bisher wurde das Zufallsexperiment ausschließlich mengentheoretisch erfasst. Es wurde sozusagen analysiert und beschrieben, welche zufälligen Ereignisse in einem Zufallsexperiment überhaupt auftreten können. Das eigentliche Ziel der folgenden Betrachtungen besteht aber darin, den einzelnen zufälligen Ereignissen Wahrscheinlichkeiten zuordnen zu wollen und zuordnen zu können. Darin liegt ja die wesentliche Zielsetzung der Wahrscheinlichkeitstheorie, um nicht nur die möglichen Ereignisse der Zufallsexperimente vor dem Hintergrund der Kombinatorik zu erfassen, sondern diesen Ereignissen auch Wahrscheinlichkeiten für eine quantitative Auswertung zuordnen zu können. Erst durch diesen Schritt wird eine Wahrscheinlichkeitstheorie begründet. Die Entwicklung dieser Theorie hat sich in Etappen vollzogen. Je nach vorliegender aktueller Fragestellung ist das theoretische Gebäude entsprechend erweitert worden. 17 Ereignis A KAPITEL 1. ZUFÄLLIGE EREIGNISSE Zu Anfang des 18. Jahrhunderts war das Glücksspiel sehr populär. Die damaligen Fürsten, Herzöge und sonstigen wohlbetuchten Personen haben sich nicht nur sehr aktiv am Glücksspiel beteiligt, sondern konnten es sich zusätzlich auch leisten, kluge Menschen zu beschäftigen (und hoffentlich gut zu bezahlen), von denen sie sich Rat für das Verhalten im Glücksspiel holten. Dementsprechend wurde von den damaligen Mathematikern für diese Experimente mit offensichtlich zufälligem Ausgang eine Theorie entwickelt, mit der Antworten auf die Wahrscheinlichkeit bestimmter zufälliger Konstellationen und damit auf Fragen zum Risiko eines Wetteinsatzes gegeben werden konnten. Charakteristisch für diese betrachteten Experimente ist allerdings, dass jedes Elementarereignis (Ziehen einer Karte, Zahl am Roulettisch usw.) anschaulich mit derselben identischen Wahrscheinlichkeit eintritt. Johann Bernoulli wurde am 27. Juli 1667 in Basel geboren und ist dort am 1. Januar 1748 gestorben. In seinen wissenschaftlichen Betrachtungen ließ er sich von einem zunächst einfachen aber auch anschaulich nachvollziehbaren Gedanken leiten, dass nämlich Elementarereignisse in den Experimenten mit gleicher Wahrscheinlichkeit auftreten. Die Gleichwahrscheinlichkeit der Elementarereignisse erhebt er deshalb zum Prinzip, zur Basis, zur charakteristischen Eigenschaft seiner Wahrscheinlichkeitstheorie. Er betrachtet Zufallsexperimente mit diskretem (also nicht kontinuierlichem) Ausgang, wobei die Anzahl der Elementarereignisse mit N begrenzt ist. Es treten also nur endlich viele Elementarereignisse in diesen Zufallsexperimenten auf. Das ist eine zunächst wesentliche Festsetzung in dem betrachteten Modell und auch eine Einschränkung bezüglich der Experimentanordnung. Allerdings ist diese Festsetzung bei den bisher betrachteten Beispielen der Kartebspiele, Münzwürfe, Urnenexperimente und Spielautomaten unmittelbar als zutreffend nachvollziehbar. 1.1.1 Definitionen des Begriffs der Wahrscheinlichkeit nach Bernoulli Glücksspiele in Form von Würfeln, Roulette, oder Karten werden bereits seit Jahrhunderten gespielt. Dabei tritt eine definierte Anzahl bekannter Elementarereignisse im Ereignisraum Ω auf. Durch Werfen der Würfel oder Ziehen der Karten treten diese Elementarereignisse selbstverständlich zufällig auf. Diesen Sachverhalt hat Bernoulli 1713 zum Anlass genommen, um seinen Begriff der Wahrscheinlichkeit in einem ersten wichtigen Modell und einem ersten mathematischen Konzept zu definieren. Dieses basiert auf der Annahme, dass die Elementarereignisse gleich wahrscheinlich sind. Wir gehen im Folgenden allgemein von insgesamt N Elementarereignissen aus. Als logische Folge wurde das „principle of insufficient reason“ von B ERNOULLI 1713 eingeführt und für die betrachteten zufälligen Experimente als gültig gefordert: 18 1.1. WAHRSCHEINLICHKEIT „In the absence of any prior knowledge we must assume that all basic events have equal probabilities.“ ⇒ Alle Elementarereignisse sind gleich wahrscheinlich oder treten mit anderen Worten mit jeweils gleicher Wahrscheinlichkeit auf. Als quantitativen Wert dieser Wahrscheinlichkeit gibt er an: P (ω) = 1 N Mit dieser anschaulichen Vorstellung kann der Begriff der Wahrscheinlichkeit P (P steht für probability) für das Auftreten eines allgemein formulierten zufälligen Ereignisses A wie folgt definiert werden: Definition 1.2 (principle of unsufficient reason, Bernoulli 1713) Unter der Annahme der Gleichwahrscheinlichkeit aller Elementarereignisse lässt sich die Wahrscheinlichkeit P (A) des Ereignisses A wie folgt beschreiben: P (A) = NA N (1.1) mit NA - Anzahl der Elementarereignisse, die das zufällige Ereignis A bilden N ❍ - Anzahl aller Elementarereignisse Es wird also zur Definition des Begriffs Wahrscheinlichkeit das Verhältnis aus der Anzahl der für das zufällige Ereignis sogenannten „günstigen“ zu der Anzahl N aller möglichen Elementarereignisse gebildet. Aus dieser Definition ist zu erkennen, dass lediglich endlich viele Elementarereignisse in diesem Modell zugelassen sind und die Wahrscheinlichkeit ausschließlich Werte zwischen 0 und 1 annimmt. Bei den hier betrachteten Anwendungsbeispielen der Würfel- oder Kartenspiele ist es häufig eine Frage der Kombinatorik, die Anzahl der günstigen und möglichen Elementarereignisse zu ermitteln. Die Wahrscheinlichkeit eines jeden Elementarereignisses ist nach der obigen Definition selbstverständlich wie von Bernoulli gefordert identisch: P (Elementarereignis) = 1 N. Diese Forderung ist anschaulich auch unmittelbar klar, weil beispielsweise bei einem Kartenspiel keine einzelne Karte in irgendeiner Form bevorzugt zufällig auftritt oder bevorzugt zufällig gezogen wird. Es stellt sich aber bereits jetzt die Frage, welche unmittelbar einsichtigen mathematischen Eigenschaften dieser neue Wahrscheinlichkeitsbegriff hat. Dabei kann an dieser Stelle bereits festgestellt werden, dass die folgenden drei Eigenschaften für diesen Wahrscheinlichkeitsbegriff gelten. Die Richtigkeit dieser Aussagen kann anschaulich nachvollzogen werden. (1) 0 ≤ P (A) ≤ 1 für alle Ereignisse A 19 KAPITEL 1. ZUFÄLLIGE EREIGNISSE (2) P (Ω) = 1 (3) Sei An eine Folge von Ereignissen, die sich einander paarweise ausschließen, so gilt P [ n An ! = X P (An ). n D.h. die Wahrscheinlichkeit eines aus disjunkten Mengen zusammengesetzten Ereignisses kann direkt aus der Summe der Wahrscheinlichkeiten der disjunkten Teilmengen berechnet werden. Auf diese grundlegend wichtigen Eigenschaften des Wahrscheinlichkeitsbegriffs werden wir in späteren Kapiteln zurückkommen. Beispiel 1.2 (Würfeln) Frage: Wie groß ist die Wahrscheinlichkeit beim Wurf zweier Würfel die Augensumme 7 zu erhalten? Lösung: Es existieren sechs „günstige“ Elementarereignisse: (3, 4), (4, 3), (5, 2), (2, 5), (6, 1), (1, 6) → NA = 6 Die Zahl der möglichen Elementarereignisse ist gegeben durch alle Augenzahl-Kombinationen: N = 62 = 36 Die Wahrscheinlichkeit P im Bernoullischen Sinn ist deshalb: P (Augensumme ist 7) = 6 1 NA = = N 36 6 △ 1.2 Kombinatorik In dem Bernoullischen Modell treten grundsätzlich sämtliche Elementarereignisse mit derselben Wahrscheinlichkeit auf. Um diese Wahrscheinlichkeit auch quantitativ angeben zu können, muss zunächst die Anzahl der Elementarereignisse ermittelt werden. Ferner muss für die Berechnung der Wahrscheinlichkeit für das Auftreten eines bestimmten Ereignisses A, die Anzahl der dieses Ereignis beschreibenden Elementarereignisse ermittelt werden. Bei vielen Zufallsversuchen kann das einfache Auszählen der Elementarereignisse aber zu einem etwas umfangreicherem Unterfangen werden. 20 1.2. KOMBINATORIK Auch hierbei kann die Mathematik weiterhelfen, die sich im Gebiet der Kombinatorik mit dem Auszählen möglicher Ereignisse befasst. 1.2.1 Permutation Permutation ohne Wiederholung Beispiel 1.3 (Fakultät) Frage: Wie viele Möglichkeiten N = Pn bzw. wie viele Elementarereignisse gibt es, wenn wir uns für die Reihenfolge interessieren, mit der die einzelnen Karten eines Kartenspiels (n=32 Karten) gezogen werden können? Antwort: Für die Wahl der ersten Karte im Stapel existieren n = 32 Möglichkeiten. Da diese Karte nun festgelegt ist, bleiben für die Wahl der zweiten Karte nur noch 31 Möglichkeiten übrig. Für die dritte Karte reduziert sich die Zahl der Möglichkeiten auf 30. Dies geht immer so weiter bis für die letzte Karte des Stapels nur eine Möglichkeit übrig bleibt. Die Anzahl aller Möglichkeiten ergibt sich somit also aus dem Produkt aller Zahlen von 1 bis 32: N = Pn = n Y k =: n! = 32! k=1 △ Bei der Permutation ohne Wiederholung interessiert man sich für die Anzahl der Möglichkeiten Pn mit denen n verschiedene Elemente unterschiedlich in der Reihenfolge angeordnet werden können, wobei jedes Element in der Reihenfolge genau einmal vorkommen darf. Da für die Wahl jedes neuen Elements immer eine Möglichkeit weniger als für das vorherige existiert, erhält man ein Produkt aller Zahlen von 1 bis n. Für diese Produktbildung wurde in der Mathematik der Begriff der Fakultät eingeführt, die durch ein Ausrufezeichen gekennzeichnet wird. Definition 1.3 (Permutation ohne Wiederholung) Für die Anzahl Pn der Anordnung Permutation von n verschiedenen Elementen gilt: ohne Pn = n! = n Y Wiederholung k (1.2) k=1 ❍ 21 Pn KAPITEL 1. ZUFÄLLIGE EREIGNISSE Beispiel 1.4 (Sitzreihe) In einem Hörsaal wurde eine Reihe mit 16 Sitzplätzen von genau 16 Studierenden besetzt. Es gibt insgesamt 16! = 20.922.789.888.000 Möglichkeiten für die Sitzordnung, eine durchaus beachtlich grosse Anzahl von Möglichkeiten. △ Permutation mit Wiederholung Beispiel 1.5 (Joker) Frage: Wenn ein Kartenspiel mit insgesamt n = 52 Spielkarten betrachtet wird, in dem k = 4 nicht unterscheidbare Joker enthalten sind, dann stellt sich die Frage nach der Anzahl möglicher Reihenfolgen etwas anders. Es wird deshalb die Frage untersucht, wie viele Möglichkeiten es gibt, unterschiedliche Reihenfolgen aus diesem Kartenstapel zu ziehen. Antwort: Die Anzahl bei n unterscheidbaren Karten hatten wir schon in Beispiel 1.3 betrachtet. Da hier aber k = 4 Karten nicht zu unterscheiden sind, reduziert sich die Anzahl der Möglichkeiten: Permutationen, die sich nur durch die Anordnung der Joker unterscheiden, fallen jetzt zu einer einzigen zusammen. Man muss demzufolge die Anzahl der Möglichkeiten für die Anordnung von n Elementen durch die Anzahl der Möglichkeiten für die Anzahl von k Elementen teilen: Pn(k) = 52! n! = k! 4! △ (k) Bei der Permutation mit Wiederholung Pn berücksichtigt man die Möglichkeit, dass bei der Anordnung der n Elemente, k gleiche Elemente (k ≤ n) vorhanden sind. Das heißt, von den n Elementen können k Elemente mehrfach in der Anordnung auftreten bzw. es ist eine Gruppe von k voneinander nicht unterscheidbaren Elementen in dem Kartenstapel enthalten. In diesem Fall muss die Anzahl der Möglichkeiten zur Anordnung von n durch die Anzahl der Möglichkeiten zur Anordnung von k Elementen dividiert werden: Pn(k) = n Y n! Pn i = = Pk k! i=k+1 Beispiel 1.6 (Urnen Experiment) In einer Urne befinden sich k1 = 3 rote, k2 = 2 blaue und k3 = 4 gelbe Kugeln. Die Kugeln werden zufällig aus der Urne gezogen und einer Reihe angeordnet. Wie viele Möglichkeiten gibt es, die Kugeln in unterschiedlicher Reihenfolge anzuordnen? 22 1.2. KOMBINATORIK Es liegen insgesamt n = k1 + k2 + k3 = 9 Kugeln in der Urne, die alle in einer Reihe angeordnet werden sollen. Da jeweils kx Kugeln nicht voneinander zu unterscheiden sind, muss man die Möglichkeiten zur Anordnung von n unterscheidbaren Elementen durch die Fakultäten von kx dividieren: (3,2,4) P9 = 9! = 1260 3!2!4! △ Beispiel 1.6 zeigt, dass bei der Berechnung der Permutation mit Wiederholung beliebig viele Gruppen gleicher Elemente k1 , k2 , . . . , km berücksichtigt werden können. Definition 1.4 (Permutation mit Wiederholung) Gibt es in einer Anzahl von n Elemen- Permutation ten m Gruppen mit jeweils k1 , k2 , . . . , km Elementen (k1 +k2 +· · ·+km ≤ n), so berechnet mit sich die Anzahl der Möglichkeiten, diese Elemente in unterschiedlicher Reihenfolge anzu- Wiederholung ordnen, als Permutation mit Wiederholung mittels: Pn Pn(k1 ,k2 ,...,km ) = (k1 ,k2 ,...,km ) n! k1 !k2 ! · · · km ! (1.3) ❍ Beispiel 1.7 (Sitzordnung) In einem Seminarraum mit 20 Sitzplätzen nehmen 12 Personen Platz. Da dabei 8 Sitzplätze frei bleiben, gibt es 20! 8! △ mögliche Sitzanordnungen. Beispiel 1.8 (Zahlenbildung) (2,3) Aus den fünf Ziffern 4, 4, 6, 6, 6 können P5 = 5! 2!3! = 10 verschiedene fünfstellige △ Zahlen gebildet werden. 1.2.2 Kombination Mit Hilfe der Permutationen beschreiben wir die Anzahl von Möglichkeiten mit der wir n unterschiedliche Elemente in einer Reihenfolge anordnen können. Alternativ wird häufig die Frage nach der Anzahl unterschiedlicher Möglichkeiten gestellt, mit der k Elemente aus eine Gesamtheit von n Elementen ausgewählt werden können, wenn die Reihenfolge der gewählten Elemente unerheblich ist. Dieser Sachverhalt kann durch den Begriff der Kombinationen erfasst und quantitativ beschrieben werden. 23 KAPITEL 1. ZUFÄLLIGE EREIGNISSE Kombination ohne Wiederholung Beispiel 1.9 (Karten ziehen) Aus einem Kartenspiel mit n = 32 Spielkarten sollen k = 5 beliebige, also zufällige Karten gezogen werden. Wie viele verschiedene Möglichkeiten für die Auswahl dieser 5 Spielkarten sind denkbar, wenn die Reihenfolge, in der die Karten gezogen werden, unerheblich ist? Das Ziehen der Spielkarten entspricht einem Aufteilen aller Karten in die zwei Gruppen der gezogenen und der nicht gezogenen Karten. Prinzipiell ließe sich die Aufgabe also als Permutation mit Wiederholung berechnen, wobei k1 = k und k2 = n − k wäre. Bei diesem Sonderfall, wenn k1 + k2 = n gegeben ist, spricht man von Kombinationen ohne Wiederholung. Die Anzahl der Möglichkeiten berechnet sich wie folgt: (5) C32 = 32! = 201376 5!27! △ Die Auswahl von k Elementen aus einer Menge von n Elementen ohne Beachtung der (k) Reihenfolge bezeichnet man als Kombination ohne Wiederholung Cn . Sie entspricht einer Aufteilung aller n Elemente in zwei Gruppen mit k bzw. n−k Elementen. Somit kann man die Anzahl dieser Möglichkeiten in Anlehnung an die Permutation mit Wiederholung durch die Division der Fakultäten ermitteln. Kombination Definition 1.5 (Kombination ohne Wiederholung) Man berechnet die Anzahl der Mög- ohne lichkeiten der Auswahl von k Elementen aus einer Menge von n Elementen ohne Beachtung Wiederholung der Reihenfolge mittels der Division aus der Fakultät der Anzahl n und den Fakultäten der (k) Cn entstehenden Gruppen mit k bzw. n − k Elementen: n! n Cn(k) = = k!(n − k)! k (k ≤ n) (1.4) ❍ Der Ausdruck net. n k = n! k!(n−k)! wird auch als Binomialkoeffizient („n über k“) bezeich- Beispiel 1.10 (Wahlausschuss) Es soll ein Wahlausschuss bestehend aus drei Personen gewählt werden. Dazu haben sich insgesamt 30 Personen zur Wahl gestellt. Bei dieser Wahl gibt es insgesamt 30 3 = 4060 verschiedene Möglichkeiten den drei-köpfigen Wahlausschuss geeignet zusammen zu stel- △ len. 24 1.2. KOMBINATORIK Kombination mit Wiederholung Definition 1.6 (Kombination mit Wiederholung) Man betrachtet die Auswahl von k Ele- Kombination menten aus einer Menge von n Elementen ohne Beachtung der Reihenfolge. Hierbei kann mit jedes der n Elemente beliebig oft ausgewählt werden. Die Anzahl aller Möglichkeiten bei Wiederholung dieser Auswahl bezeichnet man als Kombination mit Wiederholung: n+k−1 (k) C̃n = k C̃n (k) (1.5) ❍ Beispiel 1.11 (Würfeln) (k) Mit k Würfeln sind C̃6 = k+6−1 k verschiedene Würfe möglich (Würfel nicht unter (2) schieden). Für 2 Würfel gilt demzufolge C̃6 = 72 = 21. △ 1.2.3 Variation In einigen Fällen betrachtet man die Auswahl von k Elementen aus einer Gesamtheit von n Elementen, wobei die Reihenfolge der Auswahl berücksichtigt wird. Diese Fälle lassen sich mit Hilfe der Variationen berechnen. Variation ohne Wiederholung Beispiel 1.12 (Karte ziehen lassen) Bei einem Kartenspiel mit n = 32 Spielkarten erhält jeder der k = 5 Mitspieler genau eine Spielkarte. Wie viele Möglichkeiten gibt es, die Spielkarten so zu verteilen? Für den ersten Mitspieler gibt es n = 32 Möglichkeiten, welche Spielkarte er erhält. Da nun eine Karte weniger im Kartenstapel enthalten ist, gibt es für den zweiten Mitspieler nur noch 31 Möglichkeiten für die Auswahl seiner Karte. Somit reduziert sich die Anzahl der Möglichkeiten für jeden Spieler jeweils um 1: (5) V32 = 32 · 31 · 30 · 29 · 28 = 32! (32 − 5)! △ Variationen ohne Wiederholung lassen sich somit in kürzerer Form durch Fakultäten beschreiben. Eine andere Möglichkeit ist, sie mit Hilfe des Binomialkoeffizienten („n über k“) auszudrücken. (k) Definition 1.7 (Variation ohne Wiederholung) Die Anzahl Vn 25 der Möglichkeiten, aus Variation ohne Wiederholung (k) Vn KAPITEL 1. ZUFÄLLIGE EREIGNISSE n verschiedenen Elementen k unter Beachtung der Reihenfolge auszuwählen, berechnet sich zu: Vn(k) n n! = k! = n(n − 1)(n − 2) · · · (n − k + 1) = (n − k)! k (k ≤ n) (1.6) ❍ Beispiel 1.13 (Vorstandswahl) In einem Verein soll aus insgesamt 30 Personen ein 4-köpfiger Vorstand gewählt werden (Positionen werden unterschieden). Es gibt dann 30 4 4! = 657720 Möglichkeiten, den △ Vorstand zu besetzen. Variation mit Wiederholung Beispiel 1.14 (PIN-Code) Wie viele Möglichkeiten gibt es für den PIN-Code einer ec-Karte? Der PIN-Code einer ec-Karte besteht aus k = 4 Ziffern. Für jede dieser Ziffern stehen die n = 10 verschiedenen Ziffern 0 . . . 9 zur Verfügung. Da jede Ziffer auch mehrmals auftreten kann, reduziert sich die Anzahl der Möglichkeiten von Stelle zu Stelle nicht wie bei den Permutationen sondern ist ist für jede Stelle die gleiche. Man erhält also (4) V10 = 104 = 10000 △ verschiedene PIN-Codes. Variation Definition 1.8 (Variation mit Wiederholung) Möchte man eine k-fache Auswahl unter mit n Elementen treffen, wobei jedes Element beliebig oft ausgewählt werden darf und die Wiederholung Reihenfolge berücksichtigt wird, so spricht man von einer Variation mit Wiederholung: (k) Vn Vn(k) = nk (1.7) ❍ Beispiel 1.15 (Byte) Ein Byte enthält 8 bit und kann somit 28 = 256 verschiedene Zeichen darstellen. 26 △ 1.2. KOMBINATORIK 1.2.4 Zusammenfassung der Kombinatorik Art der Auswahl bzw. Anzahl der Möglichkeiten Zusammenstellung von ohne Wiederholungen mit Wiederholungen (k ≤ n) (k ≤ n) k aus n Elementen (k) Pn = n! (n = k) (k) n! Cn = nk = k!(n−k)! (k) n! Vn = k! nk = (n−k)! Permutationen Kombinationen Variationen Pn (k) Cn = (k) Vn n! k! n+k−1 k = = nk Beispiel 1.16 (Geburtstage) Wie groß ist die Wahrscheinlichkeit, dass unter k Personen mindestens zwei sind, die am gleichen Tag Geburtstag haben? Man geht hierbei von folgenden Voraussetzungen aus: • N = 365 Tage/Jahr • gleichverteilte Geburtstage • k Personen werden zufällig ausgewählt ⇒ 365k mögliche Fälle, wie die Geburtstage verteilt sein können (Variation mit Wiederholung) Statt die gegebene Fragestellung direkt zu beantworten, also die Wahrscheinlichkeit zu berechnen, dass mindestens 2 (d.h. 2. . . k) Personen am gleichen Tag Geburtstag haben, ist es einfacher, zunächst die Wahrscheinlichkeit für das komplementäre Ereignis A zu betrachten: Zur Berechnung der Wahrscheinlichkeit P (A), dass alle k an verschiedenen Tagen Geburtstag haben, ermittelt man die Anzahl der günstigen Fälle durch die Betrachtung der Variation ohne Wiederholung: (k) • Anzahl günstiger Fälle: NA = PN = • P (A) = N! (N −k)! = 365 · 364 · · · (365 − k + 1) 365·364···(365−k+1) 365k • Somit ist die Wahrscheinlichkeit für einen gleichen Geburtstag: P (A) = 1 − P (A) Setzt man nun einige Werte für die Anzahl k der betrachteten Personen ein, so erhält man folgende Ergebnisse: k 1 2 3 4 5 P (k) 1 0.9973 0.9918 0.9836 0.9729 P (k) 0 0.0027 0.0082 0.0164 0.0271 27 KAPITEL 1. ZUFÄLLIGE EREIGNISSE k 6 7 8 9 10 P (k) 0.9595 0.9438 0.9257 0.9054 0.8831 P (k) 0.0405 0.0562 0.0743 0.0946 0.1169 k 15 20 25 30 35 40 50 P (k) 0.7471 0.5886 0.4313 0.2937 0.1856 0.1088 0.0296 P (k) 0.2529 0.4114 0.5687 0.7063 0.8144 0.8912 0.9704 Schon bei einer Gruppe von 23 Personen ist die Wahrscheinlichkeit, dass mindestens zwei Personen am gleichen Tag Geburtstag haben, größer als 50%. △ 1.3 Wahrscheinlichkeit (Teil 2) Die wesentliche Voraussetzung, nach der die Elementarereignisse mit gleicher Wahrscheinlichkeit P = 1 N auftreten, ist bei vielen aber nicht allen zufälligen Experimenten erfüllt. Es ist deshalb typisch für die Entwicklung der Wahrscheinlichkeitstheorie, dass eine Erweiterung der Theorie entwickelt wird, um auch solche Fälle analysieren und modellhaft erfassen zu können, bei denen die Annahme der Gleichwahrscheinlichkeit der Elementarereignisse nicht erfüllt ist. Eine Erweiterung der Theorie bzw. eine Erweiterung des zu Grunde liegenden Modells bedeutet, dass die Aussagen über bisher betrachtete und diskutierte zufällige Experimente zwar in unveränderter Form erhalten bleiben und in die neue bzw. erweiterte Modellbildung integriert werden können. Neue, bisher nicht betrachtete Zufallsexperimente können allerdings mit dem erweiterten Modell erfasst und ebenfalls quantitativ analysiert werden. Es findet also eine tatsächliche Erweiterung des theoretischen Modells und eine Erweiterung des Begriffs Wahrscheinlichkeit statt. Im Softwarebereich spricht man in vergleichbaren Fällen auch von einer Aufwärtskompatibilität. Für Johann Bernoulli war das Prinzip der Gleichwahrscheinlichkeit der Elementarereignisse die zentrale Basis seiner Wahrscheinlichkeitstheorie. Diese modellhaften Betrachtungen beziehen sich allerdings immer auf konkrete und anschauliche Karten-, Urnen- oder Würfelbeispiele. Aus der Definition des so geprägten Begriffs der Wahrscheinlichkeit ergeben sich dann definierte Aussagen. Es gibt aber viele Zufallsexperimente, auf die diese Annahme nicht zutrifft, bzw. bei denen von diesen Annahmen nicht ausgegangen werden kann. Höchstens in Sonderfällen kann es bei diesen Experimenten auftreten, dass die Elementarereignisse gleichwahrscheinlich sind. Die modellhafte Erweiterung besteht also in der zusätzlichen Erfassung von Zufallsexperimenten, deren Elementarereignisse mit unterschiedlicher Wahrscheinlichkeit auftreten. Solche Fälle können mit dem Modell von Bernoulli per Definition nicht erfasst 28 1.3. WAHRSCHEINLICHKEIT (TEIL 2) werden. Die Situation bei der Betrachtung und Analyse von Experimenten mit zufälligen Ereignissen ändert sich deshalb vom Grundsatz her, wenn die Gleichwahrscheinlichkeit der Elementarereignisse nicht mehr vorausgesetzt werden kann. Ein neuer Begriff, ein neues Modell, eine neue Definition des Begriffs der Wahrscheinlichkeit ist jetzt gefragt. Dieser Sachverhalt wurde 1919 von Richard von Mises analysiert, der zu einer messtechnischen Definition des Begriffs der Wahrscheinlichkeit kommt. Richard von Mises wurde am 19. April 1883 in Lemberg, damals Kaiserreich Österreich (heute Lvov, Ukraine) geboren und starb am 14. Juli 1953 in Boston, USA. Er ging von einer messtechnischen Erfassung des Begriffs Wahrscheinlichkeit aus, indem ein Zufallsexperiment vielfach wiederholt wird und dabei das Auftreten eines bestimmten diskreten (Elementar-)Ereignisses überprüft bzw. gezählt oder empirisch erfasst wird. Es werden nach wie vor (wie auch in dem Modell von Bernoulli) endlich bzw. abzählbar viele diskrete Elementarereignisse betrachtet. Die dabei entstandene Definition der Wahrscheinlichkeit ist in diesem Fall allerdings allgemeiner gewählt, verglichen mit der von Bernoulli benutzten Methode. Diese Betrachtung wurde von R. von Mises durchgeführt, der eine Folge von insgesamt n gleichartigen Versuchen eines wohl definierten Zufallsexperiments betrachtete und die Anzahl nA durch Zählung festgestellt hat, bei denen das zufällige Ereignis A aufgetreten ist. Dabei wird von dem Zufallsexperiment erwartet, dass der Quotient nA /n für sehr große Werte n konvergiert und dem Ereignis A damit eine Wahrscheinlichkeit eindeutig zugeordnet werden kann. 1.3.1 Grenzwert der relativen Häufigkeit (R. VON M ISES, 1919) Durch messtechnische (empirische) Vorgehensweise kann man die Wahrscheinlichkeit P eines Ereignisses A wie folgt definieren und quantitativ beschreiben: Definition 1.9 (Wahrscheinlichkeit nach R. von Mises) nA n→∞ n P (A) = lim H(A, n) = lim n→∞ (1.8) mit H(A, n) Relative Häufigkeit für das Auftreten eines definierten Ereignisses A nA Zahl der günstigen Fälle ❍ (Anzahl der Versuche, bei denen das Ereignis A eintritt) n Anzahl der durchgeführten Versuche des Zufallsexperiments 29 KAPITEL 1. ZUFÄLLIGE EREIGNISSE Allerdings ist diese Definition der Wahrscheinlichkeit P als Grenzwert der relativen Häufigkeit auch anwendbar auf die oben beschriebenen Karten- und Würfelspiele von Bernoulli, bei denen die Elementarereignisse als gleichwahrscheinlich angenommen wurden. In der hier betrachteten Gedankenwelt würden sich diese identischen Wahrscheinlichkeiten der Elementarereignisse als Grenzwert unendlich vieler Versuche des Zufallsexperiments automatisch ergeben. Die bisher betrachteten Zufallsexperimente können aber in unveränderter Weise mit diesem neuen Begriff der Wahrscheinlichkeit beschrieben, in das erweiterte Modell integriert und analysiert werden. Darin liegt die Modellerweiterung. Beispiel 1.17 (Auftrittswahrscheinlichkeit von Buchstaben) Im folgenden Abschnitt werden Texte der deutschen Literatur unter rein stochastischen Gesichtspunkten analysiert. Es ist natürlich völlig klar, dass dieser durchaus komplizierte und kreative Entstehungsprozess nicht als rein zufälliges Ereignis betrachtet werden kann. Man darf es deshalb nicht als Kulturfrevelei auffassen, wenn wir uns in diesem Beispiel nur für die Wahrscheinlichkeit interessieren, mit der die einzelnen Buchstaben in der deutschsprachigen Literatur auftreten. Es ist jedem Leser unmittelbar klar, dass die einzelnen Buchstaben mit unterschiedlichen Wahrscheinlichkeiten auftreten werden und deshalb der Bernoulli’sche Modellgedanke auf dieses Beispiel nicht anwendbar ist. Dieses Beispiel ist deshalb aber gut geeignet, um die wesentliche Struktur in dem von Mises Modell beispielhaft zu betrachten. Die folgende Tabelle enthhält die Auftrittswahrscheinlichkeiten der einzelnen Buchstaben in deutschsprachigen Texten. xi p(xi ) xi p(xi ) _ 0.1515 o 0.0177 e 0.1470 b 0.0160 n 0.0884 z 0.0142 r 0.0686 w 0.0142 i 0.0638 f 0.0136 s 0.0539 k 0.0096 t 0.0473 v 0.0074 d 0.0439 ü 0.0058 h 0.0436 p 0.0050 a 0.0433 ä 0.0049 u 0.0319 ö 0.0025 l 0.0293 j 0.0016 c 0.0267 y 0.0002 Auftrittswahrscheinlichkeiten (Fortsetzung auf der nächsten Seite) 30 1.3. WAHRSCHEINLICHKEIT (TEIL 2) xi p(xi ) xi p(xi ) g 0.0267 q 0.0001 m 0.0213 x 0.0001 Tabelle 1.1: Auftrittswahrscheinlichkeiten der Buchstaben in der deutschen Sprache In dieser Tabelle sind die 26 Buchstaben, 3 Umlaute und das Leerzeichen als zufällige Ereignisse eines Schreibprozesses betrachtet worden. Aus dieser Kenntnis des Auftrittsverhaltens einzelner Buchstaben werden nicht unerhebliche technische Vorteile z.B. in der Codierung und Übertragung von Nachrichten erreicht. Dieser Modellgedanke kann erweitert werden auf Buchstabenpaare und es kann die Wahrscheinlichkeit nach Gleichung (1.8) berechnet werden, mit der einzelne Buchstabenpaare in deutschsprachigen Texten auftreten. Insgesamt können 900 verschiedene Buchstabenpaare auftreten und in der folgende Tabelle sind die am häufigsten auftretenden Paare und deren Wahrscheinlichkeit aufgelistet. xi p(xi ) 100% xi p(xi ) 100% xi p(xi ) 100% xi p(xi ) 100% xi p(xi ) 100% en 4.47 is 0.64 td 0.34 du 0.20 no 0.15 er 3.40 li 0.64 ur 0.34 mi 0.20 nv 0.15 ch 2.80 nu 0.64 vo 0.34 nb 0.20 rf 0.15 nd 2.58 em 0.63 ec 0.33 nk 0.20 ut 0.15 ei 2.26 et 0.58 hr 0.33 rk 0.20 br 0.14 de 2.14 le 0.58 um 0.33 rz 0.20 ez 0.14 in 2.04 eb 0.57 hi 0.31 su 0.20 ho 0.14 es 1.81 it 0.56 uf 0.30 ag 0.19 ka 0.14 te 1.78 me 0.56 ve 0.30 ef 0.19 os 0.14 ie 1.76 rd 0.56 on 0.29 ga 0.19 bl 0.13 un 1.73 nw 0.55 la 0.28 im 0.19 dw 0.13 ge 1.68 us 0.54 lt 0.28 rm 0.19 ep 0.13 st 1.24 nn 0.53 ri 0.28 uc 0.19 hm 0.13 ic 1.19 nt 0.52 ew 0.27 ee 0.18 hw 0.13 he 1.17 ta 0.51 ih 0.27 gu 0.18 pr 0.13 ne 1.17 eg 0.50 rg 0.27 hl 0.18 zi 0.13 se 1.17 eh 0.50 ze 0.27 ld 0.18 ba 0.12 ng 1.07 zu 0.50 at 0.26 ls 0.18 ev 0.12 Tabelle 1.2: Bigrammhäufigkeiten der deutschen Sprache (in %) 31 KAPITEL 1. ZUFÄLLIGE EREIGNISSE xi p(xi ) 100% xi p(xi ) 100% xi p(xi ) 100% xi p(xi ) 100% xi p(xi ) 100% re 1.07 al 0.49 hn 0.26 nl 0.18 fd 0.12 au 1.04 ed 0.48 ke 0.26 tr 0.18 fu 0.12 di 1.02 ru 0.48 ab 0.25 am 0.17 gd 0.12 be 0.96 rs 0.47 il 0.25 fa 0.17 nh 0.12 ss 0.94 ig 0.45 mm 0.25 hd 0.17 oc 0.12 ns 0.93 ts 0.45 nz 0.25 ol 0.17 ah 0.11 an 0.92 ma 0.43 sg 0.25 rb 0.17 ft 0.11 si 0.83 sa 0.43 sw 0.25 rw 0.17 hu 0.11 ue 0.82 wa 0.43 rn 0.24 tn 0.17 ko 0.11 da 0.81 ac 0.42 ro 0.24 bi 0.16 kt 0.11 as 0.78 eu 0.42 ea 0.23 gl 0.16 nf 0.11 ni 0.70 so 0.41 fr 0.23 nm 0.16 rr 0.11 ae 0.69 ar 0.40 sd 0.23 pe 0.16 tl 0.11 na 0.69 tu 0.40 tt 0.23 rl 0.16 wu 0.11 ra 0.69 ck 0.37 tw 0.23 sm 0.16 gi 0.10 el 0.68 or 0.37 gr 0.22 sp 0.16 ki 0.10 wi 0.68 rt 0.36 tz 0.22 th 0.16 ms 0.10 ht 0.67 ir 0.35 fe 0.21 wo 0.16 od 0.10 sc 0.66 ll 0.35 gt 0.21 af 0.15 sn 0.10 we 0.65 oe 0.35 rh 0.21 lu 0.15 sz 0.10 ha 0.64 ti 0.35 ds 0.20 mu 0.15 Bigrammhäufigkeiten – Fortsetzung Dieser Prozess kann weiter auf Buchstabentripel ausgedehnt werden und die folgende Tabelle enthält die am häufigsten auftretenden Kombinationen und deren Wahrscheinlichkeit. xi p(xi ) 100% xi p(xi ) 100% xi p(xi ) 100% xi p(xi ) 100% xi p(xi ) 100% ese 0.27 ins 0.19 erk 0.15 ihr 0.13 ieb 0.11 auf 0.26 mer 0.19 ehr 0.15 iss 0.13 nli 0.11 ben 0.26 rei 0.19 eis 0.15 kei 0.13 rda 0.11 ber 0.26 eig 0.18 man 0.15 mei 0.13 rsc 0.11 eit 0.26 eng 0.18 men 0.15 nsi 0.13 std 0.11 ent 0.26 erg 0.18 mit 0.15 nem 0.13 sst 0.11 Tabelle 1.3: Trigrammhäufigkeiten der deutschen Sprache (in %) 32 1.3. WAHRSCHEINLICHKEIT (TEIL 2) xi p(xi ) 100% xi p(xi ) 100% xi p(xi ) 100% xi p(xi ) 100% xi p(xi ) 100% est 0.26 ert 0.18 nac 0.15 ndw 0.13 tre 0.11 sei 0.26 erz 0.18 rdi 0.15 rue 0.13 uss 0.11 and 0.25 fra 0.18 sel 0.15 ret 0.13 all 0.10 ess 0.25 hre 0.18 sin 0.15 ser 0.13 aft 0.10 ann 0.24 hei 0.18 chi 0.14 uch 0.13 bes 0.10 esi 0.24 lei 0.18 ehe 0.14 ell 0.12 dei 0.10 ges 0.24 nei 0.18 enl 0.14 env 0.12 erf 0.10 nsc 0.24 nau 0.18 erl 0.14 ina 0.12 ess 0.10 nwi 0.24 sge 0.18 erm 0.14 ied 0.12 esw 0.10 tei 0.24 tte 0.18 erw 0.14 lun 0.12 gew 0.10 eni 0.23 wei 0.18 ger 0.14 nwa 0.12 hab 0.10 ige 0.23 abe 0.17 hae 0.14 nwe 0.12 hat 0.10 aen 0.22 chd 0.17 nne 0.14 nis 0.12 ieg 0.10 era 0.22 des 0.17 nes 0.14 swe 0.12 ken 0.10 ern 0.22 nte 0.17 ond 0.14 ssi 0.12 och 0.10 rde 0.22 rge 0.17 oen 0.14 spr 0.12 rha 0.10 ren 0.22 tes 0.17 sdi 0.14 tde 0.12 rec 0.10 tun 0.22 uns 0.17 sun 0.14 ufd 0.12 rin 0.10 ing 0.21 vor 0.17 von 0.14 war 0.12 rso 0.10 sta 0.21 dem 0.16 bei 0.13 wer 0.12 res 0.10 sie 0.21 hin 0.16 chl 0.13 zei 0.12 sag 0.10 uer 0.21 her 0.16 chn 0.13 auc 0.11 son 0.10 ege 0.20 lle 0.16 chw 0.13 als 0.11 tsc 0.10 eck 0.20 nan 0.16 ech 0.13 alt 0.11 tli 0.10 eru 0.20 tda 0.16 edi 0.13 eic 0.11 uec 0.10 mme 0.20 tel 0.16 enk 0.13 esc 0.11 uen 0.10 ner 0.20 ueb 0.15 eun 0.13 enh 0.11 was 0.10 nds 0.20 ang 0.15 enz 0.13 eil 0.11 twi 0.10 nst 0.20 cha 0.15 hau 0.13 fen 0.11 tal 0.10 run 0.20 enb 0.15 ite 0.13 gan 0.11 tet 0.10 sic 0.20 ete 0.15 ief 0.13 hte 0.11 enn 0.19 erh 0.15 imm 0.13 iea 0.11 Trigrammhäufigkeiten – Fortsetzung 33 KAPITEL 1. ZUFÄLLIGE EREIGNISSE △ In diesen grundsätzlich unterschiedlichen wahrscheinlichkeitstheoretischen Modellen, in denen die Einzelbuchstaben, Buchstabenpaare oder -tripel als zufällige Ereignisse betrachtet werden, die zusätzlich mit unterschiedlichen Wahrscheinlichkeiten auftreten, könnte man in einem Syntheseschritt Texte automatisch erstellen. Bei der Synthese würden die entsprechenden Wahrscheinlichkeiten der Elementarereignisse berücksichtigt. Im Folgenden werden vier Beispiele einer solchen Synthese dargestellt, in denen das Modell der Einzelbuchstaben, der Buchstabenpaare, -tripel und -quadrupel berücksichtigt wurde. Anschaulich ist aus den Texten bzw. Buchstabenfolgen zu erkennen, dass die Lesbarkeit mit der Länge des Buchstabenvektors zunimmt. Synthese aus Einzelbuchstaben: EME GK NEET ERS TITBL BTZENFNDGBGD EAI E LASZ BETEATR IASMIRCH EGEOM Synthese aus Buchstabenpaaren: AUSZ KEINU WONDINGLIN DURFN ISAR STEISBERER ITEHM ANORER Synthese aus Buchstabentripeln: PLANZEUNDGES PHIN INE UNDEN ÜBBEICHT GES AUF ES SO UNG GAN DICH WOANDERSO Synthese aus Buchstabenquadrupeln: ICH FOLGEMÄSZIG BIS STEHEN DISPONIN SEELE NAMEN Das Beispiel zeigt allerdings auch, dass deutschsprachige Texte eine wesentlich komplexere Struktur beinhalten, die nicht durch ein einfaches wahrscheinlichkeitstheoretisches Modell erfasst und beschrieben werden kann. Der grundsätzliche Unterschied zwischen den beiden Definitionen (Bernoulli und von Mises) zur Erfassung des Begriffs Wahrscheinlichkeit liegt also wesentlich in der Messanordnung und in den Modellannahmen begründet. Für Bernoulli ist die Annahme der Gleichwahrscheinlichkeit der Elementarereignisse ein zentraler Punkt. Wenn die Annahme über die Gleichwahrscheinlichkeit der Elementarereignisse allerdings sinnvoll nicht getroffen werden kann, dann kann und muss auf die allgemeinere Definition der Wahrscheinlichkeit nach Richard v. Mises zurückgegriffen werden. Beispiel 1.18 (Relative Häufigkeit der Augensumme) Trägt man die relative Häufigkeit H(A, n) des Ereignisses „Augensumme ist 7“ (Beispiel 1.2) über der Anzahl der Versuche n in einem Diagramm auf, so sieht man, dass H(A, n) mit wachsendem n gegen die Wahrscheinlichkeit P (A) = 1 6 strebt (Abbildung 1.4). Man erkennt aus diesem Beispiel, dass die Wahrscheinlichkeitsdefinition nach von Mises auch 34 1.3. WAHRSCHEINLICHKEIT (TEIL 2) 0.4 H(A,n) 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 50 100 150 200 250 300 350 400 450 500 n Abbildung 1.4: Relative Häufigkeit des Ereignisses „Augensumme ist 7“ bei 2 Würfeln in Abhängigkeit von der Anzahl der Versuche n auf Fälle anwendbar ist, die vorher schon mit mit der Wahrscheinlichkeitsdefinition nach Bernoulli betrachtet wurden. Dieses Modell umfasst sämtliche von Bernoulli betrachteten Zufallsexperimente und stellt somit eine Verallgemeinerung oder eine Modellerweiterung △ dar. Wenn die einzelnen Wahrscheinlichkeiten eines Zufallsexperiments messtechnisch erfasst und bekannt sind (so wie in den Tabellen 1.1, 1.2 und 1.3 beispielhaft dargestellt), dann gelten auch weiterhin die selben Eigenschaften für das Wahrscheinlichkeitsmaß P , wie bereits für die Bernoulli´schen Experimente hergeleitet: (1) 0 ≤ P (A) ≤ 1 für alle Ereignisse A (2) P (Ω) = 1 (3) Sei An eine Folge von zufälligen Ereignissen, die sich einander paarweise ausschließen, so gilt P [ n An ! = X P (An ). n D.h. die Wahrscheinlichkeit eines aus disjunkten Mengen zusammengesetzten Ereignisses kann direkt aus der Summe der einzelnen Wahrscheinlichkeiten für die disjunkten Teilmengen berechnet werden. Eine zusätzliche, völlig abstrakte Definition des Begriffs Wahrscheinlichkeit geht auf Kolmogorov zurück, der kein konkretes bzw. anschauliches Experiment vor Augen hat, 35 KAPITEL 1. ZUFÄLLIGE EREIGNISSE sondern sich auf die Eigenschaften des Wahrscheinlichkeitsmaßes P unter messtechnischen Gesichtspunkten konzentriert. Andrey Nikolaevich Kolmogorov wurde am 25. April 1903 in Tambov, Russland geboren und starb am 20. Oktober 1987 in Moskau. 1.3.2 Allgemeingültige Definition der Wahrscheinlichkeit Bisher wurde der Begriff „Wahrscheinlichkeit“ für einzelne Ereignisse nach den zwei betrachteteten Definitionen konstruktiv geprägt und die Werte der Wahrscheinlichkeit P quantitativ berechnet. Die resultierenden Eigenschaften dieses Wahrscheinlichkeitsmaßes wurde in drei charakteristischen Gleichungen zusammengefasst. Der Wahrscheinlichkeitsbegriff selber lässt sich allerdings alternativ auch durch Forderung der drei fundamentalen Eigenschaften eines abstrakten Wahrscheinlichkeitsmaßes P beschreiben. Das ist der von Kolmogorov gewählte Ansatz, indem er jede Abbildung P , die die drei Eigenschaften erfüllt, ohne Kenntnis eines konkreten Zufallsexperimentes, als Wahrscheinlichkeitsmaß P bezeichnet. Wahrschein- Definition 1.10 Eine Abbildung P (wie probability), die jedem Ereignis eine reelle Zahl lichkeit zuordnet, heißt Wahrscheinlichkeitsmaß, falls gilt: P (A) (i) 0 ≤ P (A) ≤ 1 für alle Ereignisse A (ii) P (Ω) = 1 (iii) Ist An eine Folge von Ereignissen, die einander paarweise ausschließen, so gilt ! X [ P P (An ). An = n n D.h. die Wahrscheinlichkeit eines Ereignisses ergibt sich aus der Summe der Wahrscheinlichkeiten der disjunkten Teilmengen des gegebenen Ereignisses. ❍ In dieser Abstraktion, die auf Kolmogorov zurückgeht, werden die fundamental wichtigen Eigenschaften des Begriffs der Wahrscheinlichkeit per Definition gefordert, beschrieben und erfasst. Die drei in der obigen Definition beschriebenen Eigenschaften waren bereits in den Definitionen von Bernoulli und Richard von Mises erfüllt, wurden dort aber nicht explizit gefordert, sondern ergaben sich in der Analyse als eine Folgerung aus den Modellannahmen und Definitionen. Insofern ist diese Definition von Kolmogorov wiederum eine Modellerweiterung. Die mengentheoretisch erfassten Ereignisse behalten zunächst dieselbe Bedeutung wie bisher. 36 1.3. WAHRSCHEINLICHKEIT (TEIL 2) Beispiel 1.19 (Werfen einer Münze) Als Experiment wird eine Münze (Kopf und Zahl) N -mal geworfen. Wir warten auf das Ereignis, bis erstmalig eine „Zahl“ erscheint. Dieser Sachverhalt kann analytisch wie folgt beschrieben und quantitativ ausgewertet werden: Der Ereignisraum Ω ist durch die Menge aller Binärvektoren der Länge N bestehend aus den Symbolen „K“ (für Kopf) und „Z“ (für Zahl), die sich durch Werfen der Münze ergeben, festgelegt: Ω := Menge aller Binärvektoren der Länge N Beim N -maligen Werfen einer Münze gibt es genau 2N (gleichwahrscheinliche) Binärvektoren bzw. Elementarereignisse ωi mit i = 1 . . . 2N . Damit sind die Voraussetzungen eines Bernoullischen Experimentes gegeben und die Wahrscheinlichkeit eines einzigen Elementarereignisses berechnet sich also zu: P (ωi ) = 1 . 2N Dieses Experiment hat allerdings die Besonderheit, dass die Wahrscheinlichkeit eines Einzelereignisses ωi , also eines einzelnen Binärvektors der Länge N , mit steigender Zahl der Würfe gegen 0 strebt. Dieser Fall wurde bisher im Bernoullischen Modell mit jeweils nur endlich vielen Elementarereignissen nicht betrachtet. Trotzdem muss sich für alle Werte N das sichere Ereignis Ω als Vereinigung aller Elementarereignisse ωi die Wahrscheinlichkeit 1 ergeben: P (Ω) = P [ ωi = N 2 N X 1 i=1 2 = 2N · N 1 = 1. 2 Wir betrachten jetzt das Ereignis Ak und fassen darin alle Binärvektoren zusammen, bei denen in den ersten (k − 1) Würfen jeweils das Ergebnis „Kopf“ auftritt und erstmalig im k-ten Wurf das Ereignis „Zahl“ erscheint: A1 = {Z, . . . } A2 = {K, Z, . . . } .. . Ak = {K, K, . . . , K , Z, . . . } {z } | (k−1) .. . AN = {K, K, . . . , K , Z}, N ∈ N | {z } (N −1) Hinter diesen Ereignissen Ak stehen unterschiedlich viele Elementarereignisse und deshalb auch unterschiedliche Auftrittswahrscheinlichkeiten. In dem Ereignis A1 sind insgesamt 2N −1 Elementarereignisse und im Ereignis Ak insgesamt 2N −k Elementarereignisse 37 KAPITEL 1. ZUFÄLLIGE EREIGNISSE enthalten. Die Summe der disjunkten Ereignisse Ak für k = 1, . . . , N sowie das Ereignis Arest = {K, K, . . . , K} bilden das sichere Ereignis Ω. Mit anderen Worten spannt die Vereinigungsmenge der einzelnen disjunkten Ereignisse Ak und Arest wiederum den gesamten Ereignisraum Ω auf: Ω= N [ k=1 Ak ∪ Arest , k ≤ N ∧ k, N ∈ N Wird bei diesem Experiment die Münze genau N Mal geworfen, so fasst das Ereignis Ak genau 2(N −k) gleichwahrscheinliche Elementarereignisse zusammen. Somit berechnet sich die Wahrscheinlichkeit für das Ereignis Ak zu P (Ak ) = 2(N −k) · 2−N = 2−k In der Bernoullischen Modellvorstellung kann dieses Experiment nur für eine endliche Anzahl von Münzwürfen ausgewertet werden. In diesem Fall kann die dritte Eigenschaft des Wahrscheinlichkeitsmaßes zu folgender Überprüfung herangezogen werden: P (Ω) = P N [ k=1 Ak ∪ Arest ! = N X P (Ak ) + P (Arest ) = k=1 N X 2−k + 2−N = 1. k=1 Das Bernoullische Modell kann dagegen nicht fortgeführt werden, wenn ein Grenzübergang für N → ∞ betrachtet wird. In diesem Fall würde die Wahrscheinlichkeit der betrachteten Elementarereignisse zwar immer noch identisch sein, aber gegen Null konvergieren. Mit diesem Grenzübergang entsteht ein Stichprobenraum mit abzählbar vielen (also nicht mehr wie bisher betrachtet mit endlich vielen) Elementarereignissen. Dagegen kann der Sachverhalt sehr wohl nach dem von Mises Modell analysiert werden, wenn wir annehmen, dass die Wahrscheinlichkeiten für die einzelnen Ereignisse Ak bereits messtechnisch erfasst wurden und mit P (Ak ) = 2−k bekannt seien. Selbst für den Grenzübergang N → ∞ bleiben diese Angaben gültig. In diesem Fall können die bisherigen Angaben überprüft werden, indem die Wahrscheinlichkeit des sicheren Ereignisses Ω für N → ∞ wie folgt berechnet wird: P (Ω) = P ∞ [ k=1 Ak ! = ∞ X P (Ak ) = k=1 ∞ X k=1 2−k = 1 − 1 = 1. 1 − 0.5 Dieses Beispiel erläutert die Grenzen des von Bernoulli entwickelten Modells und motiviert zusätzlich eine Modellerweiterung. Wir bezeichnen jetzt mit der Menge Agerade das Ereignis, mit dem erstmalig eine Zahl in einem Wurf mit gerader Nummer (also im zweiten, vierten, sechsten, . . . Wurf) auftritt. Spontan könnte man vermuten, dass die Wahrscheinlichkeit hierfür 50% beträgt. Die ge38 1.4. EREIGNISSE naue Berechnung ergibt allerdings: ∞ ∞ ∞ k [ X X 1 1 1 P (Agerade ) = P = −1= Ak = 2−2k = 4 1 − 0.25 3 k=2,4,... k=1 k=1 Dass die Wahrscheinlichkeit unterhalb von 50% liegen muss, lässt sich allerdings auch schon ohne jede Rechnung begründen: Da die Wahrscheinlichkeit, bereits im ersten Wurf das Ereignis „Zahl“ zu werfen, 50% beträgt, muss dementsprechend die Wahrscheinlichkeit △ für das Ereignis Agerade kleiner als 50% sein. 1.4 Ereignisse 1.4.1 Ereignisse und Merkmalsräume Da die zufälligen Ereignisse durch Mengen beschrieben werden, spielen relative Beziehungen der Ereignisse untereinander eine wichtige Rolle. Dazu betrachten wir zwei Ereignisse A und B, die in folgenden Beziehungen zueinander stehen können: A⊂B : das Ereignis A zieht das Ereignis B nach sich A∪B : Vereinigungsmenge, Summe der Ereignisse A und B (es tritt A oder B ein) A∩B : Schnittmenge, Produkt der Ereignisse A und B (sowohl A als auch B tritt ein) A ∩ B = ∅ : sich ausschließende Ereignisse A\B : Differenz der Ereignisse A und B (es tritt A aber nicht B ein) A := Ω\A : das zu A komplementäre Ereignis (es tritt A nicht ein) 1.4.2 Ereignisse • ωi ist ein einelementiges Versuchsergebnis und wird als Elementarereignis bezeichnet. Beispiel: Augenzahl beim Würfeln, gezogene Kugel beim Lotto • Die Menge aller möglichen Elementarereignisse ist das sichere Ereignis Ω oder der Ereignisraum. Ω = {ωi } ∀ i Beispiel: Augenzahlen des Würfels Ω = {1, 2, 3, 4, 5, 6} • Jede Menge von Elementarereignissen {ωi } ist eine Teilmenge des sicheren Ereignisses Ω. A⊂Ω 39 KAPITEL 1. ZUFÄLLIGE EREIGNISSE • Das Komplement zu Ω ist das unmögliche Ereignis ∅. Ω=∅ 1.4.3 Mengen und Ereignisse • Zusammenhang zwischen Mengen und Ereignissen: Menge ↔ sicheres Ereignis Ω, Ereignisraum Element einer Menge ↔ Elementarereignis {ωi } Teilmenge ↔ Ereignis A ⊂ Ω leere Menge ↔ unmögliches Ereignis ∅ • Aus Ereignissen können neue Ereignisse mit Hilfe von Mengenoperationen gebildet werden, beispielsweise durch Bildung der Vereinigungsmenge (vgl. Abschnitt 1.4.1). 1.4.4 Weitere Mengenoperationen in Ereignisräumen • Transitivität: A1 ⊂ A2 und A2 ⊂ A3 ⇒ A1 ⊂ A3 (1.9) A1 ⊂ A2 und A2 ⊂ A1 ⇒ A1 = A2 (1.10) • Gleichheit: • De Morgan’sches Gesetz: (A1 ∪ A2 ) = A1 ∩ A2 1.4.5 und (A1 ∩ A2 ) = A1 ∪ A2 (1.11) V ENN-Diagramme Beziehungen zwischen Mengen können in V ENN-Diagrammen veranschaulicht werden. Die Mengen werden dabei als Kreisflächen gezeichnet. Die Schnittmengen ergeben sich dann aus den Überlappungen der Kreisflächen der beteiligten Mengen (Abbildung 1.5). John Venn wurde am 4. August 1834 in Hull, England geboren und starb am 4. April 1923 in Cambridge. Der von Johann Bernoulli und der von Richard v. Mises geprägte Begriff der Wahrscheinlichkeit betrachtet diskrete zufällige Ereignisse, von denen lediglich endlich bzw. abzählbar viele Elementarereignisse existieren. Dies ist wichtig zu erwähnen, weil man sonst geneigt wäre, die dortige Definition des Begriffs der Wahrscheinlichkeit auch auf andere Situationen mit überabzählbar vielen Elementarereignissen anwenden zu wollen. An dieser Stelle ist das Betrand’sche Paradoxon ein wichtiges Beispiel, das zur Vorsicht 40 1.5. BERTRANDS PARADOXON 111111 000000 B 000000 111111 000000 111111 000000 111111 000000 A 111111 000000 111111 000000 111111 000000 111111 11111111 00000000 0000 00000000 11111111 A 1111 B 0000 1111 00000000 11111111 00000000 11111111 Ω Ω A∩B A∪B (a) Untermenge B ⊂ A ⊂ Ω (b) Schnittmenge A ∩ B und Vereinigung A ∪ B Abbildung 1.5: Venn-Diagramme beim Umgang mit dem für diskrete Ereignisse entwickelten Begriff der Wahrscheinlichkeit mahnt. Joseph Louis Francois Bertrand wurde am 11. März 1822 in Paris geboren und starb dort am 5. April 1900. 1.5 B ERTRANDs Paradoxon Bertrand betrachtet einen experimentellen Versuchsaufbau und formuliert eine Frage nach der Wahrscheinlichkeit, mit der zufällige Ergebnisse am Ausgang der betrachteten Versuche auftreten. Der Versuchsaufbau ist einfach beschrieben. Es wird ein Kreis mit dem Radius r betrachtet. In diesen Kreis wird ein Stab geworfen, der eine zufällige Position im Kreis annimmt. Alle Fälle, in denen der geworfene Stab außerhalb des Kreises landet, bleiben unberücksichtigt. Der zufällig im Kreis angeordnete Stab beschreibt also in Form einer Sekante einen Kreisabscnitt. Frage: Wie groß ist die Wahrscheinlichkeit P, dass die Länge l einer beliebigen Sekante eines Krei√ ses C mit Radius r größer ist als die Seitenlänge r 3 eines eingeschriebenen gleichseitigen Dreiecks? In diesen Fällen liegt der Stab also anschaulich nahe am Kreismittelpunkt. C D E A Zu dieser sehr klar gestellten Frage bzw. Aufgabe werden 3 verschiedene Lösungswege angeboten, die allerdings erstaunlicherweise zu jeweils unterschiedlichen Ergebnissen bei Angabe der resultierenden Wahrscheinlichkeit P führen. Lösung: 41 KAPITEL 1. ZUFÄLLIGE EREIGNISSE 1.) Dem Kreis mit Radius r ist ein gleichseitiges Dreieck eingezeichnet, dem wiederum ein Innenkreis mit Radius r/2 eingezeichnet ist. Wenn der Mittelpunkt M einer beliebigen Sekante innerhalb des Innenkreises mit Radius r/2 liegt, dann ist die Se√ kantenlänge größer als r 3. Setzt man jetzt nach der Bernoulli’schen Definition die Anzahl der günstigen zur Anzahl der möglichen Fälle zueinander ins Verhältnis, dann müssen die Flächen des Innenkreises und des äußeren Kreises ermittelt werden. Die Wahrscheinlichkeit P berechnet sich wie folgt: P = Ainnen 1 πr2 /4 = = Aaußen πr2 4 C A M r/2 C1 r B r/2 r 2.) In dieser zweiten Betrachtung nehmen wir an, dass ohne Beschränkung der Allgemeinheit ein Ende der Sekante mit einer Ecke des gleichseitigen Dreiecks überein√ stimmt. Die resultierende Sekantenlänge ist größer als r 3, falls das andere Ende der Sekante zwischen den Punkten D und E liegt. Der durch die Punkte D und E gekennzeichnete Umfangsabschnitt beschreibt also die günstigen Fälle. Dementsprechend berechnet sich die Wahrscheinlichkeit wie folgt: P = 2πr/3 1 B liegt zwischen D und E = = B liegt auf dem Umfang 2πr 3 D B E A 3.) In diesem dritten und letzten Lösungsweg nehmen wir ohne Beschränkung der Allgemeinheit an, dass die Sekante orthogonal zur Strecke zwischen den Punkten F und √ K sei. Die Sekantenlänge ist größer als r 3 falls der Mittelpunkt M der Sekante 42 1.6. DEFINITION DER σ -ALGEBRA zwischen den Punkten H und G liegt. Dementsprechend berechnet sich die Wahrscheinlichkeit wie folgt: P = M zwischen G und H r 1 = = M zwischen F und K 2r 2 F G r/2 r/2 M H K Dieses Beispiel zeigt, dass die klassischen auf höchstens endlich viele Elementarereignisse basierende Definition der Wahrscheinlichkeit nicht sinnvoll auf Situationen mit überabzählbaren Elementarereignissen übertragen werden kann. Aus diesem Grund wird eine axiomatische Beschreibung der Ereignisse und zugehöriger Wahrscheinlichkeiten vorgenommen. Dabei wird allerdings erwartet, dass die zu entwickelnden Axiome nicht im Widerspruch zu den bisher gewonnenen Ergebnissen und Erkenntnissen der Wahrscheinlichkeitstheorie stehen und damit jeweils eine Erweiterung der Modellbildung zur Beschreibung zufälliger Experimente entsteht. Für abzählbar viele Elementarereignisse, konnte man noch sämtliche Teilmengen des Ereignisraumes Ω, also die Potenzmenge, als Ereignisse betrachten. Falls Ω aber eine überabzählbar große Menge ist, dann ist die Potenzmenge zu groß. Aus diesem Grund betrachtet man ein bestimmtes Teilmengensystem A, in dem sämtliche interessanten Ereignisse enthalten sind und das die im folgenden beschriebenen Eigenschaften erfüllt. Die Elementarereignisse haben nur noch eine untergeordnete Bedeutung. 1.6 Definition der σ-Algebra Definition 1.11 (Potenzmenge) Die Potenzmenge P(Ω) bezeichnet die Menge aller Teil- Potenzmenge mengen von Ω. Die Mächtigkeit der Potenzmenge |P(Ω)| gibt die Anzahl der Elemente der P(Ω) ❍ Potenzmenge an. Definition 1.12 (σ-Algebra) Eine Teilmenge A der Potenzmenge P(Ω) bzw. ein abstraktes σ-Algebra Mengensystem heißt σ-Algebra (in Ω), wenn folgende Eigenschaften erfüllt sind: A 43 KAPITEL 1. ZUFÄLLIGE EREIGNISSE (i) Ω ∈ A (ii) A ∈ A ⇒ A ∈ A (iii) Für jede Folge (An ) von Mengen aus A liegt S∞ n=1 An in A ❍ Beispiele für σ-Algebren • Für jede Menge Ω ist das System aller A ⊂ Ω, für welche entweder A oder A abzählbar ist, eine σ-Algebra. Beispiel: Augenzahlen beim Würfeln • Falls der Ereignisraum Ω = R ist, so wird als σ-Algebra das am wenigsten Teilmengen von R umfassende System von Teilmengen von R genommen, welches eine σ-Algebra bildet und alle Intervalle der Form (a, b] mit a < b enthält. Diese σ-Algebra wird als System der Borel-Mengen bezeichnet. Beispiel: Betrachten wir die zufällige Lebensdauer eines Produktes. In diesem Fall nimmt das zufällige Ereignis keine diskreten, sondern kontinuierliche Werte zufällig an. In diesem Fall werden später die Borel-Mengen als geeignetes Mengensystem zur Beschreibung einer Wahrscheinlichkeit benutzt. 1.7 Axiomatische Definition der Wahrscheinlichkeit (A. KOLMOGOROV, 1933) Bisher wurde die Wahrscheinlichkeit für einzelne zufällige Ereignisse definiert. Aufbauend auf den bereits beschriebenen Eigenschaften, die sich aus dem Begriff der Wahrscheinlichkeit herleiten lassen, wird jetzt eine neue Definition der Wahrscheinlichkeit beschrieben. Dazu wird eine Maßfunktion P definiert, die auf eine σ-Algebra A im Ereignisraum Ω angewandt wird, und die einzelnen Ereignisse A in den Zahlenbereich zwischen 0 und 1 mit folgenden Eigenschaften abbildet: Jedem Ereignis A wird eine Wahrscheinlichkeit P (A) zugeordnet. P (A) : A 7→ [0, 1] 44 (1.12) 1.8. FOLGERUNGEN AUS DEN KOLMOGOROVSCHEN AXIOMEN Voraussetzung: Als Mengensystem wird eine σ-Algebra A auf Ω betrachtet: 1. P (A) ≥ 0 (Maßaxiom) (1.13) 2. P (Ω) = 1 (Normierungsaxiom) (1.14) 3. P (A ∪ B) = P (A) + P (B) für A ∩ B = ∅ (Additivitätsaxiom) (1.15) 1.8 Folgerungen aus den KOLMOGOROVschen Axiomen Gleichung (1.15) gibt eine Rechenvorschrift für die Ermittlung von Wahrscheinlichkeiten an, die jedoch auf disjunkte Ereignisse beschränkt ist. Deshalb suchen wir nun eine Rechenvorschrift für nicht disjunkte Ereignisse. Da die Wahrscheinlichkeit für alle Elemente der σ-Algebra definiert ist, müssen wir bei den Gleichungen darauf achten, nur Elemente der σ-Algebra zu verwenden. Für zwei Ereignisse A1 , A2 kann man nach der Definition der σ-Algebra schreiben: A1 , A2 ∈ A ⇒ A1 , A2 ∈ A ⇒ A1 ∪ A2 ∈ A Unter Anwendung des de Morganschen Gesetz aus (1.11) folgt daraus: ⇒ A1 ∪ A2 = A1 ∩ A2 ∈ A Auf die gleiche Weise ergibt sich damit auch: A1 ∩ A2 = A1 ∪ A2 ∈ A Somit lassen sich innerhalb der σ-Algebra folgende Mengenumformungen durchführen: A1 ∪ A2 A2 = A1 ∪ (A1 ∩ A2 ) = (A1 ∩ A2 ) ∪ (A1 ∩ A2 ) Mit dem Additivitätsaxiom aus Gleichung (1.15) folgt daraus: P (A1 ∪ A2 ) = P (A2 ) = ⇔ P (A1 ∩ A2 ) = P (A1 ) + P (A1 ∩ A2 ) P (A1 ∩ A2 ) + P (A1 ∩ A2 ) P (A2 ) − P (A1 ∩ A2 ) Durch Einsetzen erhält man: P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) 45 (1.16) KAPITEL 1. ZUFÄLLIGE EREIGNISSE Für die Ermittlung der Summenwahrscheinlichkeit zweier Ereignisse ist somit bei nicht disjunkten Mengen zusätzlich zu deren Einzelwahrscheinlichkeiten noch die Wahrscheinlichkeit ihrer Schnittmenge erforderlich. Dies unterstreicht die Bedeutung einer σ-Algebra, die von vornherein alle Kombinationsmöglichkeiten der Ereignisse enthält. 1.9 Definition eines Wahrscheinlichkeitsraums Durch die abstrakte Definition eines geeigneten Mengensystems und eines Wahrscheinlichkeitsmaßes kann nun ein Zufallsexperiment in völlig abstrakter Form durch einen Wahrscheinlichkeitsraum definiert werden: Experiment Definition 1.13 (Wahrscheinlichkeitsraum/Experiment) Ein Wahrscheinlichkeitsraum (Ω, A, P ) oder ein Experiment ist definiert durch das folgende Tripel (Ω, A, P ) Dieses umfasst • eine Menge von Ereignissen Ω • eine σ-Algebra A, die bestimme Ereignisse innerhalb des Ereignisraumes Ω definiert • ein Wahrscheinlichkeitsmaß P(A), das zu jedem Ereignis eine Wahrscheinlichkeit, d.h. eine Wahrscheinlichkeit für das Auftreten des Ereignisses A, angibt. ❍ Diese abstrakte Definition wird im folgenden ausschließlich eingesetzt. Zu bemerken ist aber, dass mit dieser abstrakten Definition sämtliche bisher besprochenen Beispiele vollständig erfasst werden können. Die Wahrscheinlichkeitsbegriffe nach Bernoulli und von Mises sind in der Kolmogorovschen Definition aufgegangen und das Mengensystem kann jeweils als die Potenzmenge des Ereignisraumes Ω betrachtet werden. Die bisherigen konkreten Beispiele sind also Sonderfälle der abstrakten Kolmogorovschen Definition. Nachdem ein solcher Wahrscheinlichkeitsraum definiert ist, wollen wir uns üblichen Fragestellungen innerhalb der Wahrscheinlichkeitstheorie widmen. Beispielsweise wird häufig die Frage gestellt: Wie groß ist die Wahrscheinlichkeit, das unter einer bestimmten Voraussetzung ein definiertes Ereignis eintritt. Diese Frage führt uns auf den Begriff der bedingten Wahrscheinlichkeit. 46 1.10. BEDINGTE WAHRSCHEINLICHKEIT 1.10 Bedingte Wahrscheinlichkeit Definition 1.14 (Bedingte Wahrscheinlichkeit) Als bedingte Wahrscheinlichkeit be- bedingte zeichnet man die Wahrscheinlichkeit für das Auftreten von A bedingt durch bzw. unter der scheinlichkeit Voraussetzung, dass das Ereignis B erfüllt ist: P (B|A) P (A|B) = P (A ∩ B) P (B) oder P (B|A) = P (B ∩ A) P (A) (1.17) ❍ W AÇB=BÇA B A Ω 8 B 1 A 19992 Abbildung 1.6: Venn-Diagramm für die Wahrscheinlichkeiten im Simpson-Prozess Beispiel 1.20 (O. J. Simpson) Das zu Beginn dieses Kapitels aufgeführte Beispiel um den Mordprozess um O. J. Simpson kann hier aufgegriffen und anhand eines Venn-Diagramms erläutert werden. Abbildung 1.6 stellt die folgenden Ereignisse dar: Ω: alle Männer A: Männer, die ihre Frau ermordet haben B: Männer, die ihre Frau geschlagen haben Der Verteidiger gab an, dass weniger als einer von 2500 Männern, die ihre Partnerin schlagen, auch so weit ginge, sie zu ermorden. Bezogen auf das Venn-Diagramm entspricht das der Wahrscheinlichkeit P (A|B) = 1 8 P (A ∩ B) ≤ = . P (B) 2500 20.000 47 Wahr- KAPITEL 1. ZUFÄLLIGE EREIGNISSE Diese Angabe ist zwar richtig, aber im vorliegenden Fall irrelvant, da man davon ausgehen muss, dass schon ein Mord geschehen ist. Man müsste also fragen, bei wie vielen Männern, die ihre Frau ermordet haben, wurden diese zuvor auch von ihrem Mann geschlagen? Dies führt zu einer viel grösseren Wahrscheinlichkeit P (B|A) = P (A ∩ B) 8 ≈ , P (A) 9 △ wie man im obigen Venn-Diagramm erkennen kann. Beispiel 1.21 (Qualität elektronischer Bauelemente) Von 10000 elektronischen Bauelementen wurden 3000 von einer Firma X und 7000 von einer Firma Y gefertigt. 10% der Bauelemente, die von der Firma X hergestellt wurden, haben nicht die geforderte Qualität und 5% der von Y gefertigten. Wie groß ist die Wahrscheinlichkeit, dass ein zufällig gewähltes Bauelement, das nicht die geforderte Qualität besitzt, von der Firma X gefertigt wurde? Wir definieren A := {Bauelement wurde von der Firma X hergestellt} B := {Bauelement erfüllt nicht die geforderte Qualität} Dann gilt P (A) = 3000 · 10% + 7000 · 5% = 6.5%, 10000 3000 · 10% P (A ∩ B) = = 3%, 10000 3000 , 10000 P (B) = so dass wir erhalten: P (A|B) = P (A ∩ B) 3% = ≈ 46, 15% P (B) 6.5% △ Beispiel 1.22 (Partei 1) Zur Interpretation des Wahlverhaltens der Bevölkerung werden folgende Ereignisse definiert: A18 := {Personen im Alter zwischen 18 - 30 } B := {Wähler einer bestimmten Partei (SPD)} Gegeben sind nun folgende Angaben: P (B) = 40% P (A18 ) = 20% 48 P (B|A18 ) = 60% 1.11. TOTALE WAHRSCHEINLICHKEIT Gesucht ist nun die Wahrscheinlichkeit dafür, dass ein SPD-Wähler im Alter zwischen 18 und 30 ist: P (A18 |B) = 60% · 20% 0.12 = = 30% 40% 0.4 △ Von allen SPD-Wählern sind 30% zwischen 18 und 30 Jahren. 1.11 Totale Wahrscheinlichkeit Definition 1.15 (Totale Wahrscheinlichkeit) Sind die Ereignisse A1 , A2 , . . . , An paar- totale weise unvereinbar, d.h. scheinlichkeit Ai ∩ Aj = ∅ ∀i 6= j und spannen diese das sichere Ereignis Ω auf (vgl. auch Abbildung 1.7) A1 ∪ A2 ∪ · · · ∪ An = Ω, dann gilt für ein beliebiges Ereignis B mit B ⊂ A1 ∪ A2 ∪ · · · ∪ An die totale Wahrscheinlichkeit P (B) = n X P (B|Ai )P (Ai ) (1.18) i=1 ❍ W B A3 A4 A2 A1 Abbildung 1.7: Unterteilung von Ω in paarweise unvereinbare Ereignisse Ai Beispiel 1.23 (Partei 2) Die Anzahl der Gesamtwähler einer Partei aus Beispiel 1.22 kann aus dem Wahlverhalten in den einzelnen Altersgruppen ermittelt werden: P (SPD) = P (A18 ) · P (SPD|A18 ) + P (A30 ) · P (SPD|A30 ) + P (A50 ) · P (SPD|A50 ) 49 Wahr- KAPITEL 1. ZUFÄLLIGE EREIGNISSE △ Beispiel 1.24 (Binärer Kanal) Auf einem Übertragungskanal zur Übermittlung binär (0, 1) kodierter Daten (Abbildung 1.8) können Fehler auftreten, wenn ein übertragenes Zeichen nicht richtig erkannt wird. Im Folgenden entspreche die Aussendung des Zeichens i dem Ereignis Ai und der Empfang dem Ereignis Bi . Sender P(A1) Kanal Empfänger P(B1|A1) 1 1 P(B1) 0 P(B0) P(B0|A1) P(B1|A0) P(A0) 0 P(B0|A0) Abbildung 1.8: Binärer Kanal Durch Messungen wurden folgende Daten ermittelt: • 95% aller „1“ werden richtig übertragen, d.h. P (B1 |A1 ) = 0.95 • 92% aller „0“ werden richtig übertragen, d.h. P (B0 |A0 ) = 0.92 • 45% aller übertragenen Zeichen sind „0“, d.h. P (A0 ) = 0.45 ⇒ P (A1 ) = 0.55 Wie groß ist die Wahrscheinlichkeit dafür, dass ein Übertragungsfehler auftritt? Zur Lösung dieser Fragestellung verwendet man als Stichprobenraum Ω = {0, 1}2, wobei das Ereignis (A, B) ∈ Ω beschreibt, dass das Bit A gesendet und B empfangen wurde. Als σ-Algebra wird die Potenzmenge von Ω verwendet. Gesucht ist nun P (Error) = P ({(0, 1), (1, 0)}). Nach Gleichung (1.18) ergibt sich daraus: P (Error) = P (B1 ∩ A0 ) + P (B0 ∩ A1 ) = P (A0 )P (B1 |A0 ) + P (A1 )P (B0 |A1 ) = 0.45 · 0.08 + 0.55 · 0.05 = 0.0635 △ 50 1.12. FORMEL VON BAYES 1.12 Formel von Bayes In vielen Fällen, in denen eine bekannte bedingte Wahrscheinlichkeit P (B|A) bekannt ist, wird jedoch die Rückschlusswahrscheinlichkeit P (A|B) gesucht. Thomas Bayes hat für die Umrechnung dieser Wahrscheinlichkeiten ineinander eine Berechnungsvorschrift entwickelt. Aus der bedingten Wahrscheinlichkeit zweier Ereignisse B und Ai P (Ai |B)P (B) = P (Ai ∩ B) = P (B|Ai )P (Ai ) erhält man mit (1.17) P (Ai |B) = P (B|Ai )P (Ai ) . P (B) (1.19) Sind alle Ai unvereinbar und spannen sie Ω auf, so kann mit der totalen Wahrscheinlichkeit für B das Theorem von BAYES beschrieben werden. Theorem BAYES P (B|Ai )P (Ai ) P (Ai |B) = Pn . i=1 P (B|Ai )P (Ai ) (1.20) Die P (Ai |B) werden auch als a posteriori Wahrscheinlichkeiten bezeichnet. Thomas Bayes wurde 1702 (Datum nicht bekannt) in London geboren und starb am 17. April 1761 in Tunbridge Wells, Kent, England. Beispiel 1.25 (Qualitätskontrolle) In einem Betrieb wird ein Produkt von drei Maschinen gefertigt. Die folgende Tabelle zeigt den Anteil jeder Maschine an der Gesamtproduktion und den Ausschussanteil: Maschine Anteil(%) Ausschuss(%) 1 50 1 2 30 2 3 20 5 Wie groß ist die Wahrscheinlichkeit, dass ein zufällig aus dem Lager entnommenes Erzeugnis nicht den Qualitätsansprüchen genügt? Wir definieren Ai := {Produkt wurde mit Maschine i erzeugt}, B := {Produkt ist Ausschuß}. 51 i = 1, 2, 3 von KAPITEL 1. ZUFÄLLIGE EREIGNISSE Da die Ai ein vollständiges System von Ereignissen bilden, erhalten wir die totale Wahrscheinlichkeit als P (B) = P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + P (B|A3 )P (A3 ) = 0.01 · 0.5 + 0.02 · 0.3 + 0.05 · 0.2 = 0.021. Nun wollen wir die Wahrscheinlichkeit wissen, dass ein dem Lager entnommenes, defektes Produkt mit der Maschine i gefertigt wurde. Nach (1.19) erhalten wir: P (A1 |B) = 0.01 · 0.5 5 0.02 · 0.3 6 = , P (A2 |B) = = , 0.021 21 0.021 21 0.05 · 0.2 10 P (A3 |B) = = 0.021 21 △ Beispiel 1.26 (MAP-Detektor) Bei einem MAP (Maximum a posteriori) -Detektor wird die Klassifikation des Empfangssignals aufgrund der a posteriori Wahrscheinlichkeit durchgeführt. Wir setzen das Beispiel 1.24 fort und fragen nun nach der Wahrscheinlichkeit, dass eine „1“ gesendet wurde unter der Bedingung, dass eine „0“ empfangen wurde: A1 = {(1, 0), (1, 1)} B0 = {(0, 0), (1, 0)} P (B0 |A1 ) · P (A1 ) P (B0 |A0 ) · P (A0 ) + P (B0 |A1 ) · P (A1 ) 0.05 · 0.55 = 0.92 · 0.45 + 0.05 · 0.55 P (A1 |B0 ) = ≈ 0.062 △ Beispiel 1.27 (Marihuana) Bei der Diskussion über die Legalisierung von Mariuhana/Cannabis wird als Gegenargument angebracht, dass die meisten Heroinabhängigen zunächst Marihuana geraucht hätten: P (vorher Cannabis|Heroin) = 1 − ǫ Dies heisst jedoch nicht, dass die meisten Mariuhana-Raucher auch heroinsüchtig werden: P (Heroin|vorher Cannabis) ≤ 10−5 △ 52 Kapitel 2 Zufallsvariable, statistische Unabhängigkeit Die Definition des Begriffes Wahrscheinlichkeit und das Verständnis der zufälligen Ereignisse durch die abstrakte Beschreibung von Teilmengen des Ereignisraumes Ω waren das zentrale Thema des vorausgegangen Kapitels. Damit sind die Grundelemente der Wahrscheinlichkeitstheorie bereits betrachtet und beschrieben. Die zufälligen Ereignisse müssen dabei nicht mehr, wie zunächst angenommen, diskreter Natur sein, sondern können auch kontinuierliche Werte annehmen. Beispiele dazu sind die Lebensdauer von Maschinen, Temperaturverläufe, Zeitmessung für die Dauer von Telefonaten usw. Auf solche Zufallsexperimente, in denen überabzählbar viele Elementarereignisse auftreten, konnte die Bernoullische Definition der Wahrscheinlichkeit nicht angewandt werden. Alternativ wurde deshalb die abstrakte Definition des Wahrscheinlichkeitsbegriffes von Kolmogorov eingeführt. In diesem Kapitel werden Situationen betrachtet, in denen Experimente mit zufälligem Ausgang mehrfach nacheinander durchgeführt werden. Solche Situationen wurden bereits anschaulich in der Vorstellungswelt von Richard v. Mises betrachtet, indem mehrere Versuche eines Zufallsexperiments zeitlich nacheinander durchgeführt wurden, z.B. das mehrfach nacheinander durchgeführte Werfen einer Münze. Die genauen Bedingungen der Versuchsanordnung wurden dabei nicht explizit angegeben, sondern es wurde anschaulich vorausgesetzt, dass das Zufallsexperiment immer wieder neu gestartet wird und keine Abhängigkeit zwischen vorausgegangenen Versuchen existiert. Mit anderen Worten gesagt, in der Versuchsanordnung ist kein Gedächtnis enthalten. Dieser Sachverhalt einer genauen Versuchsanordnung soll in diesem Kapitel präzisiert und formal betrachtet werden. Dabei spielt der Begriff der statistischen Unabhängigkeit 53 KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT eine zentrale Rolle. Desweiteren wird eine Beschreibungsmöglichkeit für Zufallsexperimente in Form von Zufallsvariablen diskutiert. Das ist eine neue Vorgehensweise, ein neues Konzept und eine neue Methode zur Analyse von Zufallsexperimenten, die zunächst in das Weltbild der bereits definierten Wahrscheinlichkeitsräume integriert werden muss. Mit dieser Methode lassen sich Zufallsexperimente, deren zufällige Ereignisse nicht nur diskrete, sondern auch kontinuierliche Werte bzw. Zustände annehmen können, relativ einfach und vor allen Dingen in einheitlicher Form beschreiben. Dabei wird zunächst jeweils ein abstrakter Wahrscheinlichkeitsraum, beschrieben durch das Tripel (Ω, A, P ), betrachtet. Dieser Wahrscheinlichkeitsraum beschreibt ein Zufallsexperiment in mathematisch eindeutiger Weise. 2.1 Statistische Unabhängigkeit statistisch hängig unab- Definition 2.1 (Statistische Unabhängigkeit) Zwei zufällige Ereignisse werden als statistisch unabhängig bezeichnet, falls gilt P (A ∩ B) = P (A) · P (B) (2.1) ❍ Wenn in einem Zufallsexperiment mehrere Versuche nacheinander durchgeführt werden, dann wird sehr häufig von statistisch unabhängigen Versuchen ausgegangen. In der Experimentieranordnung soll also kein Gedächtnis enthalten sein. Diese Annahmen können leicht bei Karten- oder Würfelbeispielen anschaulich nachvollzogen und validiert werden. Diese Eigenschaft der statistischen Unabhängigkeit ist für wahrscheinlichkeitstheoretische Analysen außerordentlich wichtig. Zentrale mathematische Sätze bzw. Behauptungen innerhalb der Wahrscheinlichkeitstheorie basieren auf der Annahme der statistischen Unabhängigkeit. Allerdings ist diese Annahme kein Dogma für sämtliche Versuchsanordnungen in praktisch auftretenden Zufallsexperimenten. Wir werden in späteren Kapiteln das Konzept der korrelierten Ereignisse bzw. der korrelierten Zufallsvariablen einführen. Mit diesem alternativen Konzept wird gezielt ein Gedächtnis in das Zufallsexperiment integriert. Diese beiden Konzepte der statistischen Unabhängigkeit und der Korrelation ergänzen sich dementsprechend und bieten die Möglichkeit, ganz unterschiedlich geartete Versuchsanordnung auf statistische Art und Weise zwar mit unterschiedlichen Methoden aber doch mit denselben modellhaften Vorstellungen analysieren zu können. Für das im vorangegangenen Kapitel eingeführte Konzept der bedingten Wahrscheinlichkeit wirkt sich die Annahme für zwei statistisch unabhängiger Ereignisse A und B wie 54 2.1. STATISTISCHE UNABHÄNGIGKEIT folgt aus: P (A|B) = P (A) und P (B|A) = P (B). Da das zufällige Ereignis jeweils statistisch unabhängig von der Bedingung ist, wirkt sich auch die Bedingung nicht auf die Wahrscheinlichkeit des zufälligen Ereignisses aus. Die obige Behauptung kann mathematisch einfach überprüft werden, indem Gleichung (2.1) in Gleichung (1.17) eingesetzt wird. Die obige Definition der statistischen Unabhängigkeit bezieht sich lediglich auf zwei zufällige Ereignisse. Diese Definition kann auf n beliebige zufällige Ereignisse erweitert werden. Definition 2.2 (Statistische Unabhängigkeit von n Ereignissen) Mehrere zufällige Ereignisse sind nur dann statistisch unabhängig, wenn die beiden folgenden Eigenschaften für beliebige Paare erfüllt sind: • alle betrachteten zufälligen Ereignisse sind zunächst paarweise unabhängig, d.h. P (Ai ∩ Aj ) = P (Ai ) · P (Aj ) ∀ i 6= j • und darüber hinaus erfüllen sämtliche Kombinationen der betrachteten zufälligen Ereignisse die obige Eigenschaft der statistischen Unabhängigkeit: n Y \ P (Ai ) Ai = P i⊆{1,...,n} i=1 ❍ Beispiel 2.1 (Werfen zweier Münzen) Zwei Münzen werden geworfen. Sei A :={erste Münze zeigt Kopf} = {KK, KZ}, B :={zweite Münze zeigt Kopf} = {KK, ZK}, C :={genau eine Münze zeigt Kopf} = {KZ, ZK} In diesem Experiment treten die obigen Ereignisse mit folgender Wahrscheinlichkeit auf: P (A) = P (B) = P (C) = 1 2 Es soll geprüft werden, ob diese n = 3 zufälligen Ereignisse nach der obigen Definition statistisch unabhängig zueinander sind. 55 KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT Die Ereignisse sind paarweise unabhängig: P (A ∩ B) = 1 = P (A)P (C) 4 1 und P (B ∩ C) = = P (B)P (C) 4 1 = P (A)P (B), 4 P (A ∩ C) = Wegen A ∩ B ∩ C = ∅ und 0 = P (A ∩ B ∩ C) 6= P (A)P (B)P (C) = 1/8 sind die 3 zufälligen Ereignisse aber nicht als statistisch unabhängig zu bezeichnen, da die Ereignisse zwar paarweise zueinander unabhängig sind, die Bedingung Q T n △ P i=1 P (Ai ) jedoch nicht erfüllt ist. i⊆{1,...,n} Ai = 2.2 Produktwahrscheinlichkeitsräume Führt man n statistisch unabhängige Versuche eines Zufallsexperiments mit zugehörigen Wahrscheinlichkeitsräumen (Ωi , Ai , Pi ) durch, so ist der zusammengefasste Versuch wieder ein statistisches Experiment bzw. ein Zufallsexperiment. Der zugehörige und resultierende Ereignisraum ist dann das kartesische Produkt aus den einzelnen Ereignisräumen: Ω = Ω1 × Ω2 × . . . Ωn Beispiele: Werfen mehrerer Würfel oder mehrmaliges Werfen eines Würfels, Zuverlässigkeit unabhängiger Systeme. Wir sprechen in diesem Fall auch von der Produktwahrscheinlichkeit bzw. von der Verbundwahrscheinlichkeit. Anwendung auf die Binomialverteilung: Wir betrachten ein Zufallsexperiment mit lediglich zwei möglichen Ausgängen („0” oder „1”). Ein solches Experiment entsteht z.B. beim Werfen einer Münze oder bei der Betrachtung binärwertiger Sequenzen und wird auch als Alternativverteilung bezeichnet. Beide Ereignisse seien statistisch unabhängig und die Auftrittswahrscheinlichkeiten für die beiden einzelnen zufälligen Ereignisse seien: P („1”) = p und P („0”) = 1 − p Bei einer n-fachen Wiederholung dieses Zufallsexperimentes entstehen in dem Produktwahrscheinlichkeitsraum Elementarereignisse, die durch einen Vektor der Länge n mit binären Koeffizienten beschrieben werden können. Ein solches Elementarereignis wird hier als ω bezeichnet. 56 2.2. PRODUKTWAHRSCHEINLICHKEITSRÄUME Die Wahrscheinlichkeit für ein Elementarereignis ω, in dem genau k mal eine „1“ an fest vorgegebenen Positionen auftritt, z.B. bei der Übertragung einer Bitsequenz mit n Bits, wird wie folgt berechnet: P (ω) = pk (1 − p)n−k . Diese Eigenschaft folgt unmittelbar aus der Annahme der statistischen Unabhängigkeit und der Angabe der obigen Wahrscheinlichkeiten p und 1 − p. In dem betrachteten Binärvektor werden genau k zufällige Ereignisse mit der Wahrscheinlichkeit p und n − k zufällige Ereignisse mit der Wahrscheinlichkeit 1 − p beobachtet. Die Einzelwahrscheinlichkeiten multiplizieren sich wegen der Annahme der statistischen Unabhängigkeit. Ein solches Zufallsexperiment mit binärem Ausgang wird auch als Bernoulli-Versuch bezeichnet. Fragen dieser Art entstehen z.B. bei der Analyse von fehlerbehafteten Binärsequenzen. Dabei steht eine 1 dann beispielsweise für eine fehlerhafte und eine 0 für eine fehlerfreie Übertragung. In diesem Zufallsexperiment wurde mit dem Elementarereignis zunächst eine fest definierte Binärsequenz betrachtet. Nicht immer ist ein solches Elementarereignis von Interesse, sondern häufig wird auch die Frage nach der Wahrscheinlichkeit gestellt, mit der genau k-mal das zufällige Ereignis „1” innerhalb des Vektors der Länge n auftritt. Dabei spielen die genauen Positionen, an denen die „1”en innerhalb des Vektors auftreten, keine Rolle. Die Wahrscheinlichkeit, dass bei insgesamt n Versuchen eines Zufallsexperiments ein Ereignis „1” genau k-mal auftritt, kann durch Berücksichtigung sämtlicher Kombinationen aller möglichen Elementarereignisse, in denen die obige Bedingung erfüllt ist, berechnet werden. n k P (k mal „1” in einem Vektor der Länge n) = p (1 − p)n−k . k Diese Wahrscheinlichkeit P wird auch als Binomialverteilung bezeichnet. Es gibt also genau nk Kombinationen bzw. unterschiedliche Elementarereignisse, in denen k „1”en in einem Vektor der Länge n angeordnet sind. Beispiel 2.2 (Systemzuverlässigkeit) Die Zuverlässigkeit p eines Systems beschreibt die Wahrscheinlichkeit, mit der das System fehlerfrei läuft. Mit (1 − p) wird die Wahrscheinlichkeit des Systemausfalls beschrieben. Ein System bestehe aus vier statistisch unabhängigen Teilsystemen (Abbildung 2.1), welche jeweils eine Zuverlässigkeit p besitzen. System 3 stellt hierbei ein Backup-System für die Systeme 1 und 2 dar. Bei der Analyse des Gesamtsystems stellt sich die Frage: Wie hoch ist die Wahrscheinlichkeit, mit der das Gesamtsystem ausfällt? 57 KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT S y s te m 1 S y s te m 2 S y s te m S y s te m 4 3 A B Abbildung 2.1: Angenommener Systemaufbau im Beispiel 2.2 Die Zuverlässigkeit des Gesamtsystems ist P (kein Ausfall) = P (kein Ausfall von A und kein Ausfall von B) = P (kein Ausfall von A)P (kein Ausfall von B) = {1 − P (Ausfall A)} · p (2.2) Ausfallwahrscheinlichkeit des ersten Abschnitts: P (Ausfall A) = P (Ausfall 1 oder 2)P (Ausfall 3) = (1 − P (kein Ausfall 1 und 2))(1 − P (kein Ausfall 3)) = (1 − P (kein Ausfall 1 und 2))(1 − p) = (1 − P (kein Ausfall 1)P (kein Ausfall 2))(1 − p) = (1 − p · p)(1 − p) = 1 − p − p2 + p3 Einsetzen in (2.2): P (kein Ausfall) = 1 − (1 − p − p2 + p3 ) · p = p2 + p3 − p4 Nimmt man an, ein Einzelsystem arbeitet zu 90% zuverlässig, ergibt sich für die Zuverlässigkeit des Gesamtsystems: P (kein Ausfall) = 0.92 + 0.93 − 0.94 = 88.29% △ 2.3 Definition der Zufallsvariablen In vielen technischen Anwendungen spielen Zufallsexperimente und zufällige Ereignisse mit einem kontinuierlichen Ausgang eine zentrale Rolle. Zufällige Ereignisse mit diskreten 58 2.3. DEFINITION DER ZUFALLSVARIABLEN Werten sind auch sehr wichtig, stellen aber doch eher einen Sonderfall in der praktischen Anwendung dar. Bisher wurde das Zufallsexperiment explizit durch die Versuchsanordnung und durch den dahinter stehenden, das Zufallsexperiment eindeutig beschreibenden, Wahrscheinlichkeitsraum angegeben. Die Wahrscheinlichkeiten für die in der σ-Algebra enthaltenen zufälligen Ereignisse wurden jeweils direkt berechnet. In vielen praktischen Anwendungen ist aber die genaue Beschreibung des Zufallsexperiments von untergeordneter Bedeutung. Überwiegend wird das zufällige Ereignis durch eine messbare reellwertige Größe bzw. Variable beschrieben. Diesen Sachverhalt beschreiben wir durch das Konzept einer Zufallsvariablen, also einer Variablen mit zufälligem reellen Wert. Die Zufallsvariable wird durch eine Abbildung des Ereignisraumes Ω in die reellen Zahlen formal definiert und mathematisch eingeführt. Wir wollen deshalb in diesem Abschnitt auf die charakteristischen Eigenschaften einer Variablen mit zufälligem Wert eingehen. Definition 2.3 (Zufallsvariable) Eine Abbildung X, die den Ereignisraum Ω in die reellen Zahlen abbildet (vgl. Abbildung 2.2): Zufallsvariable X X: Ω 7→ R (2.3) heißt Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P ), wenn für alle B ∈ B (Borel-Mengen) das Ereignis X −1 (B) = {ω|ω ∈ Ω und X(ω) ∈ B} ∈ A (2.4) ein Element der σ-Algebra A ist. Eine solche Abbildung wird als messbar bezeichnet. Zufallsvariablen sind also messbare Abbildungen von Wahrscheinlichkeitsräumen in Euklidische Räume. ( ; A; P ) ! X : 7! R (R; B; PX ) 2 X (B ) A 1 B Abbildung 2.2: Zufallsvariable 59 X (!) ❍ KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT Dieser zunächst einfach anmutende Schritt ist außerordentlich wichtig, weil dann im Folgenden sämtliche Zufallsexperimente insofern einheitlich zu betrachten sind, als dass die zufälligen Ereignisse durch reelle Zahlenwerte beschrieben werden können. Wir sprechen dann nicht mehr von den zufälligen Ereignissen, sondern alternativ von der oder den Zufallsvariablen. Der eigentliche Grund für dieses Vorgehen liegt aber in der einheitlichen Beschreibungsweise von Zufallsvariablen durch geeignete Funktionen. Das tatsächliche Zufallsexperiment tritt in den Hintergrund und die formale Eigenschaft der Zufallsvariablen X spielt künftig die zentrale Rolle. Beispiele für Zufallsvariable • Augensumme beim Werfen von drei Würfeln Wahrscheinlichkeitsraum: Ω = {(ω1 , ω2 , ω3 ) : ωi ∈ {1, 2, 3, 4, 5, 6}, i = 1, 2, 3} Abbildung: X := Ω → R (ω1 , ω2 , ω3 ) → ω1 + ω2 + ω3 • Maximum und Minimum eines Temperaturverlaufs Wahrscheinlichkeitsraum: Ω = x(t) (stetig) Abbildung: X := Ω → R2 Temperatur x(t) → (max{x(t)}, min{x(t)}) 2.4 Neuer Wahrscheinlichkeitsraum Nach den vorausgegangenen Erläuterungen nimmt jede Zufallsvariable jetzt reelle Werte an. Der Unterschied zwischen den Zufallsexperimenten liegt lediglich in den Wahrscheinlichkeiten, mit denen die betrachtete Zufallsvariable bestimmte reelle Werte annimmt. Aus diesem Grund wird eine einheitliche mathematische Beschreibung der Zufallsvariablen entwickelt, die für vergleichende Zwecke besonders geeignet ist. Zunächst wird aber der passende Wahrscheinlichkeitsraum für eine Zufallsvariable X entwickelt. Ausgangspunkt der folgenden Betrachtung ist zunächst ein Zufallsexperiment beschrieben durch das Tripel eines Wahrscheinlichkeitsraums (Ω, A, P ). Die Zufallsvariable X 60 2.4. NEUER WAHRSCHEINLICHKEITSRAUM wird auf diesen Wahrscheinlichkeitsraum (Ω, A, P ) angewandt. Durch die Einführung der Zufallsvariablen X wird ein neuer Wahrscheinlichkeitsraum (ΩX , B, PX ) gebildet. Definition 2.4 (Wahrscheinlichkeitsverteilung) Ist X : Ω 7→ R eine Zufallsvariable, so Wahrscheinlich- wird ein neues Wahrscheinlichkeitsmaß PX durch die folgende Abbildung von der Borel- keitsverteilung Menge B in die reellen Zahlen bzw. in das Intervall [0, 1] definiert: PX PX : B 7→ [0, 1] mit PX (B) = P X −1 (B) (2.5) PX ist ein Wahrscheinlichkeitsmaß auf dem Mengensystem der Borel-Menge B. Dieses Wahrscheinlichkeitsmaß PX enthält sämtliche charakteristischen Eigenschaften der Zufallsvariablen X. Sämtliche Eigenschaften der Kolmogorovschen Definition sind selbstverständlich auch für das neue Wahrscheinlichkeitsmaß PX erfüllt und übertragen sich in logischer Folge von dem bisherigen Wahrscheinlichkeitsmaß P . Durch diese geschickte Definition des Wahrscheinlichkeitsmaßes PX ist ein neuer Wahrscheinlichkeitsraum entstanden. Der neue Ereignisraum ist ΩX = R. Das Mengensystem der σ-Algebra ist durch die Borelsche-Menge B beschrieben und das Wahrscheinlichkeitsmaß ist PX . Der neue Wahrscheinlichkeitsraum wird durch das folgende Tripel formal angegeben: (ΩX = R, B, PX ) Dieser neu definierte Wahrscheinlichkeitsraum ist für die charakteristische Beschreibung der Zufallsvariablen X von Bedeutung und enthält sämtliche Eigenschaften des ursprünglichen Zufallsexperiments einschließlich der Zufallsvariablen X. ❍ Rein aus der formalen Sicht des Wahrscheinlichkeitsraums kann die Wahrscheinlichkeit für jedes Element der Borel-Menge bestimmt und angegeben werden. Die Borel-Menge ist allerdings so mächtig, dass nicht für jedes Element dieser Borel-Menge die Angabe der Wahrscheinlichkeit tatsächlich von Interesse ist. Dieser mathematische Formalismus mit Angabe des neuen Wahrscheinlichkeitsraums soll allerdings kein Selbstzweck sein und muss stets auf seine praktische Anwendbarkeit überprüft werden. Die Borel-Menge ist ein relativ unübersichtliches und vor allem sehr großes Gebilde. Für einige Elemente der BorelMenge ist die Angabe der Wahrscheinlichkeit, mit der die jeweilige Zufallsvariable Werte in den definierten Bereichen der reellen Achse annimmt, dagegen von großem Interesse. Auf diese Elemente wollen wir uns im folgenden konzentrieren und können damit das Verständnis im Umgang mit dem neuen Wahrscheinlichkeitsraum ganz wesentlich vereinfachen. Mit dieser Definition des neuen Wahrscheinlichkeitsraums kann für jede Zufallsvariable X die Frage nach der Wahrscheinlichkeit beantwortet werden, mit der die Zufallsvariable 61 KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT fest definierte (reelle) Werte annimmt, die zum Beispiel kleiner sind als ein vorgegebener beliebiger aber fester Wert x. Diese Frage kann formal durch den neuen Wahrscheinlichkeitsraum wie folgt beantwortet werden: Die Menge der reellen Zahlen, die kleiner sind als x stellen ein Element der Borelschen Menge dar. Dementsprechend kann das Wahrscheinlichkeitsmaß PX formal auf diese Menge (bzw. dieses Intervall innerhalb der reellen Zahlen) angewandt werden: PX (X ≤ x) = P ({ω|X(ω) ≤ x}) Der Wert x kann beliebig vorgegeben und systematisch variiert werden. Damit wird im Folgenden der Begriff der Verteilungsfunktion eingeführt. Andere Elemente der Borel-Menge sind ebenfalls von Interesse; sämtliche halboffenen Intervalle auf der reellen Achse zwischen den Punkten x0 , x1 . Diese halboffenen Intervalle gehören zu den Elementen der Borel-Menge. Auch für diese Intervalle kann deshalb mit Hilfe des neuen Wahrscheinlichkeitsraums die Wahrscheinlichkeit berechnet werden, mit der die Zufallsvariable Werte innerhalb des Intervalls annimmt: PX (x0 < X ≤ x1 ) = P ({ω|x0 < X(ω) ≤ x1 }) Beispiel 2.3 (Augensumme beim Werfen mit drei Würfeln) Das folgende Beispiel beschreibt das Wahrscheinlichkeitsmaß PX für den Sonderfall einer diskreten Zufallsvariablen, indem die Wahrscheinlichkeiten für das Auftreten einer bestimmten Augensumme beim zufälligen Werfen mit drei Würfeln berechnet werden. Man berechnet die Wahrscheinlichkeit, mit der die diskrete Zufallsvariable X den Wert k annimmt. PX ({k}) = PX ({X = k}) = P ({(ω1 , ω2 , ω3 ) ∈ Ω|ω1 + ω2 + ω3 = k}) Durch systematische Variation der vorgegebenen Zahl k entsteht eine vom Parameter k △ abhängige Funktion (vgl. Abbildung 2.3). Die Angabe dieser Wahrscheinlichkeiten, mit der eine beliebige Zufallsvariable X Werte in den vorgegeben Bereichen der reellen Achse annimmt, wird im Folgenden eine zentrale Rolle spielen, weil damit eine völlig einheitliche Behandlung der durchaus ganz unterschiedlich gearteten Zufallsexperimente ermöglicht wird. Es muss auch keine Unterscheidung zwischen Zufallsvariablen mit diskreten oder kontinuierlichen reellen Werten gemacht werden. Das Konzept der Zufallsvariablen ist umfassend und beinhaltet sämtliche wichtigen Sonderfälle der diskreten und kontinuierlichen zufälligen Ereignisse. 62 2.5. VERTEILUNGSFUNKTION DER ZUFALLSVARIABLEN X 0.15 P X 0.1 0.05 0 4 6 8 10 12 14 16 18 Augensumme Abbildung 2.3: Wahrscheinlichkeit der Augensumme k beim Werfen von drei Würfeln 2.5 Verteilungsfunktion der Zufallsvariablen X Mit den obigen Vorbereitungen und durch formale Angabe des neuen Wahrscheinlichkeitsraums wird jetzt ein wichtiger Schritt zur Vereinfachung bei der Berechnung der Wahrscheinlichkeiten für die von einer Zufallsvariablen angenommenen Werte durchgeführt. Wir haben gesehen, dass das neue Wahrscheinlichkeitsmaß PX auf alle Elemente der BorelMenge angewandt werden kann, insbesondere auf die Abschnitte der reellen Achse bis zu einem beliebigen Punkt x und auf die halboffenen Intervalle auf der reellen Achse mit völlig beliebigen Grenzen x0 , x1 . Die Wahrscheinlichkeit, mit der die Zufallsvariable X Werte annimmt, die kleiner sind als der Punkt x auf der rellen Achse ist dabei von zentraler Bedeutung und wird auf den Begriff der Verteilungsfunktion führen. Durch systematische Variation des Punktes, bzw. des Parameters x entsteht eine Funktion, die für jeden beliebigen Punkt x die Wahrscheinlichkeit angibt, mit der die Zufallsvariable X Werte annimmt, die kleiner sind als der Punkt x. Die so entstehende, von x abhängige Funktion, wird Verteilungsfunktion der Zufallsvariablen X genannt. Definition 2.5 (Verteilungsfunktion) Ist X eine Zufallsvariable auf dem Wahrscheinlich- Verteilungs- keitsraum (Ω, A, P ), so heißt die Abbildung funktion FX FX : R 7→ [0, 1] (2.6) FX (x) := PX ([X ≤ x]) = P ({ω|ω ∈ Ω ∧ X(ω) ≤ x}) (2.7) mit 63 KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT ❍ die Verteilungsfunktion der Zufallsvariablen X. Die Verteilungsfunktion FX (x) entsteht ausschließlich aus dem Wahrscheinlichkeitsmaß PX und erfüllt damit einige wichtige charakteristische Eigenschaften. Es handelt sich zunächst um eine über x monoton wachsende (bzw. präziser gesagt, um eine monoton nicht fallende) Funktion, die für x → −∞ den Wert 0 und für x → +∞ den Wert 1 annimmt. Diese Eigenschaft der Verteilungsfunktion FX (x) ist für jede Zufallsvariable in gleicher Form erfüllt. 2.5.1 Eigenschaften der Verteilungsfunktion • FX (x) ist normiert: lim FX (x) = 0 und x→−∞ lim FX (x) = 1 x→+∞ (2.8) • FX (x) ist monoton nicht abnehmend: x1 ≤ x2 ⇒ FX (x1 ) ≤ FX (x2 ) (2.9) • FX (x) ist rechtsseitig stetig lim FX (x + h) = FX (x) h→0 (2.10) • Die Wahrscheinlichkeit, mit der die Zufallsvariable X Werte im Intervall x0 < X ≤ x1 annimmt, kann mit dem Konzept der Verteilungsfunktion relativ einfach wie folgt berechnet werden: PX (x0 < X ≤ x1 ) = FX (x1 ) − FX (x0 ) (2.11) • Die Wahrscheinlichkeit, mit der genau eine einzige reelle Zahl x angenommen wird, berechnet sich aus: PX (X = x) = FX (x) − lim FX (x − h) h→0 (2.12) Die letzte Eigenschaft ist insbesondere für die Betrachtung von Zufallsvariablen mit diskretem Wertevorrat von Bedeutung. Nur in diesem Fall ist die Wahrscheinlichkeit, mit der die Zufallsvariable X einen der möglichen diskreten Werte [X = k] annimmt, von Null verschieden. Für Zufallsvariable mit einem kontinuierlichen Wertevorrat ist die Wahrscheinlichkeit, mit der die Zufallsvariable X eine definierte reelle Zahl x annimmt, gleich Null. 64 2.5. VERTEILUNGSFUNKTION DER ZUFALLSVARIABLEN X 2.5.2 Verteilungsfunktion für diskrete Zufallsvariable Definition 2.6 (Diskretes Wahrscheinlichkeitsmaß) Eine Zufallsvariable X bzw. deren Wahrscheinlichkeitsmaß PX heißt diskret, wenn X höchstens abzählbar viele verschiedene Werte annimmt und die Verteilungsfunktion FX (x) damit eine Stufenfunktion über dem Parameter x darstellt. ❍ Die Verteilungsfunktion FX (x) für eine diskrete Zufallsvariable X ergibt sich somit als Summe von Wahrscheinlichkeiten der diskreten Werte xk ≤ x: FX (x) = X fX (xk ) = xk ≤x X P [X = xk ]. xk ≤x Abbildung 2.4 zeigt ein Beispiel für die Verteilungsfunktion einer diskreten Zufallsvariablen. Hinweis: Die Funktion fX (xk ) heißt diskrete Wahrscheinlichkeitsdichtefunktion (WDF) der Zufallsvariablen X und gibt die Wahrscheinlichkeit an, mit der die diskrete Zufallsvariable X den Wert xk annimmt. Die Wahrscheinlichkeitsdichtefunktion wird in einem späteren Abschnitt (Abschnitt 2.6.1) detaillierter vorgestellt. FX(x) 1 x1 x Abbildung 2.4: Verteilungsfunktion einer diskreten Zufallsvariable 2.5.3 Verteilungsfunktion für kontinuierliche Zufallsvariable Definition 2.7 (Stetiges/kontinuierliches Wahrscheinlichkeitsmaß) Eine Zufallsvariable X bzw. deren Wahrscheinlichkeitsmaß PX heißt stetig oder kontinuierlich, wenn X überabzählbar viele verschiedene reelle Werte annimmt und die Verteilungsfunktion FX (x) als Stammfunktion einer nichtnegativen, stückweise stetigen Funktion fX dargestellt werden kann. In diesem Fall muss also die folgende Bedingung für alle reellen Zahlen x ∈ R 65 KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT erfüllt sein: FX (x) = Zx fX (ξ) dξ (2.13) −∞ Die Funktion fX (x) heißt Wahrscheinlichkeitsdichtefunktion (WDF) der Zufallsvaria❍ blen X. In Abbildung 2.5 ist ein Beispiel für die Verteilungsfunktion einer kontinuierlichen Zufallsvariablen dargestellt. FX(x) 1 0 x Abbildung 2.5: Verteilungsfunktion einer kontinuierlichen Zufallsvariablen 2.6 Wahrscheinlichkeitsdichtefunktion 2.6.1 Wahrscheinlichkeitsdichtefunktion für diskrete Zufallsvariable Wahrscheinlich- Definition 2.8 (Wahrscheinlichkeitsdichte) Wenn eine Zufallsvariable X diskrete Werte keitsdichte annimmt, so heißt die Abbildung fX fX : R 7→ R mit fX (x) := PX ({X = x}) die Wahrscheinlichkeitsdichte1 der Zufallsvariablen X. (2.14) ❍ Abbildung 2.6 zeigt ein Beispiel für die Wahrscheinlichkeitsdichtefunktion einer diskreten Zufallsvariablen. Das Wahrscheinlichkeitsmaß PX und damit auch die Verteilungsfunktion FX (x) einer diskreten Zufallsvariablen X sind durch Angabe der Wahrscheinlichkeitsdichte fX (x) bereits vollständig beschrieben. PX (A) = X fX (x) (2.15) x∈A 1 andere gebräuchliche Bezeichnungen: Verteilungsdichte, Verteilungsgesetz, Probability Density Functi- on (PDF) 66 2.6. WAHRSCHEINLICHKEITSDICHTEFUNKTION fX(x) 0.5 0 x Abbildung 2.6: Wahrscheinlichkeitsdichtefunktion einer diskreten Zufallsvariablen Beispiele für diskrete Zufallsvariable: • Alternativverteilung Ap : fX (1) = p mit 0 < p < 1 fX (0) = 1−p Anwendungsbeispiel: Bitfehleranalyse für eine binäre Übertragungsstrecke mit zufälligen Fehlern • Binominialverteilung Bn,p : Wir betrachten ein Zufallsexperiment, in dem eine Zufallsvariable Yi , die einer Alternativverteilung gehorcht, n-mal gewürfelt und anschließend aufsummiert wird: Xn = n X Yi i=1 Die resultierende Wahrscheinlichkeitsdichtefunktion dieser diskreten Zufallsvariablen Xn ist im Folgenden angegeben und wird als Binomialverteilung bezeichnet. n k Bn,p (k) := fX (k) = p (1 − p)n−k k für k = 0, 1, 2, . . . , n (2.16) Abbildung 2.7 zeigt die Wahrscheinlichkeitsdichtefunktion fX (x) und die Verteilungsfunktion FX (x) einer diskreten binomialverteilten Zufallsvariablen X. Anwendungsbeispiel: Bitfehler in einem übertragenen Datenpaket mit insgesamt n Bits 67 KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT 1 0.16 n = 25, p = 0.5 0.9 0.14 0.8 0.12 0.7 0.6 FX(k) fX(k) 0.1 0.08 0.5 0.4 0.06 0.3 0.04 0.2 0.02 0 0.1 0 5 10 15 20 25 0 0 5 10 15 20 25 k k Abbildung 2.7: Wahrscheinlichkeitsdichtefunktion und Verteilungsfunktion einer diskreten binomialverteilten Zufallsvariablen Xn Binomialverteilung fX (k) = FX (k) = k p (1 − p)n−k n k 0 für k ≥ 0; k P fX (i) für k ≥ 0; V ar{X} = np(1 − p) i=0 0 E{X} = np sonst. sonst. Hinweis: Der Erwartungswert E{X} sowie die Varianz V ar{X} werden erst im folgenden Kapitel formal eingeführt. Sie sind in dieser tabellarischen Auflistung der Vollständigkeit halber schon mit angegeben. • Poisson-Verteilung Πλ : Für die Herleitung der Poisson-Verteilung wird ein Modell einer Binomialverteilung betrachtet, mit der Zufallsvariablen Xn , Xn = n X Yi i=1 Zusätzlich werden folgende Annahmen getroffen: a) Die Wahrscheinlichkeit p, mit der das Ereignis eintritt, ist extrem klein (p → 0). Es handelt sich also um ein sehr seltenes Ereignis. b) Es wird eine große Anzahl n von Einzelexperimenten zur Berechnung der Zufallsvariablen Xn durchgeführt (n → ∞). c) Der Erwartungswert der Zufallsvariablen Xn ist wie folgt definiert: E{Xn } = n X x=0 68 xBn,p (x) = np = λ 2.6. WAHRSCHEINLICHKEITSDICHTEFUNKTION und wird unabhängig von n als konstant angenommen. Diese mittlere als fest angenommene Ankunftsrate λ bestimmt gleichzeitig auch die Auftrittswahrscheinlichkeit p = λ n. Wir interessieren uns unter diesen Annahmen für die Wahrscheinlichkeit, mit der die Zufallsvariable Xn = k ist, falls n gegen unendlich wächst: n k P (Xn = k) = p (1 − p)n−k k n−k k λ n λ 1− = n n k n −k k λ λ λ n! 1− · 1− · = k!(n − k)! nk n n n −k k λ λ n(n − 1)(n − 2) · · · (n − k + 1) λ = 1− · · 1 − k! n nk n lim P (Xn = k) = n −k λ n(n − 1)(n − 2) · · · (n − k + 1) λk λ 1− · lim 1 − n→∞ k! n n{zk n }| | {z } | {z } n→∞ →1 →e−λ = →1 λk −λ e k! Diese sich aus dem obigen Grenzübergang ergebende diskrete Zufallsvariable X, mit der Wahrscheinlichkeitsdichtefunktion Πλ (k) := P (X = k) = λk −λ e k! (2.17) wird als poissonverteilt bezeichnet. 1 0.08 λ = 25 0.9 0.07 0.8 0.06 0.7 0.6 FX(k) fX(k) 0.05 0.04 0.5 0.4 0.03 0.3 0.02 0.2 0.01 0 0.1 0 5 10 15 20 25 30 35 40 45 50 0 0 5 10 15 20 25 30 35 40 45 50 k k Abbildung 2.8: Wahrscheinlichkeitsdichtefunktion und Verteilungsfunktion einer diskreten poissonverteilten Zufallsvariablen 69 KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT Beispiel 2.4 (Anwendungsbeispiel zur Poissonverteilung) Frage: Auf einer Fläche von 5 cm2 seien 1000 Staubpartikel (in etwa gleichverteilt über der betrachteten Fläche). Wie gross ist die Wahrscheinlichkeit, auf einer Teilfläche von 5 mm2 genau 6 Partikel zu finden? Lösung: Gedanklich lässt sich die Teilfläche in eine sehr große Anzahl n Bereiche aufteilen (Abbildung 2.9). Hierbei wird die Wahrscheinlichkeit p, in einem Bereich ein Partikel anzutreffen, verschwindend klein. Dabei ist das Produkt pn jedoch konstant. Abbildung 2.9: Illustration der gedanklichen Zerlegung der mit Staubpartikeln bedeckten Fläche Hier ist die Zufallsvariable X die Anzahl der Partikel auf einer Fläche von 5 mm2 . Der Erwartungswert von X ist damit λ= 1000 500 mm2 5 mm2 = 10. In jedem Kästchen der Fläche 5 mm2 befinden sich also im Mittel genau 10 Partikel. Die gesuchte Wahrscheinlichkeit, mit der sich genau 6 Partikel in einem Kästchen befinden lässt sich mit Hilfe der Poisson Verteilung also folgendermaßen berechnen: P (X = 6) = Πλ (6) ≈ 0.063 Demgegenüber ist die Wahrscheinlichkeit genau 10 Partikel auf der gleichen Fläche zu finden wesentlich größer: P (X = 10) = Πλ (10) ≈ 0.125 △ 70 2.6. WAHRSCHEINLICHKEITSDICHTEFUNKTION Poissonverteilung fX (k) = FX (k) = k e−λ P λk −λ k! e für k ≥ 0; 0 E{X} = λ sonst. i=0 λi i! 0 für k ≥ 0; V ar{X} = λ sonst. 2.6.2 Wahrscheinlichkeitsdichtefunktion für kontinuierliche Zufallsvariable Definition 2.9 Wenn eine Zufallsvariable X kontinuierliche Werte annimmt, so heißt die Abbildung fX : R 7→ [0, ∞), (2.18) für die gilt Z∞ fX (x)dx = 1 (2.19) −∞ die Wahrscheinlichkeitsdichte der Zufallsvariablen X. ❍ In Abbildung 2.10 ist ein Beispiel für die Wahrscheinlichkeitsdichtefunktion einer konti- fX(x) nuierlichen Zufallsvariable dargestellt. x Abbildung 2.10: Wahrscheinlichkeitsdichtefunktion einer kontinuierlichen Zufallsvariable Die Verteilungsfunktion FX (x) einer kontinuierlichen Zufallsvariablen X ist durch Angabe der Wahrscheinlichkeitsdichte fX (x) bereits mit Gleichung (2.13) vollständig be71 KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT stimmt. FX (x) = Zx fX (ξ)dξ für alle −∞ x∈R (2.20) Beispiele für kontinuierliche Zufallsvariable • Gleichverteilung Ein wichtiges Beispiel für eine kontinuierliche Zufallsvariable ist durch die sogenannte Gleichverteilung gegeben. Diese Zufallsvariable nimmt nur Werte in einem vorgegebenen festen Intervall auf der Achse der reellen Zahlen an. Die Wahrscheinlichkeitsdichtefunktion ist eine Konstante innerhalb des betrachteten Intervalls. Mit den gängigen Programmiersprachen können sehr einfach auf jedem Rechner gleichverteilte Zufallsvariable im Intervall [0, 1] erzeugt werden. FX(x) fX(x) 1 1/(b-a) b a b a x x Abbildung 2.11: Gleichverteilung Anwendungsbeispiel: Modellierung von Quantisierungsrauschen Gleichverteilung fX (x) = FX (x) = 1 b−a 0 0 x−a b−a 1 für x ∈ [a, b], a < b; E{X} = a+b 2 sonst. für x < a für a ≤ x ≤ b V ar{X} = 1 12 · (b − a)2 für x ≥ b • Gauß- bzw. Normalverteilung Die vermutlich im Bereich der Wahrscheinlichkeitstheorie wichtigste Zufallsvariable ist die Gaußsche bzw. normalverteile Zufallsvariable. Die Bezeichnung geht auf den 72 2.6. WAHRSCHEINLICHKEITSDICHTEFUNKTION berühmten deutschen Mathematiker Carl Friedrich Gauß zurück, der am 30. April 1777 in Braunschweig geboren wurde, an der Universität in Helmstedt promovierte und am 23. Februar 1855 in Göttingen starb. Eine Gaußsche Zufallsvariable wird zur Modellierung von zufälligen, additiv überlagerten Fehlern herangezogen. Die Wahrscheinlichkeitsdichtefunktion der Standard-Normalverteilung ist: 2 1 fX (x) = √ e−x /2 2π für alle x∈R Allgemeine Normalverteilung: 1 x−µ 2 1 e− 2 ( σ ) fX (x) = √ 2πσ für alle x∈R Hierbei bezeichnet σ die Standardabweichung (vgl. Abschnitt 3.4.2). Die Verteilungsfunktion FX (x) kann leider nicht in mathematisch geschlossener Form, sondern nur als Integral über der Wahrscheinlichkeitsdichtefunktion angegeben werden (vgl. Anhang B.1). FX (x) = Zx fX (ξ)dξ = −∞ Zx 1 ξ−µ 2 1 √ e− 2 ( σ ) dξ 2πσ −∞ 0.04 1 0.8 0.03 fX(x) (2.21) 0.6 FX(x) 0.02 0.4 0.01 0.2 0 -5 0 x 0 -5 5 0 x Abbildung 2.12: Normalverteilung Normalverteilung fX (x) = FX (x) = 1 √ 1 e− 2 2πσ2 Rx −∞ (x−µ)2 σ2 2 1 (ξ−µ) σ2 √ 1 e− 2 2πσ2 73 E{X} = µ dξ V ar{X} = σ 2 5 KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT • Lognormalverteilung Bei einer lognormalverteilten Zufallsvariablen X ist der Logarithmus naturalis der Zufallsvariablen normalverteilt mit dem Erwartungswert µ und der Varianz σ 2 . Anwendungsbeispiel: Modellierung der Fadingeinflüsse (slow fading) von Mobilfunkkanälen 0.7 1 0.6 0.8 0.6 X F (x) 0.4 X f (x) 0.5 0.3 0.4 0.2 0.2 0.1 0 0 1 2 3 4 0 0 5 1 x 2 3 4 5 x Abbildung 2.13: Logormalverteilung (µ = 0, σ 2 = 1) Lognormalverteilung 0 fX (x) = √ für x < 0; 1 e− 2πσ2 x 0 Rx FX (x) = −∞ (ln x−µ)2 2σ2 σ2 2 für x ≥ 0. für x < 0; √ 1 e− 2πσ2 ξ E{X} = eµ+ (ln ξ−µ)2 2σ2 dξ V ar{X} = e2µ+2σ für x ≥ 0. −e2µ+σ 2 2 • Rayleigh-Verteilung Die Rayleigh-Verteilung entsteht aus einer komplexen Zufallsvariablen, deren Realund Imaginärteil jeweils normalverteilt sind. Dann ist deren Phase gleichverteilt, während der Betrag rayleighverteilt ist. Anwendungsbeispiel: Modellierung der Fadingeinflüsse (fast fading) von Mobilfunkkanälen (Betrag komplex normalverteilter Zufallsvariablen) 74 2.6. WAHRSCHEINLICHKEITSDICHTEFUNKTION 0.7 1 0.9 0.6 0.8 0.7 0.4 FX(x) fX(x) 0.5 0.3 0.6 0.5 0.4 0.3 0.2 0.2 0.1 0 0.1 0 1 2 3 0 4 0 1 2 x 3 4 x Abbildung 2.14: Rayleigh-Verteilung Rayleigh-Verteilung fX (x) = FX (x) = 0 x σ2 e 0 fürx < 0 x2 − 2σ 2 1 − e E{X} = σ für x ≥ 0 für x < 0 x2 − 2σ 2 pπ V ar{X} = für x ≥ 0 2 4−π 2 2 σ • Exponentialverteilung 0.04 1 0.8 0.03 0.6 FX(x) fX(x) 0.02 0.4 0.01 0 0 0.2 1 2 3 4 0 0 1 x 2 x 3 4 Abbildung 2.15: Exponentialverteilung Anwendungsbeispiel: Beschreibung der Dauer von Vorgängen (Telefongespräche, Bedienzeiten eines Rechners,...), Geburt- und Sterbeprozesse 75 KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT Exponentialverteilung fX (x) = FX (x) = 0 αe−αx 0 für x ≤ 0 E{X} = für x > 0, α > 0 für x ≤ 0 1 − e−αx 1 α V ar{X} = für x > 0, α > 0 1 α2 2.7 Zusammenfassung: Zufallsvariablen Eine Zufallsvariable ist eine Variable mit zufälligem Ausgang, welche durch die Abbildung X : Ω 7→ R (2.22) eindeutig definiert ist, und damit den zufälligen Ereignissen ω im ursprünglichen Zufallsexperiment reelle Zahlen zuordnet. Das Konzept der Zufallsvariablen ist deshalb so wichtig, weil Zufallsexperimente dadurch in einheitlicher Form beschrieben und behandelt werden können. Zufallsexperimente waren bisher eindeutig durch einen passend zugehörigen Wahrscheinlichkeitsraum beschrieben, der wiederum durch das folgende Tripel definiert ist: (Ω, A, P ). (2.23) Durch das Konzept der Zufallsvariablen wird zunächst auf mathematisch natürliche Weise das Zufallsexperiment durch einen neuen Wahrscheinlichkeitsraum beschrieben. (ΩX = R, B, PX ). (2.24) Mit Einführung der Zufallsvariablen X vereinfacht sich der Wahrscheinlichkeitsraum zu (R, B, PX ). Da die Menge der reellen Zahlen R sowie die Borel’sche Menge nicht weiter definiert werden müssen, sondern als bekannt vorausgesetzt werden können, ist ein Zufallsexperiment somit allein schon durch das neue Wahrscheinlichkeitsmaß PX beschrieben. Durch das Zufallsexperiment werden jetzt zufällige Ereignisse beschrieben, die einheitlich durch reellwertige Zahlen repräsentiert sind. Durch dieses Konzept der Zufallsvariablen wird die Möglichkeit einer einheitlichen Beschreibung der Zufallsexperimente geschaffen. Die wichtigsten Eigenschaften des Zufallsexperiments sind durch die Verteilungsfunktion (2.7) einer Zufallsvariablen beschrieben, durch die die Wahrscheinlichkeit 76 2.7. ZUSAMMENFASSUNG: ZUFALLSVARIABLEN angegeben wird, mit der die Zufallsvariable reelle Werte annimmt, die kleiner sind als ein beliebig aber fest vorgegebener Wert x: FX (x) = PX ([X(ω) ≤ x]) mit {ω|X(ω) ≤ x} ∈ A. (2.25) Alternativ kann das Verhalten der Zufallsvariablen X durch die Wahrscheinlichkeitsdichte fX (x) angegeben werden. Für kontinuierliche Zufallsvariable ist die Wahrscheinlichkeitsdichtefunktion fX (x) die Ableitung der Verteilungsfunktion: ′ fX (x) = FX (x). (2.26) Daher kann umgekehrt die Verteilungsfunktion auch als Integral der Wahrscheinlichkeitsdichtefunktion berechnet werden: FX (x) = Zx −∞ 77 fX (ξ) dξ. (2.27) KAPITEL 2. ZUFALLSVARIABLE, STATISTISCHE UNABHÄNGIGKEIT 78 Kapitel 3 Beschreibung und Analyse von Zufallsvariablen Im vorangegangenen Kapitel wurde das wichtige Konzept der Zufallsvariablen eingeführt, mit dem die einheitliche Beschreibung und Analyse von Zufallsexperimenten ermöglicht wurde. Ein sehr wichtiges erstes Ergebnis dieser Analyse ist in der einheitlichen Beschreibung der Zufallsvariablen durch die jeweils zugehörige Verteilungsfunktion bzw. alternativ durch die Wahrscheinlichkeitsdichtefunktion zu sehen. Durch Angabe der Verteilungsfunktion liegt die vollständige Kenntnis des Zufallsexperiments und deren Zufallsvariable X vor. In diesem Kapitel sollen weitere alternative Möglichen bzw. mathematische Konzepte zur vollständigen oder auch teilweisen Beschreibung des Zufallsexperiments und deren Zufallsvariablen diskutiert und vergleichend dargestellt werden. 3.1 Verteilungsfunktion und Wahrscheinlichkeitsdichtefunktion Zur Wiederholung sind in dem folgenden Diagramm (Tabelle 3.1) die beiden wichtigen Funktionen zur vollständigen Beschreibung einer Zufallsvariablen X, die jeweilige Verteilungs- und Wahrscheinlichkeitsdichtefunktion, für die beiden zu unterscheidenden Fälle einer kontinuierlichen und diskreten Zufallsvariablen dargestellt. Diese beiden Beschreibungsmöglichkeiten charakterisieren eine Zufallsvariable jeweils vollständig. Sie sind äquivalent und können jeweils durch Integration oder Ableitung mathematisch ineinander umgerechnet werden. 79 KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN Verteilungsfunktion Wahrscheinlichkeitsdichtefunktion 10 0.4 9 0.35 8 0.3 kontinu- 7 X X f 5 F ierlich 0.25 6 4 0.2 0.15 3 0.1 (Normal- 2 0.05 1 0 −4 verteilung) −3 −2 −1 0 1 2 3 0 −4 4 −3 −2 −1 x 0 1 2 3 4 x 0.16 1 0.14 0.9 0.12 0.8 diskret 0.7 0.1 FX (Binomial- fX 0.6 0.5 0.06 0.4 0.3 verteilung) 0.08 0.04 0.2 0.02 0.1 0 0 5 10 15 20 25 0 0 5 10 15 20 25 30 x x Tabelle 3.1: Beschreibung durch Verteilungsfunktion/Wahrscheinlichkeitsdichtefunktion Die Verteilungsfunktion eignet sich per Definition insbesondere dann zur charakteristischen Beschreibung einer Zufallsvariablen, wenn die Wahrscheinlichkeit bestimmt, bzw. aus einem Diagramm abgelesen werden soll, mit der die jeweils betrachtete Zufallsvariable X Werte annimmt, die kleiner sind als ein vorgegebener Parameter x. Dagegen ist die Wahrscheinlichkeitsdichtefunktion (WDF) einer Zufallsvariablen X bzw. deren graphische Darstellung gut für vergleichende Darstellung unterschiedlicher Zufallsvariablen geeignet. Außerdem bietet die WDF einen anschaulichen Überblick über die von der Zufallsvariablen X angenommenen reellen Werte. Die Verteilungsfunktionen unterschiedlicher Zufallsvariablen sehen dagegen von der graphischen Darstellung her betrachtet meist sehr ähnlich aus. Beide Funktionen beinhalten aber die vollständige Kenntnis über das Zufallsexperiment. Im Folgenden wird jeweils zwischen diskreten und kontinuierlichen Zufallsvariablen (siehe Tabelle 3.1) unterschieden. Beispiele für kontinuierliche Zufallsvariable X • Die Standard-Normalverteilung N (0, 1) nimmt Werte auf der gesamten reellen Achse an. Es ist eine mittelwertfreie Zufallsvariable mit normierter Varianz. Die Wahrscheinlichkeitsdichtefunktion ist in der folgenden Gleichung angegeben: 2 1 fX (x) = √ e−x /2 2π für alle x∈R (3.1) Diese Wahrscheinlichkeitsdichtefunktion wird sich im Verlauf dieser Vorlesung, z.B. bei Behandlung der Grenzwertsätze, als eine der wichtigsten WDF herauskristalli80 3.1. VERTEILUNGSFUNKTION UND WAHRSCHEINLICHKEITSDICHTEFUNKTION sieren. Darüber hinaus hat diese WDF eine zentrale Bedeutung für Anwendungen in Naturwissenschaft und Technik. Für die zugehörige Verteilungsfunktion existiert leider keine mathematisch geschlossene Lösung, sondern lediglich die Darstellung als Integral über der WDF. Aus diesem Grund sind die Werte der Verteilungsfunktion häufig in tabellierter Form (vgl. Anhang B.1) für praktische Anwendungen angegeben. • Allgemeine Normalverteilung N (µ, σ 2 ): (x−µ)2 1 fX (x) = √ e− 2σ2 2πσ für alle x∈R (3.2) Der Parameter µ wird später als der Erwartungswert (die mittlere Lage der Verteilungsfunktion) und σ 2 als die Varianz (dahinter steht anschaulich die Breite der Wahrscheinlichkeitsdichte) der Zufallsvariablen X bezeichnet. Wahrscheinlichkeitsdichtefunktion der Standard-Normalverteilung Standard−Normalverteilung 0.5 0.45 0.4 X f (x) 0.35 0.3 0.25 σ 0.2 0.15 0.1 0.05 0 −4 −3 −2 −1 0 1 2 3 4 x 1 1 1 fX (µ + σ) = √ e− 2 fX (µ) = √ 2πσ 2 2πσ 2 fX (µ + σ) 1 = e− 2 ≈ 60, 7% fX (µ) Die Funktionswerte der WDF einer Normalverteilung an der Stelle µ und µ + σ stehen in einem festen Verhältnis von 0.607 zueinander. Die Wahrscheinlichkeit, mit der die normalverteilte Zufallsvariable X Werte im Intervall [µ − σ, µ + σ] annimmt, berechnet sich wie folgt zu 68,26%: 81 KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN PX (µ − σ ≤ X < µ + σ) = Φ(1) − Φ(−1) = Φ(1) − [1 − Φ(1)] = 2Φ(1) − 1 ≈ 0.6826 Die Funktion Φ(x) steht hier für das Integral über die WDF der Normalverteilung. Anwendung des Integralgrenzwertsatzes An dieser Stelle tritt eine numerische Besonderheit auf, weil das Integral über die Wahrscheinlichkeitsdichtefunktion der Normalverteilung nicht geschlossen lösbar ist. Aus diesem Grund benutzt man alternativ zur Integralberechnung die in vielen Büchern tabellierten Werte des sogenannten G AUSSschen G AUSS’sches Fehlerintegrals Φ(·), die in diesem Fall aus einer Standard-Normalverteilung Fehlerintegral berechnet werden: Φ(·) Φ(x) = Zx −∞ ξ2 1 √ e− 2 dξ 2π x≥0 Eine entsprechende Tabelle findet sich auch in Anhang B.1. Bei einer Gauß´schen bzw. Normalverteilung liegen die von der zugehörigen Zufallsvariablen angenommenen Werte bereits mit 68% innerhalb eines engen Bereiches um den Erwartungswert. In lediglich 32% aller Fälle nimmt die Zufallsvariable X größere oder kleinere Werte außerhalb des Intervalls [µ − σ, µ + σ] an. Grundsätzlich nimmt die normalverteilte Zufallsvariable X Werte auf der gesamten reellen Achse an, allerdings mit sehr unterschiedlicher Wahrscheinlichkeit. 3.2 p-Fraktile Ausgehend von der Beobachtung, dass bei der Normalverteilung bereits 68% der Wahrscheinlichkeitsmasse innerhalb eines eng umgrenzten Intervalls liegt, wird in diesem Abschnitt eine wesentlich allgemeinere Frage gestellt. Man möchte wissen, bis zu welchem 82 3.2. P -FRAKTILE Punkt xp bereits p% der Wahrscheinlichkeitsmasse durch die Zufallsvariable X angenommen wurden. Diese wichtige Frage kann mit Hilfe der Verteilungsfunktion relativ einfach beantwortet werden. Definition 3.1 (p-Fraktil) Sei FX (x) die Verteilungsfunktion einer Zufallsvariablen X, so p-Fraktile heißt für einen beliebig vorgegebenen Wert p ∈ [0, 1], der auf der reellen Achse angeord- q-Quantile nete Parameter xp , für den gilt FX (xp ) = p (3.3) ein p-Fraktil der Zufallsvariablen X. Die p-Fraktile werden in der Literatur häufig auch ❍ als q-Quantile bezeichnet. Diese p-Fraktile xp sind im Allgemeinen für ganz bestimmte Werte von p von Interesse. Man möchte wissen, bis zu welchem Punkt xp beispielsweise bereits p =25%, 50%, 75%, 90% oder 99% Wahrscheinlichkeitsmasse in der Verteilungsfunktion durch die Zufallsvariable X angenommen wird. Das p = 50%-Fraktil wird auch als Median bezeichnet. (Anwendung: Median-Filter, Median der Studienzeiten, etc.) Die p-Fraktile der meisten Verteilungsfunktionen liegen in tabellierter Form in der Literatur vor (→ Bronstein). Die p-Fraktile können auch in einer graphischen Darstellung durch die Umkehrung der Verteilungsfunktion einer Zufallsvariablen X analytisch angegeben werden, wie in Abbildung 3.1 für das Beispiel einer Normalverteilung mit µ = 0 illustriert. xq 5 0 −5 0 0.2 0.4 0.6 0.8 1 q Abbildung 3.1: Graphische Darstellung der q-Quantile durch Umkehrung der Verteilungsfunktion Durch Angabe einiger p-Fraktile der Zufallsvariablen X können bereits charakteristische Eigenschaften über das zufällige Verhalten der Zufallsvariablen X abgelesen werden. Allerdings liegt in diesem Fall nicht mehr die vollständige Kenntnis über das gesamte Zufallsexperiment vor. 83 KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN 3.3 Erwartungswert 3.3.1 Erwartungswert einer Zufallsvariablen Die Verteilungsfunktion einer Zufallsvariablen beschreibt das Zufallsexperiment vollständig. Durch die p-Fraktile wurden einige charakteristische Eigenschaften aber nicht mehr die volle Kenntnis einer Zufallsvariablen X beschrieben. In diesem Abschnitt beschreiben wir weitere charakteristische Größen einer Zufallsvariablen, mit denen ein schneller Überblick über das zufällige Verhalten der Zufallsvariablen gewonnen werden soll. Mit der Angabe eines einzigen Wertes oder mit zwei Werten soll das charakteristische Verhalten der Zufallsvariablen bereits grob beschrieben werden. Es ist völlig klar, dass in der Angabe dieser Werte nicht mehr die vollständige Kenntnis des Zufallsexperiments steckt. Einer dieser wichtigen charakteristischen Größen ist der Erwartungswert. In praktischen Anwendungen wird häufig die Frage nach der „mittleren Lebensdauer“ oder nach dem „durchschnittlichen Gewinn“ gestellt. Bereits Bernoulli gab als „durchschnittlichen Gewinn“ G eines Spiels an, wenn ein Gewinn der Höhe gi mit der Wahrscheinlichkeit pi auftritt. G= X i g i · pi . Hinter diesen eher anschaulich geprägten Begriffen (mittlere, durchschnittliche) steht mathematisch exakt argumentiert der Begriff des Erwartungswertes. 3.3.2 Erwartungswert für diskrete Zufallsvariable Definition 3.2 (Erwartungswert für diskrete Zufallsvariable) Nimmt die Zufallsvariable X im Ereignisraum ΩX ausschließlich diskrete Werte xi mit i = 1, . . . , N an und ist pi = PX (X = xi ) die zugehörige Wahrscheinlichkeitsdichte, dann ist der ErwartungsErwartungswert wert E{X} dieser Zufallsvariablen X wie folgt definiert: E{X} E{X} := N X i=1 xi · pi . (3.4) ❍ Der Erwartungswert beschreibt eine Größe, die bei dem Zufallsexperiment im Mittel angenommen wird. Der Erwartungswert selbst muss bei einer diskreten Zufallsvariablen allerdings kein Element des Ereignisraumes ΩX sein. 84 3.3. ERWARTUNGSWERT 3.3.3 Erwartungswert für kontinuierliche Zufallsvariable Definition 3.3 (Erwartungswert für kontinuierliche Zufallsvariable) Sei X eine kontinuierliche Zufallsvariable mit der Wahrscheinlichkeitsdichte fX (x), so bezeichnet E(X) mit E{X} := Z∞ −∞ ξ · fX (ξ)dξ den Erwartungswert der Zufallsvariablen X. (3.5) ❍ Dabei ist noch eine kleine mathematische Bedingung zu berücksichtigen. Diese Definition des Erwartungswertes gilt nur dann, falls das Integral Z∞ −∞ |ξ|fX (ξ)dξ (3.6) im Riemannschen Sinne existiert. Beispiele für Erwartungswerte • Alternativverteilung: Die Zufallsvariable X nimmt in diesem Fall lediglich die Werte 0 mit einer Wahrscheinlichkeit von p(0) = 1 − p und 1 mit einer Wahrscheinlichkeit von p(1) = p an. Der Erwartungswert dieser Zufallsvariablen X ist dann: E{X} = 1 X x=0 x · p(x) = 0 · (1 − p) + 1 · p = p • Binomialverteilung: Das obige binäre Experiment wird n-fach wiederholt und die zufällig geworfenen Werte 0 und 1 in einem Vektor der Länge n angeordnet. Die Frage, mit welcher Wahrscheinlichkeit Pk genau k 1en zufällig in diesem Vektor der Länge n geworfen werden, wurde bereits durch die Binomialverteilung beantwortet. n k Pk = p · (1 − p)(n−k) k Daraus berechnet sich der Erwartungswert dieser binomialverteilten Zufallsvariablen wie folgt: E{X} = n X k=0 k · Pk = n X n k k p · (1 − p)(n−k) = n · p k k=0 Dieses Ergebnis der Erwartungswertberechnung kann alternativ auch durch eine n-fach wiederholte Versuchsanordnung der Alternativverteilung gedeutet werden. Durch Summation der Zufallsvariablen (Anzahl der 1en im Vektor der Länge n) wächst der Erwartungswert um den Faktor n. 85 KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN • Normalverteilung: Der Erwartungswert einer normalverteilten Zufallsvariablen wird mit Hilfe einer Variablentransformation berechnet: Mit t := (s − µ)/σ eingesetzt in das ursprüngliche Integral erhält man E{X} = = 1 √ 2πσ 1 √ 2π Z∞ −∞ Z∞ −∞ (s − µ)2 ds s exp − 2σ 2 2 t (tσ + µ) exp − dt = µ, 2 Die Funktion t exp(−t2 /2) ist eine über der reellen Achse ungerade Funktion, dementsprechend verschwindet der Integralwert. Ferner kann der Wert des verbleibenden Integrals im Bronstein nachgelesen werden. Damit gilt: Z∞ 2 t exp(−t /2)dt = 0 und −∞ Z∞ exp(−t2 /2)dt = √ 2π −∞ Der Erwartungswert einer normalverteilten Zufallsvariablen ist also: E{X} = µ. Diese Eigenschaft wurde bereits bei der Definition und Beschreibung der Normalverteilung und der Bedeutung des Parameters µ erwähnt. 3.3.4 Rechenregeln für Erwartungswerte Der Erwartungswert einer Zufallsvariablen gibt bereits einen ersten wichtigen Hinweis, in welchem Bereich auf der reellen Achse die Zufallsvariable X zufällige Werte ungefähr annehmen wird. Die Erwartungswertberechnung kann auch auf gewichtete und additiv überlagerte (komponierte) Zufallsvariable angewandt werden. Deshalb sind allgemeine Rechenregeln zur Berechnung des Erwartungswertes von großem Interesse. Seien X, Y zwei Zufallsvariable und a, b zwei konstante reelle Faktoren, dann gilt für die Erwartungswertberechnung dieser zusammengesetzten Zufallsvariablen: E{a} = a (3.7) E{aX + b} = aE{X} + b (3.8) E{aX + bY } = aE{X} + bE{Y } (3.9) Der Erwartungswert ist also ein linearer Operator, d.h. der Erwartungswert angewandt auf eine Summe von Zufallsvariablen ist gleich der Summe der einzelnen Erwartungswerte. Für statistisch unabhängige Zufallsvariable X, Y (siehe Kapitel 3.6) gilt außerdem eine sehr wichtige Beziehung, die hier bereits vorab genannt werden soll: E{X · Y } = E{X} · E{Y } 86 (3.10) 3.3. ERWARTUNGSWERT 3.3.5 Erwartungswerte für Funktionen von Zufallsvariablen Die Regeln zur Berechnung der Erwartungswerte können zusätzlich sehr nützlich erweitert werden, wenn nicht nur Linearkombinationen, sondern beliebige Funktionen auf die betrachteten Zufallsvariablen angewandt werden. Dazu betrachten wir eine Zufallsvariable X, auf die eine beliebige Funktion Ψ(X) angewandt wird. Ferner gehen wir davon aus, dass es sich bei Ψ(·) um eine messbare Funktion handelt. Dann ist Ψ(X) wiederum eine Zufallsvariable. Der Erwartungswert von Ψ(X) wird dann folgendermaßen berechnet: • Ist X eine diskrete Zufallsvariable mit der Wahrscheinlichkeitsdichte fX (x) für x ∈ ΩX , so ist der Erwartungswert E{Ψ(X)} := N X i=1 Ψ(xi ) · pi = N X i=1 P [X = xi ] · Ψ(xi ). (3.11) • Ist X dagegen eine kontinuierliche Zufallsvariable mit der Wahrscheinlichkeitsdichte fX (x) für x ∈ ΩX , so ist der Erwartungswert E{Ψ(X)} := Z∞ −∞ Ψ(ξ) · fX (ξ) dξ. (3.12) Beispiel 3.1 (Quadrieren einer Zufallsvariablen) Die Zufallsvariable X sei gleichverteilt im Interval [0, 3]. Sie hat somit die Wahrscheinlichkeitsdichte fX (x) = 1 3 0 0≤x≤3 sonst Die Zufallsvariable X hat den Erwartungswert E{X} = 1.5. Auf diese gleichverteilte Zufallsvariable X wird die folgende Funktion angewandt: Ψ(x) = 1 2 ·x 2 Der Erwartungswert von Ψ(X) errechnet sich somit als E{Ψ(X)} = Z∞ −∞ Ψ(x) · fX (x) dx = 3 3 1 1 1 3 = = · · x 3 2 3 x=0 2 87 Z3 0 1 2 1 x · dx 2 3 △ KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN In diesem Spezialfall bleibt der Erwartungswert der ursprünglichen Zufallsvariablen X und der Funktion Ψ(X) gleich. 3.4 Momente Der Erwartungswert charakterisiert den Wertebereich einer Zufallsvariablen X bereits in geeigneter aber doch noch sehr oberflächlicher Weise. Es ist ein einzelner zur Charakterisierung einer Zufallsvariablen zwar geeigneter Wert, der allerdings nur eine sehr geringe Kenntnis über das gesamte Zufallsexperiment enthält. Die Details dieser Zufallsvariablen werden durch den Erwartungswert nicht erfaßt. Deshalb ist es wichtig, dass weitere Größen zur Charakterisierung einer Zufallsvariablen X definiert und berechnet werden. Neben dem Erwartungswert lassen sich noch weitere Parameter einer Zufallsvariablen bestimmen, die zusammengefasst als Momente bezeichnet werden. Wie man später noch sehen wird, kann man eine Zufallsvariable X ganz ohne Kenntnis der Verteilungsfunktion FX (x) alternativ auch allein durch ihre Momente beschreiben. Dies wird mathematisch über die charakteristische Funktion einer Zufallsvariablen erreicht und ist für praktische Anwendungen nicht sonderlich gut geeignet. 3.4.1 Definition der Momente Momente Ist X eine eindimensionale Zufallsvariable, so heißt im Falle der Existenz der betreffenden Summen bzw. Integrale mn = E{X n } das n-te Moment der Zufallsvariablen X n zn = E {(X − E{X}) } das n-te zentrale Moment von X Die Momente dienen zur Beschreibung des Streuverhaltens und der Details im zufälligen Verhalten einer Zufallsvariablen. 3.4.2 Varianz Aus der Sicht der Momente einer Zufallsvariablen X ist der Erwartungswert das erste MoVarianz 2 σ = V ar{X} ment. Neben dem Erwartungswert ist die Varianz das wichtigste Moment zur Beschreibung und Charakterisierung einer Zufallsvariablen X. Die Varianz ist das zweite zentrale Moment z2 einer Zufallsvariablen: V ar{X} = E{(X − E{X})2 } = z2 = σ 2 Standardabweichung σ (3.13) Die aus der Varianz abgeleitete Größe σ := p V ar{X} 88 (3.14) 3.4. MOMENTE wird als Standardabweichung der Zufallsvariablen X bezeichnet. Dieser Parameter beschreibt anschaulich die Breite der Wahrscheinlichkeitsdichtefunktion bzw. das Streuverhalten der Zufallsvariablen. Per Definition ist die Varianz das zweite zentrale Moment. Bei der praktischen Berechnung der Varianz wird häufig vom Verschiebungssatz Gebrauch gemacht, nach dem die Varianz alternativ aus dem zweiten (nicht zentralen) Moment und dem Quadrat des Erwartungswertes EX mit der folgenden mathematischen Herleitung berechnet werden kann: V ar{X} = E{X 2 − 2XE{X} + E{X}2 } = E{X 2 } − 2E{X}2 + E{X}2 = E{X 2 } − E{X}2 Bei der Varianz handelt es sich, im Gegensatz zum Erwartungswert, um keinen linearen Operator. Es gilt für die Zufallsvariable X und die Konstanten a, b aber die folgende Beziehung: V ar{aX + b} = a2 V ar{X} (3.15) Satz von B IENAYMÉ Einer der wichtigsten mathematischen Sätze greift die Frage auf, wie sich die Varianz für eine Summe von Zufallsvariablen (Linearkombination) berechnet. Unter der Annahme statistisch unabhängiger Zufallsvariablen kommt Bienaymé auf eine einfache Lösung. Jules Bienaymé wurde am 28. August 1796 in Paris geboren und starb dort am 19. Oktober 1878. Obwohl die Varianz laut Gleichung (3.15) kein linearer Operator ist, lässt sich die Varianz in dem Sonderfall einer Summe statistisch unabhängiger Zufallsvariablen als Summe der Einzelvarianzen berechnen: V ar{X1 + X2 + · · · + XN } = N X i=1 V ar{Xi } (3.16) Diese Eigenschaft kann in vielen wahrscheinlichkeitstheoretischen Analysen sehr hilfreich eingesetzt werden und unterstreicht damit die hohe Bedeutung dieses Satzes von Bienaymé. Beispiel 3.2 (Quantisierer) Die Abtastung zeitkontinuierlicher Signale und die Quantisierung wertkontinuierlicher Signale findet praktisch in jedem A/D-Wandler statt. Der Vorgang der Quantisierung kann durch die Addition einer gleichverteilten Zufallsvariablen modelliert werden. Bei der Quantisierung wird zu der wahren wertkontinuierlichen Größe x ein Quantisierungsfehler in Form einer Zufallsvariablen e addiert, um dadurch eine wertdiskrete Größe xQ zu erhalten (Abbildung 3.2). 89 KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN xmax x xQ xQ Q 2Q Q xQ=x+e x x -Q -2 Q e Abbildung 3.2: Quantisierer Die Breite eines Quantisierungsfaches sei Q. Dann kann die Wahrscheinlichkeitsdichte i h Q des resultierenden Fehlers e durch eine im Intervall − Q 2 , 2 gleichverteilte Zufallsvariable E angegeben werden (Abbildung 3.3): fE (e) = 1 rect Q e Q fE (e) 1/Q −Q/2 Q/2 e Abbildung 3.3: Rechteckförmige Verteilungsdichte des Rauschens Q ist die Breite einer Quantisierungsstufe und ergibt sich aus der maximalen Aussteuerung ±xmax und der Anzahl der mit w Bit darstellbaren Stufen. Q= 2xmax 2w Mit dieser Annahme ist der Erwartungswert des Fehlers E gleich Null, d.h., im Mittel wird durch die Quantisierung das Signal nicht verfälscht. An dieser Stelle ist aber für praktische Anwendungen der durch die Quantisierung resultierende quadratische Fehler von Interesse, der im statistischen Sinn direkt durch die Varianz des Quantisierungsrauschens quantitativ ausgedrückt werden kann. Dabei wird die Gleichverteilung des resultierenden Fehlers im h i Q Intervall − Q 2 , 2 berücksichtigt. Mit diesen Voraussetzungen und mit diesen Annahmen 2 berechnet sich die Varianz σE des Quantisierungsfehlers wie folgt: 2 σE 2 = E{e } = Z∞ −∞ 2 ξ · fE (ξ)dξ = Q/2 Z −Q/2 90 ξ2 · Q/2 Q2 1 1 1 = dξ = ξ 3 · Q 3 Q ξ=−Q/2 12 3.5. ZUFALLSVEKTOREN Mit dieser Berechnung und diesem wichtigen Ergebnis ist gleichzeitig die Varianz für jede gleichverteilte Zufallsvariable mit einer Fachbreite von Q angegeben. Für viele nachrichtentechnische Anwendungen wird der Quantisierungsfehler als ein Rauschsignal aufgefasst und aus dem Quantisierungsrauschen der Signal-zu-Rauschabstand in logarithmischem Maßstab angegeben: SN R = 10 log10 2 σX 2 σE in [dB] Wenn mit den wertkontinuierlichen Größen x beispielsweise ein Sinussignal x = sin(ωt) und xmax = 1 beschrieben wird, dann erhält man mit der obigen Analyse folgenden Signal-zu-Rauschabstand: SN R = = = = = 1/2 10 log10 Q2 /12 6 10 log10 Q2 6 10 log10 (2/2w )2 6 · 2−2 10 log10 2−2w 6.02 · w + 1.76dB △ Praktisch besagt diese Analyse, dass mit jedem zusätzlich bei der Quantisierung eingesetzten Bit das SNR um 6dB vergrößert werden kann. Die durch den Quantisierungsvorgang verursachten Fehler verringern sich also mit jedem weiteren im A/D-Wandler eingesetzten Bit. 3.4.3 Schiefe einer Verteilung Das 3. Moment, E{x3 }, beschreibt die Schiefe (skewness) einer Verteilung. Die Schiefe gibt den Grad der Asymmetrie einer Verteilung an. Eine Verteilung die nach links geneigt ist, hat eine positive Schiefe, entsprechend hat eine nach rechts geneigte Verteilung eine negative Schiefe. Normalverteilte Zufallsvariablen beispielsweise haben eine Schiefe von 0, da die Verteilung symmetrisch um den Erwartungswert ist. 3.5 Zufallsvektoren In vielen praktischen Anwendungsfällen werden Zufallsexperimente beobachtet, in denen nicht nur wie bisher betrachtet eine einzelne Zufallsvariable, sondern gleichzeitig mehrere 91 KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN Zufallsvariable auftreten. In dieser Situation werden die einzelnen Zufallsvariablen dann mathematisch formal und sinnvollerweise in einen Vektor zusammengefasst. Zufallsvektor Definition 3.4 (Zufallsvektor) Betrachtet man mehrere Zufallsvariable X1 , . . . , Xn auf X dem selben Ereignissraum Ω, so definiert die Abbildung X : Ω 7→ Rn (3.17) ❍ einen Zufallsvektor X. 3.5.1 Verteilungsfunktion von Zufallsvektoren • Für das gemeinsame Wahrscheinlichkeitsmaß, bzw. das Verbund- Wahrscheinlichkeitsmaß PX dieses Zufallsvektors wird die gemeinsame Verteilungsfunktion bzw. Verbund-Verteilungsfunktion wie folgt hergeleitet: n \ FX (t) : Rn 7→ [0, 1], FX (t) := PX [Xj ≤ tj ] (3.18) j=1 Für einen Zufallsvektor, in dem lediglich zwei Zufallsvariable X1 und X2 auftreten, ist die bei der Definition der gemeinsamen bzw. Verbund-Verteilungsfunktion betrachtete Situation in Bild 3.4 dargestellt, in dem die schraffierte Fläche als ein Element der zweidimensionalen Borel-Menge aufgefasst wird. Diese dort dargestellte zweidimensionale Situation kann abstrakt auf mehrere Dimensionen leicht erweitert werden. X2 t 111111111111 000000000000 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 t 000000000000 111111111111 000000000000 111111111111 [X ≤ t ] ∩ [X ≤ t ] 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 2 1 1 2 1 X1 2 Abbildung 3.4: • Die Eigenschaften der gemeinsamen bzw. Verbund-Verteilungsfunktion sind selbstverständlich direkt vergleichbar mit der Verteilungsfunktion einer einzelnen eindimensionalen Zufallsvariablen X: 92 3.5. ZUFALLSVEKTOREN ∀ t ∈ Rn 1. 0 ≤ FX (t) ≤ 1 2. FX (t) ≤ FX (s), falls tj ≤ sj , j = 1, . . . , n 3. FX ist rechtsseitig stetig, d.h. limtj →t̂j +0 FX (t) = FX t̂ • Für einen Zufallsvektor mit kontinuierlichen Werten kann die VerbundVerteilungsfunktion direkt aus der gemeinsamen bzw. Verbund- Wahrscheinlichkeitsdichte fX (s) per Mehrfachintegral berechnet werden: FX (t) = Zt1 −∞ ... Ztn fX (s1 , s2 , . . . , sn ) dsn . . . ds1 (3.19) −∞ Die Wahrscheinlichkeit, mit der ein Zufallsvektor Werte innerhalb einer ndimensionalen Borel-Menge annimmt, berechnet sich aus dem gemeinsamen bzw. Verbund-Wahrscheinlichkeitsmaß PX wie folgt: Z PX (B) = PX ([X ∈ B]) = fX (s) ds1 . . . dsn . (3.20) B • Für einen diskreten Zufallsvektor X erhält man entsprechend X PX (B) = PX ([X ∈ B]) = fX (t). (3.21) t∈B 3.5.2 Randverteilungen Bei der Analyse eines Zufallsvektors interessiert man sich häufig auch für das zufällige Verhalten einer einzelnen Zufallsvariablen, die wiederum durch die Verteilungsfunktion mathematisch beschrieben wird. Im Falle des Zufallsvektors sprechen wir von einer Randverteilung, sozusagen als Projektion eines mehrdimensionalen Raumes auf eine einzige Dimension. Formal wird die Randverteilung durch Integration über die VerbundWahrscheinlichkeitsdichte berechnet. Die Randverteilung für die Zufallsvariable Xi , bzw. die zugehörige Verteilungsfunktion FXi (ti ) wird mit diesen Erläuterungen nach der folgenden Gleichung berechnet: FXi (ti ) = Zti Z∞ −∞ −∞ ... Z∞ fX (s1 , s2 , . . . , sn ) dsn . . . dsi+1 dsi−1 . . . ds1 dsi (3.22) −∞ Die Rand-Wahrscheinlichkeitsdichte der Zufallsvariablen Xi (i-te Komponente eines Zufallsvektors) wird für kontinuierliche und diskrete Zufallsvariablen Xi wie folgt berechnet: Kontinuierliche Zufallsvektoren: Z∞ Z∞ fXi (si ) = ... fX (s1 , . . . , si−1 , si , si+1 , . . . , sn ) ds1 , . . . dsi−1 , dsi+1 , . . . , dsn −∞ −∞ (3.23) 93 KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN Die Rand-Wahrscheinlichkeitsdichte ist gleichzeitig die Ableitung der Randverteilung. Diskrete Zufallsvektoren: fXi (ti ) = ∞ X t1 =−∞ ··· ∞ X ∞ X ··· ti−1 =−∞ ti+1 =−∞ ∞ X fX (t1 , . . . , ti−1 , ti , ti+1 , . . . , tn ) tn =−∞ (3.24) 3.6 Unabhängigkeit von Zufallsvariablen In diesem Skript wurde bereits die Unabhängigkeit zufälliger Ereignisse im Kapitel 2 ausführlich diskutiert und praktisch ausgewertet. Dieses Konzept der Unabhängigkeit von Ereignissen wird nun auf die Unabhängigkeit von Zufallsvariablen übertragen. Zufallsvariable beschreiben Zufallsexperimente und es soll mathematisch beschrieben werden, wann solche Zufallsexperimente im statistischen Sinn als unabhängig angesehen und betrachtet werden können. unabhängige Zufallsvariablen Die zunächst beliebigen Zufallsvariablen X1 , . . . , Xn heißen unabhängig, wenn für alle Borelschen Mengen Bj ⊂ R, j = 1, . . . , n, und das zugehörige gemeinsame bzw. Verbund-Wahrscheinlichkeitsmaß PX gilt: PX ([Xj ∈ Bj , j = 1, . . . , n]) = n Y j=1 PXj ([Xj ∈ Bj ]). (3.25) Im Falle der unabhängigen Zufallsvariablen kann das gemeinsame Wahrscheinlichkeitsmaß PX direkt aus dem Produkt der einzelnen Wahrscheinlichkeitsmaße für die Zufallsvariablen Xj berechnet werden. Bei zwei Zufallsvariablen X1 und X2 stellt sich der Sachverhalt der Unabhängigkeit mathematisch etwas einfacher wie folgt dar: PX ([X1 ∈ B1 ], [X2 ∈ B2 ]) = PX1 ([X1 ∈ B1 ]) · PX2 ([X2 ∈ B2 ]). Die Unabhängigkeit von Zufallsvariablen kann alternativ auch mit Hilfe der Verbund-Verteilungsfunktion beschrieben werden. In diesem Fall wird die VerbundVerteilungsfunktion aus dem Produkt der Randverteilungen für die einzelnen Zufallsvariablen Xj berechnet. FX (t1 , . . . , tn ) = n Y j=1 FXj (tj ) ∀ t ∈ Rn (3.26) Dieses Konzept der Unabhängigkeit von Zufallsvariablen kann alternativ auch durch die Verbund-Wahrscheinlichkeitsdichte definiert werden. fX (t1 , . . . , tn ) = n Y j=1 94 fXj (tj ) ∀ t ∈ Rn (3.27) 3.6. UNABHÄNGIGKEIT VON ZUFALLSVARIABLEN Beispiel 3.3 (R AYLEIGH-Verteilung) Dieses wichtige Konzept der Unabhängigkeit von Zufallsvariablen soll an Hand eines zunächst einfachen Beispiels anschaulich erläutert werden. Dazu betrachten wir zwei unabhängige Zufallsvariable X und Y . Diese beiden Zufallsvariablen seien statistisch unabhängig und gehorchen jeweils einer Gauß´schen Wahrscheinlichkeitsdichtefunktion. fX (x) = fY (y) = x2 1 √ e− 2σ2 2πσ 2 y2 1 √ e− 2σ2 2πσ 2 Auf Grund der statistischen Unabhängigkeit wird die Verbund-Wahrscheinlichkeitsdichte direkt aus dem Produkt der einzelnen Wahrscheinlichkeitsdichtefunktionen wie folgt berechnet: fX,Y (x, y) = fX (x) · fY (y) = 1 − (x2 +y2 2 ) e 2σ 2πσ 2 Anschaulich können die beiden unabhängigen Zufallsvariablen X und Y als der Real- bzw. Imaginärteil einer komplexen Zufallsvariablen in einem kartesischen Koordinatensystem angesehen werden. Dementsprechend lassen sich aus den beiden Zufallsvariablen X und Y alternativ auch der Betrag r und die Phase φ in einem Polarkoordinatensystem eindeutig darstellen und berechnen. X = r · cos(φ) Y = r · sin(φ) mit φ ∈ [0, 2π); r≥0 und r2 = X 2 + Y 2 . Die Verbund-Wahrscheinlichkeitsdichte für den Betrag r und die Phase φ kann durch die obige Koordinatentransformation unter Berücksichtigung der Jacobi-Determinante wie folgt bestimmt werden: X f(r,φ) = J r Y · f(X,Y ) (X = r cos(φ), Y = r sin(φ)) φ mit dem Betrag der Jacobi-Determinante ∂X ∂X X Y ∂φ J = det ∂r ∂Y ∂Y r φ ∂r ∂φ cos(φ) −r sin(φ) = det sin(φ) r cos(φ) = r · (cos2 (φ) + sin2 (φ)) = r 95 KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN folgt f(r,φ) (r, φ) = r2 r e− 2σ2 . 2 2πσ 1.4 σ=0.5 σ=1 σ=2 1.2 1 fR(r) 0.8 0.6 0.4 0.2 0 0 1 2 3 4 5 6 r Abbildung 3.5: Rayleigh-Verteilung Mit diesen Vorbereitungen kann die Rand-Wahrscheinlichkeitsdichte für den Betrag r per Integration über φ wie folgt ermittelt werden: fr (r) = Z2π f(r,φ) (r, φ) dφ = r − r22 e 2σ σ2 (3.28) 0 Dies entspricht der schon aus Abschnitt 2.6.2 bekannten Rayleigh-Verteilung. In Abbildung 3.5 sind einige Wahrscheinlichkeitsdichtefunktionen für die RayleighVerteilung für einige Parameter σ grafisch dargestellt. △ 3.7 Erwartungswerte von statistisch unabhängigen Zufallsvariablen Bei der praktischen Berechnung der Erwartungswerte von Zufallsvariablen wurde bereits die Bedeutung der Linearität bei der Erwartungswertbildung angesprochen. Danach ist der Erwartungswert einer Summe unterschiedlicher Zufallsvariablen gleich der Summe der einzelnen Erwartungswerte: 96 3.8. KOVARIANZ • Linearität: E ( X i ci X i ) = X i ci E{Xi } (3.29) • Für das Produkt statistisch unabhängiger Zufallsvariablen gilt insbesondere die folgende wichtige Beziehung: ( E Y i ) Ψi (Xi ) = Y E{Ψi (Xi )} (3.30) i Danach ist der Erwartungswert eines Produktes verschiedener Zufallsvariablen gleich dem Produkt der einzelnen Erwartungswerte. 3.8 Kovarianz Das Konzept der statistischen Unabhängigkeit zwischen unterschiedlichen Zufallsvariablen steht anschaulich für Zufallsexperimente, die völlig unabhängig voneinander betrieben werden. Dieser Fall liegt in der praktischen Anwendung sehr häufig vor, z.B. beim wiederholten Werfen von Münzen oder Würfeln. Trotzdem handelt es sich beim Konzept der statistischen Unabhängigkeit um einen Sonderfall. Dieses Konzept wird deshalb ergänzt durch ein weiteres Konzept, in dem Abhängigkeiten zwischen Zufallsvariablen zunächst anschaulich vorkommen und dieser Fall mathematisch formal durch den Begriff der Kovarianz beschrieben wird. Kovarianz Zur quantitativen Beschreibung der Abhängigkeit zwischen Zufallsvariablen wird die Kovarianz definiert. Für zwei Zufallsvariable X und Y wird die Kovarianz σXY oder Cov{X, Y } im Wesentlichen durch den Erwartungswert des Produktes dieser beiden Zufallsvariablen beschrieben: σXY = Cov{X, Y } := E {[X − E{X}][Y − E{Y }]} . (3.31) Durch Multiplikation der einzelnen Faktoren und Bildung des Erwartungswertes kann die Kovarianz alternativ durch die Differenz zwischen dem Erwartungswert des Produktes und dem Produkt der Erwartungswerte mit Hilfe des Verschiebungssatzes wie folgt berechnet werden: Cov{X, Y } = E{X · Y } − E{X} · E{Y }. (3.32) Diese allgemeine Definition der Kovarianz, mit der die Abhängigkeit zwischen Zufallsvariablen formal erfasst werden kann, beinhaltet auch das Konzept der Unabhängigkeit zweier Zufallsvariablen. Falls X und Y nämlich unabhängig voneinander sind, dann ist der Erwartungswert des Produktes dieser beiden Zufallsvariablen gleich dem Produkt der Erwartungswerte, es gilt also E{X · Y } = E{X} · E{Y }. 97 σij KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN Dementsprechend folgt für die Kovarianz zweier unabhängiger Zufallsvariablen X und Y , dass die Kovarianz verschwindet: Cov{X, Y } = 0. Allerdings ist diese Aussage im Allgemeinen nicht umkehrbar, d.h., aus der Eigenschaft einer verschwindenden Kovarianz folgt nicht immer die statistische Unabhängigkeit der Zufallsvariablen. statistische Unabhängigkeit =⇒ ⇐= 6 Cov{X, Y } = 0 Das Konzept der Kovarianz kann auf mehrere Zufallsvariable, bzw. auf einen Zufallsvektor entsprechend erweitert werden. Für einen Zufallsvektor X berechnet sich die Kovarianz zwischen den einzelnen Komponenten entsprechend: σij = Cov{Xi , Xj } := E {[Xi − E{Xi }][Xj − E{Xj }]} . In dieser Definition entsteht bei der Berechnung der Kovarinz formal die Varianz σi2 der Zufallsvariablen Xi , falls die bei der Berechnung der Kovarianz erforderlichen beiden Zufallsvariablen identisch sind: σii = V ar{Xi } = σi2 . Die paarweise berechneten Kovarianzen werden im Fall eines Zufallsvektors X in der Kovarianz-Matrix σ (Varianz-)Kovarianz-Matrix zusammengefasst, die wie folgt definiert ist: σ12 σ 21 .. σ= . σ(n−1)1 σn1 σ12 ... σ1n σ22 ... .. . σ2n .. . ... .. . 2 σ(n−1) σ(n−1)n σn(n−1) σn2 Dieses Konzept der Kovarianz zur analytischen Beschreibung voneinander abhängiger Zufallsvariablen gestattet die statistische Analyse von Zufallsexperimenten, in deren Versuchsanordnung ein Gedächtnis eingebaut ist. Aufgaben und Zufallsexperimente dieser Art treten in der praktischen Anwendung sehr häufig auf. Wenn beispielsweise die Erzeugung von Texten, aufgebaut aus jeweils 26 Buchstaben, als ein Zufallsexperiment aufgefasst wird, dann werden die einzelnen Buchstaben nicht unabhängig voneinander gezogen. Vielmehr steckt eine i.A. kompliziert geartete Abhängigkeit benachbarter Buchstaben in dieser Versuchsanordnung. Mit dem Konzept der Kovarianz können aber auch solche Zufallsexperimente wahrscheinlichkeitstheoretisch erfasst und analysiert werden. Mit dem Konzept der Kovarianz soll zunächst ein erstes durchaus wichtiges Beispiel betrachtet werden. In den vorausgegangenen Kapiteln wurde das Verhalten von Zufallsvariablen grob durch Angabe des Erwartungswertes und der Varianz charakterisiert. Wenn 98 3.8. KOVARIANZ die zu analysierende Zufallsvariable selber bereits aus einer gewichteten Summe verschieP dener (durchaus voneinander abhängiger) Zufallsvariablen aufgebaut ist, ni=1 ci Xi , dann kann zwar der Erwartungswert dieser Summe relativ einfach, aufgrund der Linearität des Erwartungswertes, berechnet werden, siehe Gl. (3.29). Allerdings ist die Berechnung der Varianz dieser Summe nicht so einfach durchzuführen. Mit Hilfe des Konzeptes der Kovarianz kann die Varianz einer Summe von Zufallsvariablen wie folgt bestimmt werden: V ar ( n X i=1 ci X i ) = n X i=1 c2i V ar{Xi } + n X n X i=1 j=1 j6=i ci cj Cov{Xi , Xj } (3.33) Für n = 2 und c1 = c2 = 1 gilt speziell: V ar{X1 + X2 } = V ar{X1 } + V ar{X2 } + 2Cov{X1 , X2 } (3.34) Aus dieser Angabe kann wiederum der in Gleichung (3.16) angegebene Satz von Bienaymé hergeleitet, bewiesen und direkt abgelesen werden. Dort wurden unabhängige Zufallsvariable betrachtet, dementsprechend verschiedenen die Werte der Kovarianzen und die Varianz der Summe ist in diesem Sonderfall mit der Summe der Varianzen identisch. 3.8.1 Mehrdimensionale Normalverteilung Ein Zufallsvektor X heißt normalverteilt oder N (µ, σ)-verteilt mit den Parametern µ = (µ1 , . . . , µn )T ∈ Rn und der positiv definiten Kovarianzmatrix σ = (σij ) ∈ R(n,n) , wenn der Zufallsvektor X die folgende Verbund-Wahrscheinlichkeitsdichte 1 1 T −1 √ exp − (s − µ) σ (s − µ) fX (s) = 2 (2π)n/2 · det σ (3.35) besitzt. Wir sprechen in diesem Zusammenhang von einer positiv definiten (Kovarianz-)Matrix σ, falls für alle vom Nullvektor verschiedene Vektoren ~x 6= ~0 das folgende Produkt ~xσ~x > 0 positive Werte aufweist. Es kann leicht nachgewiesen werden, dass eine Kovarianzmatrix stets die Eigenschaft der positiven Definitheit erfüllt. Falls der Zufallsvektor X einer N (µ, σ)-Verteilung gehorcht, dann gilt für jede Komponente des Vektors, also auch für die i-te Komponente der Zufallsvariablen Xi , dass die 99 KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN Randverteilung selber wieder einer Normalverteilung mit N (µi , σii ) gehorcht. Die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen Xi ist dann: 1 1 (si − µi )2 (si − µi )2 = p . fXi (si ) = √ exp − exp − 2σii 2σi2 2πσii 2πσi2 (3.36) Beispiel 3.4 (Zweidimensionale Normalverteilung) Falls der Zufallsvektor X nur zwei Komponenten enthält, die statistisch unabhängig und identisch normalverteilt sind, mit dem Erwartungswert Null (E{X} = E{Y } = 0) und gleicher Varianz σ 2 , dann ist die Verbund-Wahrscheinlichkeitsdichte: (x2 +y2 ) y2 x2 1 1 1 e− 2σ2 · p e− 2σ2 = fX (x, y) = p e− 2σ2 2 2 2 (2π)σ (2π)σ (2π)σ Diese Verbund-Wahrscheinlichkeitsdichtefunktion ist in Abbildung 3.6 anschaulich darge△ stellt. 2−dim Normalverteilung 0.2 f X 0.15 0.1 0.05 0 3 2 3 1 2 0 1 0 −1 −1 −2 s −2 −3 −3 2 s 1 Abbildung 3.6: Zweidimensionale Normalverteilung 3.9 Korrelationskoeffizient Das Konzept der Kovarianz gestattet die Analyse von Zufallsexperimenten mit abhängigen Zufallsvariablen. Allerdings wird durch den mathematischen Begriff der Kovarianz noch keine für vergleichende Zwecke einsetzbare Güte dieser Abhängigkeit in quantitativer Form angegeben. Aus diesem Grund wird das erweiterte Konzept des Korrelationskoeffizienten eingeführt, dessen Wertebereich in dem Intervall [−1, +1] normiert ist. Diese Normierung der Kovarianz wird mit den zugehörigen Varianzen der betrachteten Zufallsvariablen vorgenommen. Der Korrelationskoeffizient ist mathematisch wie folgt definiert: 100 3.10. CHARAKTERISTISCHE FUNKTION Definition 3.5 (Korrelationskoeffizient) Der Korrelationskoeffizient zweier Zufallsva- Korrelations- riablen ist definiert durch koeffizient Cov{X, Y } p . ρX,Y := p V ar{X} V ar{Y } ρX,Y (3.37) ❍ Wären die betrachteten Zufallsvariablen bereits auf eine einheitliche Varianz normiert gewesen (V ar{X} = 1), dann wären der Wert der Kovarianz und der des Korrelationskoeffizienten identisch. Die Definition des Korrelationskoeffizienten erfüllt folgende Eigenschaften: • Für unabhängige Zufallsvariable X und Y ist ρX,Y = 0. In diesem Fall werden X und Y als unkorreliert bezeichnet. • Für linear abhängige X und Y gilt ρX,Y = ±1. • Für beliebige Zufallsvariable gilt −1 ≤ ρX,Y ≤ 1. Mit diesen Vorbereitungen und Herleitungen können bereits wichtige Aussagen gemacht werden. Wenn eine Zufallsvariable Y sich aus der Summe mehrerer gewichteter Zufallsvariablen (in einer Linearkombination) zusammensetzt, Y = n X ci X i , i=1 dann können bereits der Erwartungswert und die Varianz dieser neuen Zufallsvariablen Y ohne explizite Kenntnis der Verteilungsfunktion FY (y) berechnet werden. Damit liegt eine zunächst grobe Kenntnis des zufälligen Verhaltens dieser neuen Zufallsvariablen Y vor. Was allerdings noch nicht gelingt, ist die präzise Herleitung der Verteilungs- oder der Wahrscheinlichkeitsdichtefunktion dieser neuen Zufallsvariablen Y . Für die Berechnung der genauen Verteilungsfunktion müssen einige mathematische Vorbereitungen getroffen werden, die mit der Einführung der Charakteristischen Funktion einer Zufallsvariablen beginnen. 3.10 Charakteristische Funktion 3.10.1 Summe von Zufallsvariablen In der Praxis entsteht häufig die Aufgabe, das zufällige Verhalten eines Experiments zu analysieren, in dem sich die auftretende Zufallsvariable als Summe von unabhängigen Zufallsereignissen Z = X1 + X2 + · · · + Xn analytisch darstellen lässt. Für solche Aufgaben 101 KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN und für solche Beispiele wurden bereits erste Abschätzungen für das Zufallsverhalten der Variablen Z in Form des berechneten Erwartungswertes und der Varianz angegeben. Die Zielsetzung in diesem Kapitel liegt darin, das Zufallsverhalten der Variablen Z mathematisch genau und vollständig berechnen zu können. Das Zufallsverhalten der Variablen Z ist vollständig bekannt, wenn die Verteilungsfunktion FZ (z), oder alternativ die Wahrscheinlichkeitsdichtefunktion fZ (z) angegeben sind. Diesen hier skizzierten allgemeinen Fall behandeln wir zunächst vereinfachend anhand eines Beispiels mit lediglich zwei statistisch unabhängigen Zufallsvariablen X und Y . Ausgehend von den beiden unabhängigen Zufallsvariablen X und Y wird nach der Wahrscheinlichkeitsdichte der neuen Zufallsvariablen Z = X + Y gefragt. Weiterhin wird wiederum zunächst vereinfachend angenommen, dass die Zufallsvariablen X und Y diskrete Werte im Ereignisraum ΩX annehmen. Der Wertebereich bzw. der Ereignisraum wird jeweils mit N0 angenommen. Dieser Sachverhalt spiegelt sich in den Wahrscheinlichkeitsdichtefunktionen fX (x) bzw. fY (y). Wegen der angenommenen Unabhängigkeit der Zufallsvariablen X und Y kann zunächst das Wahrscheinlichkeitsmaß PZ für die resultierende Zufallsvariable Z analytisch berechnet werden. In der folgenden Gleichung wird das Wahrscheinlichkeitsmaß PZ für jeden Wert i ∈ N0 über das Verbund-Wahrscheinlichkeitsmaß und unter Berücksichtigung der Unabhängigkeit der beiden Zufallsvariablen X und Y wie folgt berechnet: PZ (Z = X + Y = i) = i X j=0 PX,Y (X = j, Y = i − j) = i X j=0 PX (X = j)·PY (Y = i − j). Die Wahrscheinlichkeitsdichte fZ (i) der Zufallsvariablen Z = X + Y kann also durch folgende Gleichung mathematisch geschlossen angegeben werden: fZ (i) = i X j=0 fX (j)fY (i − j) =: fX (i) ∗ fY (i). Damit ist das gesamte Verhalten der Zufallsvariablen Z im statistischen Sinn vollständig bekannt. Diese Berechnungsvorschrift ist aus der Theorie linearer zeitinvarianter Systeme als Faltung bekannt. Damit liegt eines der wichtigsten Ergebnisse der Wahrscheinlichkeitstheorie vor. Die Wahrscheinlichkeitsdichte fZ (i) einer Zufallsvariablen Z, die sich wiederum als Summe unabhängiger Zufallsvariablen X und Y darstellen lässt, kann durch eine Faltungsoperation angewandt auf die Wahrscheinlichkeitsdichten fX (i) und fY (i) mathematisch geschlossen angegeben werden. Diese erste beispielhafte Analyse kann leicht auf eine endliche Anzahl n additiv überlagerter Zufallsvariablen übertragen werden. In diesem Fall wird die Wahrscheinlichkeits102 3.10. CHARAKTERISTISCHE FUNKTION dichte fZ (x) durch eine n-fache Faltung berechnet. Z = X1 + X2 + · · · + Xn m fZ (x) = fX1 (x) ∗ fX2 (x) ∗ · · · ∗ fXn (x) Zusätzlich gilt diese erste Analyse nicht nur für diskrete, sondern auch für kontinuierliche Zufallsvariable. Die Faltung zweier Funktionen ist eine mathematisch sehr unfreundliche sowie numerisch sehr aufwendige Operation. Aus diesem Grund möchte man auch in der Wahrscheinlichkeitstheorie dieselbe Vorgehensweise wie in der Systemtheorie wählen, indem man den sogenannten Faltungssatz anwendet. Dabei wird der Zusammenhang zwischen dem Zeitund Frequenzbereich in Form der Fourier-Transformation ausgenutzt. In diesem Faltungssatz ist folgende mathematische Aussage enthalten: Jeder Funktion (und damit auch jeder Wahrscheinlichkeitsdichte) ist durch die Fourier-Transformation F{...} in eindeutiger Form ein Spektrum zugeordnet. Das Spektrum einer Funktion fZ (x), die sich durch Faltung zweier Funktionen fX (x) und fY (x) ergibt, kann dann durch das Produkt der beiden Spektren relativ einfach berechnet werden. fZ (x) = ∗ fY (x) ◦ | • ◦ | • ◦ | • F{fZ (x)} fX (x) = F{fX (x)} · F{fY (x)} Entsprechend diesem aus der Systemtheorie bekannten Faltungssatz soll auch hier in der Wahrscheinlichkeitstheorie eine entsprechende Rechenvereinfachung bei der Berechnung der Faltung eingeführt werden. Dazu wird jeder Zufallsvariablen Xi mit der Wahrscheinlichkeitsdichtefunktion fXi (x) eine charakteristische Funktion ΦXi (jω) zugeordnet, die eine mathematisch vergleichbare und ähnliche Rolle spielt, wie die FourierTransformation in der Systemtheorie. Mit der nachfolgenden Definition der charakteristischen Funktion ΦZ (jω) kann die im Zeitbereich durchzuführende Faltungsoperation zwischen mehreren Wahrscheinlichkeitsdichten fXi (x) ersatzweise rechentechnisch wesentlich einfacher im Frequenzbereich durch eine Multiplikation zwischen den zugehörigen charakteristischen Funktionen der einzelnen Zufallsvariablen Xi durchgeführt werden. Y ΦXi (jω) ΦZ (jω) = (3.38) i Falls zusätzlich die Zufallsvariablen Xi statistisch unabhängig und identisch verteilt sind und damit auch die zugehörigen charakteristischen Funktionen identisch sind, dann 103 KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN vereinfacht sich die obige Multiplikation und das obige Produkt der charakteristischen Funktionen zusätzlich in der folgenden Beziehung: n ΦZ (jω) = [ΦX (jω)] . (3.39) Die Wahrscheinlichkeitsdichte der Zufallsvariablen Z wird schließlich mit Hilfe der Rücktransformation der charakteristischen Funktion ΦZ (jω) berechnet. Dieser Umweg über die Berechnung der charakteristischen Funktion ist rechentechnisch wesentlich günstiger als die Berechnung des n-fachen Faltungsproduktes. Zusätzlich können die Momente einer Zufallsvariablen rechentechnisch sehr einfach aus der charakteristischen Funktion hergeleitet werden. 3.10.2 Definition der Charakteristischen Funktion charakteristische Definition 3.6 (Charakteristische Funktion) Gegeben sei eine Zufallsvariable X und Funktion die zugehörige Wahrscheinlichkeitsdichtefunktion fX (x). Dann ist die charakteristische ΦX Funktion ΦX wie folgt definiert: ΦX (jω) : R 7→ C (3.40) ΦX (jω) := E{ejωX } Für die beiden Spezialfälle diskreter und kontinuierlicher Zufallsvariabler kann die charakteristische Funktion wie folgt mathematisch präzisiert werden: • diskrete Zufallsvariable: ΦX (jω) = ∞ X ejωxk PX (X = xk ) (3.41) k=1 • kontinuierliche Zufallsvariable: ΦX (jω) = Z∞ ejωx fX (x) dx (3.42) −∞ ❍ 3.10.3 Eigenschaften der charakteristischen Funktion • Die charakteristische Funktion ΦX (jω) der Zufallsvariablen X ist die konjugiert komplexe Fourier-Transformierte der Wahrscheinlichkeitsdichtefunktion fX (x). Mit dem Zusatz ∗ wird die konjugiert komplexe Funktion beschrieben. ΦX (jω) = F∗ {fX (x)} 104 (3.43) 3.10. CHARAKTERISTISCHE FUNKTION • Die Wahrscheinlichkeitsdichtefunktion fX (x) ermittelt man aus ΦX (jω) durch die entsprechende Rücktransformation: 1 fX (x) = 2π Z∞ ΦX (jω)e−jωx dω. (3.44) −∞ • An der Stelle ω = 0 besitzt jede charakteristische Funktion ΦX (jω) den reellen Wert 1. Z∞ ΦX (j0) = fX (x) dx = 1. (3.45) −∞ Beispiel 3.5 (Normalverteilung) Sei X eine normalverteilte Zufallsvariable mit dem Erwartungswert µ und der Varianz σ 2 . Diese Zufallsvariable X besitzt die Wahrscheinlichkeitsdichtefunktion (x−µ)2 1 fX (x) = √ e− 2σ2 . 2πσ 2 Zu dieser normalverteilten Zufallsvariablen X soll die charakteristische Funktion nach Gleichung (3.42) berechnet werden. Dabei ist es nützlich und hilfreich, den Wert des folgenden uneigentlichen Integrals zu kennen: Z∞ e− x2 2 dx = √ 2π. −∞ Mit dieser Vorbereitung kann die charakteristische Funktion definitionsgemäß wie folgt auf die obige Wahrscheinlichkeitsdichte angewandt werden: Z∞ (x − jσ 2 ω)2 σ2 ω2 dx. exp − ΦX (jω) = √ exp jµω − 2 2σ 2 2πσ 2 1 −∞ und schließlich mit dem obigen Integralwert: σ2 ω2 ΦX (jω) = exp jµω − 2 . (3.46) Dieses wichtige Ergebnis zeigt, dass die charakteristische Funktion einer erwartungsfreien (µ = 0) Gaußschen Zufallsvariablen ebenfalls durch eine Gaußsche Glockenfunktion dargestellt werden kann (Abbildung 3.7). △ 105 KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN Gauss−Verteilung char. Funktion der Gauss−Verteilung 0.4 1 0.9 0.35 0.8 0.3 0.7 0.6 ΦX(jω) fX(x) 0.25 0.2 0.5 0.4 0.15 0.3 0.1 0.2 0.05 0 −4 0.1 −2 0 2 0 −4 4 x −2 0 ω 2 4 Abbildung 3.7: Gauss-Verteilung mit entsprechender char. Funktion Beispiel 3.6 (Cauchy-Verteilung) Die Zufallsvariable X sei Cauchy-verteilt, mit der folgenden Wahrscheinlichkeitsdichtefunktion: fX (x) = a/π . x2 + a2 Man erhält die charakteristische Funktion dieser Zufallsvariablen durch Integration über die Wahrscheinlichkeitsdichte fX (x). Häufig ist die vertraute Anwendung aus dem Bereich der Systemtheorie und der bekannten Fourier-Transformationen etwas einfacher. Es gilt: o n F e−a|t| = 2a ω 2 + a2 Mit Beachtung des Dualitätsprinzips der Fourier-Transformation erhält man somit für die charakteristische Funktion (siehe Abbildung 3.8): ΦX (jω) = e−a|ω| . (3.47) △ 3.10.4 Zusammenhang mit den Momenten einer Zufallsvariablen Es existiert ein nützlicher Zusammenhang zwischen der charakteristischen Funktion und den Momenten einer gegebenen Zufallsvariablen X. 106 3.10. CHARAKTERISTISCHE FUNKTION Cauchy−Verteilung char. Funktion der Cauchy−Verteilung 0.35 1 0.9 0.3 0.8 0.25 0.7 0.6 fX(x) ΦX(jω) 0.2 0.5 0.15 0.4 0.3 0.1 0.2 0.05 0.1 0 −4 −2 0 2 0 −4 4 −2 x 0 ω 2 4 Abbildung 3.8: Cauchy-Verteilung und ihre Charakteristische Funktion Differenziert man die charakteristische Funktion nach ω dΦX (jω) =j dω Z∞ xejωx fX (x) dx (3.48) −∞ und bestimmt den Wert der jeweiligen Ableitung an der Stelle ω = 0, so erhält man Z∞ dΦX (jω) = j xfX (x) dx = jE{X}. dω ω=0 (3.49) −∞ Für höhere Momente der Zufallsvariablen kann folgende allgemeine Berechnungsvorschrift angewandt werden: E{X n } = (−j)n dn ΦX (jω) dω n ω=0 (3.50) Sämtliche Momente einer Zufallsvariablen X können also auch mit Hilfe der charakteristischen Funktion unmittelbar bestimmt werden. Diese Berechnungsmethode bringt häufig analytische, aber zusätzlich auch rechentechnische Vorteile. Hierzu entwickelt man die charakteristische Funktion ΦX (jω) in eine Taylorreihe um den Punkt ω = 0 ∞ n X ωn d ΦX (jω) ΦX (jω) = dω n ω=0 n! n=0 (3.51) und ersetzt die Ableitungen durch die entsprechenden Erwartungswerte bzw. Momente. ΦX (jω) = ∞ X n=0 E{X n } ∞ X (jω)n (jω)n = mn . n! n! n=0 107 (3.52) KAPITEL 3. BESCHREIBUNG UND ANALYSE VON ZUFALLSVARIABLEN Diese wichtige Gleichung beschreibt den Zusammenhang zwischen der charakteristischen Funktion und der Kenntnis sämtlicher Momente dieser Zufallsvariablen X und zeigt, dass bei Kenntnis sämtlicher Momente das gesamte zufällige Verhalten der Zufallsvariablen X vollständig erkannt ist. Beispiel 3.7 (Normalverteilung) Seien X und Y zwei statistisch unabhängige normalverteilte Zufallsvariable mit N (µx , σx2 ) bzw. N (µy , σy2 ). Dann gilt für die charakteristische Funktion der Zufallsvariablen Z, die sich aus der Summe Z = X + Y berechnet: ΦZ (jω) = ΦX (jω) · ΦY (jω). Mit der charakteristischen Funktion einer Normalverteilung (3.46) 1 2 2 ΦX (jω) = exp jµx ω − σx ω 2 ergibt sich unter Ausnutzung der angenommenen statistischen Unabhängigkeit 1 2 2 1 2 2 ΦZ (jω) = exp jµx ω − σx ω · exp jµy ω − σy ω 2 2 1 2 = exp j(µx + µy )ω − (σx + σy2 )ω 2 2 Die Zufallsvariable Z ist also wiederum normalverteilt mit µz = µx +µy und σz2 = σx2 +σy2 . Zusammengefasst gilt, dass die Summe aus unabhängigen Gauß´verteilten Zufallsvariablen wiederum eine gaussverteilte Zufallsvariable ergibt. △ 3.10.5 Zweidimensionale Charakteristische Funktion Lediglich der Vollständigkeit halber sei erwähnt, dass das Konzept der charakteristischen Funktion auch auf mehrere Dimensionen ausgedehnt werden kann. Bei entsprechendem Vorgehen erhält man für die charakteristische Funktion eines Zufallsvektors mit zwei Elementen durch Integration über die Verbund-Wahrscheinlichkeitsdichte: Φ(X1 ,X2 ) (jω) = = o n E e(jω1 X1 +jω2 X2 ) Z∞ Z∞ ej(ω1 x1 +ω2 x2 ) f(X1 ,X2 ) (x1 , x2 ) dx1 dx2 . (3.53) −∞ −∞ Durch entsprechende Berechnung der partiellen Ableitungen können hieraus die Verbundmomente berechnet werden. ∂ 2 Φ(X1 ,X2 ) (jω1 , jω2 ) . E{X1 , X2 } = − ∂ω1 ∂ω2 ω1 =ω2 =0 108 (3.54) Kapitel 4 Funktionen von Zufallsvariablen y y=g(x) X, fX (x) Y, fY (y) x In vielen praktischen Anwendungen treten Situationen auf, in denen eine Zufallsvariable X mit bekanntem wahrscheinlichkeitstheoretischem Verhalten als Argument einer monoton wachsenden oder fallenden Funktion g(X) auftritt. Hierdurch entsteht eine neue Zufallsvariable Y = g(X). Ein einfaches Beispiel für eine solche Situation in einer technischen Anwendung ist in der Beschreibung einer monoton wachsenden Verstärkerkennlinie gegeben, die durch die Funktion g(.) analytisch beschrieben wird. Eine zufällig gewählte Amplitude, mit bekannter Verteilungsfunktion, wird auf diese Verstärkerkennlinie angewandt. Dabei wird die Frage nach dem wahrscheinlichkeitstheoretischen Gesetz der neuen Zufallsvariablen Y gestellt. Diese Frage kann mit Angabe der Verteilungs- oder Wahrscheinlichkeitsdichtefunktion für die Zufallsvariable Y direkt und vollständig beantwortet werden. Dieselbe Frage stellt sich bei Anwendung von Kompander- und Expanderkennlinien. Die neue Zufallsvariable Y besitzt demnach eine eigene, neue Verteilungsdichtefunktion fY (y), welche aus der Verteilungsdichtefunktion fX (x) hergeleitet werden kann. 109 KAPITEL 4. FUNKTIONEN VON ZUFALLSVARIABLEN 4.1 Bestimmung der Wahrscheinlichkeitsdichtefunktion durch Transformation 4.1.1 Eindeutig umkehrbare Funktionen Gegeben sei eine beispielsweise monoton wachsende Funktion y = g(x). Die Wahrscheinlichkeit, mit der die Zufallsvariable X in einem beliebigen Intervall der Breite dx auftritt, muß gleich der Wahrscheinlichkeit sein, mit der die neue Zufallsvariable Y im zugehörigen Intervall dy Zufallswerte annimmt (siehe Abbildung 4.1): fX (x)|dx| = fY (y)|dy|. (4.1) y P(dx) y=g(x) y1 dy dx x1 x fy P(dx) fx Abbildung 4.1: Transformation der Wahrscheinlichkeitsdichtefunktion Wir betrachten die zur Funktion y = g(x) zugehörige eindeutig bekannte Umkehrfunktion x = h(y). Es gilt h(y) = g −1 (y) = x (4.2) und dx dh(y) = dy dy entsteht folgende mathematische Beziehung zwischen den Wahrscheinlichkeitsdichtefunktionen der Zufallsvariablen X und Y : dh(y) . fY (y) = fX (x = h(y)) dy 110 (4.3) 4.1. BESTIMMUNG DER WAHRSCHEINLICHKEITSDICHTEFUNKTION DURCH TRANSFORMATION Aus der Sicht der monoton wachsenden Funktion g(x) erhält man alternativ: dg(x) dy = = g ′ (x) dx dx fX (x) . fY (y) = ′ |g (x)| x=h(y) (4.4) Durch die Angabe des Betragszeichens wird gleichzeitig sowohl der Fall monoton steigender als auch monoton fallender Funktionen g(x) berücksichtigt. Das Vorzeichen der Steigung ist für die Angabe der Wahrscheinlichkeit unbedeutend. Beispiel 4.1 (Funktionen von Zufallsvariablen) Sei X eine gleichverteilte Zufallsvariable im Intervall [0, 1] fX (x) = 0 1 für x < 0 ∨ x > 1 für 0 < x < 1 und g(x) = sinh(x) die betrachtete monoton wachsende Funktion. Dann ist die Ableitung dieser Funktion g(x) g ′ (x) = cosh(x). Unter Berücksichtigung der allgemein gültigen Beziehung cosh2 (x) − sinh2 (x) = 1 kann die gesuchte Wahrscheinlichkeitsdichtefunktion fY (y) der neuen Zufallsvariablen Y = sinh(x) wie folgt berechnet werden: 0 fY (y) = 1 √1 cosh(x) = für y < 0 ∨ y > sinh(1) 1+y 2 . für 0 < y < sinh(1) △ 4.1.2 Nicht eindeutig umkehrbare Funktionen Monoton wachsende und fallende Funktionen besitzen eine eindeutige Umkehrfunktion. Dies ist ein Sonderfall, der hier auch erweitert werden soll auf solche Funktionen, zu denen zunächst keine eindeutige Umkehrfunktion existiert. Für nicht eindeutig umkehrbare Abbildung treten Fälle auf, in denen mehrere Werte x auf exakt denselben Funktionswert y = g(x) abgebildet werden. In diesem Fall müssen sämtliche Wahrscheinlichkeiten der zugehörigen Intervalle mit der Länge dx zur Berechnung der neuen Wahrscheinlichkeitsdichtefunktion fY (y) berücksichtigt werden. Für einen 111 KAPITEL 4. FUNKTIONEN VON ZUFALLSVARIABLEN gegebenen Punkt y setzt sich die Wahrscheinlichkeitsdichtefunktion fY (y) dann additiv aus den Punkten x unter Berücksichtigung des Intervalls dx zusammen, die alle denselben Funktionswert y sowie das zugehörige Intervall dy besitzen. Dieser analytische Zusammenhang ist in Abbildung 4.2 anhand einer nicht eindeutig umkehrbaren Funktion g(x) anschaulich erläutert. Für den dort angegebenen Funktionswert y2 gibt es insgesamt 3 unterschiedliche Werte x, die denselben Funktionswert y2 besitzen. Entsprechend berechnet sich die Wahrscheinlichkeitsdichtefunktion fY (y) an dieser Stelle additiv aus drei verschiedenen Summanden. y b y1 y=g(x) x2(1) x2(2) x2(3) x1 x a Abbildung 4.2: Transformation der Wahrscheinlichkeitsdichtefunktion bei nicht eindeutig umkehrbarer Funktion g(x) Beispiel 4.2 (Quadratische Gleichung) Gegeben sei die quadratische Funktion (Abbildung 4.3) y = g(x) = a(x − c)2 + b mit den Umkehrfunktionen x1 = c − r y−b , a x2 = c + r y−b . a Diese quadratische Funktion ist nicht eindeutig umkehrbar und besitzt zu einem gegebenen Funktionswert y = g(x) entweder keinen oder zwei Punkte auf der x-Achse, für welche die Funktion diesen Funktionswert y annimmt. Nur im Scheitelpunkt entsteht 112 4.2. VERTEILUNGSFUNKTION DER ZUFALLSVARIABLEN Y = G(X) y y=g(x) y y+dy b x1 x1+dx x2 x2+dx c x Abbildung 4.3: Quadratische Transformation ein einziger zugehöriger Wert auf der x-Achse. Die Wahrscheinlichkeitsdichtefunktion der neuen Zufallsvariablen Y = g(X) berechnet sich dementsprechend wie folgt: Für die Wahrscheinlichkeitsdichten gilt für jeden vorgegeben Wert y mit den zugehörigen Werten x1 und x2 : fY (y)|dy| = fX (x1 )|dx1 | + fX (x2 )|dx2 |. Für die Wahrscheinlichkeitsdichtefunktion der neuen Zufallsvariablen Y erhält man deshalb fY (y) = fX (x2 ) fX (x1 ) + . g ′ (x1 ) x1 =g−1 (y) g ′ (x2 ) x2 =g−1 (y) − + Mit der Ableitung der Funktion g(x) g ′ (x) = 2a(x − c) = 2 p a(y − b) ist die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen Y in diesem Spezialfall vollständig bestimmt. 1 " fY (y) = p fX 2 a(y − b) c− r y−b a ! + fX c+ r y−b a !# . △ 4.2 Verteilungsfunktion der Zufallsvariablen Y = g(X) Bisher haben wir uns auf die Berechnung der Wahrscheinlichkeitsdichtefunktion fY (y) der neuen Zufallsvariablen konzentriert. In diesem Abschnitt wollen wir zusätzlich, oder alternativ, die zugehörige Verteilungsfunktion berechnen. Für eine beispielsweise monoton 113 KAPITEL 4. FUNKTIONEN VON ZUFALLSVARIABLEN wachsende Funktionen g(x) folgt aus Y ≤ y und damit X ≤ h(y) = g −1 (y) für die Verteilungsfunktion von Y FY (y) = FX (h(y)). (4.5) Für eine monoton fallende Funktionen g(x) folgt aus Y ≤ y und damit X > h(y) = g −1 (y) für die Verteilungsfunktion FY (y) = 1 − FX (h(y)). (4.6) Beispiel 4.3 (Monoton fallende Transformation) Sei die Transformation der Zufallsvariablen y = g(x) = ax und die zugehörige Umkehrfunktion h(y) h(y) = 1 y, a dann ist die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen Y y 1 . fX |a| a fY (y) = Die zugehörige Verteilungsfunktion der neuen Zufallsvariablen Y kann mit den obigen Vorbereitungen relativ einfach ermittelt werden: FX y a FY (y) = 1 − FX y a für a > 0 . für a < 0 △ 4.3 Funktionen angewandt auf zwei Zufallsvariable Um die Wahrscheinlichkeitsdichtefunktion einer Zufallsvariablen Z mit Z = g(X, Y ) (4.7) bestimmen zu können, ermittelt man die Verteilungsfunktion FZ (z) der Zufallsvariablen Z FZ (z) = P (Z ≤ z) = P (g(X, Y ) ≤ z). (4.8) Hierdurch wird eine Fläche in der (x, y)-Ebene repräsentiert, welche durch die Kurve g(x, y) = z begrenzt wird (Abbildung 4.4). 114 4.3. FUNKTIONEN ANGEWANDT AUF ZWEI ZUFALLSVARIABLE y z=g(x,y) DZ x Abbildung 4.4: Funktion von zwei Zufallsvariablen Man erhält FZ (z) durch Integration der Verbundwahrscheinlichkeitsdichte von X und Y über dieser Fläche R FZ (z) = ZZ f(X,Y ) (x, y) dx dy (4.9) R und die Wahrscheinlichkeitsdichtefunktion von Z per Definition durch Differentiation von FZ (z) fZ (z) = d FZ (z) . dz (4.10) Beispiel 4.4 (Verteilungsdichte von Z = X 2 + Y 2 ) Die Zufallsvariablen X und Y seien statistisch unabhängig und identisch normalverteilt, so dass die gemeinsame Wahrscheinlichkeitssdichte durch die folgende Funktion angegeben wird. f(X,Y ) (x, y) = 1 − x2 +y2 2 e 2σ . 2πσ 2 Durch den Wechsel des Koordinatensystems zu Polarkoordinaten mit x = r cos(θ), y = r sin(θ), dx dy = rdr dθ erhält man für die Verteilungsfunktion der Zufallsvariablen Z: 2 ZZ x + y2 1 dx dy exp − FZ (z) = 2πσ 2 2σ 2 R √ Z zZ2π r2 exp − 2 r dθ dr 2σ 0 0 z = 1 − exp − 2 ∀z ≥ 0 2σ = 1 2πσ 2 Durch Ableiten der Verteilungsfunktion FZ (z) erhält man die Wahrscheinlichkeitsdichtefunktion fZ (z) der Zufallsvariablen Z: fZ (z) = z 1 exp − 2 2σ 2 2σ 115 z≥0 KAPITEL 4. FUNKTIONEN VON ZUFALLSVARIABLEN △ Die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen Z genügt also einer Exponentialverteilung. 4.4 „Festhalten“ einer Zufallsvariablen Eine weitere und alternative Möglichkeit zur Ermittelung der Wahrscheinlichkeitsdichte der Zufallsvariablen Z erhält man durch „Festhalten“ einer der beiden Zufallsvariablen X oder Y . Im folgenden Beispiel wird die Zufallsvariable Y beispielsweise als Konstante betrachtet. Es wird die zweidimensionale, von den Parametern x und y abhängige Funktion Z = g(x, y) betrachtet. Wenn der Wert y zunächst als konstant betrachtet wird, dann ist die Funktion Z = g(x, y) nur noch von x aber nicht mehr vom Parameter y abhängig. Dieser Sachverhalt kann analytisch wie folgt ausgenutzt werden: fX (x|y) fZ (z|y) = ∂ g(x,y) ∂x (4.11) x=g−1 (z,y) Aus der gemeinsamen Wahrscheinlichkeitsdichte von Y und Z kann man mit der bedingten Wahrscheinlichkeitsdichte dann fZ (z) berechnen: Z∞ fZ (z) = = −∞ Z∞ f(Z,Y ) (z, y) dy fZ (z|y)fY (y) dy (4.12) −∞ Beispiel 4.5 (Produkt von Zufallsvariablen) Durch Festhalten von Y in der Beziehung Z = g(x, y) = x · y wird die durch Y bedingte Wahrscheinlichkeitsdichte von Z fX yz |y fZ (z|y) = |y| und die Wahrscheinlichkeitsdichte von Z fZ (z) = Z∞ fX −∞ = z y |y |y| Z∞ f(X,Y ) |y| −∞ fY (y) dy z y,y dy (4.13) △ 116 4.5. TRANSFORMATION VON ZUFALLSVEKTOREN 4.5 Transformation von Zufallsvektoren Insbesondere bei einer Variablentransformation tritt das Problem auf, zwei Zufallsvariablen X1 und X2 in zwei neue Zufallsvariablen Z1 und Z2 zu transformieren (z.B. Real- und Imaginärteil in Betrag und Phase). z1 = g1 (x1 , x2 ) z2 = g2 (x1 , x2 ) Mit dem gleichen Ansatz wie im Falle einer Zufallsvariablen, nach dem die Wahrscheinlichkeit einer transformierten Fläche gleich der Wahrscheinlichkeit der Originalfläche sein muss (Abbildung 4.5), d.h. f(Z1 ,Z2 ) (z1 , z2 ) dz1 dz2 = f(X1 ,X2 ) (x1 , x2 ) dx1 dx2 bzw. f(Z1 ,Z2 ) (z1 , z2 ) |AZ | = f(X1 ,X2 ) (x1 , x2 ) |AX | ist also lediglich das Verhältnis der Flächen AX und AZ zu bestimmen. (Zur Herleitung geht man zunächst von der vereinfachenden Annahme aus, dass eindeutige Umkehrfunktionen g1−1 (z1 , z2 ) und g2−1 (z1 , z2 ) existieren. Falls diese Voraussetzung nicht erfüllt ist, so sind – wie aus den Betrachtungen für eine einzelne Zufallsvariable bekannt – die einzelnen Teilwahrscheinlichkeiten zu addieren.) x2 z2 AX z2 v2 Az z2+dz z2+dz v1 z2 z1 z1+dz x1 z1 z1+dz z1 Abbildung 4.5: Variablentransformation Wird die Fläche AX durch die zwei Vektoren v 1 und v 2 aufgespannt und ist β der 117 KAPITEL 4. FUNKTIONEN VON ZUFALLSVARIABLEN eingeschlossene Winkel, so ist die Fläche des Parallelograms |v 1 ||v 2 | sin(β) = = = = = 1/2 |v 1 |2 |v 2 |2 (1 − cos2 (β) 1/2 v 21 v 22 − v 21 v 22 cos2 (β) 1/2 v 21 v 22 − (v 1 · v 2 )2 2 2 2 2 (v11 + v12 )(v21 + v22 ) − (v11 v12 + v21 v22 )2 v11 v21 |v11 v22 − v12 v21 | = det v12 v22 1/2 (4.14) Die Länge der Vektoren ermittelt man aus dem Anfangspunkt (x1 , x2 ) = (g1−1 (z1 , z2 ), g2−1 (z1 , z2 )) (4.15) und dem Endpunkt (g1−1 (z1 + dz1 , z2 ), g2−1 (z1 + dz1 , z2 )) = ∂ g1−1 ∂ g2−1 x1 + dz1 , x2 + dz1 . (4.16) ∂z1 ∂z1 Die Vektoren können also ausgedrückt werden als −1 ∂ g1 ∂ g2−1 v1 = dz1 , dz1 ∂z1 ∂z1 und v2 = Die Fläche AX ist damit AX Mit ∂ g1−1 ∂ g2−1 dz2 , dz2 . ∂z2 ∂z2 v11 v21 = det v12 v22 −1 ∂ g1−1 ∂ g1 dz dz 1 2 ∂z2 1 = det ∂∂z g2−1 ∂ g2−1 dz dz 1 2 ∂z1 ∂z2 x1 x2 |dz1 dz2 | = J z1 z2 |AZ | = |dz1 dz2 | (4.17) (4.18) (4.19) (4.20) kann man schließlich die gemeinsame Wahrscheinlichkeitsdichtefunktion von Z1 und Z2 durch die von X1 und X2 gegebene ausdrücken: f(Z1 ,Z2 ) (z1 , z2 ) = = x1 f(X1 ,X2 ) (x1 , x2 ) J z1 x2 z2 1 f(X1 ,X2 ) (x1 , x2 ) · z1 z2 J x1 x2 an der Stelle x1 = g1−1 (z1 , z2 ), x2 = g2−1 (z1 , z2 ). 118 (4.21) 4.5. TRANSFORMATION VON ZUFALLSVEKTOREN Die Determinante J(·) wird als JACOBI-Determinante bezeichnet. Dieses Vorgehen ist entsprechend auf Zufallsvektoren höher Dimension erweiterbar! Beispiel 4.6 (Einfache Transformation) Es sei die Transformation z1 = a11 x1 + a12 x2 z2 = a21 x1 + a22 x2 gegeben. Die Umkehrabbildung (x1 , x2 ) = g −1 (z1 , z2 ) ist x1 = b11 z1 + b12 z2 x2 = b21 z1 + b22 z2 Die Jacobi-Determinante ist x1 J z1 x2 z2 = det b11 b12 b21 b22 , so dass die gemeinsame Verteilungsdichte von Z1 und Z2 durch x1 f(Z1 ,Z2 ) (z1 , z2 ) = f(X1 ,X2 ) (b11 z1 + b12 z2 , b21 z1 + b22 z2 )J z1 gegeben ist. x2 z2 △ Beispiel 4.7 (Etwas schwierigere Transformation) Die Transformation der Zufallsvariablen X und Y in die Zufallsvariablen Z und W sei gegeben durch z = xy, Die Umkehrabbildung ist definiert durch r z , x=± w w= y . x √ y = ± zw. Die Jacobi-Determinante ist z w y = det J x y − xy2 x = 2y = 2w. 1 x x p p √ √ Die Punkte ( z/w, zw) und (− z/w, − zw) werden beide in den Punkt (z, w) transformiert, d.h. die entsprechenden Wahrscheinlichkeiten sind zu addieren! Außerdem sind Z und W beide positiv (negativ) falls X und Y das gleiche (verschiedene) Vorzeichen besitzen, so dass f(Z,W ) (z, w) = 0 ∀(z > 0, w < 0) oder (z < 0, w > 0). 119 KAPITEL 4. FUNKTIONEN VON ZUFALLSVARIABLEN Die transformierte Wahrscheinlichkeitsdichtefunktion ist hiermit (z und w haben gleiches Vorzeichen) r r √ 1 z √ z f(X,Y ) , ǫ zw + f(X,Y ) − , −ǫ zw f(Z,W ) (z, w) = 2|w| w w mit ǫ= 1 −1 für z > 0 ∧ w > 0 für z < 0 ∧ w < 0 △ 4.6 Geordnete Statistik In vielen Anwendungsfällen wird die Frage nach einer aufsteigenden oder absteigenden Reihenfolge von Zufallsvariablen gestellt. Zu dieser Rangfolge von Zufallsvariablen, die beispielsweise aus einer Menge von statistisch unabhängig und identisch verteilten Zufallsvariablen gebildet wurde, soll die Wahrscheinlichkeitsdichtefunktion eines definierten Ranges1 gebildet werden. Eigentlich ist die Bildung einer Rangfolge ein durchaus komplexer Vorgang. Umso erstaunlicher ist es, dass den Zufallsvariablen auf den einzelnen Rängen eine analytisch geschlossene Wahrscheinlichkeitsdichte zugeordnet werden kann. Als Ausgangspunkt der Analyse wird eine Situation mit insgesamt N statistisch unabhängigen identisch verteilten reellwertigen Zufallsvariablen Xi betrachtet, i = 1, 2, . . . , N . Die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen sei f (x) und die Verteilungsfunktion sei F (x). Diese Zufallsvariablen werden jetzt der Größe nach aufsteigend sortiert. (Die in Klammern gesetzten Indizes weisen auf die Reihenfolge hin.) X(1) ≤ X(2) ≤ X(3) ≤ · · · ≤ X(N ) Auf jedem individuellen Rang k wird mit der obigen Reihenfolge wiederum eine Zufallsvariable X(k) beobachtet, die einem speziellen wahrscheinlichkeitstheoretischen Gesetz gehorcht. Zu diesen Zufallsvariablen X(k) soll nun die Wahrscheinlichkeitsdichte- und die Verteilungsfunktion berechnet werden. Die WDF für die an der k-ten Position beobachtete Zufallsvariable X(k) berechnet sich wie folgt: N fk (x) = k (1 − F (x))N −k F (x)k−1 f (x). k 1 Als Rang wird in diesem Zusammenhang der Wert der Zufallsvariablen der Reihenfolge verstanden. 120 (4.22) an einer definierten Position innerhalb 4.6. GEORDNETE STATISTIK Die Verteilungsfunktion ist in der folgenden Gleichung für jeden individuellen Rang k angegeben. Fk (x) = N X N j=k j · [F (x)]j · [1 − F (x)]N −j (4.23) Insbesondere gilt für die WDF bzw. für die Verteilungsfunktion des Minimums f1 (x) = N · [1 − F (x)]N −1 f (x) F1 (x) = 1 − [1 − F (x)]N (4.24) und des Maximums fN (x) = N F (x)N −1 f (x) FN (x) = F (x)N . (4.25) Beispiel 4.8 (Minimum von N exponentialverteilten Zufallsvariablen) Gegeben seien N statistisch unabhängige identisch verteilte Realisierungen einer exponentialverteilten Zufallsvariable X. Es soll die Wahrscheinlichkeitsdichtefunktion des Minimums dieser N Zufallsvariablen angegeben werden. Für die einzelnen Zufallsvariablen gilt f (x) = λe−λx F (x) 1 − e−λx . = Allgemein gilt in diesem Fall für die WDF des k-ten Ranges nach Gleichung 4.22: k−1 N −(N −k+1)λx fk (x) = kλ 1 − e−λx . e k Die WDF des Minimums, also der Zufallsvariablen des Ranges 1 der geordneten Statistik, berechnet sich nach Gleichung 4.24 zu f1 (x) = = N −1 N 1 − (1 − e−λx ) · λe−λx N λe−N λx . Das Minimum gehorcht also einer Exponentialverteilung mit dem Parameter N λ. △ Geordnete Statistiken werden beispielsweise in den Fällen eingesetzt, in denen der Erwartungswert einer Zufallsvariablen geschätzt werden soll, aber in den gemessenen Werten mit einigen Ausreißern gerechnet werden muss. Zur Schätzung des Erwartungswertes wird häufig der arithmetische Mittelwert eingesetzt, siehe Kapitel 9.4. Dieser Schätzwert würde allerdings völlig verzerrt, falls einige Ausreißer in den Stichproben auftreten. An dieser Stelle können ersatzweise geordnete Statistiken eingesetzt werden. In der Bildverarbeitung 121 KAPITEL 4. FUNKTIONEN VON ZUFALLSVARIABLEN werden geordnete Statistiken (Rangordnungsfilter) zur Bildverbesserung bei gleichzeitiger Konturerhaltung eingesetzt. Beispiel 4.9 (Robustheit des Medians gegenüber Ausreißern) Gegeben seien die folgenden 11 Messwerte: 5.0 4.2 4.6 4.5 4.9 4.8 4.5 4.0 4.8 4.4 4.6 Der arithmetische Mittelwert berechnet sich in diesem Fall zu 4.6 und der Median lässt sich mit Hilfe der geordneten Stichprobe 4.0 4.2 4.4 4.5 4.5 4.6 4.6 4.8 4.8 4.9 5.0 ebenfalls zu 4.6 bestimmen (Wert auf Rang 6). Nimmt man jetzt an, dass als dritter Messwert statt des Wertes 4.6 durch eine Störung ein Wert von 20.0 gemessen wurde, so ergibt sich für das arithmetische Mittel der Wert 6.0. Es wird durch den Ausreißer also stark verfälscht. Für den mit Hilfe der geordneten Statistik berechneten Median ergibt sich jedoch immer noch der Wert 4.6 – der Median ist robust gegenüber Ausreißern. △ Auf die Auswirkungen von Ausreißern und die Anwendung von geordneten Statistiken bei der Parameterschätzung wird zu einem späteren Zeitpunkt (in Kapitel 9.7) nochmals näher eingegangen. 122 Kapitel 5 Folgen stochastischer Größen und Grenzwertsätze In vielen Anwendungen wird die Summe einer durchaus großen Anzahl statistisch unabhängiger, identisch verteilter Zufallsvariablen betrachtet: Z= n X Xi (5.1) i=1 Diese Aufgabe tritt zum Beispiel bei der Berechnung relativer Häufigkeiten in der Analyse eines Zufallsexperiments auf. Das statistische Verhalten dieser so gebildeten Zufallsvariablen Z soll in diesem Abschnitt analytisch untersucht werden. In diesem Zusammenhang steht auch der Begriff des zentralen Grenzwertsatzes. Dieser ist, anders als andere Sätze in der Mathematik, ein Sammelbegriff für eine Reihe von mathematischen Aussagen und Sätzen, welche alle die Konvergenz einer Verteilungsfunktion betrachten, die sich aus der Summierung statistisch unabhängiger identisch verteilter Zufallsvariablen ergibt. Als ein wirklich interessantes Ergebnis kann nachgewiesen werden, dass die Summe bzw. das arithmetische Mittel dieser Zufallsvariablen für große Werte n stets gegen eine Standardnormalverteilung konvergiert. Es werden Bedingungen angegeben, unter denen die Konvergenz der Zufallsvariablen Z gegen die Normalverteilung eintritt. Man betrachtet also im Folgenden eine Zufallsvariable Zn , die sich als Summe von statistisch unabhängigen, identisch verteilten Zufallsvariablen Xi ergibt: Zn = n X Xi i=1 Der Erwartungswert für diese neue Zufallsvariable Zn kann bereits durch Anwendung der 123 KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE Linearität der Erwartungswertbildung wie folgt berechnet werden: E{Zn } = n X i=1 E{Xi } Wegen der angenommenen statistischen Unabhängigkeit kann auch die Varianz der Zufallsvariablen Z bereits mit dem Satz von Bienaymé wie folgt berechnet werden: V ar{Zn } = n X i=1 V ar{Xi } Zusätzlich wurde bereits in den vorangegangen Kapiteln gezeigt, dass die resultierende Wahrscheinlichkeitsdichtefunktion fZ (z) durch Faltung der einzelnen Wahrscheinlichkeitsdichtefunktionen der Zufallsvariablen Xi vollständig berechnet werden kann: fZ (x) = fX1 (x) ∗ fX2 (x) ∗ · · · ∗ fXn (x) (5.2) Die eigentliche Zielsetzung dieses Kapitels liegt aber darin, nicht nur Erwartungswert und Varianz sondern auch die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen Zn insbesondere für große Werte n explizit zu bestimmen bzw. geeignet abzuschätzen. 5.1 Grenzwertsätze der Binomialverteilung Im ersten Schritt soll ein B ERNOULLI-Experiment auf sein Grenzwertverhalten untersucht werden. D. h. die Zufallsvariable Zn setzt sich in diesem Fall aus einer Summe von binärwertigen Zufallsvariablen Xi zusammen: Zn = n X Xi i=1 Dieses Zufallsexperiment wurde bereits ausführlich in Abschnitt 2.6.1 für eine fest vorgegebene Versuchsanzahl n analysiert und es wurde die resultierende Wahrscheinlichkeitsdichtefunktion angegeben. B ERNOULLI-Experiment • Es wird ein Experiment mit binärem Ausgang (Alternativverteilung) n-mal nacheinander durchgeführt oder es werden alternativ n identische Experimente gleichzeitig durchgeführt. • Die Wahrscheinlichkeit, mit der die Zufallsvariable Xi eine Eins annimmt, soll p betragen: P [Xi = 1] = p 124 P [Xi = 0] = 1 − p 5.1. GRENZWERTSÄTZE DER BINOMIALVERTEILUNG • Die zufälligen Ereignisse seien unabhängig von vorhergehenden oder nachfolgenden Versuchen, d.h., die Zufallsvariablen Xi seien statistisch unabhängig und identisch verteilt. • Pn (k) beschreibt die Wahrscheinlichkeit, mit der k Einsen in einer Folge von n Versuchen auftreten, d.h. mit der die Zufallsvariable Zn den Wert k annimmt [Zn = k]: Pn (k) = P [Z = k] • Die Wahrscheinlichkeit Pn (k), dass in n Versuchen k-mal eine Eins auftritt kann explizit und analytisch wie folgt angegeben werden: n k Pn (k) = P [Z = k] = p (1 − p)n−k k (5.3) Damit ist das Zufallsexperiment eigentlich vollständig beschrieben. Im Folgenden wird aber die spezielle Frage diskutiert, wie das wahrscheinlichkeitstheoretische Verhalten des Bernoulli-Experiments sich für große Werte von n entwickelt und wie die Berechnung der relevanten Wahrscheinlichkeiten vereinfacht werden kann. Beispiel 5.1 (Paketfehlerwahrscheinlichkeit) Verwendet man zum Fehlerschutz einer digitalen Übertragung einen Blockcode der Länge n, so können durch diesen beispielsweise maximal m Bitfehler korrigiert werden. Treten mehr Bitfehler auf, so ist das komplette Datenpaket fehlerhaft. Es soll die Wahrscheinlichkeit berechnet werden, mit der Paketfehler am Ausgang der Fehlerkorrektur auftreten. Dazu müssen die Wahrscheinlichkeiten für die Fälle summiert werden, in denen m + 1 oder mehr Bitfehler auftreten: P (Paketfehler) = 1 − P (kein Paketfehler) = 1 − P (weniger als m + 1 Bitfehler) m X = 1− P (k Bitfehler) k=0 Die Wahrscheinlichkeit für k Bitfehler wird bestimmt aus der Bitfehlerwahrscheinlichkeit p und der Zahl der Anordnungsmöglichkeiten der Bitfehler: n k P (k Bitfehler) = p (1 − p)n−k k Die Bitfehlerwahrscheinlichkeit p hängt vom eingesetzten Modulationsverfahren und dem Zustand des Übertragungskanals ab. Zur Übertragung werden mehrere Bits zu einem Datenpaket der Länge n zusammengefasst. Im Folgenden sind drei bekannte Blockcodes und deren Datenpaketlänge n sowie deren Korrigierfähigkeit beispielhaft angegeben. 125 KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE Code Blocklänge n Korrigierbare Fehler m Hamming 31 1 Reed-Muller 64 15 BCH 127 14 Bei der praktischen Berechnung der Paketfehlerrate tritt bei großen Blocklängen n eine rein rechentechnische Besonderheit auf. Die Binomialkoeffizienten nehmen sehr große Werte an und es stellt sich die Frage der Rechengenauigkeit. Dies zeigt das folgende einfache Beispiel: 64 127 ≈ 1.6 · 1014 , ≈ 1.6 · 1018 15 14 Daher gestaltet sich auch die Berechnung der Summe über die Einzelwahrscheinlichkeiten zur Berechnung der Paketfehlerwahrscheinlichkeit um so schwieriger: P (Kein Paketfehler) = 15 X 64 k p (1 − p)(64−k) k k=0 Zur Lösung dieser Aufgabe bedient man sich eines Grenzwertsatzes, der im folgenden △ Abschnitt erläutert werden soll. 5.1.1 Lokaler Grenzwertsatz von M OIVRE -L APLACE Für ein B ERNOULLI-Experiment mit insgesamt n Versuchen können die einzelnen Auftrittswahrscheinlichkeiten wie folgt angegeben werden: n k Pn (k) = P [Zn = k] = p (1 − p)n−k . k (5.4) Die Berechnung der Verteilungsfunktion eines solchen B ERNOULLI-Versuchs P [Zn ≤ k] = k X n i p (1 − p)n−i i i=0 (5.5) kann unter praktischen Gesichtspunkten zum Teil erhebliche rechentechnische Schwierigkeiten bereiten. Aus diesem Grund ist eine Approximation, mit der die Wahrscheinlichkeitsdichte- oder Verteilungsfunktion berechnet werden kann, sehr gefragt. Diese Approximation kann durch den lokalen Grenzwertsatz von Moivre-Laplace lokaler wertsatz Grenzvon Moivre-Laplace hergeleitet werden. Bei diesem Experiment mit binärem Ausgang ist der Erwartungswert der Zufallsvariablen Zn (also beispielsweise die mittlere Fehleranzahl pro Paket) wie folgt zu berechnen: µn = E{Zn } = n · p 126 5.1. GRENZWERTSÄTZE DER BINOMIALVERTEILUNG Die Varianz von Zn , aus der das Streuverhalten der Zufallsvariablen Zn abgelesen werden kann, ist V ar{Zn } = n · p · (1 − p) bzw. die Standardabweichung ist: σn = p n · p · (1 − p). Wenn die Bedingungen des B ERNOULLI-Experiments erfüllt sind, dann können die Wahrscheinlichkeiten Pn (k) für große Werte n wie folgt berechnet bzw. approximiert werden: 1 lim {Pn (k)} = lim p e n→∞ 2πnp(1 − p) − 12 „ √ k−np np(1−p) n→∞ «2 (5.6) Aus dieser analytischen Gleichung ist zu erkennen, dass die Paketfehlerwahrscheinlichkeiten gegen eine Gauß’sche Normalverteilung mit dem obigen Erwartungswert E{Zn } = np und der Varianz V ar{Zn } = np(1−p) konvergieren. Damit sind diese Wahrscheinlichkeiten Pn (k) wesentlich leichter berechenbar und direkt aus den Werten der Gauß’schen Glockenkurve ablesbar. Anwendung des lokalen Grenzwertsatzes Mit Hilfe des lokalen Grenzwertsatzes kann man auch bei einer in den durchgeführten Versuchen eingestellten endlichen Blocklänge n eine sehr gute Abschätzung der Wahrscheinlichkeit Pn (k) angeben: 1 e Pn (k) ≈ p 2πnp(1 − p) − 12 „ √ k−np np(1−p) «2 (5.7) Die in Gleichung (5.7) beschriebene Approximation wird kontinuierlich mit wachsendem Wert n verbessert. Dieser Sachverhalt ist in Abbildung 5.1 für Blocklängen n = 25, 80, 160 anschaulich dargestellt. Einerseits sind dort die exakten diskrete Wahrscheinlichkeit Pn (k) und andererseits die approximierten Werte, beschrieben durch die Wahrscheinlichkeitsdichte einer Normalverteilung mit dem Erwartungswert E{Zn } = µ = n · p und der Varianz V ar{Zn } = σ 2 = np(1 − p) dargestellt. 1 e Nµ,σ (x) = p 2πnp(1 − p) − 21 „ √ x−np np(1−p) «2 Während für eine Blocklänge von n = 25 noch kleine Abweichungen zwischen den exakten und approximierten Werten feststellbar sind, ist die Approximation für n = 160 fast schon perfekt. 127 KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE p = 0.1 Pn(k),Nµ,σ(x) 0.4 Nµ,σ(x) Pn(k) 0.3 0.2 0.1 n = 25 0 0 2 4 6 8 10 12 14 k,x Pn(k),Nµ,σ(x) 0.2 0.15 0.1 0.05 n = 80 0 0 2 4 6 8 10 k,x 12 14 16 18 20 Pn(k),Nµ,σ(x) 0.2 0.15 0.1 0.05 n = 160 0 0 5 10 15 20 k,x 25 30 35 40 Abbildung 5.1: Bernoulli-Versuch, Abschätzung der Wahrscheinlichkeit Pn (x) bei endlicher Anzahl der Versuche n. Beispiel 5.2 (Werfen einer Münze) Mit Hilfe des Theorems von DeMoivre-Laplace kann man eine gute Abschätzung der Wahrscheinlichkeiten Pn (k) auch bei endlicher Blocklänge n angeben: Eine Münze wird n = 1000 mal geworfen. Man ermittle die Wahrscheinlichkeit, mit der bei diesem Experiment das Ereignis „Kopf“ genau k = 510 mal auftritt. Mit p = 0.5, n = 1000, k = 510, erhält man die folgende Abschätzung p √ np(1 − p) = 5 10, n · p = 500 (510−np)2 1 Pn (k) = P1000 (510) ≈ p · e− 2np((1−p) = 0, 0207 2πnp(1 − p) △ 5.1.2 Integralgrenzwertsatz von M OIVRE -L APLACE Zur Bestimmung der Wahrscheinlichkeit, mit der in einem Bernoulli Experiment die Zufallsvariable Zn Werte in einem Interval zwischen k1 und k2 annimmt P [k1 ≤ Zn ≤ k2 ] 128 5.1. GRENZWERTSÄTZE DER BINOMIALVERTEILUNG müssen die Wahrscheinlichkeiten Pn (k) für die Werte k von k1 bis k2 (also insgesamt k2 − k1 + 1 Werte) aufsummiert werden, da die Ereignisse unabhängig voneinander sind. P [k1 ≤ Zn ≤ k2 ] = k2 X k=k1 k2 X n k Pn (k) = p (1 − p)n−k k k=k1 Zur Lösung der Aufgabe und der Bestimmung der Wahrscheinlichkeit kann man den lokalen Grenzwertsatz erweitern, so dass unter den gleichen Voraussetzungen eines B ER NOULLI Experiments für den Integralgrenzwertsatz gilt: 1 P [k1 ≤ Zn ≤ k2 ] ≈ p 2πnp(1 − p) 0.4 N0,1(x) 0.3 0.2 0.1 Zk2 Integralwertsatz von e − 12 „ np(1−p) «2 dx (5.8) k1 11111111111111111111 00000000000000000000 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 0 −3 √ x−np Φ(x) −2 −1 0 x 1 2 3 Abbildung 5.2: Illustration des für das Argument x = 1 tabellierten Wertes der StandardNormalverteilung. Der Wert Φ(x) entspricht der schraffierten Fläche und beträgt für x = 1 etwa 0,84. Über eine sinnvolle Normierung lässt sich mit Hilfe des tabellierten Gauß’schen Fehlerintegrals (s. Abschnitt 3.1 und Anhang B.1) die Wahrscheinlichkeit aus dem Integralgrenzwertsatz bestimmen: 1 P [Zn ≤ k] ≈ p 2πnp(1 − p) Zk 2 e (x−np) − 2np(1−p) −∞ 129 dx = Φ k − np p np(1 − p) ! (5.9) Laplace Moivre- KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE Die Wahrscheinlichkeit für den in Gleichung (5.8) gesuchten Intervalwert ergibt sich damit dann zu P [k1 ≤ Zn ≤ k2 ] ≈ Φ k − np p 2 np(1 − p) ! −Φ k − np p 1 np(1 − p) ! (5.10) Da das Gauß’sche Fehlerintegral in den meisten Fällen nur für positive Werte tabelliert ist, erhält man die Ergebnisse für negative Werte aus der Kenntnis der Symmetrie der Standard-Normalverteilung. Abbildung 5.2 veranschaulicht an einem Beispiel, welche Werte für Φ(·) tabelliert sind und wie man mit diesen Werten ein gesuchtes Interval bestimmt: In den Tabellen finden sich nur positive Werte für x, da die Verteilung symmetrisch zum Ursprung ist. Für negative Argumente berechnet sich das Gauß’sche Fehlerintegral dann als Φ(−x) = 1 − Φ(x). Somit ist dann z.B. P (|X| ≥ a) = 1−P (|X| ≤ a) = 1−(Φ(a)−Φ(−a)) = 1−(2·Φ(a)−1) = 2·(1−Φ(a)) Beispiel 5.3 (Telefonanrufe) An einer Telefonzentrale sind 180 Telefone angeschlossen. Für jedes Telefon beträgt die Wahrscheinlichkeit, dass von ihm innerhalb von vier Stunden ein Telefonat geführt wird p = 13 . Mit dieser Angabe kann die Wahrscheinlichkeit dafür, dass insgesamt ein einziges Gespräch in 4 Stunden in der Telefonzentrale auftritt, wie folgt berechnet werden: P180 (1) = 1 179 180 1 2 = 1.81 · 10−30 1 3 3 Ganz allgemein gilt: k Anrufe werden in 4 Stunden mit folgender Wahrscheinlichkeit getätigt: P180 (k) = k 180−k 2 180 1 . 3 3 k Die Wahrscheinlichkeit für 50 bis 70 Anrufe innerhalb von 4 Stunden (Abbildung 5.3) kann nach der obigen Abschätzung wie folgt berechnet werden: 70 − 180 · 31 50 − 60 √ P180 (k) ≈ Φ q −Φ 40 180 · 31 · 32 k=50 p p p = Φ( 2, 5) − Φ(− 2, 5) = 2Φ( 2, 5) − 1 ≈ 0, 886 70 X △ 130 5.1. GRENZWERTSÄTZE DER BINOMIALVERTEILUNG 0.08 N (x) µ,σ P180(k) 0.07 0.06 0.04 P 180 (k), N µ,σ (x) 0.05 0.03 0.02 0.01 0 40 45 11111111111111111 00000000000000000 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 00000000000000000 11111111111111111 50 55 60 x,k 65 70 75 80 Abbildung 5.3: Verteilung des Beispiels Telefonanrufe Stetigkeitskorrektur Eine noch bessere Approximation (insbesondere für kleine Werte von n) erhält man im Integralwertsatz von Moivre-Laplace, wenn die ursprünglichen diskreten Grenzen k1 und k2 durch zwei neue Grenzen (k1 − 0, 5) und (k2 + 0, 5) ersetzt werden. Dadurch erhält das Integrationsintervall die gewollte Länge von k2 − k1 + 1. Dieser Vorgang wird auch als Stetigkeitskorrektur bezeichnet. Hierzu ersetzt man im Argument der Normalverteilung die Grenzen k1 und k2 durch (k1 − 0, 5) und (k2 + 0, 5): P [k1 ≤ Zn ≤ k2 ] ≈ Φ k2 + 0, 5 − np p np(1 − p) ! −Φ k1 − 0, 5 − np p np(1 − p) ! (5.11) wobei Φ(·) wieder die Standard-Normalverteilung bezeichnet. Beispiel 5.4 Wie groß ist die Wahrscheinlichkeit dafür, dass bei insgesamt 100 Würfen mit einem Würfel mindestens 10 mal und höchstens 20 mal eine Sechs auftritt? Es soll ein Näherungswert für diese Wahrscheinlichkeit angegeben werden. Die Zahl der Sechsen in 100 Würfen wird durch eine Bn,p -verteilte (n = 100, p = 1/6) Zufallsvariable Zn beschrieben. Mit k1 = 10 und k2 = 20 ergibt sich: 131 KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE 1. Approximation ohne Stetigkeitskorrektur: 1 1 20 − 100 · 6 10 − 100 · 6 − Φ q P [10 ≤ Zn ≤ 20] ≈ Φ q 1 5 100 · 6 · 6 100 · 61 · 65 = Φ(0.894) − Φ(−1.789) = 0.777 2. Approximation mit Stetigkeitskorrektur: 10 − 0.5 − 100 · 61 20 + 0.5 − 100 · 16 − Φ q P [10 ≤ Zn ≤ 20] ≈ Φ q 100 · 16 · 56 100 · 16 · 56 = Φ(1.03) − Φ(−1.92) = 0.821 3. Exakte Berechnung über Summe: P [10 ≤ Zn ≤ 20] = k 100−k 20 X 100 1 5 · · 6 6 k k=10 = 0.827 Anhand dieses Beispiels wird deutlich, dass sich die Güte der Approximation bei relativ kleinen n durch die Stetigkeitskorrektur deutlich verbessert. △ Die hier diskutierten Ergebnisse unterstreichen die Bedeutung der Normalverteilung als Mittel zur einfachen numerischen Berechnung. 5.1.3 Zentraler Grenzwertsatz von L INDEBERG -L ÉVY Die bisherige Annahme basierte auf einer Zufallsvariablen Zn , die einer Binomialverteilung gehorcht. In vielen anderen Anwendungsfällen ist aber lediglich bekannt, dass die Zufallsvariablen Xi , aus denen die Summe oder der arithmetische Mittelwert gebildet werden, statistisch unabhängig und identisch verteilt sind. Auch in diesem Fall stellt sich die Frage nach dem statistischen Verhalten der Zufallsvariablen Zn : Zn = n X Xi i=1 Es kann auch in diesem Fall eine präzise Aussage über die Konvergenz der Zufallsvariablen Zn getroffen werden. Zentraler Grenzwertsatz L INDEBERG L ÉVY von Definition 5.1 (Zentraler Grenzwertsatz von L INDEBERG -L ÉVY) Wenn die statistisch unabhängigen Zufallsgrößen Xi alle die gleiche (bzw. eine identische) Verteilung mit dem 132 5.1. GRENZWERTSÄTZE DER BINOMIALVERTEILUNG fX(x)=rect(x) Y1=X Y2=X+X Y3=X+X+X Y4=X+X+X+X 1 0.8 fY(y) 0.6 0.4 0.2 0 −2 −1.5 −1 −0.5 0 y 0.5 1 1.5 2 Abbildung 5.4: Überlagerung identischer Verteilungen Mittelwert µ und der Varianz σ 2 > 0 haben, dann konvergiert die Folge der Verteilungsfunktionen der normierten Zufallsgröße Zn = n P Xi − nµ √ nσ 2 i=1 (5.12) gegen die Verteilungsfunktion der Standardnormalverteilung: 1 lim P [Zn ≤ z] = Φ(z) = √ n→∞ 2π Zz e− ζ2 2 dζ (5.13) −∞ ❍ 5.1.4 Zentraler Grenzwertsatz von L JAPUNOW Zentraler GrenzDefinition 5.2 (Zentraler Grenzwertsatz von L JAPUNOW) Genügen die stochastisch wertsatz von L JA - unabhängigen Zufallsgrößen Xi jeweils einer Verteilungsfunktion mit endlichem Erwar- PUNOW tungswert µi sowie einer Varianz σi2 > 0 und kann man zusätzlich eine positive Zahl δ > 0 133 KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE mit σn2 = n X σi2 (5.14) i=1 so wählen, dass lim n→∞ n X E{|Xi − µi |2+δ } σn2+δ i=1 =0 (5.15) gilt, dann konvergiert die Verteilungsfunktion der Zufallsvariablen Zn mit: Zn = n 1 X (Xi − µi ) σn i=1 (5.16) ❍ gegen die Standardnormalverteilung. Bedeutung des Satzes • Die Bedingung, dass die betrachteten Zufallsvariablen Xi als identisch verteilt angenommen werden, entfällt in diesem Fall. • Jede Zufallsvariable Zn , die als Summe einer großen Zahl von unabhängigen Zufallsvariablen dargestellt werden kann, gehorcht also für große Werte n einer Normalverteilung. Damit ist die hohe Bedeutung der Normalverteilung für die Wahrscheinlichkeitstheorie deutlich unterstrichen. 5.2 Tschebyscheff’sche Ungleichung In einigen Anwendungsfällen ist von einer Zufallsvariablen X nur wenig über das explizite Zufallsverhalten bekannt; insbesondere liegt die Kenntnis der Wahrscheinlichkeitsdichtefunktion nicht vor. Wenn allerdings wenigstens der Erwartungswerts E{X} und die Standardabweichung σ dieser Zufallsvariablen bekannt sind, dann kann man bereits eine gute Abschätzung über das wahrscheinlichkeitstheoretische Verhalten der Zufallsvariablen X berechnen. Das ist die Ausgangssituation für die Tschebyscheff’sche Ungleichung, die für alle Zufallsvariablen gilt, für die der Erwartungswert und die Standardabweichung bekannt sind. Lediglich aus der Kenntnis des Erwartungswertes und der Standarabweichung einer Zufallsvariablen X kann folgende grobe Abschätzung über das wahrscheinlichkeitstheoretische Verhalten dieser Zufallsvariablen hergeleitet werden: 134 5.2. TSCHEBYSCHEFF’SCHE UNGLEICHUNG Tschebyscheff’sche Ungleichung Definition 5.3 (Tschebyscheff’sche Ungleichung) Es sei X eine reelle Zufallsvariable mit dem Erwartungswert E{X} und der Varianz σ 2 . Dann gilt für alle t > 0 P (|X − E{X}| ≥ tσ) ≤ bzw. P (|X − E{X}| ≥ t) ≤ 1 t2 σ2 t2 ❍ Die Tschebyscheff’sche Ungleichung gilt für alle Zufallsvariablen auch bei unbekannter Wahrscheinlichkeitsdichtefunktion. An den beiden folgenden Beispielen wird die Genauigkeit der Tschebyscheff’schen Approximation überprüft: Beispiel 5.5 (Produktion von Maschinenteilen) In einer Fabrik für Maschinenteile hat ein bestimmtes Teil einen Solldurchmesser von 12,5 mm. Dieser Wert darf um maximal 0,2 mm über- bzw. unterschritten werden, d.h. fehlerfreie Teile haben einen Durchmesser im Intervall [12, 3; 12, 7]mm. Von den produzierten Maschinenteilen sei bekannt, dass der Erwartungswert E{X} sämtlicher gemessenen Durchmessers genau 12,5 mm betrüge und dass die resultierenden Abweichungen bzw. Produktionsfehler durch eine Standardabweichung von σ = 0, 08mm quantitativ angegeben werden kann. Mit Hilfe der Tschebyscheff’schen Ungleichung kann jetzt ohne explizite Kenntnis der Wahrscheinlichkeitsdichtefunktion die Wahrscheinlichkeit berechnet bzw. eine Abschätzung angegeben werden, mit denen die produzierten Maschinenteile außerhalb des geforderten Toleranzbereiches liegen. P (|X − 12, 5| ≥ 0, 2) ≤ 0, 082 = 0, 16. 0, 22 Maximal 16% der produzierten Maschinenteile können also außerhalb der vorgegebenen Toleranzgrenzen liegen. Aus Kenntnis des Erwartungswertes und der Standardabweichung kann aber sicher ausgesagt werden, dass mindestens 84% der Maschinenteile innerhalb der geforderten Toleranzgrenze liegen. Wäre die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen X explizit bekannt, dann könnte die Wahrscheinlichkeit, mit der die Maschinenteile innerhalb der Toleranzgrenzen liegen, genau berechnet und müsste nicht durch eine Abschätzung angegeben werden. △ 135 KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE Beispiel 5.6 (Anwendung der Tschebyscheff’schen Ungleichung auf die Normalverteilung) Für eine beispielhafte Nµ,σ -normalverteilte Zufallsvariable können die in der Tschebyscheff’schen Ungleichung auftretenden Wahrscheinlichkeiten explizit wie folgt berechnet werden: P (|X −µ| ≥ 2σ) = 2(1−Φ(1)) ≈ 0.0454 P (|X −µ| ≥ 3σ) = 2(1−Φ(2)) ≈ 0.0026 0.5 0.45 0.4 0.35 fX 0.3 0.25 0.2 0.15 0.1 0.05 11111111111 00000000000 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 0 −3 −2 −1 0 11111111111 00000000000 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 1 2 3 x Abbildung 5.5: Beispiel: Anwendung der Tschebyscheff’schen Ungleichung auf die Normalverteilung Mit Hilfe der Tschebyscheff’schen Ungleichung erhält man folgende für jede beliebige Zufallsvariable X gültige sowie grob genäherte Schranken (vgl. Abbildung 5.5): P (|X − µ| ≥ 2σ) ≤ σ2 1 = 4σ 2 4 P (|X − µ| ≥ 3σ) ≤ 1 σ2 = 49σ 2 9 Aus diesem Beispiel ist zu erkennen, dass die Aussagen der Tschebyscheff’schen Ungleichung durchaus sehr grob sind, gemessen an der expliziten Kenntnis der Wahrscheinlichkeitsdichtefunktion. Aber die Abschätzung liefert trotzdem ein interessantes Ergebnis, weil diese Angaben für alle Zufallsvariablen X gültig sind. △ 5.3 Gesetz der großen Zahlen In der Praxis ist die Verteilungsfunktion einer Zufallsvariablen oder zumindest deren Parameter (Erwartungswert, Varianz) fast immer unbekannt. Falls von einer Zufallsvariablen X mehrere Realisierungen bekannt sind, dann können die unbekannten Parameter der Verteilungsfunktion durch Anwendung der obigen Grenzwertsätze sehr gut geschätzt werden. Um die unbekannten Parameter der Verteilungsfunktion einer Zufallsvariablen X zu bestimmen, werden mehrere Realisierungen Xi dieser Zufallsvariablen gewonnen. Aus diesen zufälligen Werten Xi sollen Parameter der Verteilungsfunktion, wie Erwartungswert und Varianz, geschätzt werden. Das Gesetz der großen Zahlen sagt beispielsweise 136 5.3. GESETZ DER GROSSEN ZAHLEN aus, dass der Erwartungswert mit steigender Anzahl von Messwerten bzw. Realisierungen immer genauer durch das arithmetische Mittel geschätzt werden kann. 5.3.1 Schwaches Gesetz der großen Zahlen Grenzwerte von Zahlenfolgen und deren Konvergenzverhalten sind aus dem Bereich der Analysis bekannt. Bei einer Folge von Funktionen wurde zusätzlich zwischen punktweiser und gleichmäßiger Konvergenz unterschieden. Dieser Sachverhalt soll hier auf Folgen von Zufallsvariablen und eine stochastische Konvergenz übertragen werden. Schwaches Ge- Definition 5.4 (Schwache stochastische Konvergenz) Eine Folge Xn , n ∈ N von Zu- setz der großen fallsvariablen konvergiert stochastisch gegen eine Zufallsvariable X, falls gilt Zahlen lim P (|Xn − X| ≥ ǫ) = 0. n→∞ (5.17) Diese Aussage der schwachen stochastischen Konvergenz kann auf das folgende Beispiel übertragen und dort direkt angewandt werden. Es wird eine Folge X1 , X2 , . . . statistisch unabhängiger identisch verteilter Zufallsvariablen betrachtet. Daraus wird eine weitere Folge von Zufallsvariable Zn berechnet, die jeweils den arithmetischen Mittelwert über insgesamt n Zufallsvariable Xi bildet. n Zn = 1X Xi n i=1 (5.18) Erwartungswert E{Zn } und Varianz V AR{Zn } dieser Zufallsfolge Zn können wie folgt berechnet werden: E{Zn } = E{X}V AR{Zn } = 2 σX n (5.19) Mit der Tschebyscheff’schen Ungleichung gilt: P n ! 1 X σ2 Xi − E{X} > ǫ = P (|Zn − E{X}| > ǫ) ≤ X 2 n n·ǫ i=1 (5.20) Die Folge dieser Zufallsvariablen Zn konvergiert also gegen den gemeinsamen Erwartungswert E{X} im Sinne des obigen Konvergenzkriteriums, wenn man in der obigen Gleichung den Grenzübergang für n gegen Unendlich berechnet, d.h. lim P n→∞ n ! 1 X Xi − E{X} > ǫ = 0. n i=1 137 (5.21) ❍ KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE 1.4 n=1 n=2 n=4 n=10 1.2 1 fX(x) 0.8 0.6 0.4 n 0.2 0 −3 −2 −1 0 x 1 2 3 Abbildung 5.6: Mit steigender Anzahl n der Messungen sinkt die mittlere Abweichung des gemessenen arithmetischen Mittelwerts vom Erwartungswert. Bei dieser stochastischen Konvergenz handelt es sich um eine schwache Form der Konvergenz, vergleichbar mit der punktweisen Konvergenz bei Funktionenfolgen in der Analysis. Auch hier sind bei großen Werten für n noch starke Ausreißer bzw. Abweichungen grundsätzlich möglich, allerdings geht deren Wahrscheinlichkeit im Grenzfall gegen Null. Bedeutung Abbildung 5.6 zeigt beispielhaft die Verteilungsfunktion der berechneten arithmetischen n P Mittelwerte Zn = n1 Xi für unterschiedliche Werte n, siehe Gleichung (5.18). Aus i=1 diesem Bild ist erkennbar, dass die resultierende Varianz mit wachsendem n gegen den Wert Null geht. Dementsprechend sinkt auch die Wahrscheinlichkeit, mit der die Werte Zn außerhalb einer vorgegebenen ǫ-Umgebung liegen. Falls der Wert n gegen unendlich geht, dann schrumpft die Verteilungsfunktion auf einen einzigen Punkt, den Erwartungswert E(X), der Zufallsvariablen Xi . Die Folge der Zufallsvariablen Zn konvergiert also stochastisch gegen der Erwartungswert E(X) im Sinne des in Gleichung (5.21) beschriebenen Konvergenzkriteriums. Danach verringert sich die Wahrscheinlichkeit, mit der die Werte Zn außerhalb einer vorgegebenen ǫ Umgebung liegen kontinuierlich mit wachsendem Wert n. Für jeden Wert n kann die in Gleichung (5.21) angegebene Wahrscheinlichkeit n ! 1 X Xi − E{X} > ǫ = P (|Zn − E{X}| > ǫ) P n (5.22) i=1 direkt berechnet werden. Diese so entstandene reellwertige Zahlenfolge konvergiert im Sin138 5.3. GESETZ DER GROSSEN ZAHLEN Zn 9 ε−Blende 8 µ+ε 7 µ 6 µ−ε 5 ε−Blende 4 3 0 5 10 15 n1 n(ε, ε‘) 20 25 n2 30 n Abbildung 5.7: Passieren einzelner Partikel an einer Blende ne der Analysis gegen Null. Anschauliche Darstellung der schwachen stochastischen Konvergenz Es werden Partikel beobachtet, die eine Blende passieren. Dazu wird ein ǫ Umgebung vorgegeben. Die Werte der Wahrscheinlichkeiten P (|Zn − E{X}| > ǫ) stellen eine gegen Null konvergierende Zahlenfolge dar. Das bedeutet, die Wahrscheinlichkeit, mit der die Partikel außerhalb der ǫ Umgebung angeordnet sind, wird mit wachsendem Wert n kontinuierlich kleiner. In Abbildung 5.7 sind zwei Realisierungen einer Folge Zn zusammen mit zwei ǫ Blenden zu unterschiedlichen Zeiten n dargestellt. 5.3.2 Starkes Gesetz der großen Zahlen Bei der schwachen stochastischen Konvergenz konnte es durchaus passieren, dass eine Zufallsvariable Zn eine ǫ Blende zum Zeitpunkt n1 passiert, aber zu einem späteren Zeitpunkt n2 sich außerhalb der ǫ Blende befindet. Die Wahrscheinlichkeit für solche Ereignisse ist allerdings sehr klein. Starkes Definition 5.5 (Starke stochastische Konvergenz) Eine Folge von Zufallsvariablen Xn , n ∈ N konvergiert fast sicher (mit der Wahrscheinlichkeit 1) gegen eine Zufallsvariable X, falls gilt P lim |Xn − X| = 0 = 1. n→∞ 139 (5.23) Gesetz der großen Zahlen KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE 9 8 7 ε−Streifen µ+ε Zn µ 6 µ−ε 5 4 3 0 5 10 15 20 25 n 30 35 40 45 50 n(ε, ε‘) Abbildung 5.8: Verbleiben in einem ǫ Streifen bei der starken stochastischen Konvergenz Bei dieser starken stochastischen Konvergenz wird gefordert, dass ab einem gegebenen Index n alle folgenden Zufallsvariablen Zn innerhalb der ǫ Blende liegen müssen. Die Folge der Zufallsvariablen Zn verbleibt somit in einem vorgegebenen ǫ Streifen. Dies Forderung führt auf die folgende Konvergenzbedingung: P lim |Zn − µ| = 0 = 1 n→∞ und wird als starke stochastische Konvergenz bezeichnet. Anschauliche Darstellung der starken Konvergenz In Abbildung 5.8 ist eine ǫ Blende eingezeichnet verbunden mit der oben formulierten Forderung, dass sämtliche Zufallsvariable Zn ab einem vorgegebenen Index n Werte innerhalb der ǫ Blende annehmen müssen. In Abbildung 5.8 sind zwei Zufallsfolgen Zn basierend auf den berechneten arithmetischen Mittelwerten beispielhaft dargestellt. Mit großer Wahrscheinlichkeit verbleibt die Folge Zn im Bereich eines vorgegebenen ǫ Streifens. Die aus den statistisch unabhängigen und identisch verteilten Zufallsvariablen X1 , X2 , . . . berechnete Folge der arithmetischen Mittelwerte Zn , n Zn = 1X Xi n i=1 (5.24) konvergiert auch nach dem Kriterium der starken stochastischen Konvergenz gegen den 140 5.4. ZUSAMMENFASSUNG gemeinsamen Erwartungswert E{X}, d.h. n P 1X Xi = E{X} lim n→∞ n i=1 ! =P lim Zn = E{X} = 1. n→∞ (5.25) ❍ 5.4 Zusammenfassung • Grenzwertsätze Beschreiben die Konvergenz der Summe von unabhängigen Zufallsvariablen gegen die Normalverteilung. Besondere Bedeutung der Normalverteilung! • Gesetz der Großen Zahlen Beschreibt die Konvergenz einer Zufallsfolge Zn gegen deren Erwartungswert µ. lim P (|Zn − µ| < ǫ) = 1 stark: P lim Zn = µ = 1 schwach: n→∞ n→∞ 141 KAPITEL 5. FOLGEN STOCHASTISCHER GRÖSSEN UND GRENZWERTSÄTZE 142 Teil II Stochastische Prozesse 143 Kapitel 6 Stochastische Prozesse Das in der Wahrscheinlichkeitstheorie wichtige Konzept der Zufallsvariablen wurde in den vorausgegangenen Kapiteln ausführlich behandelt. Bei dieser Betrachtung wurde das Eintreten zufälliger Ereignisse durch das Konzept der Zufallsvariablen quantitativ beschrieben. Das stochastische Verhalten dieser Zufallsvariablen wurde durch Verteilungsfunktion, Wahrscheinlichkeitsdichtefunktion oder durch zugehörige Momente eindeutig bestimmt. Zusätzlich wurden Folgen von Zufallsvariablen und deren Grenzwert betrachtet, wobei die wichtige Annahme im Vordergrund stand, dass diese Zufallsvariablen statistisch unabhängig und identisch verteilt seien. Dementsprechend wurde bei den Grenzwertsätzen die hohe Bedeutung des arithmetischen Mittelwertes vor dem Hintergrund dieser Annahmen erkannt. In der Theorie der stochastischen Prozesse wird ein anderer, zusätzlicher Sachverhalt in den Vordergrund gestellt. Dabei geht es beispielsweise um die Beobachtung eines zufälligen Signals über der Zeit. Es wird also nicht nur eine einzelne Zufallsvariable, sondern eine Vielzahl, eine Menge von Zufallsvariablen, ein so genannter Zufallsprozess betrachtet. Dabei soll insbesondere der zeitlich dynamische Aspekt im Verhalten der Zufallsvariablen untersucht werden. Von zentraler Bedeutung ist die stochastische Bindung der zeitlich benachbarten zufälligen Werte, die durch den Begriff der Korrelation zwischen Zufallsvariablen ausgedrückt wird. Stochastische Prozesse sind Familien (Mengen) von Zufallsvariablen X(t), die durch einen Parameter t, bzw. eine Indexmenge gekennzeichnet sind. Dabei durchläuft t einen geeigneten Parameterraum, der den natürlichen Zahlen N oder auch den reellen Zahlen R entsprechen kann und in den meisten Anwendungen die Bedeutung einer Zeitvariablen hat. Beispiel 6.1 (Lagerhaltung) Ein bestimmter Artikel werde in einem Lager gehalten. Am Ende jeder Periode, ausge145 KAPITEL 6. STOCHASTISCHE PROZESSE drückt durch den Zeitpunkt t (Tag, Woche, . . . ), wird der Lagerbestand X(t) festgestellt. Dieser Lagerbestand hängt ab vom momentanen Bedarf Y (t) zum Zeitpunkt t und von den Bestellregeln, welche die Lagerzufuhr bestimmen und damit eine Grundlage für ein Regelsystem bilden. Eine mögliche Annahme über den Bedarfsprozess wäre, dass Y (t) unabhängige identisch verteilte diskrete Zufallsvariable sind mit P {Y (t) = k} = ak , k = 0, 1, 2, . . . k: Anzahl der bis zum Zeitpunkt t nachgefragten Einheiten des Artikels, und dass die Bestellregel vom (s, S)-Typ ist, d.h. das Lager wird bis auf S Einheiten aufgefüllt, wenn der Bestand unter den Bestellpunkt s gesunken ist. Negative Lagerbestände sind als Vormerkungen zu interpretieren. Interessieren wird man sich zum Beispiel für eine kostenoptimale Größe S des Lagers △ und des Bestellpunktes s. Beispiel 6.2 (Warteschlangen) Zu zufälligen Zeitpunkten treffen „Kunden“ vor einem „Schalter“ ein und fordern eine „Bedienung“. Diese Bedienung erfordert eine bestimmte zufällige Abfertigungszeit. Der Stochastische Prozess X(t) ist in diesem Fall durch die Anzahl der zur Zeit t wartenden Kunden beschrieben. Die Warteschlangen- (Bedienungs-) Theorie stellt die Methoden bereit, um wichtige Kenngrößen – wie z.B. die mittlere Wartezeit eines Kunden oder den Auslastungsgrad – eines Warteschlangensystems zu ermitteln. △ Bei jedem Betriebssystem eines Digitalrechners kann der Zugriff auf den Prozessor durch ein Warteschlangensystem beschrieben werden. Aus den theoretischen Analysen kann dann der mittlere Durchsatz und die mittlere Wartezeit berechnet werden. 6.1 Definition eines stochastischen Prozesses Gegeben sei ein Wahrscheinlichkeitsraum (Ω, A, P ) und eine nichtleere Indexmenge T . Stochastischer Definition 6.1 (stochastischer Prozess) Ein stochastischer Prozess ist durch eine Menge Prozess (Familie) X(t) = {Xt , t ∈ T } von Zufallsvariablen auf (Ω, A, P ) mit dem gemeinsamen X(t) Wertebereich E beschrieben. Der Wertebereich E wird als Zustandsraum bezeichnet und ist im allgemeinen durch die reellen Zahlen gekennzeichnet. Der Parameterraum wird mit T beschrieben und hat im allgemeinen die Bedeutung einer reellen Zeitvariablen. 146 ❍ 6.1. DEFINITION EINES STOCHASTISCHEN PROZESSES X(t) wird als zeitdiskreter stochastischer Prozess bezeichnet, falls der Parameterraum T abzählbar viele Zeitpunkte enthält. Ein stochastischer Prozess wird dagegen als zeitkontinuierlich bezeichnet, falls der Parameterraum T überabzählbar viele Zeitpunkte enthält. Entsprechend kann auch zwischen einem diskreten und einem kontinuierlichen Zustandsraum E unterschieden werden. Wir wollen uns im Folgenden im Wesentlichen darauf beschränken, dass der Zustandsraum E durch die Menge der reellen Zahlen beschrieben ist. 6.1.1 Musterfunktionen In Definition 6.1 wird ein stochastischer Prozess als eine Menge von Zufallsvariablen (ZV) erklärt, d.h. es steht dabei (scheinbar) folgende Auffassung eines stochastischen Prozesses im Vordergrund: Man hält zunächst t und damit eine bestimmte Zufallsvariable Xt , d.h. eine (messbare) Abbildung Xt : Ω → E, ω → Xt (ω) fest. Verschiedene Elemementarereignisse ω liefern dann die verschiedenen Realisierungen Xt (ω) einer einzelnen Zufallsvariablen X(t). Man kann sich aber alternativ auch vorstellen, dass zunächst ein Elementarereignis ω ausgewählt und für alle Zufallsvariablen X(t) fixiert wird: Definition 6.2 (Musterfunktion) Für jedes (fest gewählte) Elementarereignis ω ∈ Ω wird die resultierende Funktion Musterfunktion xω : T → E, x(t) t → xω (t), die man für einen festgewählten Wert ω aber für einen variablen Parameter t erhält, als Musterfunktion bzw. als Pfad, Trajektorie oder Realisierung des stochastischen Prozesses X(t) bezeichnet. Da bei stochastischen Prozessen meist unerheblich ist, welches Elementarereignis zu einer Musterfunktion führt, schreibt man häufig x(t) anstelle xω (t). ❍ Beispiel 6.3 (Nachrichtenübertragung) Zufallsvariable: Eine Signalquelle erzeugt zufällige digitale Sendesymbole X ∈ {−3, −1, 1, 3} (Abbildung 6.1). Die Wahrscheinlichkeiten P (X) bestimmen die Verteilung der Zufallsvariablen X. Stochastischer Prozess: Die Signalquelle erzeugt eine Nachricht {Xn }∞ n=0 als Sequenz der Sendesymbole Xn , die auch als Modulationssymbole bezeichnet werden. Die so entstehende Musterfunktion x(t) des betrachteten stochastischen Prozesses ist gegeben durch 147 KAPITEL 6. STOCHASTISCHE PROZESSE Im 4-ASK Re -3 -1 1 3 Abbildung 6.1: Verteilung des Signals zum betrachteten Zeitpunkt den Signalverlauf über der Zeit (Abbildung 6.2), der sich durch die zufällige Auswahl der Sendesymbole Xn ergibt: x(t) = ∞ X n=0 xn · rect(t − nT ). In diesem Beispiel werden ein rechteckförmiger Modulationsimpuls und eine Symboldauer △ von T angenommen. x(t) 3 1 t -1 -3 Abbildung 6.2: Verlauf des Signals über der Zeit Beispiel 6.4 (Thermisches Rauschen) Jede Spannung einer Schaltung wird durch Störgrößen verändert. Ursache hierfür ist u. a. das thermische Rauschen. Die thermische Rauschleistung eines Widerstandes in einem Frequenzinterval fg berechnet sich aus: E{u2 (t)} = 4fg kTabs R mit k = 1, 38 · 10−23 W K (Boltzmann-Konstante) und der absoluten Temperatur Tabs . Jede Messung der Rauschspannung ergibt eine Musterfunktion des Rauschprozesses. 148 △ 6.2. BESCHREIBUNG STOCHASTISCHER PROZESSE 6.2 Beschreibung stochastischer Prozesse Zunächst stellt sich die wichtige Frage, wie das Verhalten eines solchen stochastischen Prozesses analytisch beschrieben werden kann. Um die analytische Beschreibung vereinfachen und verallgemeinern zu können, werden einige über das Konzept der Zufallsvariablen hinausgehende Eigenschaften definiert. Diese können bei vielen stochastischen Prozessen vorausgesetzt werden und ermöglichen damit eine stark vereinfachte Beschreibung. 6.2.1 Stationarität Da ein stochastischer Prozess durch eine Menge von Zufallsvariablen dargestellt werden kann, lässt er sich auch entsprechend durch eine Menge von Wahrscheinlichkeitsdichtefunktionen beschreiben. So existiert für jedes t ∈ T = {t1 , . . . , tN } eine Wahrscheinlichkeitsdichtefunktion fx(t) (x). Der gesamte stochastische Prozess lässt sich dann durch die Verbund-Wahrscheinlichkeitsdichte fx(t1 ),...,x(tN ) (x1 , . . . , xN ) erfassen und analytisch beschreiben. Definition 6.3 (streng stationär) Ein stochastischer Prozess X(t) = {Xt , t ∈ T } heißt streng stationär, falls gilt: streng stationär ∀n ∈ N : ∀τ, t1 , . . . , tn ∈ T : f(x(t1 ),...,x(tn )) (x1 , . . . , xn ) = f(x(t1 +τ ),...,x(tn +τ )) (x1 , . . . , xn ). D.h., die (endlich-dimensionalen) Wahrscheinlichkeitsdichtefunktionen sind invariant ge❍ genüber Zeitverschiebungen. Diese Definition ist technisch aber nur sehr schwer überprüfbar, weshalb in den meisten Fällen eine abgeschwächte Bedingung zur Stationarität verlangt wird. Diese ist für viele praktische Anwendungen ausreichend und günstig anwendbar. Definition 6.4 (Autokorrelation/-kovarianz) Sei X(t) ein beliebiger stochastischer Prozess bei dem die zweiten Momente der einzelnen Zufallsvariablen endliche Werte annehmen. Dann heißt die auf T × T definierte Funktion r(t, s) = Cov(Xt , Xs ) = E{(Xt − µt ) · (Xs − µs )} Kovarianzfunktion Korrelationskoef(6.1) (Auto-) Kovarianzfunktion und Cov(Xt , Xs ) ρ(t, s) = p V ar{Xt }V ar{Xs } (Auto-) Korrelationskoeffizient von X(t). 149 (6.2) ❍ fizient KAPITEL 6. STOCHASTISCHE PROZESSE Aufgrund der Normierung liegt der Wert des Korrelationskoeffizienten stets im Bereich zwischen -1 und +1. Sei X(t) ein streng stationärer Prozess. Dann sind E{Xt } = µ und V ar{Xt } = σ 2 unabhängig von t und die Kovarianzfunktion hängt nur von der Differenz h = t − s ab. Bezeichnen wir sie mit r(τ ), so gilt also r(τ ) = Cov(Xt+τ , Xt ) = Cov(Xτ , X0 ). (6.3) Die Autokovarianzfunktion r(τ ) besitzt dann folgende Eigenschaften: • r(τ ) = r(−τ ), d.h. r(τ ) ist eine gerade Funktion, (6.4) • r(τ ) ≤ r(0) = σ 2 , (6.5) • r(τ ) ist positiv definit: ∀n ∈ N : ∀a1 , . . . , an ∈ R; n X ai aj · r(ti − tj ) ≥ 0. ∀t1 , . . . , tn ∈ T (6.6) i,j=1 Anstelle der Forderung nach strenger Stationarität reicht es in den meisten Fällen aus, wenn die obigen Eigenschaften der Autokovarianzfunktion erfüllt sind. Definition 6.5 ((schwach) stationär) Ein stochastischer Prozess heißt (schwach) statio(schwach) stationär när oder stationär im weiteren Sinne, falls gilt: Für alle t ist E{Xt } = µ, und die Kovarianzfunktion hängt für beliebiges τ nur von der Zeitdifferenz t − s = τ aber nicht von der absoluten Zeit t ab, also r(τ ) = Cov(Xt+τ , Xt ). ❍ Wenn im Folgenden von Stationarität gesprochen wird, ist i.A. von schwacher Stationarität die Rede. Die Angabe der Autokovarianzfunktion (oder der in Abschnitt 6.3 beschriebenen Autokorrelationsfunktion) übernimmt die Beschreibung der stochastischen Bindung der einzelnen auf der Zeitachse angeordneten Zufallsvariablen untereinander. Diese Autokovarianzfunktion bzw. Autokorrelationsfunktion erweitert das bisherige Konzept der einzelnen Zufallsvariablen und eröffnet die Möglichkeit stochastische Prozesse zu analysieren. Mit Hilfe dieser Definition der Stationarität ist es möglich, die Momente eines stochastischen Prozesses zu jedem beliebigen Zeitpunkt aus einer Schar von Musterfunktionen zu bestimmen. Dies wird veranschaulicht in Abbildung 6.3. 150 6.2. BESCHREIBUNG STOCHASTISCHER PROZESSE x(1)(t) t x(2)(t) t x(3)(t) t Schaarmittelwerte E{x(t1)}=E{x(t2)} Abbildung 6.3: Bestimmung des Erwartungswertes über eine Schar von Musterfunktionen 6.2.2 Ergodizität Die Annahme der Stationarität ist für praktische Anwendungen außerordentlich hilfreich, weil der beobachtete Prozess zu jedem Zeitpunkt sofort analysiert und durch seine Autokorrelationsfunktion vollständig beschrieben werden kann. Allerdings ist die Beobachtung vieler Musterfunktionen notwendig, um einen genügend großen Stichprobenumfang zur Schätzung der Prozessparameter zur Verfügung zu haben. In der Praxis ist aber in der Regel nur eine Musterfunktion eines stochastischen Prozesses bekannt, so dass auch nur diese Information für eine statistische Analyse zur Verfügung steht. Aus diesem Grund wird das Konzept der Stationarität erweitert und eine zusätzliche Forderung erhoben, die durch den Begriff der Ergodizität definiert wird. Definition 6.6 (Ergodizität) Gegeben ist ein im weiteren Sinne stationärer stochastischer Prozess X(t). Wenn sämtliche Schaarmittelwerte E{Xt } des Prozesses X(t) identisch sind mit den Zeitmittelwerten X jeder einzelnen Musterfunktion x(t), d.h. n E{x(t) } = Z∞ −∞ 1 ξ fX (ξ) dξ = lim T →∞ 2T n so spricht man von einem ergodischen Prozess. ZT xni (t) dt ∀n. −T ❍ Wenn von vornherein bekannt ist, dass es sich bei einem gegebenen stochastischen Prozess um einen ergodischen Prozess handelt, dann können die gesuchten Momente durch die Mittelung über eine einzige Musterfunktion bestimmt werden, wie man in Abbildung 6.4 erkennen kann. Ein ergodischer Prozess beinhaltet bereits in einer einzigen Realisierung 151 Ergodizität KAPITEL 6. STOCHASTISCHE PROZESSE x(1)(t) t x(2)(t) t x(3)(t) t Schaarmittelwert E{x(t1)} = Zeitmittelwert x(t) Abbildung 6.4: Ergodizität die gesamte dem Prozess innewohnende stochastische Vielfalt und bietet damit den Stichprobenumfang zur Schätzung der Prozessparameter. 6.3 Autokorrelationsfunktion In Definition 6.4 wurden schon die Autokorrelations- und Autokovarianzfunktionen vorgestellt. Diese unterscheiden sich nur durch einen Normierungsfaktor V ar{X(t)}. Die Autokorrelationsfunktion (AKF) rxx (t1 , t2 ) eines stochastischen Prozesses X(t) berechnet sich allgemein mittels: rxx (t1 , t2 ) = E{x(t1 )x(t2 )} (6.7) Für einen im weiteren Sinne stationären Prozess vereinfacht sich die Rechenvorschrift, da nur noch die Differenz der Betrachtungszeitpunkte von Interesse ist: rxx (τ ) = E{x(t)x(t − τ )} (6.8) Bei einem stationären und ergodischen Prozess ergibt sich die AKF aus einer Musterfunktion x(t): 1 T →∞ 2T rxx (τ ) = lim ZT −T 152 x(t) · x(t − τ ) dt (6.9) 6.3. AUTOKORRELATIONSFUNKTION 6.3.1 Beschreibung von diskreten stochastischen Prozessen Die Autokorrelationsfolge (AKF) eines zeitdiskreten, stationären und ergodischen stochastischen Prozesses berechnet sich entsprechend: N X 1 x(n) · x(n + m) N →∞ 2N + 1 rxx (m) = lim (6.10) n=−N 6.3.2 Eigenschaften der Autokorrelationsfunktion Die Autokorrelationsfunktion besitzt einige Eigenschaften, mit denen man einige Kenngrößen direkt ablesen kann: • Mittlere Leistung des Prozesses rxx (m) ≤ rxx (0) = E{|X(m)|2 } = σx2 + µ2x (6.11) • Reelle, gerade Funktion rxx (−m) = rxx (m) (6.12) • Konvergenz für nicht periodische Prozesse lim rxx (m) = µ2x m→∞ (6.13) 6.3.3 Kreuzkorrelation von stochastischen Prozessen In vielen Anwendungen werden stochastische Prozesse miteinander kombiniert. Ein häufiger Fall ist hierbei die Addition zweier stochastischer Prozesse. Dies tritt zum Beispiel dann auf, wenn ein Nachrichtensignal bei der Übertragung mit einem Kanalrauschen überlagert wird. Wir betrachten also den Fall der Addition von zwei stationären Prozessen: X(t) = U (t) + V (t) (6.14) Da wir wissen, dass ein (ergodischer) stochastischer Prozess eindeutig durch seine Autokorrelationsfunktion beschrieben ist, interessiert uns nun vor allem, wie die Autokorrelationsfunktion des Summenprozesses aussieht: rxx (τ ) = E{(U (t) + V (t))(U (t + τ ) + V (t + τ ))} = E{U (t)U (t + τ )} + E{U (t)V (t + τ )} + E{V (t)U (t + τ )} + E{V (t)V (t + τ )} = ruu (τ ) + ruv (τ ) + rvu (τ ) + rvv (τ ) 153 (6.15) KAPITEL 6. STOCHASTISCHE PROZESSE Wie man sieht, kommen bei der Überlagerung der Prozesse zu den AKF der einzelnen Prozesse noch Korrelationsterme beider Prozesse hinzu. Definition 6.7 (Kreuzkorrelationsfunktion) Man bezeichnet ruv (τ ) = E{U (t)V (t + τ )} = rvu (−τ ) Kreuzkorrelation ruv (τ ) (6.16) als Kreuzkorrelationsfunktionen (KKF) der stochastischen Prozesse U (t) und V (t). ❍ Als Leistung des Summenprozesses ergibt sich: rxx (0) = ruu (0) + rvv (0) + 2ruv (0) (6.17) 6.3.4 Autokovarianzfolge Autokovarianz Die Autokovarianz cxx (m) beschreibt die korrelativen Eigenschaften eines mittelwertfrei- cxx (m) en Prozesses: cxx (m) = E{(X(n) − µx ) · (X(n + m) − µx )} = rxx (m) − µ2x (6.18) Mit Hilfe der Autokovarianz kann man die Varianz eines stochastischen Prozesses ermitteln: V ar{x(t)} = cxx (0) = E{x2 (t)} − µ2x (6.19) 6.4 Prognoseverfahren für stochastische Prozesse Gegeben sei ein stochastischer ergodischer Prozess v(n) mit seiner Autokorrelationsfunktion rvv (k). Die einzelnen Zufallsvariablen v(n) dieses stochastischen Prozesses sollen so gut es geht aus den in der Vergangenheit beobachteten Werten durch eine lineare Verarbeitung vorhergesagt werden. Der vorhergesagte Wert wird mit v̂(n) bezeichnet und ist wie folgt definiert: v̂(n) = N X i=1 pi · v(n − i) Die Koeffizienten pi sollen so berechnet und eingestellt werden, dass ein minimaler quadratischer Fehler zwischen dem nächsten Wert v(n) und dem prognostizierten Wert v̂(n) entsteht. FN = min p1 ,p2 ,...pN E{(v(n) − v̂(n))2 } 154 6.4. PROGNOSEVERFAHREN FÜR STOCHASTISCHE PROZESSE Zur Lösung dieser Optimierungsaufgabe wird die Zielfunktion FN partiell nach den Parametern bzw. Koeffizienten pλ mit λ = 1 . . . N abgeleitet: FN = E δFN =E δpλ ( v(n) − −2 · v(n − λ) · N X i=1 !2 pi · v(n − i) v(n) − N X i=1 !) pi · v(n − i) ! =0 Unter Zuhilfenahme der Autokorrelationsfunktion rvv (λ) = E{v(n) · v(n − λ)} folgt die Vereinfachung: −2rvv (λ) + 2 N X i=1 ! pi rvv (λ − i) = 0 Hieraus ergibt sich ein lineares Gleichungssystem, das für λ = 1, . . . , N wie folgt ausführlich angegeben werden kann: rvv (0) rvv (1) · · · rvv (n − 2) rvv (n − 1) rvv (1) .. . rvv (0) .. . · · · rvv (n − 3) .. .. . . rvv (n − 2) .. . rvv (n − 2) rvv (n − 3) · · · rvv (0) rvv (1) rvv (n − 1) rvv (n − 2) · · · rvv (1) rvv (0) Somit ergibt sich in kompakter Matrixschreibweise: p1 p2 .. . pN−1 pN = rvv (1) rvv (2) .. . rvv (N − 1) rvv (N ) . [Rvv ] · ~p = ~rvv Dieses lineare Gleichungssystem kann durch Invertierung der Kovarianzmatrix Rvv direkt gelöst werden: p~ = [Rvv ]−1 · ~rvv Im Folgenden wird zusätzlich ein sehr einfaches Lösungsverfahren dieses linearen Gleichungssystems beschrieben, das rekursiv aufgebaut ist. 6.4.1 Levinson-Algorithmus Bei diesen Prognoseverfahren muss zur Bestimmung der Prädiktorkoeffizienten pi folgendes lineare Gleichungssystem gelöst werden: [Rvv ] ~p = ~rvv 155 KAPITEL 6. STOCHASTISCHE PROZESSE Die Kovarianzmatrix Rvv hat in ausgeschriebener Form folgende Streifenstruktur, die auch als Toeplitz-Matrix bezeichnet wird: · · · rvv (n − 1) p1 rvv (1) rvv (0) · · · rvv (n − 2) p2 rvv (2) rvv (1) · = .. .. .. .. .. .. . . . . . . pn rvv (n − 1) rvv (n − 2) · · · rvv (0) rvv (n) rvv (0) rvv (1) Löst man dieses lineare Gleichungssystem mit Hilfe des Gauß-Algorithmus, so erfordert dies einen Aufwand von O(n3 ) Rechenoperationen. Da es sich hier um eine ToeplitzMatrix handelt, lässt sich zur Lösung des linearen Gleichungssystems der stark aufwandsreduzierte Levinson-Algorithmus verwenden. Dieses Verfahren berechnet die Lösung für die Koeffizientenanzahl bzw. Ordnung n rekursiv aus der Lösung für die Ordnung n − 1. Dadurch reduziert sich der Aufwand dann auf O(n2 ). Bei bekannter Lösung des Gleichungssystems für die Ordnung n − 1 pn−1 = [Rvv ]−1 ~ rvv,n−1 n−1 ~ hat das Gleichungssystem für die Ordnung n folgende Gestalt: rvv (0) rvv (1) · · · rvv (n − 2) rvv (n − 1) rvv (1) .. . rvv (0) .. . · · · rvv (n − 3) .. .. . . rvv (n − 2) .. . rvv (n − 2) rvv (n − 3) · · · rvv (0) rvv (1) rvv (n − 1) rvv (n − 2) · · · rvv (1) rvv (0) p1,n p2,n .. . pn−1,n pn,n = rvv (1) rvv (2) .. . rvv (n − 1) rvv (n) Zur besseren Übersicht kann man das lineare Gleichungssystem in einer vereinfachten Schreibweise darstellen: [Rvv ]n−1 ([Q] ~rvv,n−1 )T [Q] ~rvv,n−1 ~p·,n rvv (0) pn,n Hierbei bezeichnet man mit Q die Inversionsmatrix: 0 0 ··· 0 0 0 · · · 1 . . . Q = .. .. . . . .. 0 1 · · · 0 1 0 ··· 0 1 ~rvv,n−1 = rvv (n) 0 .. . 0 0 mit der die Reihenfolge der Koeffizienten in einem Vektor vertauscht wird. Zur Lösung des gesamten Gleichungssystems teilt man die Aufgabe in zwei Teilaufgaben der folgenden 156 6.4. PROGNOSEVERFAHREN FÜR STOCHASTISCHE PROZESSE Form auf: [Rvv ]n−1 ~ p·,n + pn,n [Q] ~rvv,n−1 = ~rvv,n−1 (6.20) ([Q] ~rvv,n−1 )T p~·,n + pn,n rvv (0) = rvv (n) (6.21) Wird der Koeffizient pn,n zunächst als bekannt vorausgesetzt, so erhält man aus dem oberen Gleichungssystem (6.20): −1 p·,n = [Rvv ]n−1 ~ (~rvv,n−1 − pn,n [Q] ~rvv,n−1 ) −1 = p~n−1 − pn,n [Q][Rvv ]n−1~rvv,n−1 = p~n−1 − pn,n [Q]~ pn−1 pn−1,n−1 p1,n−1 pn−2,n−1 p2,n−1 = .. .. − pn,n . . p1,n−1 pn−1,n−1 Dieses sehr erstaunliche Ergebnis zeigt, dass aus der Kenntnis der Lösung für die Ordnung n − 1 direkt die Lösung für die Ordnung n mit dieser einfachen Vorschrift berechnet werden kann. Aus der zweiten Gleichung (6.21) wird schließlich der noch zu berechnende Koeffizient pn,n durch einsetzen von ~ p·,n hergeleitet: ([Q] ~rvv,n−1 )T · (~ pn−1 − pn,n [Q]~ pn−1 ) + pn,n rvv (0) = rvv (n) pn,n (rvv (0) − ([Q] ~rvv,n−1 )T · [Q]~ pn−1 ) = rvv (n) − ([Q] ~rvv,n−1 )T · p~n−1 ⇒ pn,n = = rvv (n) − ([Q] ~rvv,n−1 )T · p~n−1 rvv (0) − ([Q] ~rvv,n−1 )T · [Q]~ pn−1 n−1 P pk,n−1 · rvv (n − k) rvv (n) − k=1 n−1 P rvv (0) − k=1 pk,n−1 · rvv (k) Das rekursive Verfahren wird für die Ordnung 1 direkt durch Berechnung des einzigen Koeffizienten p1,1 begonnen: p1,1 = rvv (1) . rvv (0) Die Lösungen des linearen Gleichungssystems für alle höheren Ordnungen können direkt aus der obigen Rekursion mit dem einfachen mathematischen Verfahren berechnet werden. Gleichzeitig wird ein einfaches Kriterium zum Abbruch des Verfahrens hergeleitet: Wenn sich der quadratische Fehler für eine Prognose bei Berechnung der nächst höheren Ordnung nicht wesentlich verändert, dann wird das Verfahren gestoppt. 157 KAPITEL 6. STOCHASTISCHE PROZESSE Dabei ist es sehr hilfreich, dass auch der resultierende quadratische Fehler in jedem Rekursionsschritt wie folgt mit berechnet werden kann. FN = FN −1 · (1 − p2N,N ) 6.5 Stochastische Signale in LTI-Systemen Lineare zeitinvariante Systeme (Linear Time Invariant, LTI) haben eine zentrale Bedeutung in der gesamten Nachrichten- und Elektrotechnik. Die Übertragungseigenschaften von LTI Systemen sind für deterministische Signale ausführlich in der Vorlesung Systemtheorie beschrieben und erläutert worden. In der Systemtheorie wird zunächst die Transformationsgleichung hergeleitet, die als Ergebnis zeigt, dass für jedes beliebige Eingangssignal x(t) das resultierende Ausgangssignal y(t) durch eine Faltung y(t) = x(t) ∗ h(t) (6.22) mit der Impulsantwort h(t) des Systems hergeleitet werden kann. Dabei ist h(t) die Antwort des Systems auf einen Dirac-Impuls δ(t). Aus diesem Grund wird h(t) auch kurz als Impulsantwort des Systems bezeichnet. Eigenfunktionen Einige Eingangssignale xE (t), die so genannten Eigenfunktionen, werden bei der Übertragung durch ein solches LTI-System nicht in ihrer Form geändert, sondern lediglich mit einem vom System abhängenden Faktor multipliziert: y(t) = xE (t) ∗ h(t) = H · xE (t). (6.23) Bei diesen Eigenfunktionen handelt es sich um komplexe Exponentialfunktionen: xE (t) = ejωt = cos(ωt) + j sin(ωt). (6.24) Setzt man diese Eigenfunktionen nach Gleichung 6.24 in Gleichung 6.22 ein, so ergibt sich y(t) = e jωt ∗ h(t) = Z∞ h(τ )e jω(t−τ ) −∞ dτ = e jωt Z∞ −∞ | h(τ )e−jωτ dτ {z H(jω) (6.25) } Somit ist die in Gleichung 6.23 geforderte Eigenschaft erfüllt. Die Funktion H(jω) wird in der Systemtheorie als Übertragungsfunktion des LTI-Systems bezeichnet. Sie beschreibt anschaulich die Amplituden- und Phasenverzerrungen sämtlicher Eigenfunktionen mit vorgegebener Frequenz. 158 6.5. STOCHASTISCHE SIGNALE IN LTI-SYSTEMEN Faltungssatz Ein beliebiges Eingangssignal lässt sich als Überlagerung von Eigenfunktionen beschreiben, wobei sich die frequenzabhängigen Amplitudenfaktoren X(jω) durch Fourier-Transformation des Eingangssignals berechnen lassen. Daraus ergibt sich ein zentraler Satz der Systemtheorie, der Faltungssatz: y(t) = x(t) * h(t) ◦ | • ◦ | • ◦ | • Y (jω) = X(jω) · H(jω) In dieser bisherigen Analyse wurden determinischtische Zeitfunktionen betrachtet, die durch ein LTI System transformiert wurden. In den meisten Fällen praktischer Anwendungen sind die zu übertragenden Signale jedoch nicht deterministischer, sondern stochastischer Natur. Desweiteren wird – wie schon in Kapitel 6.3.3 erwähnt – ein stochastisches Nachrichtensignal in der Regel bei der Übertragung über einen Kanal mit einem RauschProzess additiv überlagert. Aus diesem Grund erweitern wir an dieser Stelle das Konzept der Systemtheorie mit deterministischer Anregung auf ein Konzept mit stochastischer Anregung. Es soll dabei untersucht werden, welcher Prozess am Ausgang eines LTI Systems beobachtet wird, wenn das System mit einem stochastischen Prozess angeregt wird. Glücklicherweise handelt es sich bei den Nachrichtensignalen in den meisten Fällen um ergodische stochastische Prozesse, so dass wir uns in diesem Skript auch nur auf diese Sonderfälle beschränken können. 6.5.1 Kreuzkorrelation zwischen Eingangs- und Ausgangsprozess Gegeben sei ein LTI-System mit der Impulsantwort h(t). Dieses System wird mit einem stochastischen Prozess x(t) angeregt, so dass am Ausgang wiederum ein stochastischer Prozess y(t) anliegt (Abbildung 6.5). x(t) h(t) y(t) Abbildung 6.5: Allgemeines LTI-System mit Impulsantwort h(t) Betrachtet man eine Musterfunktion der stochastischen Prozesse, so ergibt sich das Ausgangssignal durch Faltung zu: y(t) = h(t) ∗ x(t) Bei der Transformation in den Frequenzbereich erhält man daraus: Y (jω) = H(jω) · X(jω) 159 KAPITEL 6. STOCHASTISCHE PROZESSE KKF zwischen Eingangs- und An dieser Stelle interessiert nun zunächst die Kreuzkorrelation zwischen Eingangs- und Ausgangsprozess: Ausgangsprozess rxy (τ ) = E{x(t)y(t − τ )} Z∞ = E x(t) h(ξ)x(t − τ − ξ) dξ = Z∞ −∞ −∞ h(ξ)E{x(t)x(t − τ − ξ)} dξ rxy (τ ) = h(−τ ) ∗ rxx (τ ) (6.26) Wenn der stochastische Prozess x(t) also eine dirac-förmige AKF besitzt, dann beschreibt die Kreuzkorrelationsfunktion direkt die Impulsantwort h(t) des Systems. 6.5.2 Leistungsdichtespektrum Jeder stochastische Prozess ist eindeutig durch die zugehörige Autokorrelationsfunktion beschrieben. Das Leistungsdichtespektrum eines stochastischen Prozesses kann durch die Fouriertransformation der AKF hergeleitet werden: Definition 6.8 Das Leistungsdichtespektrum (LDS) Sxx (jω) eines stochastischen ProLeistungsdichte- zesses X(t) ergibt sich aus der Fouriertransformierten der AKF rxx (τ ): spektrum Sxx (jω) Sxx (jω) = F{rxx (τ )} = Z∞ rxx (τ )e−jωτ dτ (6.27) −∞ ❍ Bei Betrachtung der inversen Transformation an der Stelle τ = 0 Z∞ Z∞ 1 1 jωτ −1 Sxx (jω) e dω Sxx (jω) dω = rxx (0) = F {Sxx (jω)} τ =0 = 2π 2π −∞ τ =0 −∞ (6.28) entsteht die Leistung des stochastischen Prozesses. Interpretation: Der Term Sxx (jω)dω kann als Teilleistung des stochastischen Prozesses aufgefasst werden, die auf das Frequenzband der Breite dω entfällt. 6.5.3 Kreuzleistungsdichtefunktion Kreuzleistungsdichtefunktion Sxy (jω) Die Fourier-Transformation der Gleichung (6.26) mit h(−τ ) ◦−• H ∗ (jω) 160 6.5. STOCHASTISCHE SIGNALE IN LTI-SYSTEMEN ergibt die Kreuzleistungsdichtefunktion Sxy (jω) = H ∗ (jω) · Sxx (jω) (6.29) der stochastischen Prozesse X(t) und Y (t). 6.5.4 Wiener-Lee-Beziehung Ähnlich erhält man die Autokorrelation des Ausgangsprozesses als ryy (τ ) = h(τ ) ∗ rxy (τ ) (6.30) Einsetzen der Kreuzkorrelierten (6.7) liefert: ryy (τ ) = h(τ ) ∗ x(τ ) ∗ h(−τ ) ∗ x(−τ ) = h(τ ) ∗ rxy (τ ) = h(τ ) ∗ h(−τ ) ∗ rxx (τ ) (6.31) E Mit der Energie-Autokorrelationsfunktion des LTI-Systems rhh (τ ) E rhh (τ ) = h(τ ) ∗ h(−τ ), (6.32) die sich aus dessen Impulsantwort h(t) ergibt, und deren Fourier-Transformierten E rhh (τ ) ◦−• |H(jω)|2 (6.33) Syy (jω) = |H(jω)|2 · Sxx (jω). (6.34) erhält man Dieser Zusammenhang wird als W IENER -L EE-Beziehung bezeichnet: W IENER -L EEBeziehung ryy (τ ) = * = |H(jω)|2 rxx (τ ) ◦ | • ◦ | • ◦ | • Syy (jω) E rhh (τ ) · Sxx (jω) Beispiel 6.5 (Weißes Rauschen) Weißes Rauschen (konstante Rauschleistungsdichte) ist ein stochastischer Prozess, dessen LDS folgende Form hat: Sxx (jω) = N0 Die Autokorrelationsfunktion des weißen Rauschens ist diracförmig und kann wie folgt analytisch angegeben werden: rxx (τ ) = N0 δ(τ ) 161 KAPITEL 6. STOCHASTISCHE PROZESSE Dieser stochastische Prozess besitzt eine unendlich große mittlere Leistung Nx ! Die Filterung dieses stochastischen Prozesses X(t) mit einem idealem Tiefpassfilter mit der Übertragungsfunktion H(jω) und der Grenzfrequenz ωg führt auf das folgende Leistungsdichtespektrum des Prozesses Y (t) am Filterausgang: 2 ω N0 . Syy (jω) = |H(jω)|2 · N0 = rect 2ωg Die mittlere Leistung Ny des Prozesses Y (t) am Ausgang des LTI Systems kann wie folgt berechnet werden: N0 Ny = ryy (0) = 2π Z∞ −∞ |H(jω)|2 dω = 1 N0 ωg = 2N0 fg . π △ Durch die Transformation des stochastischen Prozesses X(t) mit einem LTI System der Übertragungsfunktion H(jω) entsteht ein stochastischer Prozess Y (t) am Filterausgang, der eine endliche mittlere Leistung Ny aufweist. 6.5.5 Anwendung: Systemidentifikation durch weißes Rauschen Die Impulsantwort eines unbekannten Systems kann durch Anregung des zu untersuchenden Systems mit breitbandigem weißen Rauschen bestimmt werden. Sxx (jω) = N0 ◦−• rxx (τ ) = N0 · δ(τ ) Der Rauschprozess ist mittelwertfrei und unkorreliert. Die Kreuzkorrelation am Ausgang beträgt rxy (τ ) = h(τ ) ∗ N0 · δ(τ ) = N0 · h(τ ) Die Impulsantwort des Systems ist also direkt aus der Kreuzkorrelation bestimmbar: h(τ ) = rxy (τ ) N0 (6.35) Weißes Gaußsches Rauschen Bei der Untersuchung von Nachrichtenübertragungseinrichtungen ist das additive weiße gaußsche Rauschen (Additive White Gaussian Noise, AWGN) von besonderer Bedeutung. Dieser stochastische Prozess n(t) ist durch seine diracförmige Autokorrelationsfunktion oder alternativ durch sein Leistungsdichtespektrum gekennzeichnet. Er besitzt • ein weißes Leistungsdichtespektrum mit dem Wert1 Snn (jω) = N0 1 Mitunter wird das Leistungsdichtespektrum auch mit dem Wert Snn (jω) = 162 N0 2 definiert. 6.5. STOCHASTISCHE SIGNALE IN LTI-SYSTEMEN • und einer normalverteilten Amplitudendichte für jede der betrachteten Zufallsvariablen n(t). 6.5.6 Anwendung: Korrelationsempfänger, Matched Filter n (t) S k g (t) x (t) r(t) h (t) y (t) T A y (T A ) Abbildung 6.6: Anwendungsbeispiel Korrelationsempfänger In der digitalen Nachrichtenübertragung wird der eingehende Bitstrom zunächst auf die Modulationssymbole Sk abgebildet. Durch die in der Bitfolge enthaltene Zufälligkeit entsteht auch in der folge der Modulationssymbole eine Zufälligkeit. Das Sendesignal x(t) wird durch die zu übertragenden durchaus komplexwertigen Modulationssymbole Sk und die Modulationsimpulse g(t) gebildet und stellt wegen der zufälligen Folge der Modulationssymbole einen stochastischen Prozess dar. Die Symboldauer ist durch T beschrieben. x(t) = X k Sk g(t − kT ) In der Nachrichtenübertragung wird das übertragene Signal x(t) auf dem Übertragungsweg durch äußere Einflüsse und durch Rauschen gestört oder verfälscht. Dieses Rauschen wird modellhaft durch einen entsprechenden AWGN Prozess n(t) beschrieben, der dem Nutzsignal additiv überlagert ist. Die an den Empfänger gerichtete wesentliche Forderung besteht in der Minimierung der resultierenden Bitfehler. Diese Forderung wird zunächst nicht direkt erfüllt, sondern über einen Umweg erreicht. Die Bitfehlerwahrscheinlichkeit wird genau dann minimiert, wenn das Signal-zu-Rauschleistungsverhältnis (SNR) zum Entscheidungszeitpunkt maximiert wurde. Aus diesem Grund wird das Empfangssignal r(t) = x(t) + n(t) zunächst mit einem Filter verarbeitet, dessen Impulsantwort h(t) so berechnet und optimiert wird, dass das resultierende Signal am Filterausgang ein maximales Signal-zu-Rauschleistungsverhältnis (signal-to-noise-ratio, SNR) zum jeweiligen Abtastzeitpunkt aufweist. Über diesen Schritt wird gleichzeitig die Bitfehlerwahrscheinlichkeit minimiert. Der Filterprozess kann alternativ auch als eine Korrelationsverarbeitung zwischen dem Empfangssignal und dem Modulationsimpuls g(t) interpretiert werden. Aus diesem Grund 163 KAPITEL 6. STOCHASTISCHE PROZESSE wird auch häufig der Begriff des Korrelationsempfängers verwendet. Die hier diskutierten Verarbeitungsschritte sind in Abbildung 6.6 als Blockdiagramm anschaulich dargestellt. Ein solcher Korrelationsempfänger verwendet ein Empfangsfilter, dessen Impulsantwort h(t) an den Modulationsimpuls g(t) angepasst ist, weshalb auch häufig die Bezeichnung „matched“-Filter oder Optimalfilter verwendet wird. Dieser anschaulich erläuterte Sachverhalt wird im Folgenden in einer analytischen Beschreibung untersucht, indem die Frage nach der Form der Impulsantwort h(t) im Empfangsfilter gestellt wird, so dass zum Abtastzeitpunkt ein jeweils maximales SNR entsteht. Das mit Rauschen überlagerte Empfangssignal kann am Filterausgang und vor der Abtastung wie folgt beschrieben werden: y(t) = [x(t) + n(t)] ∗ h(t) Zur Berechnung des SNR benötigt man die Signalleistung und die mittlere Rauschleistung im Empfangssignal y(t). Die im Filterausgangssignal enthaltene Nutzsignalleistung S wird in den Abtastzeitpunkten TA wie folgt berechnet: ∞ 2 Z S = h(τ )g(TA − τ ) dτ −∞ Die mittlere Rauschleistung N am Filterausgang kann mit Hilfe des Parsevallsches Theorems wie folgt berechnet werden: N = N0 Z∞ 1 h (t) dt = 2π 2 Z∞ −∞ −∞ |H(jω)|2 dω Damit kann das SNR des Signals am Filterausgang wie folgt angegeben werden: R 2 ∞ h(τ )g(T − τ ) dτ A S 1 −∞ R∞ = 2 N N0 −∞ h dt Mit der C AUCHY-S CHWARZschen Ungleichung kann der Zähler in dem obigen SNR wie folgt nach oben abgeschätzt werden. ∞ 2 Z Z∞ Z∞ 2 h(τ )g(TA − τ ) dτ ≤ g (t) dt · h2 (t) dt −∞ −∞ −∞ Unter Berücksichtigung dieser Abschätzung und der für jedes übertragene Binärzeichen eingesetzten Energie Eb Eb = Z∞ g 2 (t) dt −∞ kann das resultierende SNR wie folgt nach oben abgeschätzt werden: R∞ 2 g (t) dt Eb S = . ≤ −∞ N N0 N0 164 6.5. STOCHASTISCHE SIGNALE IN LTI-SYSTEMEN Das maximale SNR kann mit dieser Beziehung auf jeden Fall nicht größer sein als das Verhältnis der pro Bit eingesetzten Energie Eb zur Rauschleistungsdichte N0 . Diese Tatsache wird zur Herleitung des Optimalfilters bzw. des matched Filters ausgenutzt, indem das SNR für die explizit vorgebene Filterimpulsantwort h(t) = g(TA − t). berechnet wird, die durch die zeitinverse Form des Modulationsimpulses definiert ist. In diesem Fall berechnet sich das SNR wie folgt: 1 S = N N0 R ∞ g(TA − τ )g(TA − τ ) dτ −∞ R∞ 2 −∞ g(TA − τ ) (t) dt 2 = R∞ −∞ g(τ )2 dτ N0 = Eb . N0 Diese Filterimpulsantwort h(t) = g(TA −t) maximiert also das SNR am Filterausgang und zu den einzelnen Abtastzeitpunkten und wird deshalb als Optimalfilter bezeichnet. Weil die Form der Impulsantwort h(t) mit der Form des Modulationsimpulses g(t) übereinstimmt wird alternativ die Bezeichnung matched Filter benutzt. 165 KAPITEL 6. STOCHASTISCHE PROZESSE 166 Kapitel 7 Warteschlangen und Ankunftsprozesse In diesem Kapitel wird eine spezielle Gruppe stochastischer Prozesse definiert und analysiert, die man in der Theorie der Warteschlangen- und Ankunftsprozesse zusammenfasst. Ein Warteschlangensystem ist durch zwei Komponenten charakterisiert. Zunächst betrachten wir eine Bedieneinheit in abstrakter Form, die eine bestimmte Verarbeitung durchführt. Diese Bedieneinheit kann ein gesamtes Telefonnetz oder der zentrale Prozessor in einem Rechenzentrum sein. Auf diese Bedieneinheit greifen unterschiedliche Nutzer in zufällig gewählten Zeitpunkten zu. Das Zugreifen auf die Bedieneinheit wird als Ankunftsprozess bezeichnet. Wir interessieren uns dafür, wie häufig Nutzer bzw. in welchen zeitlichen Abständen unterschiedliche Nutzer auf die Bedieneinheit zugreifen oder wir sie sich in eine Warteschlange einreihen. Diesen anschaulich beschriebenen Vorgang beschreiben wir durch einen Ankunftsprozess. In vielen Warteschlangensystemen wird der Ankunftsprozess durch einen sogenannten Poisson-Prozess modelliert. Dieses Modell und die dahinter stehenden Annahmen soll im folgenden beschrieben und quantitativ analysiert werden. Wir interessieren uns einerseits für die Verteilungsfunktion, die bei Analyse der zeitlichen Abstände zwischen zwei aufeinanderfolgenden Ankünften entsteht. Andererseits interessiert und die Ankunftsrate, d.h., die Verteilung der Anzahl Ankünfte pro Zeiteinheit. Beide Fragen können durch das folgende Modell vollständig durch Angeabe der Verteilungsfunktion oder Wahrscheinlichkeitsdichtefunktion beantwortet werden. 167 KAPITEL 7. WARTESCHLANGEN UND ANKUNFTSPROZESSE 7.1 Poisson-Prozess Der jeweilige zeitliche Abstand Zn zwischen zwei aufeinanderfolgenden Ankünften wird als Zufallsvariable betrachtet. Dabei wird angenommen, dass die einzelnen Zeitintervalle Zn durch statistisch unabhängige und identisch verteilte Zufallsvariable beschrieben werden können. Die Verteilungsfunktion der Zufallsvariablen Zn wird explizit berechnet. Auch für die Anzahl der Ankünfte innerhalb eines vorgegebenen Zeitintervalls wird die Wahrscheinlichkeitsdichtefunktion, die sognannte Poisson-Verteilung explizit hergeleitet. 7.1.1 Zählprozess Die Länge der Zeitintervalle Z1 , Z2 , . . . , Zn zwischen zwei aufeinanderfolgenden Ankünften werden als statistisch unabhängige identisch verteilte Zufallsvariable beschrieben. Z1 Z2 N (t0 ) = 6 t 4 t 5 t t=0 t = t0 Abbildung 7.1: Musterfunktionen des Ankunftprozesses Summiert man die ersten n Zeiten Zi , so erhält man den Zeitpunkt, der bis zum Eintreffen der n-ten Ankunft vergangen ist: G∗n = n X Zi i=1 Es wird zunächst die Frage aufgegriffen, wie viele Ankünfte bis zum Zeitpunkt t = t0 Zählprozess registriert wurden. Dies wird durch den sogenannten Zählprozess N (t) N (t) = n, mit G∗n ≤ t ∧ G∗n+1 > t (7.1) beschrieben und durch Musterfunktionen in Abbildung 7.1 anschaulich verdeutlicht. Es wird hierbei zunächst ein fester Zeitpunkt t = t0 betrachtet. Der Zählprozess ist durch die Zufallsvariable N (t0 ) beschrieben, die darüber Auskunft gibt, wie viele Ankünfte im Intervall [0, t0 ] tatsächlich registiert wurden. 168 7.1. POISSON-PROZESS 7.1.2 Ankunftsrate Betrachtet man ein sehr grosses Zeitintervall [0, t0 ], so kann man aufgrund der angenommenen Ergodizität des Ankunftsprozesses davon ausgehen, dass im Mittel bei allen Musterfunktionen die gleiche Anzahl von Ankünften gezählt wurden. Beim Eintreffen von insgesamt nA = N (t0 ) Einheiten in einem festen Interval [0, t0 ] erhält man eine als konstant betrachtete Ankunftsrate λ, mit der die mittlere Anzahl An- Ankunftsrate künfte pro Zeiteinheit beschrieben wird: λ λ= nA t0 (7.2) 7.1.3 Poissonverteilung Die betrachtete Zeit t0 soll nun in kleine Intervalle ∆t = t0 n unterteilt werden. Diese Inter- valle ∆t werden so klein gewählt, dass man davon ausgehen kann, dass in einem Intervall maximal eine Ankunft stattfindet. Eine Ankunft in einem Intervall ∆t kann somit als ein Bernoulli-Versuch aufgefasst und modellhaft beschrieben werden. Die Wahrscheinlichkeit p, mit der eine Ankunft in dem Zeitintervall ∆t vorkommt wird wie folgt berechnet: p = P (N (∆t) = 1) = λ · ∆t = λ t0 n Entsprechend beträgt die Wahrscheilichkeit dafür, dass in diesem Intervall ∆t keine Ankunft registriert wird q = P (N (∆t) = 0) = 1 − p. Wir betrachten jetzt wiederum ein längeres Zeitintervall [0, t0 ], in dem also insgesamt n kleine Intervalle der Länge ∆t angeordnet sind und stellen die Frage, wie viele Ankünfte in diesem Zeitintervall auftreten können. Dieses Zufallsexperiment kann mit der Bernoullischen Versuchsanordnung beschrieben und die resultierenden Wahrscheinlichkeit von k Ankünften im Intervall t0 durch die bereits bekannte Binomialverteilung quantitativ berechnet werden. Die Wahrscheinlichkeit für k Ankünfte innerhalb des Zeitintervalls [0, t0 ] berechnet sich also wie folgt: P (N (t0 ) = k) = n k p (1 − p)n−k k Ersetzt man jetzt die Wahrscheinlichkeit p durch λ tn0 dann entsteht folgende Beziehung: k n−k n! λt0 λt0 P (N (t0 ) = k) = 1− k!(n − k)! n n 169 KAPITEL 7. WARTESCHLANGEN UND ANKUNFTSPROZESSE 1 0.8 k fZ (t) 0.6 0.4 0.2 0 0 1 2 3 4 k 4 2 0 6 10 8 t Abbildung 7.2: Poisson-Verteilung (P (N (t) = k)) für unterschiedliche Werte des Parameters k Diese Binomialverteilung analysieren wir für große Werte n und berechnen den Grenzübergang für n → ∞. In diesem Fall entsteht folgende Beziehung: P (N (t0 ) = k) = n(n − 1) · · · (n − k + 1) (λt0 )k k n | {z } k! n→∞ = 1 n −k λt0 λt0 1− 1− n n {z }| {z } | n→∞ −λt = e n→∞ = 1 In diesem Modell mit wachsendem Parameter n wird die Intervall-Größe ∆t → 0 monoton verkleinert. Für den Grenzübergang n → ∞ berechnet sich aus der obigen Analyse die so genannte Poisson-Verteilung mit der folgenden diskreten WahrscheinlichkeitsdichtefunkPoisson- tion: Verteilung Πk (t0 ) = P (N (t0 ) = k) = Πk (t) (λt0 )k −λt0 e k! (7.3) Die Poisson Verteilung gibt die Wahrscheinlichkeit an, mit in dem oben beschriebenen Zählprozess insgesamt k Ankünfte innerhalb des vorgegebenen Zeitintervalls [0, t0 ] registriert wurden. 170 7.1. POISSON-PROZESS Erwartungswert und Varianz der Poisson-Verteilung Es soll jetzt der Erwartungswert und die Varianz der Poisson-Verteilung bestimmt werden. Hierzu betrachtet man zunächst die Taylor-Entwicklung der Exponentialfunktion eλt0 : eλt0 = ∞ k X (λt0 ) (7.4) k! k=0 Erste und zweite Ableitung nach λ berechnen sich dann zu (eλt0 )′ (eλt0 )′′ = = t0 eλt0 = t0 t20 eλt0 = t20 ∞ ∞ k−1 k X 1 X (λt0 ) (λt0 ) = k k k! λ k! k=0 ∞ X k=0 k=1 k−2 k(k − 1) (λt0 ) k! = ∞ ∞ 1 X 2 (λt0 )k 1 X (λt0 )k − k k λ2 k! λ2 k! k=1 k=1 Mit Hilfe dieser Beziehungen lassen sich jetzt das erste und das zweite Moment folgendermaßen berechnen: E{N (t0 )} E{(N (t0 ))2 } = e−λt0 = e−λt0 ∞ X k=1 ∞ X k=1 k· (λt0 )k = λt0 k! (7.5) k k2 · (λt0 ) = (λt0 )2 + λt0 . k! (7.6) Somit erhält man für die Varianz VAR{N (t0 )} = E{(N (t0 ))2 } − (E{N (t0 )})2 = λt0 . (7.7) 7.1.4 Ankunftsabstände Die Herleitung der Poisson Verteilung soll jetzt benutzt werden, um die Verteilungsfunktion der Zufallsvariablen Zn , mit der das Zeitintervall zwischen zwei aufeinanderfolgenden Ankünften beschrieben wird, berechnen zu können. Im Zeitintervall [0, t0 ]wird also eine Anzahl k von Ankünften mit folgender Wahrscheinlichkeit registriert: P (N (t0 ) = k) = (λ · t0 )k −λt0 e k! Für den in Gleichung (7.1) formal beschriebenen Zählprozess und die Summe G∗k der Ankunftsabstände Zk gilt dann: P (N (t0 ) = k) = P (G∗k ≤ t0 ∧ G∗k+1 > t0 ) (7.8) An dieser Stelle ist die Verteilung der einzelnen Ankunftsabstände Zk von Interesse. Diese Zufallsvariablen Zk sind als statistisch unabhängig und identisch verteilt angenommen worden. Ohne Beschränkung der Allgemeinheit kann deshalb die Zufallsvariable Z1 in ihrem wahrscheinlichkeitstheoretischen Verhalten untersucht werden. 171 KAPITEL 7. WARTESCHLANGEN UND ANKUNFTSPROZESSE Wir betrachten die Zufallsvariable Z1 , mit der die Länge des Zeitintervalls bis zur ersten Ankunft beschrieben wird und einen beliebigen Zeitpunkt t. Zur Berechnung der Verteilungsfunktion FZ1 wird die Wahrscheinlichkeit hergeleitet, mit der im Zeitintervall [0, t0 ] keine Ankunft registriert wurde. FZ1 (t) = P (Z1 ≤ t) = 1 − P (Z1 > t) = 1 − P (keine Ankunft in [0, t]) Nach Gleichung (7.8) kann man diese Wahrscheinlichkeit direkt durch den Zählprozess N (t) ausdrücken: FZ1 (t) = 1 − P (N (t) = 0) = 1 − e−λt t≥0 Die Ankunftsabstände Zn sind nach dieser Herleitung negativ exponentialverteilt mit der Verteilungsfunktion FZ (t) und der Wahrscheinlichkeitsdichtefunktion fZ (t): FZ (t) = P (Z ≤ t) (7.9) = 1 − e−λt , fZ (t) = t≥0 λe−λt (7.10) t≥0 (7.11) Aus diesen Angaben kann der Erwartungswert einer Zufallsvariablen Z, die einer Exponentialverteilung gehorcht, wie folgt berechnet werden: E{Z} = Z∞ −∞ t · fZ (t) dt = Z∞ 0 t · λe −λt dt = λ · Z∞ te−λt dt = 1 . λ 0 | {z 1 λ2 } Mit einer ähnlichen Rechnung ergibt sich für die Varianz der Exponentialverteilung VAR{Z} = 1 . λ2 (7.12) Der mittlere zeitliche Abstand zwischen zwei aufeinanderfolgenden Ankünften ist somit durch 1 λ und die mittlere Ankunftsrate durch den Parameter λ beschrieben. Abbildung 7.3 zeigt ein Beispiel für die Verteilung der Ankunftsabstände mit λ = 1 20 . Zusammenfassend können zwei wichtige Ergebnisse der durchgeführten Analysen festgehalten werden. Die Anzahl k der Ankünfte innerhalb eines vorgegebenen Zeitintervalls wird durch die Poisson Verteilung beschrieben. Die Zeitabstände Z zwischen zwei aufeinanderfolgenden Ankünften gehorchen einer Exponentialverteilung. Der betrachtete Ankunftsprozess beinhaltet kein Gedächtnis und deshalb gehorcht die Zufallsvariable Z, mit der die Zeit bis zur nächsten Ankunft beschrieben wird, wiederum einer Exponentialverteilung. 172 7.2. MARKOV-KETTEN Ankunftsabstaende mit λ = 1/20 1 0.9 0.8 0.7 FZ(t) 0.6 0.5 0.4 0.3 0.2 0.1 0 0 20 40 60 80 100 120 t Abbildung 7.3: Verteilungsfunktion der Ankunftsabstände Z 7.2 Markov-Ketten In der bisherigen Vorgehensweise dieses Kapitels konnten stochastische Prozesse durch die Eigenschaft der Ergodizität vereinfacht beschrieben werden. In diesem Abschnitt soll nun eine andere Möglichkeit zur Beschreibung stochastischer Prozesse diskutiert werden. Dafür geht man wieder von der Beschreibung durch endlich-dimensionale Wahrscheinlichkeitsdichtefunktionen aus. Bei einigen Prozessen gilt die sogenannte M ARKOVEigenschaft (Eigenschaft der Gedächtnislosigkeit): „Der zukünftige Prozessverlauf hängt bei bekanntem, gegenwärtigen Wert nicht vom vergangenen Prozessverlauf ab.“ Die zugehörigen M ARKOV-Prozesse werden unterteilt gemäß dem Typ des Parameterund Zustandsraumes. Im einfachsten Fall – der im Folgenden betrachtet werden soll – sind beide Räume diskret, und wir sprechen von M ARKOV-Ketten. Anwendungsbereiche von Markov-Ketten Mit Hilfe dieser Markov-Ketten lässt sich eine in der Praxis häufig auftretende Art von Problemen, insbesondere aus dem Bereich der Warteschlangentheorie, auf sehr einfache und elegante Weise lösen. Zudem werden Markov-Ketten in vielen Bereichen der Informationstechnik und Nachrichtenverarbeitung verwendet: • als Simulationsmodelle, beispielsweise als einfaches Modell eines drahtlosen Kanals (Gilbert-Elliot Modell) oder zur Simulation von gebündelt auftretenden Nutzeranfra173 KAPITEL 7. WARTESCHLANGEN UND ANKUNFTSPROZESSE gen (z.B. Netzwerk-Anfragen) • in der Leistungsbewertung von Telekommunikationsnetzen, z.B. zur Abschätzung der mittleren Bedienzeit eines Nutzers Beispiel 7.1 (Lagerhaltung, Teil 2) Wir betrachten nochmals das Lagerhaltungsbeispiel (Beispiel 6.1): Es seien also: • Xt , t ∈ N0 : Lagerbestand am Ende der Periode t, • Yt , t ∈ N0 : Bedarf in der Periode t, • Yt unabhängig, identisch verteilt mit P {Yt = k} = ak , k ∈ N0 , • Bestellregel: (s,S)-Politik. Falls die Lieferfrist nur eine Periode beträgt, so gilt: Xt − Yt+1 falls Xt > s Xt+1 = S − Yt+1 falls Xt ≤ s (Negative Bestände seien als Vormerkungen zugelassen.) Daraus lässt sich ablesen, dass der Lagerbestand am Ende der Periode t + 1 vom gegenwärtigen Lagerbestand der Periode t, nicht jedoch von den Lagerbeständen vergangener △ Perioden abhängt. Definition 7.1 (M ARKOV-Kette) Ein stochastischer Prozess X(t) = {Xt , t ∈ N0 } mit M ARKOV-Kette abzählbarem Zustandsraum E heisst M ARKOV-Kette (MK), falls gilt: ∀t ∈ N0 : ∀j, i, it−1 , . . . , i0 ∈ E : P {Xt+1 = j|Xt = i, Xt−1 = it−1 , . . . , X0 = i0 } = P {Xt+1 = j|Xt = i} bzw. in verkürzter Schreibweise: P {Xt+1 = j|Xt , Xt−1 , . . . , X0 } = P {Xt+1 = j|Xt } ❍ Eine Markov-Kette ist also ein stochastischer Prozess, bei dem der „nächste“ Zustand Xt+1 bei bekanntem „gegenwärtigem“ Zustand Xt unabhängig von den „vergangenen“ Zuständen Xt−1 , . . . , X0 ist. Da die Zukunft eines solchen stochastischen Prozesses nur von der Gegenwart, nicht jedoch von der Vergangenheit abhängt, spricht man in einem solchen Fall von Gedächtnislosigkeit. 174 7.2. MARKOV-KETTEN 7.2.1 Beschreibung und Eigenschaften von Markov-Ketten Definition 7.2 (Übergangswahrscheinlichkeit) Die bedingte Wahrscheinlichkeit Übergangswahrscheinlichkeit pij (t, t + 1) := pj|i (t, t + 1) = P {Xt+1 = j|Xt = i} heißt (einschrittige) Übergangswahrscheinlichkeit (ÜW) von i nach j. pij ❍ Definition 7.3 (homogen) Eine Markov-Kette X(t) heißt homogen, falls die einschrittigen Übergangswahrscheinlichkeiten vom betrachteten Zeitpunkt t unabhängig sind, d.h. homogen pij (t, t + 1) = pij . X(t) heißt dann auch Markov-Kette mit stationären Übergangswahrscheinlichkeiten pij . ❍ 7.2.2 Chapman-Kolmogorov- oder Smoluchowsky-Gleichung Mit Kenntnis dieser Übergangswahrscheinlichkeiten lassen sich im Prinzip die Verbundwahrscheinlichkeiten beliebiger Ordnung bestimmen. Als Beispiel betrachten wir die Verbundwahrscheinlichkeit dritter Ordnung pi,j,k (l, m, n) für das Auftreten der Zustände i, j, k zu den Zeitpunkten l < m < n. Nach der Zerlegungsregel für Verbundwahrscheinlichkeiten gilt: pk|i,j (l, m, n) · pj|i (l, m) · pi (l) allgemeine Prozesse pi,j,k (l, m, n) = pk|j (m, n) · pj|i (l, m) · pi (l) Markov-Ketten p (n) · p (m) · p (l) statistisch unabhängige Prozesse k j i Wird diese Zerlegung für den Fall der Markov-Kette auf zeitlich folgende Zustände angewendet, so gibt sie die Wahrscheinlichkeit für eine Trajektorie von Prozesszuständen an. Beispiel 7.2 (Trellis-Diagramm) Bei einem mit pi (l) gewähltem Anfangszustand eines zweiwertigen digitalen MarkovProzesses folgt eine Trajektorie X(l) = 1, X(m) = 0 und X(n) = 0 mit der Verbundwahrscheinlichkeit p1,0,0 (l, m, n) = p1 (l) · p10 (l, m) · p00 (m, n), die anschaulich in Abbildung 7.4 dargestellt ist. Jede Musterfunktion ist ein möglicher Pfad in diesem Diagramm, deren Verbundwahrscheinlichkeit erfolgt durch Multiplikation der entsprechenden △ Weggewichte. 175 KAPITEL 7. WARTESCHLANGEN UND ANKUNFTSPROZESSE p11 (l, m) p1 (l) p0 (l) p11 (m, n) 1 0 1 1 p01 (l, m) p01 (m, n) p10 (l, m) p10 (m, n) 0 p00 (l, m) l p00 (m, n) m 0 n t Abbildung 7.4: Trellis-Diagramm für eine zeitdiskrete Markov-Kette mit zwei Zuständen Unter Zuhilfenahme der Trellis-Diagramme erkennt man, dass man auch für mehrschrittige Zustandsübergänge eine Übergangswahrscheinlichkeit berechnen kann. Man C HAPMAN - erhält daraus die sogenannte C HAPMAN -KOLMOGOROV- oder S MOLUCHOWSKY- KOLMOGOROV Gleichung zur Berechnung von (n − l) schrittigen Übergangswahrscheinlichkeiten: Gleichung pik (l, n) = pk|i (l, n) = X j pij (l, m) · pjk (m, n) (7.13) Zur Berechnung der gesuchten Übergangswahrscheinlichkeiten werden also die Wahrscheinlichkeiten aller möglichen Pfade vom Zustand i zum Zustand k aufsummiert. 7.2.3 Übergangsmatrizen Für die Handhabung von Markov-Ketten ist es sinnvoll, die ÜbergangswahrscheinlichkeiÜbergangsmatrix ten pij in einem quadratischen Feld PÜ = (pij ) anzuordnen. PÜ heißt Übergangsmatrix PÜ (ÜM) der Markov-Kette X(t). Für E = {0, 1, 2, . . .} ist p00 p01 p02 p10 p11 p12 PÜ = (pij ) = p20 p21 p22 .. .. .. . . . PÜ besitzt folgende Eigenschaften: ∀i, j ∈ E : ∀i ∈ E : ... . . . . . . .. . pij ≥ 0 P pij = 1 (Zeilensumme=1) (7.14) (7.15) j∈E stochastische Ma- Definition 7.4 (stochastische Matrix) Jede |E|×|E|-Matrix mit den Eigenschaften (7.14) trix und (7.15) heißt stochastische Matrix. ❍ 176 7.2. MARKOV-KETTEN 7.2.4 Kolmogorov’sche Vorwärts- und Rückwärtsgleichungen Werden die Zustandswahrscheinlichkeiten pk (n) = X i pi (l) · pik (l, n) als Komponenten eines Zeilenvektors P (n) = (p0 (n), p1 (n), . . . , pK (n)) betrachtet, so lässt sich das Bildungsgesetz für zeitdiskrete Markov-Ketten mit Hilfe der Übergangsmatrix PÜ in der Form P (n) = P (l) · PÜ (l, n) (7.16) zusammenfassen. Ist nun die Anfangsverteilung der Zustände P (0) vorgegeben, so lautet die Verteilung zum Zeitpunkt n: P (n) = P (0) · PÜ (0, n) Hierbei berechnet sich die Matrix der Übergangswahrscheinlichkeiten entsprechend der Chapman-Kolmogorov-Gleichung (7.13): PÜ (l, n) = PÜ (l, m) · PÜ (m, n) Beispiel 7.3 (Signalprozess) Gegeben sei ein binärer Signalprozess mit den Zuständen X(n) = 0 oder X(n) = 1 als Beispiel einer zweiwertigen Markov-Kette mit dem Anfangsvektor P (0) = (α, β) = (p0 (0), p1 (0)) und den zeitunabhängigen symmetrischen Übergangswahrscheinlichkeiten p01 = p10 = p sowie p00 = p11 = q = 1 − p oder als Übergangsmatrix geschrieben: p00 p01 q p = = P (0, 1) = P (1, 2) = . . . PÜ = Ü Ü p10 p11 p q Es soll die Zustandswahrscheinlichkeit nach 2 Zeitschritten bestimmt werden. Die zweischrittige Übergangsmatrix berechnet sich zu: PÜ (0, 2) = PÜ (2) = PÜ (0, 1)·PÜ (1, 2) = q p p q q p p q = q 2 + p2 2pq 2pq q 2 + p2 Die Zustandswahrscheinlichkeit nach 2 Zeitschritten berechnet sich damit zu: P (2) = P (0) · PÜ (0, 2) = (α · (q 2 + p2 ) + β · 2pq, α · 2pq + β · (q 2 + p2 )) 1 1 + (α − β) · (q − p)2 , 1 − (α − β) · (q − p)2 = 2 177 △ KAPITEL 7. WARTESCHLANGEN UND ANKUNFTSPROZESSE Die bisherigen Berechnungsvorschriften erlauben nur eine iterative Berechnung für langzeitige bzw. höhere Übergangswahrscheinlichkeiten. Im Folgenden soll nun eine direkte Berechnung der gesuchten Wahrscheinlichkeitsverteilungen angestrebt werden. Zu diesem Zweck betrachten wir zwei ausgezeichnete Zeitpunkte t1 = m1 = n − 1 und t2 = m2 = l + 1. Die mehrschrittigen Übergangswahrscheinlichkeiten ergeben sich damit zu PÜ (l, n) = P (l, n − 1) · P (n − 1, n) Ü Ü (7.17) P (l, l + 1) · P (l + 1, n). Ü Ü Diese Gleichungen bezeichnet man als KOLMOGOROV’sche Vorwärts- bzw. Rückwärtsgleichungen. Sie ergeben sich aus der C HAPMAN -KOLMOGOROV-Gleichung durch Betrachtung eines vorwärts- bzw. rückwärtsgerichteten Zeitpunktes t1 bzw. t2 . Die Lösung dieser Gleichungen ergibt sich durch wiederholte Anwendung von Gleichung (7.17): PÜ (l, n) = PÜ (l, n − 2) · PÜ (n − 2, n − 1) · PÜ (n − 1, n) = n Y i=l+1 PÜ (i − 1, i) (7.18) 7.2.5 Homogene Markov-Ketten Für Markov-Ketten, die die Eigenschaft der Homogenität aus Definition 7.3 besitzen, vereinfacht sich die Berechnung der Übergangsmatrizen. Bei homogenen Markov-Ketten sind die Übergangswahrscheinlichkeiten vom betrachteten Zeitpunkt unabhängig, so dass man schreiben kann: PÜ (n − 1, n) = PÜ (1) = PÜ Für mehrschrittige Übergangswahrscheinlichkeiten gilt im homogenen Fall laut der Vorwärtsgleichung (7.18) PÜ (l, n) = [PÜ ]n−l = PÜ (n − l) wonach die Übergangswahrscheinlichkeiten nicht mehr gewählten Zeitpunkt, sondern nur noch von der betrachteten Zeitdifferenz abhängen. Die Zustandswahrscheinlichkeiten lassen sich damit bei vorgegebenen Anfangs- und Randbedingungen P (0) für jeden gewünschten Zeitpunkt berechnen: P (n) = P (0) · [PÜ ]n (7.19) Beispiel 7.4 (Markov-Kette) Eine homogene zweistufige Markov-Kette mit den Übergangswahrscheinlichkeiten p00 = p11 = q und p01 = p10 = p bilde den binären Prozess des Beispiels 7.3. Gefragt sei nach dem Zustandsdiagramm und der zeitabhängigen Zustandsverteilung P (n) sowie dem 178 7.2. MARKOV-KETTEN Anfangs- oder Startvektor P (0) = (α, β) für einen a priori stationären Prozessverlauf. Das entsprechende Zustandsdiagramm zeigt Abbildung 7.5(a). Die Elemente der n-schrittigen Übergangsmatrix PÜ (n) = [PÜ ]n sind in geschlossener Form angebbar und lauten: 1 1 + (q − p)n = q(n) 2 1 p01 (n) = p10 (n) = 1 − (q − p)n = p(n) 2 p00 (n) = p11 (n) = Für die Zustandswahrscheinlichkeiten des binären Signalprozesses gilt dann nach Gleichung (7.19): P (n) = P (0) · PÜ (n) = (p0 (n), p1 (n)) = 1 1 + (α − β)(q − p)n , 1 + (α − β)(q − p)n 2 Für n → ∞ liefert diese Gleichung unabhängig vom Anfangsvektor P (0) den stationären Vektor der Zustandswahrscheinlichkeiten P (∞) = lim P (n) = n→∞ 1 1 , 2 2 . Der zeitliche Verlauf der Zustandswahrscheinlichkeiten ist für verschiedene Werte der Übergangswahrscheinlichkeiten dem Bild 7.5(b) zu entnehmen. Für große Werte n strebt P (n) somit gegen eine stationäre Verteilung. Die Markov-Kette ist von vorneherein statio△ när, wenn zum Zeitpunkt n = 0 die Binärzeichen gleichverteilt sind. 1 p = 0.2 p = 0.5 0.9 p11 = q 0.8 0.7 1 0.6 pk(n) p1 p01 = p p10 = p 0.5 0.4 0.3 p0 0.2 0 0.1 p00 = q 0 0 2 4 6 8 10 t=n 12 14 16 18 20 (b) Zeitverhalten (a) Zustandsdiagramm Abbildung 7.5: Zweiwertiger Markov-Prozess Beispiel 7.5 (Bernoulli-Kette) Eine Bernoulli-Kette ist dadurch gekennzeichnet, dass die zeitlich aufeinanderfolgenden Zustände statistisch unabhängig sind. Damit können die Übergangswahrscheinlichkeiten nicht beliebig vorgegeben werden, denn bei statistischer Unabhängigkeit gilt: p00 = p10 = p0 = α und p11 = p01 = p1 = β 179 KAPITEL 7. WARTESCHLANGEN UND ANKUNFTSPROZESSE Für die Zustandswahrscheinlichkeiten ergibt sich deshalb zu jedem Zeitpunkt n p0 = p0 p00 + p1 p10 = α2 + αβ = α2 + α(1 − α) = α und p1 = p0 p01 + p1 p11 = αβ + β 2 = β. Eine Bernoulli-Kette ist also von vornherein stationär. 180 △ Teil III Detektion und Estimation 181 Kapitel 8 Detektion In den vorangegangenen Kapiteln ist man davon ausgegangen, dass ein betrachteter stochastischer Prozess bzw. eine Zufallsvariable vorgegeben ist. Das heißt, man kennt dessen Parameter oder eine Realisierung des stochastischen Prozesses. In der Praxis ist jedoch ein zu untersuchendes Signal in der Regel nicht vollständig bekannt, so dass man dessen Eigenschaften bestimmen muss. Je nach Anwendungsfall unterscheidet man hier zwischen Detektion und Estimation. 8.1 Detektion und Estimation In der Nachrichtentechnik tritt häufig der Fall auf, dass ein Signalverlauf über einen Nachrichtenkanal übertragen wird. Diese Signalübertragung wird genutzt, um eine Information von einer Quelle zu einer Senke zu übermitteln. Das Signal wird jedoch bei der Übertragung gestört, so dass der empfangene Signalverlauf nicht mehr exakt dem gesendeten entspricht. Entscheidung über Sendesignal Störung Empfänger Sender Schätzung von Signalparametern Abbildung 8.1: Detektion und Estimation Bei der Detektion wird das empfangene Signal einem möglichen gesendeten Signal 183 KAPITEL 8. DETEKTION Entscheidungsregel f(y|x) Y1 X1 X2 Y2 Empfänger Sender d1 d2 Entscheidung Abbildung 8.2: Detektion zugeordnet. Da die Sendesignale in der Regel nur diskrete Werte annehmen, besteht die Detektion aus einer Zuordnung des Empfangssignals zu einem Sendesignal, das mit der größten Wahrscheinlichkeit von der Quelle übermittelt wurde. Aus den vorherigen Kapiteln ist bekannt, dass man Zufallsvariablen und stochastische Prozesse auf verschiedene Weisen beschreiben kann. Dies kann beispielsweise durch Wahrscheinlichkeitsdichten oder auch durch Momente, wie Erwartungswert und Varianz, geschehen. Bei der Estimation schätzt man die Parameter eines unbekanntes Prozesses, um ihn damit beschreiben zu können. Abbildung 8.1 zeigt die Beziehung zwischen Detektion und Estimation beim Empfänger. 8.2 Binäre Detektion Wir betrachten nun die Übertragung eines einzelnen binären Sendesymbols xk . Senderseitig besteht der Wertebereich des Symbols also nur aus zwei Werten. Bei der Übertragung wird das Signal verfälscht, so dass am Ende des Übertragungskanals ein kontinuierliches Empfangssignal yk vorliegt. Die Aufgabe der Detektion besteht nun darin, eine Entscheidungsregel anzugeben, für welche Werte des Empfangssignals yk man sich sich für welchen der beiden Werte xk entscheidet (Abbildung 8.2). 8.2.1 Entscheidungsregel Mit Hilfe der Entscheidungsregel wird der durch die Übertragung entstandene kontinuierliche Wertebereich wieder auf einen diskreten Wertebereich E abgebildet, der dem Wertebereich des Sendesignals xk entspricht: Definition 8.1 (Entscheidungsregel) Unter einer Entscheidungsregel versteht man eine Entscheidungsregel Abbildung d : Ẽ → E, dk = d(yk ). 184 8.3. BAYES-DETEKTOR ❍ Im Falle einer binären Entscheidung wird der Raum der Empfangssignale Y in zwei Gebiete Y1 und Y2 unterteilt. Liegt y im Gebiet Yk , so wird auf dk entschieden. Man kann die Entscheidungsregel dann wie folgt zusammenfassen: d1 = x1 für y ∈ Y1 d(y) = d2 = x2 für y ∈ Y2 (8.1) Dabei gilt Y1 ∩ Y2 = ∅ und Y1 ∪ Y2 = Y . 8.2.2 Detektionsregeln Je nach Art der Kenntnisse über a-priori-Wahrscheinlichkeiten P (xk ) und Wichtung von Fehlentscheidungen ergeben sich unterschiedliche Detektionsverfahren: P (xk ) Benötigte Parameter Maximum-Likelihood unbekannta keine Maximum-a-posteriori bekannt keine Bayes bekannt Kostenfunktion unbekannt Fehldetektionswahrscheinlichkeit Detektor Neyman-Pearson a Beim ML-Detektor sind die P (xk ) unbekannt und werden als gleichverteilt vorausgesetzt. Den allgemeinsten Fall stellt der Bayes-Detektor dar. Nimmt man eine spezielle Kostenfunktion an, so erhält man den Maximum-a-posteriori (MAP) Detektor. Geht man bei diesem von gleichen a-posteriori Wahrscheinlichkeiten aus, so erhält man den MaximumLikelihood (ML) Detektor. Einen Sonderfall bildet der Neyman-Pearson (NP) Detektor. Dieser minimiert das Risiko für eine vorgegebene Fehlentscheidung. 8.3 Bayes-Detektor Bei der Wahl einer Entscheidungsregel für einen Detektor ist es immer das Ziel, sich möglichst immer für das „richtige“, d.h. das tatsächlich gesendete, Symbol zu entscheiden und das Risiko für eine Fehlentscheidung zu minimieren. Deshalb wird eine Risikofunktion definiert, die dann minimiert wird, um den Detektor zu optimieren. 8.3.1 Risiko Das Risiko ist abhängig von den Verbundwahrscheinlichkeiten P (dk , xi ), dass bei einem Sendesymbol xi auf ein Empfangssymbol dk entschieden wird. Da sich bestimmte Fehl185 KAPITEL 8. DETEKTION entscheidungen unter Umständen weitaus gravierender auswirken können, werden die Verbundwahrscheinlichkeiten mit einem Kostenfaktor versehen. Dies wird an folgendem Beispiel deutlich: Man stelle sich vor, man stehe vor einer Verkehrsampel, deren Licht man wegen der Sonneneinstahlung nicht genau erkennen kann. In diesem Fall ist eine Entscheidung für „grün“, wenn die Ampel „rot“ zeigt, weitaus ungünstiger (also mit einem hohen Kostenfaktor zu versehen) als der umgekehrte Fall. Definition 8.2 (Risiko) Das Risiko R ist die zu minimierende Kostenfunktion eines DetekRisiko tors. R = C11 P (d1 , x1 ) + C21 P (d2 , x1 ) + C12 P (d1 , x2 ) + C22 P (d2 , x2 ) R (8.2) ❍ Es erfolgt also nicht in allen Fällen eine richtige Entscheidung. Mit dem Risiko wird bestimmt, wie groß die Gefahr ist, die aus den jeweiligen (Fehl-)Entscheidungen resultiert. Dabei geht jede Entscheidung mit einem Gewichtsfaktor multipliziert in die Berechnung des Risikos ein. Dieser Faktor beschreibt, wie gravierend der jeweilige Fehler ist. Der Gewichtsfaktor Cik wird auch als Kostenfunktion bezeichnet. In der Regel verursachen richtige Entscheidungen geringere Kosten als Fehlentscheidungen. Somit fallen auch die entsprechenden Kostenfaktoren geringer aus: C11 < C21 und C22 < C12 Ziel ist es nun, eine Entscheidung so zu treffen, dass geringe Kosten entstehen. Dies ist gleichzusetzen mit einer Minimierung der Kostenfunktion. Anschaulich kann man sich diese Kosten auch anhand von Beispielen vorstellen: • Kosten auf Grund der falschen Detektion eines Maschinendefekts, d.h. Kosten können sogar monetäre Größen darstellen! • Falsch detektierter Empfangsbits bei einer Datenübertragung führen zu einer Wiederanforderung, welches die Verbindungsdauer und die damit verbundenen Kosten ansteigen lässt. 8.3.2 Entscheidungsregel Mit P (xi , dk ) = P (dk |xi )P (xi ) = P (xi ) Z fy|xi (y|xi ) dy (8.3) Yk und P (d2 |x1 ) = 1 − P (d1 |x1 ) und P (d2 |x2 ) = 1 − P (d1 |x2 ) 186 (8.4) 8.3. BAYES-DETEKTOR wird nun Gleichung 8.2 umgeformt zu R = C11 · P (d1 |x1 )P (x1 ) + C21 · (1 − P (d1 |x1 ))P (x1 ) + C12 · P (d1 |x2 )P (x2 ) + C22 · (1 − P (d1 |x2 ))P (x2 ) = P (x1 ) · (C21 + (C11 − C21 )P (d1 |x1 )) + P (x2 ) · (C22 + (C12 − C22 )P (d1 |x2 )). Jetzt kann das Risiko nur in Abhängigkeit vom Gebiet Y1 geschrieben werden als R = P (x1 )C21 + P (x2 )C22 Z P (x2 )(C12 − C22 )fy|x2 (y|x2 ) − P (x1 )(C21 − C11 )fy|x1 (y|x1 ) dy. (8.5) + Y1 Ziel ist die Minimierung des Risikos der Entscheidung durch Wahl der Entscheidungsgrenze zwischen Y1 und Y2 . ⇒ Hierfür muss der Integrand für alle y ∈ Y1 negativ sein. Beachtet man, dass auf Grund der Relation der Kosten gilt P (x2 )(C12 − C22 )fy|x2 (y|x2 ) > 0 P (x1 )(C21 − C11 )fy|x1 (y|x1 ) > 0, dann erkennt man, dass auf d1 oder d2 nach folgender Regel entschieden werden sollte: d2 P (x2 )(C12 − C22 )fy|x2 (y|x2 ) ≷ P (x1 )(C21 − C11 )fy|x1 (y|x1 ). (8.6) d1 Da Y1 genau die Menge der Empfangssignale y bezeichnet, für die man auf d1 entscheidet, ist durch diese Entscheidungsregel sichergestellt, dass der Integrand in Gleichung 8.5 für alle y ∈ Y1 negativ ist. 8.3.3 Likelihood-Quotient Falls für die Übergangswahrscheinlichkeitsdichten fy|xi (y|xi ) > 0 (8.7) gilt, so kann man die Entscheidungsregel auch mit Hilfe des Likelihood-Quotienten Λ(y) Λ(y) = fy|x2 (y|x2 ) d2 P (x1 )(C21 − C11 ) ≷ fy|x1 (y|x1 ) d1 P (x2 )(C12 − C22 ) oder in logarithmierter Form als Log-Likelihood-Ratio (LLR) fy|x2 (y|x2 ) d2 P (x1 )(C21 − C11 ) Λ(y) = ln ≷ ln fy|x1 (y|x1 ) d1 P (x2 )(C12 − C22 ) (8.8) (8.9) angeben. Durch Einführung des LLR vereinfacht sich insbesondere bei gaußsche Störungen die Rechnung erheblich. 187 KAPITEL 8. DETEKTION 8.4 Maximum-a-posteriori Detektor (MAP) Möchte man die Fehlerwahrscheinlichkeit ! PE = P (d2 , x1 ) + P (d1 , x2 ) = min. minimieren, so erkennt man, dass dies gerade einer Minimierung des Risikos des BayesDetektors mit der speziellen Kostenfunktion C11 = C22 = 0, C12 = C21 = 1 entspricht. Die Entscheidungsregel für den MAP-Detektor lautet also d(y) = Mit Hilfe der Umformung d1 d2 P (xk |y) = Λ(y) < P (x1 ) P (x2 ) Λ(y) ≥ P (x1 ) P (x2 ) (8.10) P (xk )fy|xk (y|xk ) P (y) erhält man die Entscheidungsregel des MAP-Detektors d1 P (x1 |y) ≷ P (x2 |y) (8.11) d2 mit den a-posteriori Wahrscheinlichkeiten P (xk |y). ⇒ Der MAP-Detektor wählt also den Entscheidungswert dk , dessen Wahrscheinlichkeit für den beobachteten Empfangswert y am größten ist! (Abbildung 8.3) 8.5 Maximum-Likelihood Detektor In der Regel sind die a-priori Wahrscheinlichkeiten P (xi ) eines Sendesignals unbekannt. Es wird versucht eine Gleichverteilung der a-priori Wahrscheinlichkeiten zu erreichen, so dass gilt P (xi ) = 1 n i = 1, 2, . . . , n. Die MAP-Entscheidungsregel vereinfacht sich hierdurch zu d(y) = d1 d2 Λ(y) < 1 Λ(y) ≥ 1 Abbildung 8.4 illustriert die Enscheidungsregel der ML-Detektion. 188 (8.12) 8.6. NEYMAN-PEARSON-DETEKTOR MAP−Detektion 0.4 Y Y 1 0.35 2 Klasse 1 0.3 Klasse 2 P(xi) fY|X(y|xi) 0.25 0.2 0.15 0.1 0.05 0 0 1 2 x 3 4 1 5 6 x x 7 8 9 10 2 Abbildung 8.3: Entscheidungsregel MAP-Detektor 8.6 Neyman-Pearson-Detektor In einigen Fällen besitzt ein Ereignis und somit auch eine Fehldetektionswahrscheinlichkeit eine besondere Bedeutung. Beispiele hierfür wären ein Feueralarm-Melder, bei dem ein Fehlalarm möglichst vermieden werden sollte, oder das in der Einleitung erwähnte AmpelSzenario. Auch die Unfallsensoren im Auto sollten keinen Fehlalarm produzieren, da es ungünstig wäre, wenn bei normaler Fahrt plötzlich der Airbag auslöst. Die Entscheidungsregel nach N EYMAN -P EARSON legt deshalb besonderes Gewicht auf diese Fehldetektionswahrscheinlichkeit. Im Folgenden soll angenommen werden, dass man mit dem Ereignis x1 ein Rauschen und mit dem Ereignis x2 eine Alarmsituation bezeichnet. Hierbei unterscheidet man folgende Wahrscheinlichkeiten: • Falschalarmwahrscheinlichkeit: α = P (d2 |x1 ) • Nichtdetektionswahrscheinlichkeit: P (d1 |x2 ) • Detektionswahrscheinlichkeit: P (d2 |x2 ) Der Neyman-Pearson-Detektor verfolgt das Ziel, bei vorgegebener Falschalarmwahrscheinlichkeit die Detektionswahrscheinlichkeit zu maximieren. Daher gibt man vor, welche Falschalarmwahrscheinlichkeit noch tolerierbar ist, und unter dieser Voraussetzung wird dann die Detektionsschwelle gewählt (Abbildung 8.5). 189 KAPITEL 8. DETEKTION ML−Detektion 0.4 Λ(y) < 1 0.35 Λ(y) > 1 Klasse 1 0.3 Klasse 2 fY|X (y|xi) 0.25 i 0.2 0.15 0.1 0.05 0 0 1 2 x 3 4 1 5 6 x x 7 8 9 10 2 Abbildung 8.4: Maximum-Likelihood Detektion Beispiel 8.1 (Alarmsensor) Das Signal eines Alarmgebers X2 wird durch ein komplexes Rauschen X1 überlagert (Y = X1 + X2 ). Das Alarmsignal ist um den Mittelwert µ2 = z = 4, 5 normalverteilt mit der Varianz σ22 = 1. Das Rauschen ist Rayleigh-verteilt mit σ12 = 1. In Abbildung 8.5 sind die beiden Verteilungsdichten dargestellt, wobei zur besseren Darstellung für die RayleighVerteilung ein Wert σ12 = 2 gewählt wurde. • Das Alarmsignal ist um den Mittelwert µ2 = z = 4, 5 normalverteilt mit der Varianz σ22 = 1. • Das Rauschen ist Rayleigh-verteilt mit σ12 = 1 (gezeichnet: σ12 = 2) • Die Fehldetektionswahrscheinlichkeit soll unter α = 10−3 bleiben: PF = Z∞ f (y|x1 ) dy = s Z∞ s 2 y ! y − 2σ 2 e 1 dy ≤ 10−3 2 σ1 ⇒ s ' 3, 72 • Die Detektionswahrscheinlichkeit ergibt sich daraus zu: PD = Z∞ s f (y|x2 ) dy = 1 − Φ s−z σ2 =Φ z−s σ2 = Φ(4.5 − 3.72) ≈ 78, 23% △ 190 8.6. NEYMAN-PEARSON-DETEKTOR 0.5 Rauschen Nutzsignal 0.4 f Y|X i i (y|x ) 0.3 0.2 PD=1−PN 0.1 PN 0 0 1 2 PF 3 4 5 6 7 8 s x Abbildung 8.5: Neyman-Pearson Detektor Die Detektionswahrscheinlichkeit PD und die Falschalarmwahrscheinlichkeit PF sind nicht unabhängig. Es existieren zwei Grenzfälle: PD = PF = 0 und PD = PF = 1 Die Lösung des Optimierungsproblems ! PD = max. mit α − PF = 0 (8.13) erfolgt mit Hilfe der Lagrangen Multiplikatorenregel F = = PD + λ(α − PF ) Z ! fY |X1 (y|x1 ) − λfY |X2 (y|x2 ) dy = max. λα + (8.14) Y1 F wird maximal, wenn fY |X1 (y|x1 ) > λfY |X2 (y|x2 ) (8.15) gilt, so dass für die Entscheidungsregel des Neyman-Pearson Detektors gilt: d= d1 d2 falls Λ(y) = fY |X2 (y|x2 ) fY |X1 (y|x1 ) <λ falls Λ(y) = fY |X2 (y|x2 ) fY |X1 (y|x1 ) ≥λ 191 (8.16) KAPITEL 8. DETEKTION Oft ist statt der Schwelle für den Likelihood-Quotienten λ jedoch die Schwelle ys gesucht, mit der Nutz- und Rauschsignal direkt unterschieden werden können. (In Abbildung 8.5 der Einfachheit halber nur mit s bezeichnet.) Diese bestimmt man, wie aus obigem Beispiel bekannt, aus der Nebenbedingung: Z PF = α = fY |X1 (y|x1 ) dy Y2 Ist, wie im Beispiel, das Nutzsignal x2 in der Darstellung nach Abbildung 8.5 rechts vom Rauschsignal x1 , so würde für Werte y > ys auf d2 entschieden. Somit lässt sich die Integration über Y2 schreiben als PF = Z∞ fY |X1 (y|x1 )dy. ys (Bei umgekehrten Verhältnissen, also x1 > x2 , würde für Werte y < ys auf d2 entschieden. In diesem Fall sind die Integrationsgrenzen selbstverständlich entsprechend anzupassen.) Oft ist zur Festlegung des Neyman-Pearson Detektors die Angabe der so berechneten Schwelle ys ausreichend. Gegebenenfalls lässt sich über die Definition des LikelyhoodQuotienten hieraus die entsprechende Schwelle λ in Gleichung 8.16 bestimmen. 192 Kapitel 9 Schätzverfahren (Estimation) Bei den in Kapitel 8 diskutierten Verfahren zur Detektion bestand die Aufgabe darin, Signalwerte bzw. Zufallswerte und -vektoren jeweils einer Klasse zuzuordnen. Das Ziel war demnach, eine Abbildung in Form einer Detektionsregel von einem kontinuerlichen Wertebereich in einen diskreten (manchmal binären) Definitionsbereich zu finden. 9.1 Zielsetzung der Schätzverfahren Die Detektion trifft eine Aussage über das am wahrscheinlichsten gesendete aber diskrete und einem endlichen Wertevorrat entstammende Symbol. Demgegenüber beschäftigt sich die Estimation mit der Bestimmung eines Schätzwertes â zur Schätzung eines einem kontinuierlichen Wertebereich entstammenden Signalparameters a. Der zu schätzende Signalparameter a kann im Sonderfall auch aus einen diskreten Wertebereich stammen. So gesehen ist die Detektion ein Sonderfall der Estimation. Abbildung 9.1 stellt das benutzte Modell der Parameterschätzung grafisch dar. Störung f(y|a) f(a) X1 X2 Schätzregel {â} {a} {y} Parameterraum Parameterraum Sender Empfangssignalraum Abbildung 9.1: Modell der Parameterschätzung 193 KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION) Beispiele für Parameterschätzungen Von einer Zufallsvariablen liegen mehrere statistisch unabhängige und identisch verteilte Beobachtung vor, aus denen beispielhaft die folgenden Parametern zu schätzen sind: • Signalverarbeitung: Schätzung von Kenngrößen der unbekannten Wahrscheinlichkeitsdichtefunktion der beobachteten Zufallsvariablen wie z.B. Erwartungswert und Varianz. • Nachrichtenübertragung: Schätzung von Eigenschaften des Übertragungskanals wie Übertragungsfunktion bzw. Impulsantwort, Laufzeiten, Signal-zu-Rausch Abstand • Radartechnik: Schätzung von Laufzeit, Dopplerverschiebung, Signalamplitude In Anwendungsbereichen mit beobachteten zeitvarianten stochastischen Prozessen ist die Schätzung zeitlich variabler Parameter von Interesse, wie z.B. die Bestimmung • zeitvarianter Erwartungswerte (Filterung), oder • die Prognose zukünftiger Signalwerte (Prädiktion). 9.1.1 Arten von Schätzverfahren Es sollen folgende Fälle der Parameterschätzung betrachtet werden: Parameter Vorraussetzung deterministisch keine stochastisch fy|a (y|a) und Fa (a) bekannt stochastisch fy|a (y|a) bekannt stochastisch AKF von a bekannt stochastisch AKF von a unbekannt Man unterscheidet insbesondere zwischen Verfahren, welche auf der Kenntnis der apriori Wahrscheinlichkeiten des Parameters a beruhen, und Verfahren, welche ohne dieses Vorwissen auskommen. 9.1.2 Beurteilung Wenn ein Schätzverfahren entworfen wurde, dann stellt sich die Frage nach der stochastischen Beurteilung der Qualität dieser Schätzung. Dazu werden beispielsweise die folgenden drei Qualitätsmerkmale betrachtet: • Erwartungstreue 194 9.1. ZIELSETZUNG DER SCHÄTZVERFAHREN • Varianz der Schätzwerte bzw. Schätzvarianz • Konsistenz Diese drei Merkmale sollen in den folgenden Abschnitten an einigen wichtigen Beispielen näher erläutert werden. Dazu wird folgende Situation angenommen: Von einer Zufallsvariablen Y liegen mehrere insgesamt N Realisierungen y(1), y(2), ..., y(N ) in statistisch unabhängiger und identisch verteilter Form vor. Aus diesen Beobachtungen wird ein Verfahren zur Schätzung eines Parameters a hergeleitet, das in abstrakter Form durch die folgende Gleichung beschrieben werden kann: â = g(y(1), y(2), ..., y(N )) Hierbei wird â als Schätzung oder Schätzwert des durch die Funktion g ausgedrückten Schätzverfahrens bezeichnet. Dieses zunächst abstrakte Schätzverfahren soll im Folgenden unter stochastischen Gesichtspunkten analysiert werden. 9.1.3 Erwartungstreue Bei Anwendung eines Schätzverfahrens werden immer Abweichungen vom wahren Wert auftreten, es verbleibt also je nach Betrachtungsweise eine Schätzunsicherheit oder ein Schätzfehler. Allerdings wird von einem guten Schätzverfahren erwartet, dass die Abweichungen der Schätzwerte vom wahren Wert einerseits möglichst klein sind und sich andererseits möglichst symmetrisch um dem wahren Wert herum anordnen werden. Diese anschauliche Beschreibung wird im folgenden durch formale Kriterien konkretisiert. Die Anordnung um den wahren Wert herum wird durch den Begriff der Erwartungstreue formal erfasst. Ein Schätzverfahren â wird als erwartungstreu oder unbiased bezeichnet, falls zumindest der Erwartungswert E(â) der Schätzwerte â mit dem gesuchten Parameter a übereinstimmt, d.h.: E{â} = a. Falls die Wahrscheinlichkeitsdichtefunktion fâ (â) der Schätzwerte â vollständig bekannt ist, dann kann die Erwartungstreue auch wie folgt überprüft werden: E{â} = Z∞ ! âfâ (â) dâ = a (9.1) −∞ In der Regel ist die Wahrscheinlichkeitsdichtefunktion der Schätzwerte â allerdings nicht oder nicht vollständig bekannt, so dass die analytische Überprüfung alternativ zu erfolgen hat. 195 erwartungstreu unbiased KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION) fÂ(â) gute Schätzung schlechte Schätzung a â Abbildung 9.2: Vergleich einer guten mit einer schlechten Schätzung Falls sich bei Überprüfung der Erwartungstreue eine konstante Abweichung b (bias) zwischen den Schätzwerten â und dem wahren Wert a ergibt, so kann diese Abweichung durch eine Modifikation der Schätzfunktion bereits von vornherein korrigiert werden. 9.1.4 Varianz der Schätzung Der anschauliche Wunsch, dass die Schätzwerte möglichst gering vom wahren Wert abweichen, wird formal durch die Schätzvarianz erfasst. Je geringer die Varianz der Schätzwerte ist, desto geringer ist die mittlere quadratische Abweichung der Schätzwerte â vom Erwartungswert der Schätzung. V AR{â} = E (â − E{â})2 = E{â2 } − E{â}2 (9.2) Falls das Schätzverfahren erwartungstreu ist, dann beschreibt die Schätzvarianz gleichzeitig die quadratische Abweichung vom wahren Wert a. V AR{â} = E (â − a)2 = E (â − E{â})2 (9.3) Schätzverfahren mit minimaler Schätzvarianz werden als wirksame Schätzverfahren bezeichnet, (vgl. Abbildung 9.2). 9.1.5 Konsistenz Ein Schätzverfahren heißt konsistent, falls für eine wachsende Zahl der zur Schätzung herangezogenen Messwerte die Wahrscheinlichkeit, mit der die Schätzung vom wahren Wert abweicht, gegen Null konvergiert: lim P {|âN − a| ≥ ǫ} = 0 ∀ ǫ > 0 N →∞ 196 (9.4) 9.2. BAYESSCHE SCHÄTZREGEL Die Konsistenz einer Schätzung wird nur dann erreicht, wenn die Varianz der Schätzwerte mit wachsendem N gegen Null konvergiert: lim E (âN − a)2 = lim V AR {(âN )} = lim σâ2N = 0 N →∞ N →∞ N →∞ (9.5) Diese Behauptung folgt aus der Tschebyscheffschen Ungleichung: P (|âN − a| ≥ ǫ) ≤ σâ2N . ǫ2 (9.6) 9.2 Bayessche Schätzregel Der BAYES-Detektor (Kapitel 8.3) minimiert das Risiko einer Entscheidung. Das Risiko ist der Mittelwert der auftretenden Kosten. Es ist die Kenntnis einer Kostenfunktion C und der bedingten Wahrscheinlichkeitsdichte fy|a (y|a) bzw. der a-priori Wahrscheinlichkeitsdichte fa (a) erforderlich. Im Falle der Estimation ist die Kostenfunktion C(â, a) eine kontinuierliche Funktion, welche vom Schätzwert â und dem wahren Wert a abhängt. Häufig ist man nur an dem Fehler e = â − a der Schätzung interessiert, so dass die Kostenfunktion nur von diesem Fehler abhängt. Das Risiko bei einer Schätzung berechnet man als R = E{C(e)} = = Z∞ Z∞ −∞ −∞ = Z∞ −∞ Z∞ Z∞ −∞ −∞ C(â − a)f(y,a) (y, a) dy da C(â − a)f(y|a) (y|a)fy (y) dy da fy (y) Z∞ −∞ | C(â − a)f(y|a) (y|a) da dy {z (9.7) } I Da fy (y) definitionsgemäß größer Null ist, wird das Risiko minimal, wenn das Integral I seinen minimalen Wert annimmt: ∂ ∂â Z∞ −∞ ! C(â − a)f(y|a) (y|a) da = 0 (9.8) Meist beschränkt man sich auf die in Abbildung 9.3 dargestellten drei Kostenfunktionen C(e). Es ergeben sich für diese drei verschiedenen Kostenfunktionen folgende Schätzwerte: 197 KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION) C(e)=e2 C(e)=|e| 1 1 C(e) 1 D -1 -1 1 1 -D/2 +D/2 Abbildung 9.3: Häufig verwendete Kostenfunktionen 1. für die Kostenfunktion des quadratischen Fehlers C(e) = e2 : ∂ I ∂â = ∂ ∂â = 2â Z∞ −∞ Z∞ −∞ âMS = (â − a)2 fa|y (a|y) da fa|y (a|y) da − 2 Z∞ afa|y (a|y) da = 0 −∞ Z∞ afa|y (a|y) da = E{a|y} (9.9) −∞ Anmerkung: Die Schätzung liefert den A-posteriori Mittelwert E{a|y}. Da dieser Schätzwert die Varianz des Fehlers minimiert, ist diese Schätzung wirksam. 2. für die Kostenfunktion des absoluten Fehlers C(e) = |e|: Zâ fa|y (a|y) da = −∞ Z∞ fa|y (a|y) da (9.10) â Anmerkung: Die Schätzung liefert den Median von fa|y . Bei symmetrischer Verteilung stimmt dieser Schätzwert mit dem des quadratischen Fehlers überein. 3. für die Kostenfunktion des gleichförmigen Fehlers: 0 für |e| < ∆/2 C(e) = 1 für |e| > ∆/2 ∂ I ∂â = = ≈ ∂ ∂â â−∆/2 Z fa|y (a|y) da + −∞ ∂ 1 − ∂â Z∞ â+∆/2 â+∆/2 Z â−∆/2 fa|y (a|y) da ∆fa|y (a|y)a=â = ∆fa|y (â|y) 198 fa|y (a|y) da 9.3. MAXIMUM-LIKELIHOOD SCHÄTZREGEL ∂fa|y (a|y) =0 ∂â a=â (9.11) Anmerkung: Die Schätzung liefert die Stelle des Maximums von fa|y , den Maximuma-posteriori Schätzwert. Häufig ist die a-posteriori Dichte nicht verfügbar, so dass eine Umrechnung auf a-priori Dichten erfolgt. Die genannte drei Kostenfunktionen werden in Abbildung 9.4 nochmal zusammenfassend dargestellt. Bayes−Schätzer 0.07 konstante Wichtung großer Fehler 0.06 absoluter Fehler 0.05 quadratischer Fehler fx 0.04 0.03 0.02 0.01 0 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 x Abbildung 9.4: Bayes Schätzer mit den drei verschiedenen Kostenfunktionen 9.3 Maximum-Likelihood Schätzregel Meist ist die a-posteriori-Wahrscheinlichkeitsdichte unbekannt. Es erfolgt deshalb die Umrechnung mit der BAYES-Formel fa|y (a|y) = fy|a (y|a)fa (a) . fy (y) (9.12) Da fy (y) unabhängig vom Parameter a eingeht, kann dies bei der Maximierung der aposteriori Wahrscheinlichkeit vernachlässigt werden. Hat man keine Vorkenntnisse über die Wahrscheinlichkeitsdichtefunktion des zu schätzenden Parameters, so vernachlässigt man außerdem fa (a) und gelangt zur MaximumLikelihood-Schätzung: ∂ fy|a (y|a) =0 ∂a a=â 199 (9.13) KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION) Wie im Falle der Detektion bestimmt man häufig das Maximum der Funktion ∂ ln(fy|a (y|a)) = 0, ∂a a=â (9.14) was insbesondere bei gaußverteilten Störung vorteilhaft ist. Man erkennt, dass diese Schätzregel der BAYES-Regel mit gleichverteilten Kosten bis auf einen konstanten Term entspricht. 9.4 Schätzung des Erwartungswertes Im Folgenden wird angenommen, dass von einer Zufallsvariablen Y insgesamt N statistisch unabhängige und identisch verteilte Beobachtungen y(1), y(2), ..., y(N ) vorliegen. Über das wahrscheinlichkeitstheoretische Gesetz der Zufallsvariablen Y liegen keine konkreten Angaben vor, lediglich der Erwartungswert µy und die Varianz σy2 der Zufallsvariablen Y werden im Folgenden betrachtet. Ein zunächst unbekannter Erwartungswert µy wird mit Hilfe des arithmetischen Mittelwertes geschätzt. µˆy = N 1 X y(n) N n=1 (9.15) Eigenschaften: In der Analyse dieses Schätzverfahrens werden im folgenden die Erwartungstreue und die Schätzvarianz untersucht. 1. Die Erwartungstreue ist erfüllt: E{µˆy } = = = E ( ) N 1 X y(n) N n=1 N 1 X E {y(n)} N n=1 N 1 X µy = µy N n=1 2. Die Schätzvarianz kann wie folgt ermittelt werden: !2 N 1 X V AR{µˆy } = E (µˆy − µy )2 = E y(n) − µy N n=1 = N N 1 XX E {(y(n) − µy )(y(m) − µy )} N 2 n=1 m=1 (9.16) (9.17) Im Falle statistisch unabhängiger Zufallsvariablen y(n) ist der Erwartungswert für alle n 6= m gleich Null, so dass gilt N N 1 X 2 1 1 X 2 E (y(n) − µy ) = 2 σ = σy2 V AR{µ̂y } = 2 N n=1 N n=1 y N 200 (9.18) 9.5. SCHÄTZUNG DER VARIANZ In dieser Herleitung wurden noch einmal sämtliche Details zur Begründung der mathematischen Aussage berücksichtigt. Wesentlich einfacher wäre die Herleitung unter Zuhilfenahme des Satzes von Bienaymé, der aussagt, dass die Varianz einer Summe gleich der Summe der Varianzen ist, falls die Zufallsvariablen unkorreliert sind. ) ( N N N 1 X 1 X 2 1 1 X y(n) = 2 V AR{y(n)} = 2 σy = σy2 V AR{µ̂y } = V AR N n=1 N n=1 N n=1 N Die Varianz dieses Schätzverfahrens (arithmetischer Mittelwert) geht also gegen 0, falls N gegen Unendlich wächst. 9.5 Schätzung der Varianz 9.5.1 Schätzung der Varianz bei bekanntem Erwartungswert µy Der unbekannte Erwartungswert einer Zufallsvariablen konnte also, wie oben hergeleitet, sehr gut durch das arithmetische Mittel geschätzt werden. Jetzt stellt sich die erweiterte Frage, wie die unbekannte Varianz einer Zufallsvariablen zuverlässig geschätzt werden kann, wenn der Erwartungswert µy dieser Zufallsvariablen als bekannt angenommen wird. Dabei lassen wir uns zunächst von der Tatsache leiten, dass die Varianz einer Zufallsvariablen aus dem zweiten Moment und dem Erwartungswert der Zufallsvariablen Y berechnet werden kann. V AR{Y } = σy2 = E{Y 2 } − µ2y = m2,y − µ2y (9.19) Das zweite Moment einer Zufallsvariablen lässt sich wiederum durch das arithmetische Mittel über die quadratischen Werte der Zufallsvariablen Y schätzen. m̂2,y = N 1 X 2 y (n) N n=1 (9.20) Daraus entsteht wiederum ein erwartungstreues Schätzverfahren für das zweite Moment der Zufallsvariablen Y . N 1 X E{y 2 (n)} = m2,y E{m̂2,y } = N n=1 (9.21) Mit diesen Überlegungen und für den Fall, dass der Erwartungswert µy der Zufallsvariablen Y bekannt ist, kann ein Verfahren zur erwartungstreuen Schätzung der unbekannten Varianz einer Zufallsvariablen wie folgt angegeben werden. σ̂y2 = m̂2,y − µ2y N 1 X 2 y (n) − µ2y = N n=1 201 (9.22) KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION) Die Erwartungstreue dieses Schätzverfahrens zur Ermittlung der Varianz ergibt sich unmittelbar aus dem oben gesagten. E{σ̂y2 } = E{m̂2,y } − µy 2 = m2,y − µ2y = σy2 (9.23) 9.5.2 Schätzung der Varianz bei unbekanntem Erwartungswert µy Etwas anders stellt sich die Situation dar, wenn die Varianz einer Zufallsvariablen Y geschätzt werden soll, wenn der Erwartungswert der Zufallsvariablen selber unbekannt ist und geschätzt werden muss. In Anlehnung an die obige Analyse würde man als Schätzverfahren zunächst vermuten, dass eine Schätzung des zweiten Moments und eine Schätzung des Erwartungswertes wie folgt berücksichtigt wird: σ̂y2 = m̂2,y − µ̂2y N 1 X 2 = y (n) − N n=1 !2 N 1 X y(n) N n=1 (9.24) Es wird sich allerdings zeigen, dass dieses Schätzverfahren bei unbekanntem Erwartungswert nicht erwartungstreu ist. In diesem Fall gilt E{σ̂y2 } = E{m̂2,y } − E{µ̂2y } (9.25) mit E{m̂2,y } = E und ( ) N N 1 X 1 X 2 y (n) = E{y 2 (n)} = m2,y = σy2 + µ2y N n=1 N n=1 !2 N N N X 1 1 XX E{µ̂2y } = E y(n) E{y(n)y(m)}. = 2 N N n=1 n=1 m=1 Für eine statistisch unabhängige, identisch verteilte Zufallsvariable Y gilt σy2 + µ2y falls n = m E{y(n)y(m)} = . µ2 falls n 6= m y (9.26) (9.27) (9.28) Mit diesen Vorbereitungen erhält man N N X 1 X 2 E{y (n)} + E{y(n)y(m)} E{µ̂2y } = N 2 n=1 m=1 m6=n = = 1 N2 N X (σy2 + µ2y + (N − 1)µ2y ) n=1 N 1 1 X 2 (σ + N µ2y ) = σy2 + µ2y N 2 n=1 y N 202 (9.29) 9.6. REKURSIVE SCHÄTZUNG DES ERWARTUNGSWERTES und daraus schließlich E{σ̂y2 } = σy2 + µ2y − N −1 2 1 2 σy − µ2y = σy . N N (9.30) Mit dieser Analyse wird gezeigt, dass das obige Schätzverfahren zur Berechnung der unbekannten Varianz bei gleichzeitig unbekanntem Erwartungswert die Erwartungstreue knapp verfehlt. Dieser Mangel kann allerdings durch eine leichte Modifikation des Schätzverfahrens behoben werden: Eine erwartungstreue Schätzung der unbekannten Varianz erhält man mit σ̂y2 N 1 X = (y(n) − µ̂y )2 N − 1 n=1 (9.31) Die Erwartungstreue dieses Schätzverfahrens erkennt man aus: E{σ̂y2 } = = = N 1 X 2 E{[(y(n) − µy ) − (µ̂y − µy )] } N − 1 n=1 N 1 X E{(y(n) − µy )2 } − 2E{(y(n) − µy )(µ̂y − µy )} N − 1 n=1 +E{(µ̂y − µy )2 } ! σy2 1 2 N σy − N = σy2 N −1 N 9.6 Rekursive Schätzung des Erwartungswertes In den obigen Betrachtungen wurde die große Bedeutung des arithmetischen Mittelwertes (Abschnitt 9.4) als geeignetes Schätzverfahren unterstrichen. Gleichzeitig wurden die wichtigen Eigenschaften der Erwartungstreue und der minimalen Schätzvarianz hergeleitet. Die Schätzvarianz nimmt kontinuierlich mit wachsendem Stichprobenumfang N ab und damit nimmt die Qualität der Schätzung kontinuierlich zu. Aus diesem einfachen Grund würde man in vielen praktischen Anwendungen gerne einen großen Stichprobenumfang einsetzen. Allerdings muss dann immer wieder überprüft werden, ob die Zufallsvariablen auch bei großem Stichprobenumfang noch als statistisch unabhängig und identisch verteilt betrachtet werden können. An dieser Stelle kann es Einschränkungen geben, die zu einem begrenzten Stichprobenumfang führen. Bei einer Signalbeobachtung kann durchaus von einer Kurzzeitstationarität ausgegangen werden, d.h., die obige Annahme nach statistisch unabhängigen identisch verteilten Zufallsvariablen ist in bestimmten Grenzen erfüllt. Darüber hinaus können sich allerdings die statistischen Parameter verändern. Aus diesem Grund sucht man ein Verfahren zur Schätzung des Erwartungswertes oder anderer stochastischer Parameter, das in der Lage 203 KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION) ist, sich selbständig an veränderte Signalparameter anzupassen. In solchen Situationen ist der Einsatz eines rekursiven (gedächtnisbehafteten) Schätzverfahrens ratsam. Im Folgenden sollen jetzt die Eigenschaften eines solchen Verfahrens zur Schätzung des Erwartungswertes betrachtet werden, welches in der Praxis häufig wegen seiner einfachen Realisierung angewendet wird: die rekursive Schätzung des Erwartungswertes. Dieses rekursive Schätzverfahren hat interessante statistische Eigenschaften. Es ist fast erwartungstreu und hat eine lediglich durch Wahl des Faktors α bestimmte Schätzvarianz. Beide Eigenschaften werden im folgenden mathematisch hergeleitet. Ausgehend von statistisch unabhängigen Messwerten y(1), y(2), . . . , y(N ), . . . wird der Erwartungswert µ geschätzt durch den rekursiv berechneten Wert µ̂(N ). µ̂(N ) = αµ̂(N − 1) + (1 − α)y(N ); 0≤α≤1 (9.32) Der Schätzwert µ̂(N ) bei Eintreffen des N -ten Messwertes berechnet sich also durch Addition des Schätzwertes µ̂(N −1) zum neuen Messwert y(n), wobei der vorherige Schätzwert µ̂(N − 1) mit dem Faktor α und der neue Messwert mit dem Faktor (1 − α) gewichtet wird. Zur Untersuchung der Eigenschaften dieses rekursiven Schätzverfahrens ist die folgende Darstellung nützlich: µ̂(N ) = αµ̂(N − 1) + (1 − α)y(N ) = α [αµ̂(N − 2) + (1 − α)y(N − 1)] + (1 − α)y(N ) = α2 µ̂(N − 2) + (1 − α) [αy(N − 1) + y(N )] . (9.33) Wird der Summand α2 µ̂(N − 2) mit Hilfe dieses rekursiven Verfahrens weiter ersetzt und geht man von einem Startwert µ̂(0) = 0 aus, erhält man µ̂(N ) = (1 − α) y(N ) + αy(N − 1) + α2 y(N − 2) + . . . (9.34) 9.6.1 Erwartungstreue der rekursiven Schätzung Der rekursive Schätzer für den Erwartungswert soll jetzt auf seine Erwartungstreue hin untersucht werden. Hierzu wird der Erwartungswert der Schätzung wie folgt berechnet: E{µ̂(N )} = = = n h io E (1 − α) y(N ) + αy(N − 1) + α2 y(N − 2) + · · · + α(N −1) y(1) h i (1 − α) E{y(N )} + αE{y(N − 1)} + · · · + α(N −1) E{y(1)} µ(1 − α) 1 + α + α2 + α3 + α4 + · · · + αN −1 {z } | N = 1−α 1−α = (Abschnitt einer geometrischen Reihe) N µ(1 − α ) (9.35) 204 9.6. REKURSIVE SCHÄTZUNG DES ERWARTUNGSWERTES Der Schätzer ist asymptotisch erwartungstreu: lim (E{µ̂}) = µ. N →∞ (9.36) 9.6.2 Varianz der rekursiven Schätzung Neben dem Erwartungswert der rekursiven Schätzung µ̂(N ) ist natürlich auch die Varianz von Interesse. Sie lässt sich unter Ausnutzung von V ar{aX} = a2 V ar{X} und des Satzes von Bienaymé folgendermaßen berechnen: V ar{µ̂(N )} = = = V ar (1 − α) y(N ) + αy(N − 1) + α2 y(N − 2) + . . . (1 − α)2 V ar{y(N )} + α2 V ar{y(N − 1)} + α4 V ar{y(N − 2)} + . . . i h σY2 (1 − α)2 1 + α2 + α4 + · · · + α2(N −1) | {z } 2N = 1−α 1−α2 = σY2 (1 − α) 1 − α2N 1+α (9.37) Betrachtet man nun wieder den Grenzwert für N → ∞, so konvergiert die Potenzreihe −1 gegen 1 − α2 und es ergibt sich: σY2 (1 − α)2 1 − α2 1−α . = σY2 1+α lim (V ar{µ̂(N )}) = N →∞ (9.38) Beispiel 9.1 (Rekursive Schätzung) Abbildung 9.5(a) zeigt den Verlauf der Schätzwerte mehrerer rekursiver Schätzer mit unterschiedlichen Parametern α über den gleichen Messwerten y(n). Der Einfluss des Parameters α ist deutlich zu erkennen: • Großes α: Kleine Schätzvarianz, aber langsames Einschwingen • Kleines α: Schnelles Einschwingen, aber große Schätzvarianz In Abbildung 9.5(b) ist für α = 0.99 der Verlauf des Erwartungswertes und der Varianz der Schätzung dargestellt. △ 205 KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION) 7 6 5 µ̂(N ) 4 3 2 α =0.5 α =0.9 α =0.99 α =0.999 1 0 0 500 1000 1500 2000 2500 N 3000 3500 4000 4500 5000 (a) Einfluss des Parameters α 5 4.5 4 Schätzung 3.5 3 2.5 2 1.5 1 mE E{mE} Var{mE} 0.5 0 0 50 100 N 150 200 (b) Erwartungswert/Varianz der Schätzung bei N → ∞ Abbildung 9.5: Beispiel eines rekursiven Schätzers 9.7 Schätzung mit geordneter Statistik In vielen praktischen Anwendungen können im vorliegenden Stichprobenumfang Ausreißer enthalten sein, die durch die Messanordnung oder auch durch auftretende Interferenzen verursacht werden können. Damit ist die mit dem arithmetischen Mittelwert verbundene Voraussetzung identisch verteilter Zufallsvariablen nicht mehr erfüllt. In solchen Situationen werden bevorzugt geordnete Statistiken (siehe Abschnitt 4.6) eingesetzt, die sich in ihrem Schätzverhalten robust gegenüber Ausreißern verhalten. Beispiel 9.2 (Zeitsignal mit Ausreißern) Bei einer Messung wurden die in Abbildung 9.6(a) dargestellten N = 1000 Werte eines Zeitsignals gemessen. In diesem Signal sind zehn Ausreißer vorhanden, die sich mit bloßem Auge leicht erkennbar sind. In einer automatischen Signalauswertung liegt diese Erkenntnis allerdings nicht vor. Um den Erwartungswert des Zeitsignals zu schätzen, wur206 9.7. SCHÄTZUNG MIT GEORDNETER STATISTIK 10 Messwert y(n) 8 6 4 2 0 200 400 600 800 Zeit n (a) Messwerte 6 arith. Mittelwert rekursive Schätzung geordnete Statistik 5.8 5.6 5.4 5.2 5 4.8 4.6 4.4 200 400 600 800 Zeit n (b) Geschätzter Erwartungswert Abbildung 9.6: Auswirkung von Ausreißern auf die verschiedenen Schätzverfahren den die drei bekannten Schätzverfahren • Arithmetischer Mittelwert • Rekursive Schätzung • Geordnete Statistik jeweils gleitend mit einer Fenstergröße von (T = 17) angewendet. Bei der Schätzung mit Hilfe der geordneten Statistik wurden die T Messwerte innerhalb des Fensters der Größe nach geordnet und der Median (bei dieser Fenstergröße also der Wert auf Rang 9) als Schätzwert verwendet. In Abbildung 9.6(b) sind die Schätzwerte für alle drei Verfahren über der Zeit grafisch dargestellt. In Zeitabschnitten, in denen keine Ausreißer auftreten, sind die geschätzten Er207 KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION) wartungswerte für alle drei Verfahren ähnlich gut. Es ist jedoch deutlich zu erkennen, dass die beiden ersten Verfahren empfindlich auf Ausreißer reagieren und schon ein einziger Ausreißer die Schätzung deutlich beeinflusst, z.B. bei n = 400. Die Schätzung mit Hilfe der geordneten Statistik hingegen ist robust gegenüber diesen einzelnen Störungen. △ 9.8 Konfidenzintervall Wird eine Parameterschätzung durchgeführt, so stimmt der geschätzte Parameter im Allgemeinen nicht mit dem wahren Parameter überein. Daher ist die Angabe eines Intervalls, in dem sich der zu schätzende Parameter mit einer großen Wahrscheinlichkeit befindet, in der Praxis von großem Interesse. Die Bestimmung eines solchen Intervalls bezeichnet man als Intervallschätzung. Definition 9.1 (Konfidenzintervall) Ein Intervall [âN,1 , âN,2 ], in dem sich der zu schätKonfidenzintervall zende Parameter a mit einer Wahrscheinlichkeit von 1 − α befindet, wird als Konfidenzoder auch Vertrauensintervall bezeichnet. [âN,1 , âN,2 ] mit P (âN,1 ≤ a ≤ âN,2 ) ≥ 1 − α ❍ Die Konstante α bezeichnet also die Wahrscheinlichkeit, dass der (unbekannte) wahre Wert des Parameters a außerhalb des Konfidenzintervalls [âN,1 , âN,2 ] liegt. Typische Werte für α sind 0.05, 0.01 und 0.001, die zugehörigen Konfidenzintervalle werden als 95%–, 99%– und 99,9%–Konfidenzintervall bezeichnet. Im Folgenden soll hier nur auf Konfidenzintervalle eingegangen werden, die symmetrisch um den jeweiligen Schätzwert angeordnet sind. In diesem Fall lässt sich das Konfidenzintervall durch den jeweiligen Schätzwert âN und einen einzigen weiteren Parameter δ angeben: P (âN − δ ≤ a ≤ âN + δ) ≥ 1 − α (9.39) 9.8.1 Konfidenzintervall für den Erwartungswert Die Schätzung des Erwartungswertes für eine unbekannte Zufallsvariable, von der insgesamt N Realisierungen vorliegen, ist eine wichtige und in der Praxis häufig auftretende Aufgabe. Gegeben seien in diesem Fall N statistisch unabhängige Wiederholungen einer normalverteilten Zufallsvariablen Y mit unbekanntem Erwartungswert µ und einer Varianz 208 9.8. KONFIDENZINTERVALL σ 2 . Es soll jetzt ein Konfidenzintervall für den Erwartungswert von Y bestimmt werden. Dazu werden zwei wichtige Fälle unterschieden: Bei bekannter Varianz σ 2 Der Erwartungswert von Y wird mit Hilfe des arithmetischen Mittelwertes geschätzt1 (vgl. auch Kapitel 9.4): N 1 X y(i). µ̂ = N i=1 Das arithmetische Mittel µ̂ ist einerseits erwartungstreu und andererseits wie die Zufallsvariable Y ebenfalls normalverteilt – mit dem Erwartungswert µ aber der Varianz der Normierung Z= µ̂ − µ √ N σ σ2 N . Mit (9.40) erhält man eine Zufallsgröße Z, die der Standard-Normalverteilung genügt (vgl. Abbildung 9.7). Abbildung 9.7: Das 1 − α Intervall für die Standardnormalverteilung. Damit ergibt sich folgende Bedingung P (−δ ≤ Z ≤ δ) ≥ 1 − α. Die Konstante δ ist dabei das Fraktil (vgl. Abschnitt 3.2) der Standard-Normalverteilung mit 1−α P (−δ ≤ Z ≤ δ) = Φ(δ) − Φ(−δ) = 2Φ(δ) − 1 α ⇒ Φ(δ) = 1 − ⇐⇒ δ = z1− α2 . 2 = (9.41) Nun lässt sich der Ausdruck für das Konfidenzintervall wie folgt berechnen: σ µ̂ − µ √ σ N ≤ δ = P µ̂ − δ √ ≤ µ ≤ µ̂ + δ √ P (−δ ≤ Z ≤ δ) = P −δ ≤ σ N N σ σ . (9.42) ⇒ µ̂ − z1− α2 √ , µ̂ + z1− α2 √ N N 1 Zur Vereinfachung der Schreibweise verzichten wir hier und im Folgenden auf die Verwendung der Indizes N und Y . 209 KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION) Bei unbekannter Varianz σ 2 In diesem Fall wird der Erwartungswert von Y wiederum durch den arithmetischen Mittelwert geschätzt. Zusätzlich wird die als unbekannt angenommene Varianz von Y ebenfalls aus den Messwerten mit dem im Kapitel 9.5.2 beschriebenen Verfahren wie folgt geschätzt N σ̂ 2 = 1 X (y(i) − µ̂)2 . N − 1 i=1 Es lässt sich jetzt zeigen, dass die normierte Zufallsgröße T mit T = µ̂ − µ √ N σ̂ (9.43) einer t-Verteilung mit (N − 1) Freiheitsgraden genügt. (Die Studentsche t-Verteilung lässt sich wie auch die Normalverteilung nicht geschlossen angeben und ist deshalb tabelliert im Anhang angegeben, siehe Abschnitt B.2.) Analog zum Vorgehen bei angenommener bekannter Varianz erhält man für das Konfidenzintervall: σ̂ σ̂ [µ̂ − δ √ , µ̂ + δ √ ]. N N (9.44) Die Konstante δ ist in diesem Fall das Fraktil der t-Verteilung mit (N − 1) Freiheitsgraden zur Irrtumswahrscheinlichkeit α 2, welches oft auch mit tα/2;n−1 abgekürzt wird. Sie kann aus der tabellierten t-Verteilung im Anhang, Abschnitt B.2, abgelesen werden. Das Konfidenzintervall ist wiederum symmetrisch um den arithmetischen Mittelwert angeordnet und berechnet sich in diesem Fall wie folgt: σ̂ σ̂ µ̂ − tα/2;n−1 √ , µ̂ + tα/2;n−1 √ N N (9.45) Beispiel 9.3 (Stichprobe von 10 Messwerten) Gegeben sei die folgende aus 10 statistisch unabhängigen Messwerten bestehende Stichprobe: 0.8420 0.8460 0.8350 0.8390 0.8430 0.8380 0.8400 0.8310 0.8470 0.8500 Es soll nun das 95%- und das 99%-Konfidenzintervall für den Erwartungswert E{Y } angegeben werden. 210 9.8. KONFIDENZINTERVALL Dazu wird der arithmetische Mittelwert berechnet und die Varianz wie folgt geschätzt: µ̂ = σ̂ 2 = 0.8411 3.2989 · 10−5 ⇒ σ̂ = 0.0057. Für α = 0.05 liest man für die Studentsche t-Verteilung aus der Tabelle in Abschnitt B.2 den Faktor t0.025;9 = 2.26 ab, für eine noch geringere Fehlerwahrscheinlichkeit α = 0.01 erhält man den Wert t0.005;9 = 3.25. Mit diesen Vorbereitungen und diesen Angaben erhält man für das 95%-Konfidenzintervall 0.0057 0.0057 = [0.8370, 0.8452] , 0.8411 + 2.26 √ 0.8411 − 2.26 √ 10 10 und für das nur leicht vergrößerte 99%-Konfidenzintervall 0.0057 0.0057 = [0.8352, 0.8470]. , 0.8411 + 3.25 √ 0.8411 − 3.25 √ 10 10 △ Hinweis: Bei ausreichend großem Stichprobenumfang N (in der Literatur meist ab N>30, Bronstein N>100) können in Gleichung 9.45 statt der Fraktile der t-Verteilung die der normierten Normalverteilung verwendet werden. Die Konstante δ wird in diesem Fall also genau wie bei bekannter Varianz aus der Standardnormalverteilung bestimmt. Beispiel 9.4 (Konfindenzintervall für mittlere Verzögerungszeit) An einem Router werden die folgenden Verzögerungzeiten für Datenpakete (in ms) gemessen: 49 83 58 65 68 60 76 86 74 53 71 74 65 72 64 42 62 62 58 82 78 64 55 87 56 50 71 58 57 75 58 86 64 56 45 73 54 86 79 73 Anhand dieser Werte soll das 95%-Konfidenzintervall (α = 0.05) für den Erwartungswert bestimmt werden. Der durch den arithmetischen Mittelwert geschätzte Erwartungswert und die geschätzte Varianz ergeben sich zu µ̂ = 1 (49 + 83 + ... + 73) = 66.225 40 N X 1 (Yi − µ̂)2 = 143.820 σ̂ = (40 − 1) i=1 2 211 KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION) Da eine große Anzahl von Stichproben vorliegt (N > 30), können mit den obigen Überlegungen die Fraktile der Normalverteilung verwendet werden. Der Wert für das z1− α2 Fraktil der Standardnormalverteilung lässt sich aus der entsprechenden Tabelle ablesen: z0.975 = 1.96. Das 95%-Konfidenzintervall ergibt sich somit zu # " √ √ 143.820 143.820 = [62.508, 69.942]. , 66.225 + 1.96 · √ 66.225 − 1.96 · √ 40 40 △ 9.9 Minimale Varianz von Schätzwerten: Cramer-RaoSchranke Ziel beim Entwurf eines Schätzverfahrens ist die Minimierung der Schätzvarianz bzw. des Schätzfehlers. Zur Berechnung der Schätzvarianz eines erwartungstreuen Schätzverfahrens geht man von der Definition der Erwartungstreue aus (Abschnitt 9.1.3) E{â} = Z∞ âfâ (â) dâ = a (9.46) −∞ und differenziert diese nach dem zu schätzenden Parameter a, so dass man aus ∂ ∂a Z∞ −∞ (â − a)fy|a (y|a) dy = Z∞ −∞ ∂ (â − a)fy|a (y|a) dy = 0 ∂a durch Anwendung der Produktregel Z∞ (−1)fy|a (y|a) dy + −∞ erhält. | {z } −1 Z∞ −∞ (â − a) ∂fy|a (y|a) dy = 0 ∂a (9.47) Mit ∂ ln fy|a (y|a) ∂fy|a (y|a) 1 = ∂a fy|a (y|a) ∂a wird hieraus Z∞ −∞ (â − a)fy|a (y|a) ∂ ln fy|a (y|a) dy = 1. ∂a Mit der S CHWARZschen Ungleichung | < x, y > |2 ≤ ||x||2 ||y||2 212 (9.48) 9.9. CRAMER-RAO-SCHRANKE kann man diese Gleichung umformen in 1≤ Z∞ −∞ 2 (â − a) f|a (y|a) dy {z | Z∞ −∞ }| 2 σâ ∂ ln fy|a (y|a) fy|a (y|a) ∂a {z E » ∂ ln fy|a (y|a) ∂a 2 –2 ff dy (9.49) } Die letzte Gleichung σâ2 ≥ E ( 2 )−1 ∂ ln fy|a (y|a) ∂a (9.50) wird als C RAMER -R AO-Schranke bezeichnet. C RAMER -R AO- Bedeutung der C RAMER -R AO-Schranke: Schranke • Jeder erwartungstreue Schätzer besitzt eine Schätzvarianz, die größer als eine bestimmte untere Grenze ist. • Gilt das Gleichheitszeichen, so wird die Schätzung als wirksam oder effizient bezeichnet. • Ist die Schätzung wirksam, so wird die minimale Varianz durch die ML-Schätzung erreicht. Eine alternative Darstellung der C RAMER -R AO-Schranke ist gegeben mit: σâ2 ≥ −E ∂ 2 ln fy|a (y|a) ∂a2 −1 (9.51) Beweis: ∂2 1 = ∂a2 ∂2 ∂a2 Z∞ −∞ Z∞ 0 = ∂ ∂a 0 = Z∞ −∞ fy|a (y|a) dy −∞ ∂ ln(fy|a (y|a)) fy|a (y|a) dy ∂a 2 Z∞ ∂2 ∂ ln(f (y|a)) f (y|a) dy + ln(f (y|a)) fy|a (y|a) dy y|a y|a y|a ∂a2 ∂a −∞ Damit gilt −E ( 2 ) ∂ ∂2 ln(fy|a (y|a)) = E ln(fy|a (y|a)) ∂a2 ∂a Beispiel 9.5 (C RAMER -R AO-Schranke bei AWGN Störungen) Es möge die Messgröße y durch die additive Überlagerung einer erwartungswertfreien, gaußverteilten Störgröße n aus a hervorgehen. 2 1 − (y−a) e 2σn2 fy|a = √ 2πσn 213 KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION) Die untere Grenze der Fehlervarianz erhält man dann als −E ∂ 2 ln fy|a (y|a) ∂a2 √ (y − a)2 ∂2 2πσ ) + ln( n ∂a2 2σn2 (y − a) ∂ − E ∂a σn2 1 1 E = 2 σn2 σn = E = = △ 9.10 Lineare Schätzverfahren Bei linearen Schätzverfahren soll der unbekannte Parametervektor a aus einer Linearkombination von gestörten Empfangswerten y gewonnen werden: â = G · y (9.52) Lineare Schätzverfahren besitzen den Vorteil, dass sie leicht mit Hilfe eines Filters zu realisieren sind. Es ist keine Kenntnis der Statistik des Störprozesses erforderlich, sondern die Schätzung beruht ausschließlich auf den Momenten zweiter Ordnung. Die Koeffizientenmatrix G soll dabei so gewählt werden, dass der mittlere quadratische Schätzfehler minimal wird: ! E{(a − â)2 } = min. 9.10.1 Orthogonalitätsprinzip Man erhält eine optimale Approximation durch den Schätzvektor â für den Parametervektor a mit minimalem quadratischen Fehler, wenn der resultierende (lineare) Fehlervektor e = â − a senkrecht auf dem Schätzvektor â steht, d.h.: ! E{â(a − â)T } = 0 (9.53) 9.10.2 Allgemeine Regeln eines linearen Schätzverfahrens Aus der Orthogonalitätsforderung E{r(a − â)T } = E{raT } − E{rrT GT } = Rra − Rrr GT = 0 214 (9.54) 9.11. ADDITIVE UNKORRELIERTE STÖRUNGEN erhält man folgende Symmetriebeziehungen Rra = E{raT } = E{(arT )T } = RTar und Rrr = E{rrT } = E{(rrT )T } = RTrr sowie aus der folgenden Gleichung GT = R−1 rr Rra die optimale Matrix G für ein lineares Schätzverfahren −1 T G = RTra (R−1 rr ) = Rar Rrr . (9.55) 9.10.3 Auftretende Fehler bei linearen Schätzverfahren Den mittleren quadratischen Schätzfehler F ermittelt man durch Einsetzen der Koeffizientenmatrix G in die folgende Gleichung: F = E{(Gr − a)(Gr − a)T } −1 T = E{(Rar R−1 rr r − a)(Rar Rrr r − a) } . = .. = Raa − Rar R−1 rr Rar (9.56) 9.11 Additive unkorrelierte Störungen Die beobachteten Messwerte sollen einen Zufallsprozess beschreiben und durch eine additive, mittelwertfreie Überlagerung der Störung n aus den zu schätzenden Werten a hervorgehen: y(k) = a(k) + n(k) (9.57) n(k) a(k) Ä y(k) Linearer Schätzer â(k) Unter der Voraussetzung, dass a(k) und n(k) stationär sind, ist die Bestimmungsgleichung der Koeffizienten g N −1 X j=0 Rrr (k − j)g = Rar (k) 215 (9.58) KAPITEL 9. SCHÄTZVERFAHREN (ESTIMATION) Dieser Zusammenhang wird als W IENER -H OPF-Gleichung bezeichnet. Für unkorrelierte a(k) und n(k) lassen sich Rrr und Rar mit Hilfe der Autokorrelationsfolgen Raa und Rnn darstellen. Rrr (k) = Raa (k) + Rnn (k) Rar (k) = Raa (k) In diesem Fall ist g nur noch von der Autokorrelationsmatrix des zu schätzenden Parameters a(k) und der des Störprozesses n(k) abhängig. 216 W IENER -H OPFGleichung Teil IV Anhang 217 Anhang A Verständnisfragen A.1 Wahrscheinlichkeitsrechnung • Was ist ein Ereignis? • Wie ist Wahrscheinlichkeit definiert? • Warum benötigt man eine axiomatische Definition der Wahrscheinlichkeit? • Was ist eine Zufallsvariable? • Was beschreibt die Wahrscheinlichkeitsdichtefunktion, was die Verteilungsfunktion? • Was sind typische WDF und wo treten diese auf? • Wie ist ein Moment definiert? • Wann sind Zufallsvariablen statistisch unabhängig und wann sind sie unkorreliert? • Was ist die charakteristische Funktion und wozu kann sie genutzt werden? • Wie wird eine WDF an einer Kennlinie transformiert? • Was sagt der zentrale Grenzwertsatz aus? • Welche Aussagen kann man mit Hilfe der Tschebyscheffschen Ungleichung treffen? A.2 Stochastische Prozesse • Was ist ein stochastischer Prozess? • Wann ist ein stochastischer Prozess stationär (im weiteren Sinne/im strengen Sinne)? 219 ANHANG A. VERSTÄNDNISFRAGEN • Wozu benötigt man die Voraussetzung der Ergodizität eines stochastischen Prozesses? • Wodurch beschreibt man stochastische Prozesse? • Welche Struktur besitzt die Autokorrelationsmatrix eines im weiteren Sinne stationären Prozesse? • Wie ist das Leistungsdichtespektrum definiert? • Was sagt die Wiener-Lee-Beziehung aus? • Welcher Zusammenhang besteht zwischen der Autokorrelationsfunktion eines Bandpassprozesses und der der zugehörigen komplexen Einhüllenden? A.3 Detektion & Estimation • Was ist das Ziel der (binären) Detektion? • Was ist ein MAP-Detektor? • Was ist ein ML-Detektor? • Was zeichnet den Neyman-Pearson Detektor aus? • Welcher Zusammenhang besteht zwischen Bayes-Detektor und MAP-Detektor? • Was beschreibt die Empfängercharakteristik? • Was ist das Ziel der Parameterschätzung? • Was sind die Gütekriterien für eine Schätzregel? • Was ist das Kriterium eines ML-Schätzers? • Was sagt die Cramer-Rao-Schranke aus? • Wie bestimmt man die Koeffizienten eines linearen Schätzers? 220 Anhang B Tabellen 221 ANHANG B. TABELLEN B.1 Normierte Normalverteilung x φ(x) x φ(x) x φ(x) x φ(x) x φ(x) x φ(x) 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359 0,50 0,51 0,52 0,53 0,54 0,55 0,56 0,57 0,58 0,59 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 1,50 1,51 1,52 1,53 1,54 1,55 1,56 1,57 1,58 1,59 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441 2,00 2,01 2,02 2,03 2,04 2,05 2,06 2,07 2,08 2,09 0,9773 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817 2,50 2,51 2,52 2,53 2,54 2,55 2,56 2,57 2,58 2,59 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952 0,20 0,21 0,22 0,23 0,24 0,25 0,26 0,27 0,28 0,29 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6062 0,6103 0,6141 0,70 0,71 0,72 0,73 0,74 0,75 0,76 0,77 0,78 0,79 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015 1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,79 0,9554 0,9564 0,9572 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633 2,20 2,21 2,22 2,23 2,24 2,25 2,26 2,27 2,28 2,29 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890 2,70 2,71 2,72 2,73 2,74 2,75 2,76 2,77 2,78 2,79 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974 0,10 0,11 0,12 0,13 0,14 0,15 0,16 0,17 0,18 0,19 0,30 0,31 0,32 0,33 0,34 0,35 0,36 0,37 0,38 0,39 0,40 0,41 0,42 0,43 0,44 0,45 0,46 0,47 0,48 0,49 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879 0,60 0,61 0,62 0,63 0,64 0,65 0,66 0,67 0,68 0,69 0,80 0,81 0,82 0,83 0,84 0,85 0,86 0,87 0,88 0,89 0,90 0,91 0,92 0,93 0,94 0,95 0,96 0,97 0,98 0,99 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8079 0,8106 0,8133 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389 1,10 1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,18 1,19 1,30 1,31 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,46 1,47 1,48 1,49 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319 222 1,60 1,61 1,62 1,63 1,64 1,65 1,66 1,67 1,68 1,69 1,80 1,81 1,82 1,83 1,84 1,85 1,86 1,87 1,88 1,89 1,90 1,91 1,92 1,93 1,94 1,95 1,96 1,97 1,98 1,99 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767 2,10 2,11 2,12 2,13 2,14 2,15 2,16 2,17 2,18 2,19 2,30 2,31 2,32 2,33 2,34 2,35 2,36 2,37 2,38 2,39 2,40 2,41 2,42 2,43 2,44 2,45 2,46 2,47 2,48 2,49 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936 2,60 2,61 2,62 2,63 2,64 2,65 2,66 2,67 2,68 2,69 2,80 2,81 2,82 2,83 2,84 2,85 2,86 2,87 2,88 2,89 2,90 2,91 2,92 2,93 2,94 2,95 2,96 2,97 2,98 2,99 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981 0,9981 0,9982 0,9983 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986 x 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 φ(x) 0,9987 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 B.2. STUDENTSCHE T-VERTEILUNG B.2 Studentsche t-Verteilung Fraktile tα/2,m der Studentschen t-Verteilung m α = 0,50 α = 0,25 α = 0,10 α = 0,05 α = 0,02 α = 0,01 1 1,00 2,41 6,31 12,70 31,82 63,7 2 0,82 1,60 2,92 4,30 6,97 9,92 3 0,77 1,42 2,35 3,18 4,54 5,84 4 0,74 1,34 2,13 2,78 3,75 4,60 5 0,73 1,30 2,01 2,57 3,37 4,03 6 0,72 1,27 1,94 2,45 3,14 3,71 7 0,71 1,25 1,89 2,36 3,00 3,50 8 0,71 1,24 1,86 2,31 2,90 3,36 9 0,70 1,23 1,83 2,26 2,82 3,25 10 0,70 1,22 1,81 2,23 2,76 3,17 11 0,70 1,21 1,80 2,20 2,72 3,11 12 0,70 1,21 1,78 2,18 2,68 3,05 13 0,69 1,20 1,77 2,16 2,65 3,01 14 0,69 1,20 1,76 2,14 2,62 2,98 15 0,69 1,20 1,75 2,13 2,60 2,95 16 0,69 1,19 1,75 2,12 2,58 2,92 17 0,69 1,19 1,74 2,11 2,57 2,90 18 0,69 1,19 1,73 2,10 2,55 2,88 19 0,69 1,19 1,73 2,09 2,54 2,86 20 0,69 1,18 1,73 2,09 2,53 2,85 21 0,69 1,18 1,72 2,08 2,52 2,83 22 0,69 1,18 1,72 2,07 2,51 2,82 23 0,69 1,18 1,71 2,07 2,50 2,81 24 0,69 1,18 1,71 2,06 2,49 2,80 25 0,68 1,18 1,71 2,06 2,49 2,79 26 0,68 1,18 1,71 2,06 2,48 2,78 27 0,68 1,18 1,71 2,05 2,47 2,77 28 0,68 1,17 1,70 2,05 2,47 2,76 29 0,68 1,17 1,70 2,05 2,46 2,76 30 0,68 1,17 1,70 2,04 2,46 2,75 40 0,68 1,17 1,68 2,02 2,42 2,70 60 0,68 1,16 1,67 2,00 2,39 2,66 120 0,68 1,16 1,66 1,98 2,36 2,62 ∞ 0,67 1,15 1,64 1,96 2,33 2,58 223 Index Abbildung unmögliches, 17, 40 Ereignisraum, 17 meßbar, 59 Ankunftsrate, 169 Ergodizität, 151 Autokorrelationsfolge, 153 Erwartungstreue, 195 Autokorrelationsfunktion, 152 Erwartungswert, 84, 85 Autokovarianz, 154 Estimation, 184, 193 Experiment, 46 BAYES, Formel von, 51 Exponentialverteilung, 75 Bayes-Detektor, 185 BAYESsche Schätzregel, 197 Fakultät, 21 B ERNOULLI, 18 p-Fraktile, 82 Experiment, 124 Gauß Bernoulli-Versuch, 57 Algorithmus, 156 B ERTRANDs Paradoxon, 41 Verteilung, 72 Binomialkoeffizient, 24 Gauß’sches Fehlerintegral, 82 Binomialverteilung, 57 gemeinsame Verteilungsfunktion, 92 Borel-Mengen, 44 geordnete Statistik, 120, 206 Gesetz der großen Zahlen, 136 Cauchy-Verteilung, 106 Gleichverteilung, 72 C HAPMAN -KOLMOGOROV-Gleichung, Grenzwertsatz, 123 176 Integralgrenzwertsatz, 128 Charakteristische Funktion, 104, 106 lokaler, 126 C RAMER -R AO-Schranke, 212, 213 zentraler, 123 zentraler, von L INDEBERG -L ÉVY, Detektion, 183 132 Eigenfunktion, 158 zentraler, von L JAPUNOW, 133 Entscheidungsregel, 184 Integralgrenzwertsatz, 129 Ereignis, 17, 39 Intervallschätzung, 208 Elementarereignis, 17, 39 sicheres, 17, 39 JACOBI-Determinante, 119 224 INDEX KOLMOGOROV, 44 KOLMOGOROV’sche Definition, 147 Vorwärts- bzw. N EYMAN -P EARSON-Detektor, 189 Rückwärtsgleichungen, 178 Normalverteilter Zufallsvektor, 99 Konfidenzintervall, 208 Normalverteilung, 72, 80, 105 Konsistenz, 196 Korrelationskoeffizient, 101 Poisson-Prozess, 168 Kostenfunktion, 186, 197 Ankunftsabstände, 171 Kovarianz, 97 grafisch, 170 Kovarianz-Matrix, 98 Verteilung, 170 Kreuzkorrelation, 154, 160 Potenzmenge, 43 Kreuzleistungsdichtefunktion, 161 Probability Density Function, PDF, 66 LDF, 160 p-Quantile, 83 Leistungsdichtespektrum, 160 Rand-Wahrscheinlichkeitsdichte, 93 L EVINSON Randverteilung, 93 Algorithmus, 155 Likelihood-Quotient, 187 Rayleigh-Verteilung, 74 L INDEBERG -L ÉVY, 132 R AYLEIGH-Verteilung, 95 Lineare Schätzverfahren, 214 rekursive Schätzung, 204 Ljapunow, 133 Risiko, 186 Lognormalverteilung, 74 Satz von Bienaymé, 89 LTI-Systeme, 158 Schaarmittelwert, 151 Schätzung M ARKOV Eigenschaft, 173 effiziente, 213 Kette, 173 wirksame, 196, 213 Schätzung der Varianz, 201 M ARKOV-Kette σ-Algebra, 43 Definition, 174 S MOLUCHOWSKY-Gleichung, 176 Markov-Kette Standardabweichung, 89 homogene, 175 Stationarität, 149 Maximum-a-posteriori Detektor, 188 im strengen Sinne, 149 Maximum-Likelihood Detektor, 188 Maximum-Likelihood Schätzregel, 199 statistisch unabhängig, 89 M ISES, R. von, 29 Statistische Unabhängigkeit, 54 M OIVRE -L APLACE, 126 Stetigkeitskorrektur, 131 Momente, 88, 106 stochastische Matrix, 176 Musterfunktion, 147 Stochastische Prozesse, 145 225 INDEX unkorrelierte, 101 Stochastischer Prozess Zufallsvektor, 92 Definition, 146 Zählprozess, 168 t-Verteilung, 210 T SCHEBYSCHEFF’sche Übergangsmatrix, 176 Ungleichung, Übergangswahrscheinlichkeit, 175 134 unabhängige Zufallsvariablen, 94 Unabhängigkeit paarweise, 55 statistische, 54 unbiased, 195 unkorrelierte Zufallsgrößen, 101 Varianz, 88 Varianz der Schätzwerte, 196 Varianz-Kovarianz-Matrix, 98 V ENN-Diagramm, 40 Verschiebungssatz, 89 Verteilungsdichtefunktion, 66 Verteilungsfunktion, 64 Verteilungsgesetz, 66 Vertrauensintervall, 208 Wahrscheinlichkeit, 18, 44 a posteriori, 51 bedingte, 47 totale, 49 Wahrscheinlichkeitsdichte, 66 Wahrscheinlichkeitsmaß, 36 Wahrscheinlichkeitsraum, 46, 56 Weißes Rauschen, 161 W IENER -H OPF-Gleichung, 216 W IENER -L EE-Beziehung, 161 Zeitmittelwert, 151 Zufallsvariable, 59 unabhängige, 94 226