Modellierung und Simulation: Seminarunterlagen Henrik Schulze 15. Oktober 2017 1 Einleitung (kommt noch) 2 2.1 Grundbegriffe der Wahrscheinlichkeitsrechnung Zufallsvariablen, Wahrscheinlichkeiten und Ereignisse Eine Zufallsvariable X ist eine Größe, die verschiedene Werte x mit jeweils einer gewissen Wahrscheinlichkeit (engl.: Probability)Pr{X = x} annehmen kann. Den Begriff der Wahrscheinlichkeit wollen wir einfach intuitiv erklären als die relative Häufigkeit im Grenzfall sehr vieler Proben. Z.B. kann X die Augenzahl eines Würfels sein. Das Ergebnis der Probe ist dann der Wert x ∈ {1, 2, 3, 4, 5, 6}. Bei einem fairen Würfel gilt für die Wahrscheinlichkeiten dieser Ereignisse dann Pr (X = 1) = 1/6, Pr (X = 2) = 1/6, . . . , Pr (X = 6) = 1/6. Für den fairen Würfel gilt eine (diskrete) Gleichverteilung, d.h. alle möglichen Ereignisse für das Würfelergebnis treten mit gleicher Wahrscheinlichkeit auf. Wir kürzen die Schreibweise mit Pr (X = x) = px (1) ab. Ein unfairer Würfel könnte z.B. folgende Wahrscheinlichkeiten haben: p1 = 0.1, p2 = 0.1, p3 = 0.1, p4 = 0.1, p5 = 0.1, p6 = 0.5 Die Summe der Wahrscheinlichkeiten aller möglichen Ereignisse muss immer Eins ergeben: X px = 1 (2) x 1 Eine Wahrscheinlichkeit wird immer einem Ereignis zugeordnet. Hier passt der Begriff zu seiner umgangssprachlichen Bedeutung. Zum Beispiel kann man dem Ereignis, dass im Sauerland am 8. November um 10 Uhr die Sonne scheint, eine Wahrscheinlichkeit zuordnen. Mathematisch beschreibt man Ereignisse durch Mengen. Sei z.B. A = {1, 3, 5} . Dann ist Pr (A) = 1/2 die Wahrscheinlichkeit, dass bei einem fairen Würfel eine ungerade Zahl auftritt. Die Menge aller möglichen Ereignisse bezeichnet man als den Ereignisraum. Für den Ereignisraum E gilt nach Gleichung (2) also Pr(E) = 1. MATLAB- Programmierübung Würfel Zufällige und gleichverteilte (faire) Zufallszahlen zwischen 1 und n erzeugt man mit randi(n). Mit randi(n,[M,N]) erzeugt man eine M ×N -Matrix mit solchen Zufallszahlen. Mit der Initialisierung rng(’default’) oder (z.B.) rng(4711) erreicht man, dass die Zufallszahlen reproduziertbar sind. Erzeugen sie auf diese Weise Zufallszahlen und Zufallsmatrixen für einen fairen Würfel. Passen die Ergebnisse zu dem, was Sie sich unter Zufall vorstellen? Zwei Ereignisse A und B heißen unabhängig , wenn Pr (A ∩ B) = Pr (A) Pr (B) (3) gilt. Disjunkte Ereignisse sind solche die sich gegenseitig ausschließen. Für zwei disjunkte Ereignisse A und B ist die Schnittmenge die leere Menge: A∩B =∅ Für zwei disjunkte Ereignisse A und B gilt für die Wahrscheinlichkeit der Vereinigungsmenge Pr (A ∪ B) = Pr (A) + Pr (B) . (4) Sind die Mengen nicht diskjunkt, gilt offenbar Pr (A ∪ B) < Pr (A) + Pr (B). Zusammenfassend lässt sich für den allgemeinen Fall schreiben: Pr (A ∪ B) ≤ Pr (A) + Pr (B) . Diese Ungleichung nennt man Union Bound . 2 (5) Die geometrische Verteilung Wie oft muss man würfeln, bis man zum ersten Mal eine 6 bekommt? Anders formuliert: Sei eine Erfolgswahrscheinlichkeit p für einen Wurf (ein Ereignis) gegeben (z.B. p = 1/6). Mit welcher Wahrscheinlichkeit erzielt man nach n ∈ N (unabhängigen) Würfen den ersten Erfolg? Wie schreiben q =1−p und erhalten: Pr(X = 1) = p Pr(X = 2) = Pr(X = 3) = .. . qp q2 p Pr(X = n) = q n−1 p Wir scheiben: pn = q n−1 p (n = 1, 2, ...) (6) Einen Zufallsgenerator hierfür gibt es unter MATLAB. Mit geornd(p,[M,N]) erzeugt man eine M × N Matrix von solchen Zufallszahlen. Aber Vorsicht: Hier fängt man mit dem Zählen bei n = 0 an! Man muss also geornd(p,[M,N])+1 nehmen, um auf die obige Verteilung zu kommen. Bedingte Wahrscheinlichkeiten Wenn A und B zwei Ereignisse sind, so bezeichnet man Pr (A|B) = Pr (A ∩ B) Pr (B) (7) als bedingte Wahrscheinlichkeit: Die Wahrscheinlichkeit, dass A unter der Bedingung B eintritt. Eine einfache Folgerung aus der Definition ist der Satz von Bayes: Aus Pr (B|A) Pr (A) = Pr (A|B) Pr (B) (8) folgt Pr (A|B) Pr (B) (9) Pr (A) Falls die disjunkten Ereigisse A1 und A2 zusammen den gesammten Ereignisraum ergeben (A1 ∪ A2 = E, d.h. die Menge aller möglichen Ereignisse abdecken), so gilt das Gesetz der totalen Wahrscheinlichkeit: Pr (B|A) = Pr (B) = Pr (A1 ∩ B) + Pr (A2 ∩ B) = Pr (B|A1 ) Pr (A1 ) + Pr (B|A2 ) Pr (A2 ) (10) Für mehr als zwei disjunkte Ereignisse gilt Entsprechendes. 3 2.2 Wahrscheinlichkeitsdichten In dem obigen Beispiel mit dem Würfel nimmt x nur diskrete Werte an. Viele physikalische Messgrößen (z.B. die Spannungswerte eines Rauschsignals) können ein Kontinuum von Werten annehmen. In solchen Fällen kann man nach der Wahrscheinlichkeit fragen, dass der Messwert für X in einem Intervall [x1 , x2 ) liegt. Diese Wahrscheinlichkeit kann man mit der Wahrscheinlichkeitsdichte (probability density function PDF ) pX (x) durch das folgende Integral ausdrücken ˆ x2 pX (x) dx, (11) Pr (x1 ≤ X < x2 ) = x1 siehe Abbildung 1 . Für sehr kleine Intervalle der Breite ∆x = x2 − x1 gilt pX (x) P (x1 ≤ X < x2 ) x1 x2 x Abbildung 1: Wahrscheinlichkeitsdichte. Pr (x1 ≤ X < x2 ) ≈ pX (x) ∆x, (12) für x ∈ [x1 , x2 ). Wenn man also ∆x hinreichend klein wählt und sehr viele Messungen macht, kann man aus dem normierten Histogramm mit Balkenbreite ∆x näherungsweise die Wahrscheinlichkeitdichte pX (x) ermitteln. Histogramme Um die Statistik kontinuierlicher Messgrößen darzustellen, verwendet man Histogramme. Man macht sehr viele Versuche und stellt die Anzahl der Werte dar, die in ein bestimmtes Intervall fallen. Das Ergebnis ist ein Balkendiagramm, deren Anzahl an Stichproben n(xi ) im Balken Nummer i näherungsweise proportional zur Wahrscheinlichkeitsdichte ist. Histgramme erzeugt man in MATLAB z.B. mit hist(x) , hist(x,100) oder hist(x,a:dx:b). Durch Normierung (Berücksichtigung der Anzahl N der Stichproben und der Breite ∆x der 4 Balken) erhält man eine Näherung für die PDF. Es muss gelten: p(xi )∆x ≈ n(xi ) N Um das in MATLAB zu realisieren, braucht man die Befehle anzahl=histc(x,achse) und bar(anzahl,achse,’histc’). Hierbei wurde die Achse mit achse=a:dx:b definiert. Standard-Gleichverteilung Wahrscheinlichkeitsdichte: pU (u) = ( 1 : u ∈ [0, 1] 0 : u∈ / [0, 1] Das (normierte) Histogramm ist in Abbildung 2 dargestellt. Zufällige und standardHistogramm der Standard−Gleichverteilung Normiertes Histogramm der Standard−Gleichverteilung 10000 1 8000 0.8 Relative Haeufigkeit Anzahl 12000 6000 4000 2000 0.6 0.4 0.2 0 −0.2 0 0.2 0.4 0.6 0.8 1 1.2 0 −0.2 0 0.2 0.4 x 0.6 x Abbildung 2: Histogramm der Standard-Gleichverteilung für N = 106 Zufallszahlen und die Balkenbreite ∆x = 0.01. Rechts: Normiertes Histogramm als Schätzung der PDF. gleichverteilte Zufallszahlen erzeugt man mit rand. Mit rand(M,N) erzeugt man eine M × N -Matrix mit solchen Zufallszahlen. Gaußsche Normalverteilung Eine der wichtigsten Wahrscheinlichkeitsdichten ist die Gaußsche Wahrscheinlichkeitdichte 2 1 1 pGauß (x) = √ e− 2σ2 (x−µ) für x ∈ R mit µ ∈ R und σ > 0 . 2 2πσ 5 (13) 0.8 1 1.2 Diese Glockenkurve ähnelt der Kurve in Abbildung 1. Die Größe µ gibt den Mittelwert an (s.u.) und die Größe σ die Standardabweichung . Die Größe σ 2 nennt man Varianz . Bei der Standard-Normalverteilung 1 2 1 pGauß (x) = √ e− 2 x 2π (14) haben die Größen die Werte σ = 1 und µ = 0. Mit randn(M,N) erzeugt man eine M ×N -Matrix mit solchen Zufallszahlen. Das Histogramm ist in Abbildung 3 dargestellt. Histogramm der Gaussverteilung 4 9 x 10 8 7 Anzahl 6 5 4 3 2 1 0 −6 −4 −2 0 x−Werte 2 4 6 Abbildung 3: Histogramm der Standard-Normalverteilung für N = 2 · 106 Zufallszahlen. Die Normalverteilung hat eine sehr große Bedeutung in Natur und Technik. In der Regel sind Messfehler normalverteilt (Begründung kommt später). Thermisches Rauschen ist ebenfalls ein wichtiges Beispiel. Die Standard- Exponentialverteilung Für x ∈ R+ 0 ist diese Verteilung definiert als pexp (x) = e−x (15) Mit exprnd(1,M,N) erzeugt man eine M × N -Matrix mit solchen Zufallszahlen. Das Histogramm ist in Abbildung 4 dargestellt. Die Exponentialverteilung spielt eine wichtige Rolle für die zeitliche Verteilung von Ereignissen. Wenn Ereignisse völlige gleichmäßig und zufällig über die Zeitachse verteilt sind mit einem mittleren zeitlichen Abstand τ , so ist die Wahrscheinlichkeitsdichte für die Wartezeit bis zum nächsten Ereignis gegeben durch p(t) = e−t/τ . (16) 6 Histogramm der Exponentialverteilung 4 15 x 10 Anzahl 10 5 0 0 2 4 6 8 x 10 12 14 16 Abbildung 4: Histogramm der Standard-Exponentialverteilung für N = 106 Zufallszahlen. Übungsaufgabe: Zufallsgeneratoren und Histogramme Erzeugen Sie Zufallszahlen mit den bisher bekannten Wahrscheinlichkeitsdichten und erstellen Sie Histogramme dazu. Übungsaufgabe: Geometrische Verteilung und Exponentialvertreilung Erzeugen Sie ganzzahlige Zufallszahlen mit der geometrischen Verteilung und erstellen Sie ein Histogramm dazu. Wählen sie eine sehr kleine Balkenbreite z.B. mit hist(x,1000). Warten, bis man eine 6 würfelt: Das ist so etwas wie das Warten auf einer diskreten Zeitachse! Übungsaufgabe: Schätzung der Zahl π mit der Monte-Carlo-Methode Man kann Zufallszahlen auch dazu benutzen, Integrale näherungsweise zu berechnen. Die Fläche des Einheitskreises hat den Wert π. Um diesen Wert mit der Monte-Carlo-Methode zu schätzen, legt man den in Abbildung 5 schwarz gezeichneten Einheitskreis in ein Quadrat der Kantenlänge 2. Dann werden N Punkte (x, y) ausgewürfelt, die über das Quadrat gleichverteilt sind. D.h. die beiden Koordinaten sind jeweils gleichverteilt über das Intervall [−1, 1]. Jetzt zählt man, wie groß Anteil der Punkte innerhalb des Kreises ist. Mit Hilfe des Dreisatzes erhält man daraus den Schätzwert für π. 7 0.8 0.6 0.4 y−Achse 0.2 0 −0.2 −0.4 −0.6 −0.8 −1 −0.5 0 x−Achse 0.5 1 Abbildung 5: Schätzung der Kreiszahl π nach der Monte-Carlo-Methode (N = 10 000). Übungsaufgabe: Schätzung der Eulerschen Zahl e mit der MonteCarlo-Methode Man kann Zufallszahlen auch dazu benutzen, Integrale näherungsweise zu berechnen. Es gilt ˆ ∞ ∞ 1 pexp (x)dx = −e−x 1 = e−1 = . e 1 Wenn man sehr viele Zufallszahlen erzeugt, so kann man über den Anteil der Zufallszahlen, der größer als Eins ist, einen Schätzwert für e erhalten. 2.3 Verteilungsfunktionen (Kumulierte Wahrscheinlichkeitsverteilungen) Die (kumulierte) Wahrscheinlichkeitsverteilung PX (x) für eine Zufallsvariable X ist definiert als die Wahrscheinlichkeit PX (x) = Pr(X ≤ x) , (17) dass X den Wert x nicht überschreitet. Für eine kontinuierliche Verteilung ist die Wahrscheinlichkeitsverteilung gerade die Stammfunktion der Wahrscheinlichkeitsdichte pX (x): ˆ x PX (x) = Pr(X ≤ x) = pX (x′ )dx′ (18) −∞ Wichtiges Beispiel: Für eine standard-gleichverteilte Zufallsvariable U gilt: PU (u) = u 8 (19) Für eine diskrete Verteiung mit Pr(X = n) = pn ist die Wahrscheinlichkeitsverteilung gerade die kumulierte Summe X PX (n) = Pr(X ≤ n) = pk (20) k≤n bzw. für n = 1, 2, ... PX (n) = Pr(X ≤ n) = n X pk (21) k=1 Bei der Beschreibung durch eine Verteilungsfunktion braucht man nicht zwischen diskret und kontinuierlich unterscheiden, was natürlich eleganter ist. Man kann damit auch Mischformen von beiden beschreiben. Deshalb führt man sie in der Mathematik meist vor den anderen Größen ein. In der Mathematik sagt man einfach Verteilungsfunktion. In Naturwissenschaft und Technik sagt man oft kumulierte Verteilungsfunktion (cumulated distribution function CDF), um Verwechslungen mit der Dichte (PDF) zu vermeiden. Die Verteilungsfunktion ist monoton steigend (aber nicht unbedingt streng monoton; deshalb muss man bei der Definition der Umkehrfunktion etwas vorsichtig sein). Wenn man es nur mit einer Zufallsvariblen zu tun hat, wird oft der Buchstabe F verwendet: F (x) = PX (x) (22) Näherungsweise ist diese kumulierte Verteilung proportional zu der kumulierten Summe über ein Histogramm. Sie beschreibt die Wahrscheinlichkeit, dass X ≤ x ist. Man kann daran sehr gut Perzentile ablesen: Wieviel Prozent liegen im Bereich bis zu einer bestimmten Schwelle? Definition der Perzentile x25% , x50% und x75% am Beispiel: F (x25% ) = Pr (X ≤ x25% ) = 0.25 (unteres Quartil) F (x50% ) = Pr (X ≤ x50% ) = 0.50 (Medianwert) F (x75% ) = Pr (X ≤ x75% ) = 0.75 (oberes Quartil) Man kann das auch so schreiben: x25% = F −1 (0.25) usw., also: x = F −1 (p) . Die Quantilfunktion ist also die Umkehrfunktion F −1 der Verteilungsfunktion. Vorsicht: Die Umkehrfunktion ist nicht immer definiert. Dann bedarf es weiterer Erklärungen. 9 Bei manchen statistischen Betrachtungen ist der Medianwert eine bessere Charakterisierung für einen „typischen Wert in der Mitte“ als der statistische Mittelwert. Überlegen Sie Beispiele! Abbildung 6 zeigt das Histogramm für die Punkteverteilung einer Klausur, und Abbildung 7 zeigt die dazu gehörige Verteilung. Abbildung 6: Histogramm der Punkteverteilung einer Klausur. Kumulierte Verteilung Prozentzahl Studierender mit bis zu x Punkten 100 90 80 70 60 50 40 <− nicht bestanden bestanden −> 30 20 10 0 0 20 40 60 80 100 x Abbildung 7: Punkteverteilung einer Klausur. Beispiel (Exponentialverteilung): Betrachte p(x) = e−x (x ≥ 0) . 10 Dann gilt für x ≥ 0: P (x) = ˆ x 0 ′ e−x dx′ = 1 − e−x Für sehr kleine x (d.h.) unwahrscheinliche Ereignisse kann man mit Hilfe der 1.Ordnung der Taylorreihe 1 e−x = 1 − x + x2 ∓ ... 2 auch schreiben: Pr{X ≤ x} ≈ x Es gilt also (z.B.) ≈ 10−1 −3 ≈ 10−3 Pr X ≤ 10−1 Pr X ≤ 10 Pr X ≤ 10 usw. −2 ≈ 10−2 Übungsaufgabe: Leistungsperzentile im Mobilfunkkanal Unter bestimmten Voraussetzungen können die Perzentile für die Empfangsleistung eines Signals im Mobilfunkkanal in guter Näherung durch die Exponentialverteilung beschrieben werden. Wenn man die mittlere Empfangsleistung auf Eins normiert, gilt also für die Leistung x ≥ 0: p(x) = e−x bzw. P (x) = 1 − e−x Erzeugen Sie sehr viele (z.B. N = 105 ) exponentiell verteilte Zufallzahlen und tragen Sie deren empirisch ermittelte Verteilungsfunktion logarithmisch in Abhängigkeit vom Empfangspegel (in Dezibel) auf (insgesamt ist das also ein doppelt logarithmischer Plot). Ein Trick (MATLAB): Anstatt eine kumulierte Summe über das Histogramm zu bilden, ist es viel einfacher, mit x_sort=sort(x) die Werte zu sortieren und die relative Anzahl 1:N/N darüber aufzutragen. Das Ergebnis sieht man in Abbildung 8. Es gilt also (z.B.) Pr{X Pr{X Pr{X ≤ ≤ ≤ 10−1 } ≈ −10 dB 10−2 } ≈ −20 dB 10−3 } ≈ −30 dB 11 0 10 Experiment Theorie −1 P(x) 10 −2 10 −3 10 −4 10 −40 −30 −20 −10 x in Dezibel 0 10 Abbildung 8: Die Verteilungsfunktion der Exponentialverteilung in logarithmischer Darstellung (N = 105 ). Erzeugung von Zufallszahlen mit gegebener Verteilung Mit Hilfe der Perzentilfunktion F −1 kann man aus dem Zufallsgenerator für die Standard-Gleichverteilung neue Zufallsgeneratoren mit gegebener Verteilung F (x) basteln. Man berechnet einfach aus der standard-gleichverteilten Zufallsvariable U die neue Zufallsvariable X = F −1 (U ) . Diese besitzt dann die gewünschte Verteilungsfunktion F (x). Es gilt nämlich das Inversionslemma: Es sei X eine Zufallsvariable mit gegebener invertierbarer Verteilungsfunktion F (x) = PX (x) = Pr(X ≤ x). Dann ist die Zufallsvariable U = F (X) standard-gleichverteilt. Mit anderen Worten: Wenn U standardgleichverteilt ist, so besitzt X = F −1 (U ) (23) die Verteilungsfunktion F (x). Beweis des Inversionslemmas: Es gilt Pr(U ≤ u) = Pr(F (X) ≤ u) . Wenn die inverse Funktion F −1 existiert, so ist sie auch monoton. Daraus folgt Pr(U ≤ u) = Pr X ≤ F −1 (u) . 12 Nach Defintion von F ist die rechte Seite gerade gleich F F −1 (u) = u . Also gilt Pr(U ≤ u) = u , und damit ist U standard-gleichverteilt. Veranschaulichung des Inversionslemmas: Abbildung 9 veranschaulicht U-Achse 1 und u = F (x) u = Pr(X ≤ x) u = Pr(U ≤ u) x 0 X-Achse Abbildung 9: Veranschaulichung des Inversionslemmas. das Inversionslemma: Der Wertebereich der Verteilungsfunktion F liegt zwischen 0 und 1. Der Wert u = F (x) hat zwei Interpretationen: 1. Als Funktionswert der Wahrscheinlichkeitsverteilung von X, d.h. als u = Pr(X ≤ x) 2. Als Wahrscheilichkeitsverteilung der standard-gleichverteilten Zufallsvariablen U , d.h. als u = Pr(U ≤ u) Also ist U = F (X) eine standard-gleichverteilte Zufallsvariable. Beispiel: Standard-Exponentialverteilung F (x) = 1 − e−x ⇔ F −1 (u) = − ln(1 − u) Übungsaufgabe (Weibull-Verteilung) 2.4 Erwartungswert, Varianz und Momente Unter dem Erwartungswert E {X} einer Zufallsvariablen X versteht man den statistischen Mittelwert. Man erhält ihn, indem man alle möglichen Werte, 13 die die Zufallsvariable annehmen kann mit den zugehörigen Wahrscheinlichkeiten gewichtet und aufsummiert: X E {X} = x · px (24) x Für eine Zufallsvariable mit einer kontinuierlichen Wahrscheinlichkeitsdichte pX (x) gilt entsprechend ˆ E {X} = x · pX (x) dx. (25) Beispiel: Die Gaußschen Wahrscheinlichkeitsdichte (13) hat den Erwartungswert E {X} = µ. Wenn f (X) eine Funktion der Zufallsvariablen ist, so ist der Erwartungswert der Funktion gegeben durch ˆ E {f (X)} = f (x) · pX (x) dx. (26) 2 Unter der Varianz σX versteht man die mittlere quadratische Abweichung einer Zufallsvariablen X von ihrem Erwartungswert µX : o n 2 2 (27) σX = E (X − µX ) Die (positive) Wurzel σX der Varianz nennt man auch Standardabweichung oder Streuung . Es gilt der folgende Ausdruck für die Varianz: 2 (28) σX = E X 2 − µ2X Den Term E X 2 nennt man das zweite Moment von X. Das n-te Moment ist definiert als µn (X) = E {X n } (29) Beispiel Gaußverteilung: Die Gaußschen Wahrscheinlichkeitsdichte (13) hat die Varianz o n 2 E (X − µ) = σ 2 . Gaußsche Zufallsvariablen besitzen die Wahrscheinlichkeitsdichte in Gleichung (13) und sind durch zwei Größen vollständig charakterisiert: Die Varianz σ 2 und den Mittelwert µ. 14 Übungsaufgabe (Exponentialverteilung): Berechnen Sie den Erwartungswert und die Standardabweichung für die skalierte Exponentialverteilung (x ≥ 0): p(x) = 1 −x/µ e . µ Übungsaufgabe (Geometrische Verteilung – Theorie): Berechnen Sie den Erwartungswert für die geometrische Verteilung. Hinweis: Der Erwartungswert lautet E{N } = p ∞ X nq n−1 n=0 (wenn man mit der Summe bei n = 0 anfängt, addiert man nur 0). Man kann den Summanden als Ableitung schreiben, die Ableitung vor die Summe ziehen und dann die geometrische Reihe aufsummieren. Übungsaufgabe (Geometrische Verteilung – Experiment): Erzeugen Sie viele geometrisch verteilte Zufallsvariablen mit (z.B.) p = 1/5 und berechnen Sie deren Mittelwert. 2.5 Transformation von Zufallsvariablen Wir betrachten eine Zufallsvariable X mit der PDF pX (x). Es sei y = g (x) eine beliebige streng monoton steigende Funktion. Durch (30) Y = g (X) wird eine neue Zufallvariable definiert. Wir interessieren uns für deren PDF pY (y). Wir betrachten ein (positives) infinitesimales Intervall dx. Die Werte in diesem Intervall werden durch die Funktion auf die Werte im einem positiven infinitesimalen Intervall dy abgebildet, siehe Abbildung XY. Da die Wahrscheinlichkeiten Pr (x ≤ X < x + dx) und Pr (y ≤ Y < y + dy) für die infinitesimale Intervalle gleich sein müssen, gilt: pX (x) dx = pY (y) dy d.h. pX (x) = pY (y) dy . dx (31) Beachte: Weil f eine streng monoton steigende Funktion ist, gilt (fast überall) dy = g ′ (x) > 0 , dx 15 und alle Größen in Gleichung (31) sind positiv. Für streng monoton fallende Funktionen gilt (fast überall) dy = g ′ (x) < 0 , dx und man muss man dy durch −dy ersetzen: pX (x) dx = −pY (y) dy . (32) Die gesuchte PDF ergbt sich nun einfach als pY (y) = (±)pX (x) dx . dy (33) Hier wurde die Regel für die Ableitung der Umkehrfunktion in folgender Form verwendet: 1 dx = dy . dy dx Mathematisch korrekter - aber weniger einprägsam - lautet die Transformationsformel (33): ′ (34) pY (y) = (±)pX g −1 (y) · g −1 (y) Bemerkung: Die selbe Formel kann man auch aus der Verteilungsfunktion herleiten. Für monoton steigende Funktionen gilt PY (y) = PX (x) und für monoton fallende PY (y) = 1 − PX (x) . Durch Ableiten folgt die Transformationsformel. Übungsaufgabe: Rayleigh-Verteilung Betrachte Zufallsvariable X nach der Exponentialverteilung und ziehe daraus die Wurzel: √ Y = X. Wie sieht die Wahrscheinlichkeitsverteilung für Y aus? Gehen Sie erst einmal empirisch vor, indem Sie ein Histogramm erstellen! 16 Übungsaufgabe: Dopplerspektrum Ein Fahrzeug fährt mit der Geschwindigkeit v durch den Wald und empfängt ein Funksignal der Frequenz f0 nur über die Reflektionen von den Bäumen. Wir interessieren uns für die Dopplerverschiebungen des Signals, die gegeben sind durch ν(α) = νmax cos α , wobei α der Einfallswinkel ist und νmax = v f0 c die maximale Dopplerfrequenz. Wir nehmen an, dass aus allen Richtungen gleich viel Signal kommt (d.h. α ist gleichverteilt über [0, 2π]). Wie sieht die Wahrscheinlichkeitsverteilung für ν aus? Gehen Sie erst einmal empirisch vor, indem Sie ein Histogramm erstellen! 2.6 Mehrere Zufallsvariablen Wir betrachten zunächst zwei Zufallsvariablen X und Y . Einzeln sind sie durch ihrem jeweiligen Wahrscheinlichkeiten bzw. Wahrscheinlichkeitsdichten beschrieben. Wenn man sie aber zusammen betrachtet, braucht man zur Beschreibung gemeinsame Wahrscheinlickeiten (joint probabilities), die man als Verbundwahrscheinlichkeiten bezeichnet. Z.B. ist pxy = P (X = x ∧ Y = y) die Wahrscheinlicheit, dass X den Wert x annimmt und zugleich Y den Wert y (“Die Wahrscheinlichkeit, dass die Glocken läuten und es regnet”). Wenn diese Ereignisse statistisch unabhängig sind, faktorisieren die Wahrscheinlichkeiten: P (X = x ∧ Y = y) = P (X = x) P (Y = y) . (35) Bei kontinuierlichen Zufallsvariablen betrachtet man eine Verbundwahrscheinlichkeitsdichte pXY (x, y). Daraus erhält man die Wahrscheinlichkeiten, dass die beiden Zufallsvariablen Werte aus einem bestimmten zweidimensionalen Gebiet G annehmen als das zweidimensionale Integral ˆ pXY (x, y) dxdy. P ((X, Y ) ∈ G) = G Für ein sehr kleines Rechteck mit der Breite ∆x = x2 − x1 und der Länge ∆y = y2 − y1 gilt P (x1 ≤ X < x2 ∧ y1 ≤ Y < y2 ) ≈ pXY (x, y) ∆x∆y. (36) Für unabhängige Zufallsvariablen faktorisiert die Dichte: pXY (x, y) = PX (x) PY (y) . 17 (37) Beispiel: Eine zweidimensionale Gaußsche Zufallsvariable X Z= Y mit Mittelwert Null ist gegeben durch die Dichte 1 1 pX,Y (x, y) = p exp − x · C−1 x 2 2π det (C) mit dem Vektor z= x y (38) und der sog. Kovarianzmatrix (s.u.) C. Bei einem Vekor m für den Mittelwert muss man in der Dichte x durch x − m ersetzen. Wenn die Kovarianzmatrix diagonal ist, sind X und Y unabhängig. Bemerkung: Eine zweidimensionale Zufallsvariable wie die obige kann man natürlich auch als eine komplexe Zufallsvariable Z = X + jY auffassen. Bei N Zufallsvariablen X1 , X2 , . . . , XN schreiben wir diese als Zufallsvektor X1 (39) X = ... XN mit Wahrscheinlichkeitsdichte pX (x). Die Wahrscheinlichkeit, dass X in einem Volumen V liegt ist gegeben durch das Volumen- Integral ˆ P (X ∈ V ) = pX (x) dN x. (40) V Die Erwartungswerte und Varianzen kürzen wir ab mit o n 2 µi = E {Xi } , σi2 = E (Xi − µi ) . (41) COVXi Xk = E {(Xi − µi ) (Xk − µk )} . (42) (C)ik = COVXi Xk (43) Die Kovarianz der beiden Zufallsvariablen Xi und Xk ist definiert als Die Matrix C mit Elementen nennt man Kovarianzmatrix . Als Korrelationskoeffizient bezeichnet man die normierte Größe (C)ik ̺ik = . (44) σi σk 18 Übungsbeispiel: 2D Gaußverteilung Erzeugen Sie zwei mal jeweils N unabhängige Gaußsche Zufallsvariablen X und Y , die beide die selbe Varianz σ 2 = 1/2 und den Mittelwert µ = 0 besitzen: 2 2 1 1 pX (x) = √ e−x und pY (y) = √ e−y π π Die gemeinsame Verteilung lautet: pXY (x, y) = 1 −(x2 +y2 ) e π (45) Berechnen Sie daraus den Radius R= bzw. p X2 + Y 2 S = X2 + Y 2 und erstellen Sie für beide Größe ein Histogramm. Stellen Sie außerdem S wie in Abbildung 8 dar. Haben Sie eine Vermutung bzgl der Verteilung von S? Rayleigh-Verteilung und Exponentialverteilung Wir führen Polarkoordinaten (r, ϕ) ein und fragen nach der Wahrscheinlichkeitsdichte für den Radius. Dazu betrachten wir einen schmalen Kreisring vom Radius r und der Breite √ dr. Dessen Fläche ist 2πrdr. Die Wahrscheinlichkeit, dass der Radius R = X 2 + Y 2 der 2D-gaußverteilte Zufallsvariabel aus Gleichung (47) einen Wert aus diesem Kreisring annimmt, hängt von dessen Fläche ab und ist wegen 2 1 −(x2 +y2 ) 1 e = e−r π π gegeben durch 2 1 Pr {r < R ≤ r + dr} = 2πrdr · e−r . π Also gilt 2 pR (r) = 2re−r . (46) Dies ist die Dichte der sogenannten Rayleigh-Verteilung. Wir betrachten jetzt die Zufallsvariable S = R2 . Es gilt pS (s)ds = pr (r)dr d.h. 2 pS (s)ds = 2re−r dr 19 Aus ds = 2r dr folgt pS (s) = e−s . Das ist die Exponentialverteilung. Zusammenfassung: Für eine 2D-Gaußverteilung mit den jeweilig identischen Varianzen σ 2 = 1/2 und den Mittelwert µ = 0 folgt der Betrag des Vektors einer Rayleigh-Verteilung und das Betragsquadrat einer Exponentialverteilung. Anwendung: Ein Zufallsgenrator für die Gaußverteilung – Das BoxMuller-Verfahren Aus Standard-Gleichverteilung erzeugt man eine Zufallsvariable S nach der Exponentialverteilung. Deren Wurzel R ist Rayleigh-verteilt. Das ist der Betrag für einen 2D-Gauß-verteilten Vektor. Jetzt würfelt man noch den gleichverteilten Winkel aus und hat den 2D-Gauß-verteilten Vektor über dessen Polarkoordinaten erzeugt: p X = −2 ln U1 cos 2πU2 Y = 2.7 p −2 ln U1 sin 2πU2 Der Zentrale Grenzwertsatz (ZGS) Einführendes Beispiel: Wir erzeugen Spaltenvektoren von N ≫ 1 von zufälligen Vorzeichen Xn = ±1 , (N = 1, ..., N ) und ordnen diese in einer Matrix (z.B. 1 000 × 100 000 für N = 1000) an. Wir bilden die Summe der Spalten: Z = X1 + ... + XN Diese Summe von vielen identischen und unabhängigen Zufallsvariablen ist eine neue Zufallsvariable. Es gilt µZ = E{Z} = 0 und 2 = E{(Z − µZ )2 } = N . σZ Wir prüfen erstmal, dass das für unsere 100 000 Zufallszahlen in gute Näherung gilt. Dann erzeugen wir ein Histogramm, siehe Abbildung 10. Das Ergebnis 20 Histogramm der Summen von 1000 Zufallsvorzeichen 16000 14000 12000 Anzahl 10000 8000 6000 4000 2000 0 −150 −100 −50 0 x 50 100 150 Abbildung 10: Die Summe von N = 1000 zufälligen Vorzeichen als Histogramm dargestellt. sieht aus wie eine Gaußsche Glockenkurve. Das ist keine Zufall, sondern eine Konsequenz aus den zentralen Grenzwertsatz (ZGS): Wenn man sehr viele (N ) unabhängige und identisch verteilte Zufallsvariablen addiert, so ist das Ergebnis im Grenzfall N → ∞ eine Gaußsche Zufallsvariable. Das ist der Grund, warum diese in der Natur eine so wichtige Rolle spielt: Viele Störungen und Messungenauigkeiten kann man als eine Summe von vielen kleinen unabhängigen Störungen modellieren. Um den ZGS zu formulieren, normieren wir noch etwas anders, um den Grenzwert besser bilden zu können. Der Zentrale Grenzwertsatz: Es seien Xn , n = 1, 2, ..., N unabhängige, identisch verteilte Zufallsvariablen mit Mittelwert E{Xn } = 0 und Varianz E{Xn2 } = σ 2 und bilden die Summe 1 ZN = √ (X1 + ... + Xn ) . N Dann ist Z = lim ZN N →∞ eine Gaußsche Zufallsvariable mit E{Z} = 0 und Varianz E{Z 2 } = σ 2 . Anmerkung: Wie ein Grenzwert von Zufallsvariablen zu verstehen ist, muss man eigentlich mathematisch sauber formulieren. Daruf verzichten wir hier. 21