Diskrete-Strukturen und Wahrscheinlichkeitstheorie SS 2009

Werbung
Mitschrift der Vorlesung
Diskrete-Strukturen und
Wahrscheinlichkeitstheorie
SS 2009
Dr. Arnandt Srivastav
Diese Mitschrift ist kein offizielles Skript sie
ist nicht unbedingt Vollständig und Fehlerfrei.
Sie ist vielmehr eine Lernhilfe für diejenigen
die selber in der Vorlesung waren und nicht
mitgeschrieben haben.
20.04.09
10:15
Onkel Srivastav's lustige Fragestunde:
Informatik als Wissenschaft
– Problem losen strukturiert
– Basic Skills
– effizientes ( Be- ) Rechnen (schnell und Genau)
– Maschinen, Computer
– Programmierbare Computer
– Turing-Maschinen
Pfeiler der Informatik als Wissenschaft
– Algorithmen
– Komplexität
– Computer
– Programme
– effizientes ( Be- ) Rechnen (schnell und Genau)
– Maschinen, Computer
– Programmierbare Computer
– Turing-Maschinen
Arithmeum Bonn Forschungsinstitut für Diskrete Mathematik J. v. Neumann
1900 Paris
Dand Hilbert 22 Probleme
Diophantisches Problem
x 2 xyz 3z 2 x=0 für den ℝ ,ℂ , ℤ
Computational Science
11:15
Primzahl-Problem
Eingabe : n natürliche zahl
Frage : ist n eine Primzahl?
Lösungsverfahren:
1. Euklidischer Algorithmus, Prüfe alle natürlichen Zahlen ob l , l ∈[1,  n]∩ℕ Teiler von n ist.
Komplexität:
polynomiell in n.
L
n=∑ 2 l a l L=# der Bits in Binärdarstellung
−L
L≤⌈log 2 n⌉
Komplexität euklidischer Algorithmus : mind.
1/2
 n=n 1/ 2= 2log n   =21 / 2log  n≥2 1/ 2 L
2
2
Frage: Gibt es einen in L polynomiellen Algorithmus für Primzahl ?
NP = Menge Aller endlichen Probleme, für die man eine Lösung in Polymonialzeit
verifizieren kann.
P = Menge Aller endlichen Probleme die man in Polynomialzeit lösen kann.
Kürzester Weg im Graphen shortest path
unleserlich
Hamiltonkreis : Graph G(V,E)
hat G einen geschlossenen Weg?
Hamiltonkreis ∈ P nicht bekannt !
aber ∈ NP
22.04.09
Bla bla bla vom HIWI
Randomisierte Algorithmen
•
•
Komplexitätstheorie
P „eine Lösung kann in polynomieller Zeit gefunden werden.“
NP „eine Lösung kann in polynomieller Zeit erkannt werden.“
Problem
• Sei Σ eine endliche Menge, genannt Alphabet.
• Bezeichne Σ* die Menge aller Folgen über Σ.
• ...
•
Beispiel
1.
• Σ={0,1}
• Ein Wort w kodiert eine natürliche Zahl n
• L={w€ Σ* | w kodiert eine Primzahl}
2.
• Sei Σ so, dass wir damit Graphen und natürliche Zahlen kodieren können.
• Ein Wort w kodiert einen Graphen G und einer natürliche Zahl k.
L bestehe aus allen (G,k) mit der Eigenschaft, dass G eine Clique der größe mindestens k besitzt.
Gegeben eine Sprache L⊆U⊆∑∗ und ein Wort w € U, so möchten wir effizient mit einem Algorithmus
feststellen, ob w € L oder nicht. Zu einem Algorithmus A bezeichne tA(w) die Laufzeit von A auf w.
Effizient heißt, dass es konstanten k,d > 0 gibt, so dass für alle w € U gilt
tA(w) <= k*|w|^d=O(|w|^d).
Alle Sprachen für die es effiziente Algorithmen gibt (=polynomielle Algorithmen) fasst man zur Klasse P
zusammen.
Polynomielle Prüfer und NP
Gegeben eine Sprache L⊆U⊆∑∗, U'⊆∑∗. Wir nennen einen Algorithmus V: UxU' → {Ja , Nein} einen
polynomiellen Prüfer , falls es d0,d1 > 0 so gibt, dass für alle w € U gilt :
1. Falls w nicht€ L, so ist V(w,c)=Nein für alle c€U'.
2. Falls w € L, so gibt es ein c0 € U' , so dass |c0|=O(|w|^d0), V(w,c0)=Ja und t_V(w,c0)=O(|w|^d1).
„L=alle Graphen mit Hamiltonkreis“ „w = G“ „c = W“
Beispiel für polynomielle Prüfer : Hamiltonkreis
Gegeben Graph G=(V,E). Frage: hat G einen Hamiltonkreis?
• Wir geben einem polynomiellen Prüfer an. Die erste Eingabe ist G.
Als zweite Eingabe wählen einen Vektor von Knoten W=(V1,...,Vk), k beliebig.
• Der Prüfer prüft ob :
– k=n
– Vi <> Vj für alle i<>j
– {Vi,Vi+1} € E für alle i € [1, k-1]
{Vk,V1} € E
O(k²)=O(n²)
Wenn ja, gibt er „Ja“ aus, ansonsten „Nein“.
Alle Sprachen mit polynomiellen Prüfer fasst man zu NP zusammen.
P
NP
NPC
Randomisierte Algorithmen
Mit gewisser Wahrscheinlichkeit falsches Ergebnis, deterministische Laufzeit. (Monte-CarloAlgorithmus)
• Mit gewisser Wahrscheinlichkeit falsches Ergebnis, Laufzeit ist Zufallsgröße. (auch Monte-CarloAlgorithmus)
• Ergebnis stets richtig, Laufzeit ist Zufallsvariable ( Las-Vegas-Algorithmus)
Bei Monte-Carlo-Algorithmus unterscheidet man zwischen ein und zwei seitigen Fehler. Bei einseitigen Fehler
ist eine Ja- (Nein-) Antwort immer richtig, eine Nein- (Ja-) kann falsch sein. Bei zweiseitigen Fehler können Ja
und Nein Antworten falsch sein.
•
Beispiel: einseitiger Fehler: Nein immer richtig, Ja mit Wahrscheinlichkeit p falsch.
Primzahltest Gegeben n € N. Frage: Ist n eine Primzahl?
– Sieb des Erastostens : O(poly n ) ~~> nicht polynomiell in Eingabelänge O(ld n).
– Primzahltest € NP (Pratt 1975)
– Es gibt einen polynomiellen Monte-Carlo-Algorithmus mit einseitigen Fehler
(Solovay, Strassen 1977).
Lemma
Sei p > 2 eine Primzahl. Dann gilt a^(p-1)/2 * (a|p) Legendre-Symbol mod p = 1 für
alle a € {1, … , p-1}
bandance of whitness
27/04/09
Srivastav selber da
Das Ziegenproblem (G. v. Randow)
Ein Kandidat einer Fernsehshow darf zwischen drei geschlossenen Türen wählen. Hinter einer der Türen
befindet sich der Hauptgewinn, z.B. neues Auto, hinter den andern Türen steht jeweils eine Ziege
(ZONK,NIETE). Nach dem der Kandidat eine Tür gewählt hat, hilft der Showmaster, in dem er eine der Türen,
hinter der sich eine Ziege befindet, öffnet. Er bietet dem Kandidaten an seine getroffene Entscheidung zu
überdenken und gegebenen Falls die Tür zu wechseln.
Lohnt es sich zu Wechseln? Was würden sie Tun?
Skizze
H
Z
Z
Kolmogoroff Axiome
Wahrscheinlichkeitstheorie wurde Mathematisch fundiert und erst dadurch Teilgebiet der exakten
Wissenschaften durch die Axiome von Kolmogoroff. Diese sind :
1. Ein Zufallsexperiment wird durch einen Wahrscheinlichkeitsraum beschrieben.
Eine Grundmenge Ω umfasst alle möglichen Ereignisse eines Zufallsexperiments.
2. Ereignisse sind Teilmengen von Ω.
3. Die Wahrscheinlichkeit eines Ereignisses A⊂Ω wird durch eine Funktion P  A , P  A∈[0,1] ,
angegeben.
1.2. Sigmaalgebren
Es Sei Ω eine Menge, und Ω sei die Potenzmenge über Ω.
Definition 1.1 (sigma-Algebra) : Eine Teilmenge Sigma subset P(Ω) heißt sigma-Algebra falls folgende
Bedingungen gelten:
(i) Ω in Sigma
(ii) A in Sigma = > A^c in Sigma
(iii) Für jede Folge A_1,..... in Sigma gilt Union 1 bis unendlich A_i in Sigma.
Ω heißt Ergennissraum, Sigma nennt man Ereignissraum auf (Ω,Sigma) heißt Meßraum.
Weitere Eigenschaft : emptyset in Sigma, weil mit Ω in Sigma auf empyset=Ω^c in Sigma.
Ferner gilt : Schnitt aller A_i = (union aller A_i)^c in Sigma, falls A_i in Sigma.
.sigma-Algebren sind Teilmengen der Potenzmenge P(Ω). welches ist die kleinste, welches die größte sigmaAlgenbra über Ω?
• Sigma=P(Ω) ist die größte sigma-Algebra über Ω.
• Sigma={emptyset, Ω} ist die kleinste sigma-Algebra.
Für eine beliebige sigma-Algebra Sigma gilt somit {emptyset,Ω} subset Sigma subset P(Ω).
Die Wahl von Sigma legt die Struktur des Zufallsexperiments fest.
Das muss bei einer Modellierung zu allererst gemacht werden.
Bisherige Beispiele für Meßräume
a.) Laplace`sche Zufallsexperiment : Menge Ω, Sigma = P(Ω). Wahrscheinlichkeit P  A=∣ A∣/∣Ω ∣
Laplaceraum
z.b. Lottospiel : Ω={(a_1,...,a_6); 1<= a_1 ...<= a_6 <= 49}
Sigma = P(Ω)
1.3. Wahrscheinlichkeitsraum
Definition 1.2. (Maß) : Sei (Ω,Sigma) ein Meßraum.
i. Eine Funktion mu : Sigma → [0,unendlich] heißt Maß falls folgendes gilt :
a. mu(emptyset)=0
b. Für jede Folge von paarweise disjunkten Mengen A_i in Sigma gilt:
mu(union A_i) = Summe mu(A_i).
(sigma-Additivität)
(Ω,Sigma,mu) nennt man Maßraum.
ii. Ein Maß P, P: Sigma → [0,1] heißt Wahrscheinlichkeitsmaß, falls P(Ω)=1.
iii. Das Tripel (Ω,Sigma,P) nennt man Wahrscheinlichkeitsraum.
Beispiel
Sei (Ω,P(Ω), P) ein Laplaceraum. Hierbei ist P  A:=∣ A∣/∣Ω∣ , A⊂Ω. Ein Laplaceraum ist auch ein
Wahrscheinlichkeitsraum :
• (Ω,P(Ω) ist Meßraum, da P(Ω) sigma-Algebra
• P ist eine Wahrscheinlichkeitsmaß:
a. P Ω =∣Ω∣/∣Ω ∣=1
b. P ist eine Funktion von P  Ω
c. P ∅=∣∅∣/∣ Ω∣=0
d. Seien A_i ind P(Ω), paarweise disjunkt.
P(union A_i)=|union A_i| / |Ω| = |A_1|+... /|Ω| = Summe |A_i| / |Ω| = Summe |A_i|/|Ω| = Summe
P(A_i)
==> ( Ω,P(Ω),P) ist ein Wahrscheinlichkeitsraum
der Laplaceraum beschreibt das Ziehen von Elementen unter der Gleichverteilung, d.h. P({w})=P({w'}) für alle
w,w' in Ω.
Bemerkung nicht jeder endliche Wahrscheinlichkeitsraum ist eine Laplaceraum!
Ω = {1, … , n} , Sigma = P(Ω)
P*({i})=1/i
P*(Ω) = Summe 1/i = H_n
(~log(n))
durch normieren von P* erhalten wir ein Wahrscheinlichkeitsmaß
P({i})=1/H_n*1/i
=> P(Ω)=Summe 1/H_n*1/i = 1/H_n*Summe 1/i = 1 .
(Ω,P(Ω),P) ist ein Wahrscheinlichkeitsraum aber keine Laplaceraum.
Definition 1.3. (Diskreter unendlicher Wahrscheinlichkeitsraum) :
i. Ein Wahrscheinlichkeitsraum (Ω,Sigma,P) heißt diskreter Wahrscheinlichkeitsraum falls Ω diskret ist.
ii. Ein Wahrscheinlichkeitsraum (Ω,Sigma,P) heißt endlicher Wahrscheinlichkeitsraum falls Ω endlich ist
und Sigma = P(Ω).
Die Elemente aus Ω heißen Atome und das Wahrscheinlichkeitsmaß für einen endlichen
Wahrscheinlichkeitsraum ist schon vollständig definiert durch seine Auswertung auf den Atomen.
29/04/09
Wiederholung .....
- Ω∈ Σ
- A ∈ Σ ⇒ Ac ∈ Σ
−
∞
UA ∈ Σ
falls A1 , A2 ,... ∈ Σ
i
i= 1
Warscheinlichkeitsmaß P ≥ 0
- P( Ω ) = 1
 ∞

- P  U Ai  =
 i= 0 
--------------
∞
∑ P( A )
i
i= 1
A paarweise disjunkt
Proposition 1.4. : Sei ( Ω ,Σ ,P ) ein Wahrscheinlichkeitsraum, und seien A,B,A1 ,A 2 ,... ∈ Σ
Es gelten folgende Eigenschaften :
( i ) P ( Ac ) = 1 − P ( A)
( ii ) P ( A ∪ B ) + P ( A ∩ B ) = P ( A) + P ( B )
( iii ) A ⊆ B ⇒ P ( B \ A) = P ( B ) − P ( A)
( iv ) A ⊆ B ⇒ P ( A) ≤ P ( B )
( v ) Für A1 ,..., An ∈
 n 
Σ : P  U Ai  ≤
 i= 1 
n
∑ P ( A ) ( Union Bound )
i= 1
i
Beweis :
( i)
( ii )
P ( Ω ) = P ( Ac ∪ A ) = P ( Ac ) + P ( A ) = 1 − P ( A ) + P ( A ) = 1
A ∪ B = A ∪ ( B \ A) , B = ( A ∩ B ) ∪ ( B \ A)
⇒ P ( A ∪ B)
P ( B)
=
σ − Additivität
=
σ − Additivität
P ( A) + P ( B \ A)
P ( A ∩ B ) + P ( B \ A)
⇒ P ( A ∪ B ) − P ( B ) = P ( A) − P ( A ∩ B )
( iii )
( iv )
( v)
⇒ P ( A ∪ B ) + P ( A ∩ B ) = P ( A) + P ( B )
P ( B ) = P ( A ∩ B ) + P ( B \ A ) = P ( A ) + P ( B \ A)
⇒ P ( B \ A) = P ( B ) − P ( A)
P ( B ) ≥ P ( A)
( iii )
I.A.
Für n=2 wegen ( ii ) gültig: P ( A1 ∪ A2 ) = P ( A1 ) + P ( A2 ) - P ( A1 ∩ A2 )
≤ P ( A1 ) + P ( A2 )
I.V. n → n+1


P  A1 ∪ ..... ∪ An  = P ( A ∪ An + 1 ) ≤ P ( A) + P ( An + 1 ) ≤
:= A


n
∑
i= 1
P ( Ai ) + P ( An + 1 ) =
n+ 1
∑ P ( A ).
i= 1
i
q.e.d .
Lebesque Maß
Riemannintegral : →
Sei f = 1[ a ,b ] ⇒
∫
∈ C [ 0,1] ⇒
1
∫ f ( x ) dx = I ( f )
0
1
1
0
0
b
∫ f ( x ) dx = ∫ 1[ ] ( x ) dx = ∫ 1dx = b − a = länge [ a, b]
a ,b
a
 1 : x ∈ [ a, b ]
 0 : sonst
1[ a ,b] = 
Leider ist das Riemannsche Maß kein Maß im wahrescheinlichkeitstheoretischen
Sinne.
Wir suchen eine Maß, dass mit dem Riemannintegral mindestens für 1[ a,b] übereinstimmt.
Ein solches Maß existiert und heißt Lebesquemaß λ . Es hat folgende Eigenschaft:
λ
( [ a,b] ) = b − a
Sei Ω = [ 0,1]
Sei B1[ 0,1] die kleinste σ -Algebra, die alle abgeschlossenen Intervalle der Form
[ a,b ] ≤ [ 0,1]
enthält. Das ist die sogenannte Borelsche σ -Algebra über [ 0,1] .
Man weiß: B1[ 0,1] ≠ ℘
¤ ∩ [ 0,1] =
( [ 0,1] )
U { x} ( abzählbare Vereinigung )
x∈ ¤ ∩ [ 0,1]


λ ( ¤ ∩ [ 0,1] ) = λ  U { x} 
=
λ x = 0
 x∈ ¤∩ [ 0,1]
 σ − Additivität x∈ ¤∑∩ [ 0,1] ( {= } ) 0


Def.: Lebesquemaß
Vorlesung 04/05/09
1.4. Bedingte Wahrscheinlichkeiten
Definition 1.5: Sei ( Ω , Σ , P ) ein Wahrscheinlichkeitsraum und seien A,B ∈ Σ
Ereignisse mit P ( B ) > 0. Der Ausdruck
P ( A / B ) :=
P ( A ∩ B)
P ( B)
ist die beingte Wahrscheinlichkeit von A gegeben B.
Spezialfall : P ( A ∩ B ) = P ( A ) ⋅ P ( B ) =
P ( A ∩ B) P ( A ) ⋅ P ( B)
=
= P ( A) .
P ( B)
P ( B)
Man sieht in diesem Fall, dass B keinen Einfluss auf das Auftreten von A hat.
Ferner gilt allgemein P ( A ∩ B ) = P ( A | B ) ⋅ P ( B ) .
Satz 1.6. Multiplikationssatz
 n

 n− 1 
Seien A1 ,..., A n Ereignisse mit P  I A i  = P ( A1 ) ⋅ P ( A 2 | A1 ) ⋅ ... ⋅ P  I Ai  .
 i= 1 
 i= 1 
 n− 1 
Beweis : Es gilt P ( A1 ) ≥ P ( A1 ∩ A 2 ) ≥ ... ≥ P  I A i  > 0.
 i= 1 
n− 1
P ( A 2 ∩ A1 )
P ( A n ∩ .... ∩ A1 )


 n

P ( A1 ) ⋅ P ( A 2 | A1 ) ⋅ ... ⋅ P  I A i  = P ( A1 ) ⋅
⋅ ... ⋅
=
P
A
∩
...
∩
A
=
P
Ai  .
(
)
I
n
1

n− 1
P ( A1 )


 i= 1 
 i= 1 
P  I Ai 
 i= 1 
q.e.d.
Lösung des Geburtstagsproblems
Frage: Wie groß ist die Wahrscheinlichkeit, dass in einer m-köpfigen Gruppe Zwei Personen
am gleichen Tag Geburtstag haben?
( heute ca. m=50 in der VL Schätzungen 90%,75%,30%,25% )
Entsprechendes Urnenproblem : Wir werfen m Bälle zufällig mit gleicher Wahrscheinlichkeit
in n Körbe/Urnen. ( Hier n=365) .
Wir nehmen an, dass die Bälle nacheinander in die Urnen geworfen werden.
A i bezeichne das Ereignis : "Ball i landet in einer noch leeren Urne"
Sei A das Ereignis : "alle m Bälle liegen in unterschiedlichen Urnen"
Damit ist A c das gesuchte Ereignis :
"mindestens zwei Bälle liegen in ein und der selben Urne"
Es gilt :
m− 1
 m



A=P  I Ai 
=
P ( A1 ) ⋅ P ( A 2 | A1 ) ⋅ ... ⋅ P  A m | I A i 
Multiplikationssatz
i= 1
 i= 1 


j− 1


P  A j | I A i  ist die Wahrscheinlichkeit, dass der j-te Ball in einer leeren
i= 1


Urne landet, wenn die vorherigen j-1 Bälle jeweils in einer leeren Urne gelandet sind.
Falls A j eintritt, landet der j-te Ball in einer der n - ( j-1) noch leeren Urnen.
j− 1
j− 1
−

 n − ( j − 1)
j− 1
P  A j | I Ai  =
= 1−
≤ −x
e n
n
n wegen1− x ≤ e ∀ x∈ ¡
i= 1


j− 1

⇒ P ( A) = ∏  1−
≤
n 
j= 1 
m
⇒ P( A
c
m
∏
) = 1− P ( A) ≥ 1− e
e
−
j− 1
n
= e
1
− ⋅
n
m
∑
j
j= 1
= e
1 m⋅ ( m − 1)
− ⋅
n
2
j= 1
1 m ⋅ ( m − 1)
− ⋅
n
2
= 0,9550 @ 95,5%
n = 365
q.e.d.
m = 50
Satz 1.7. Formel von Bayes; Satz der totalen Wahrscheinlichkeit
Die Ereignisse B1 ,..., Bn seien paarweise disjunkt mit P ( Bi ) > 0 für i=1,...,n.
Es sei Ω =B1 ∪ ... ∪ Bn . Dann folgt für jedes A ∈ Σ
P ( A) =
n
∑ P( A | B ) ⋅ P( B )
i
i= 1
i
Beweis: A= ( A ∩ B1 ) ∪ .... ∪ ( A ∩ Bn )
⇒ P ( A)
n
=
σ-Additivität von P
∑
i= 1
P ( A ∩ Bi ) =
n
∑ P( A | B ) ⋅ P( B )
i= 1
i
i
q.e.d.
Lösung des Ziegenproblems
Ziegenproblem
K
Z
Z
A
A sei das Ereignis : "Kandidat hat beim ersten Tip das Autogewählt."
G sei das Ereignis : "Kandidat gewinnt nach wechseln der Tür."
2
P ( G ) = P ( G | A ) ⋅ P ( A ) + P ( G | A c ) ⋅ P ( A c ) = P ( A c ) = = 0, 666 @ 66, 6% > 50%
Satz 1.7. 1
424
3
1424
3
3
=0
=1
Vorlesung 06/05/09
Kein Srivastav da sondern der Doktorand :-)
1.5. Stochastische Unabängigkeit von Ereignissen.
Wie wir schon gesehen haben, hat ein Ereignis B genau dann keinen
Einfluss auf das Ereignis A, wenn P ( A ∩ B ) =P ( A ) ⋅ P ( B ) gilt.
Denn dann gilt ja P ( A | B ) =
P ( A ∩ B) P ( A ) ⋅ P ( B)
=
=P ( A )
P ( B)
P ( B)
Dies motiviert die Definition der Unabhängikeit
Definiton 1.8.
Seien A ,...,A Ereignisse.
1
n
( i ) Für gegebenes k ∈ ¥, k ≥ 2, heißen A1,..., An k-weise unabhänig,
falls für jede Auswahl A ,..., A
von k Ereignissen gilt.
i
i
1
k
 k





P  I A  = P  A  ⋅ ... ⋅ P  A  .




i
i
i
 j= 1 j 
 1

k 


( ii )
Die Ereignisse A ,..., A heißen unabhängig, falls für jede
1
n
Teilmenge


J ⊆ {1, ..., n} gilt P  I A  = ∏ P  A 
j
 j∈ J j 
j∈ J 


Bemerkung:
Offenbar ist die Unabhängigkeit äquivalent zur k-weisen Unabhängigkeit
für jedes k ∈ ¥, k ≥ 2. Aber aus der k-weisen Unabhängigkeit für ein
festes k folgt nicht die Unabhängigkeit.
Beispiel:
Sei Ω = {1,..., 4} . Betrachte das Experiment, aus Ω eine Zahl auszuwählen.
Jede Zahl habe dabei die Wahrscheinlichkeit
1
.
4
Seien folgende Ereignisse gegeben.
A: 1 oder 2 werden gewählt.
B: 1 oder 3 werden gewählt.
C: 1 oder 4 werden gewählt.
1 1 1
⋅ =
= P ( A ∩ B ) sind A und B unabhängig.
2 2 4
Analog gilt das für A,C und B,C. Somit sind A,B,C k-weise unabhängig
Wegen P ( A ) ⋅ P ( B ) =
für k=2.
1 1 1 1
1
⋅ ⋅ = . Aber P ( A ∩ B ∩ C ) = , also sind
2 2 2 8
4
A,B,C nicht unabhängig.
P ( A ) ⋅ P ( B) ⋅ P ( C ) =
Standardbeispiel für Unabhängigkeit: mehrmaliges Würfeln.
Definition 1.9:
Sei Ω eine endliche, nicht-leere Menge Σ =℘ ( Ω
)
und P sei das
Wahrscheinlichkeitsmaß definiert durch P ( { ω } ) =
Der Wahrscheinlichkeitsraum ( Ω , Σ , P ) heißt
1
für alle ω ∈ Ω .
N
Laplacescher Wahrscheinlichkeitsraum.
Beispiel: Wir werfen einen Würfel zweimal hintereinander.
Sei A das Ereignis, dass beim ersten Wurf eine gerade Zahl erscheint,
und B das Ereignis, dass beim zweiten wurf eine gerade zahl erscheint.
Behauptung : A und B sind unabhängig.
Beweis: Modellierung : Ω = {1,..., 6} 2 =
{ ( i, j) ;
i, j ∈ {1,..., 6} }
Ω = 36
Ein Tupel ( i, j) ∈ Ω repräsentiert das Ereignis, dass zuerst die Zahl i und
dann die Zahl j gewürfelt wird.
Der Wahrscheinlichkeitsraum sei ( Ω ,℘ ( Ω ) , P ) und P ( { ω } ) =
1
für alle
36
ω ∈ Ω , d.h. es liegt ein Laplace-Raum vor.
Überprüfen die Bedingung für Unabhängigkeit:
1
= P ( B)
2
A ∩ B = { ( i, j) ∈ Ω ; i und j sind gerade }
P ( A) =
P ( A ∩ B)
A∩ B
=
Ω
Laplaceraum
=
9 1 1 1
= = ⋅ = P ( A ) ⋅ P ( B) .
36 4 2 2
Damit sind A und B unabhängig.
Haben gesehen A, B unabhängig, denn P ( A | B ) = P ( A ) Umkehrung ?
P ( A ∩ B)
P ( A | B) = P ( A ) ⇔
P ( B)
= P ( A) ⇔
Somit A,B unabhängig ⇔ P ( A | B ) = P ( A ) .
Indikatorfunktion: Seien 1A ,1B Indikatorfunktionen der Mengen A und B,
 1: ω ∈ A
 1: ω ∈ B
d.h. 1A : Ω → ¡, 1B : Ω → ¡ mit 1A ( ω ) = 
und 1B ( ω ) = 
 0 : sonst
 0 : sonst
Somit 1A ⋅ 1B = 1A∩ B.
Sei ( Ω , Σ , P ) endlicher Wahrscheinlichkeitsraum.
Mittelwert ( Erwartungswert ) von 1A : E ( 1A ) :=
von 1B : E ( 1B ) :=
⇒ E ( 1A ) =
E ( 1B ) =
∑
ω∈Ω
∑
ω∈ Ω
∑
ω∈ Ω
∑
ω∈Ω
1A ( ω ) P ( { ω } )
1B ( ω ) P ( { ω } )
1A ( ω ) P ( { ω } ) = P ( A )
1B ( ω ) P ( { ω } ) = P ( B )
Falls A, B unabhängig : E ( 1A ⋅ 1B ) = P ( A ∩ B ) = P ( A ) ⋅ P ( B ) = E ( 1A ) ⋅ E ( 1B )
In diesem Fall ist die Indikatorfunktion multiplikativ.
Schubfachprinzip : gegeben seien n Schubfächer und m Kugeln, m ≥ n + 1.
Die Kugeln werden auf die Schubfächer verteilt. Dann gibt es mindestens ein Schubfach,
das mehr als Zwei oder mehr Kugeln enthält.
Wir sehen dieses Prinzip auch in der Wahrscheinlichkeitstheorie :
bei E ( 1A ) > 0. Dann gibt es ein ω ∈ A mit P ( { ω } ) > 0.
Sei E ( 1A ) > k. Dann gibt es ein ω ∈ A mit > k.
E ( 1A ) =
∑
ω∈Ω
1A ⋅ P ( { ω } ) =
∑ P({ ω } ) >
k.
ω∈A
Falls für alle ω ∈ A gelte P ( { ω } ) <
k
, dann
A
∑ P({ ω } ) < ∑
ω∈ A
ω∈ A
k⋅ A
k
=
= k
A
A
Man kann somit über Mittelwertbetrachtungnen mit Schubfachprinzip Schlüsse ziehen
über einzelne Ereignisse.
11/05/2009
Hiwi hält vorlesung !!!!
1.6. Diskrete Verteilungen
Definition 1.10. : Wir bezeichen einen Wahrscheinlichkeitsraum ( Ω , Σ , P ) als
diskreten Wahrscheinlichkeitsraum , falls
− Ω abzählbar ist
− Σ =℘ ( Ω ) .
P heißt disktetes Wahrscheinlichkeitsmaß und p:= ( p ( ω ) ) ω ∈ Ω mit p ( ω ) :=P ( { ω } )
heißt stochastischer Vektor zu P.
Bemerkungen : Ist P eine diskretes Wahrschienlichkeitsmaß, so folgt aus


P ( A ) =P  U { ω }  = ∑ P ( { ω } ) , dass P durch seinen stochastischen Vektor
 ω∈ A
 ω∈ A
eindeutig festgelegt ist.
Allgemein heißt ein Vektor p= ( p ( ω ) ) ω ∈ Ω ein stochastischer Vektor falls p ( ω ) ≥ 0
∀ ω ∈ Ω und
∑ p ( ω ) = 1. Offenbar erfüllen stochastische Vektoren zu diskreten
ω∈Ω
Wahrscheinlichkeitsmaßen diese Bedingung.
Preposition 1.11.: Sei Ω ein abzählbarer Ereignisraum und p ein stochastischer Vektor.
Dann exisitert genau ein diskretes Wahrscheinlichkeitsmaß P, so dass p stochastischer
Vektor zu P ist.
Beweis: Das gewählte diskrete Wahrscheinlichkeitsmaß ist durch P ( A ) :=
∑ p ( ω ) für
ω∈ A
alle A ⊆ Ω definiert.
Ein Wahrscheinlichkeitsmaß wird oft als Wahrscheinlichkeitsverteilung bezeichnet.
1
Laplace - Verteilung Sei Ω eine endliche Menge, p ( ω ) :=
.
Ω
Dann ist ( p ( ω ) ) ω ∈ Ω ein stochastischer Vektor für das zugeordnete Wahrscheinlichkeits
-maß P gilt P ( A ) :=
A
Ω
für alle Ereignisse A.
P heißt Laplace-Verteilungs oder diskrete Gleichverteilung.
Beispiele : Würfeln, Lottospiel ....
Bernoulli - Verteilung Diese Veretilung beschreibt Experimente, bei denen nur Zwei
Ausgänge möglich sind. ( Erfolg, Misserfolg ) . Die Wahrscheinlichkeiten für die beiden
Ereingnisse sind p Erfolg und 1- p Misserfolg. Kodierung . Erfolg = 1, Misserfolg = 0
Ω = { 0,1} und p ( 1) = p, p ( 0 ) = 1 − p, allgemein p ( ω ) = p ω ⋅ ( 1 − p )
1− ω
Die "Gegenwahrscheinlichkei" 1- p bezeichnen wir oft auch mit q.
Beispiele:
1
1. Der Münzwurf : Ω = { Kopf , Zahl} , p = q =
2
2. Würfeln, wenn das werfen eine bestimmten Zahl als Erfolg gilt ( z.b. 6 ) . Dann ist
Ω = { "6 geworfen" , "keine 6 geworfen"} , p =
1
5
q= .
6
6
Mitschrift mo 11.05. und mi 13.05. wird nachgereicht
Die mehrdimensionale Bernoulli - Verteilung Sei n ∈ ¥, 0 < p < 1.
Dann wird die Bernoulli-Verteilung Ber ( n, p ) durch den Ereignisraum Ω = { 0,1}
n
und den stochastischen Vektor
n
p( ω ) = p
{ i; ω i = 1}
⋅ (1 − p )
{ i; ω i = 0}
= p
∑ ωi
i =1
⋅ (1 − p )
n−
n
∑ ωi .
i =1
Bei der Bernoulli-Verteilung sind die Ereignisse also 0-1-Vektoren der Länge n, wobei
jede Komponente unabhängig von den anderen mit Wahrscheinlichkeit p gleich 1 und
mit Wahrscheinlichkeit q:=1-p gleich 0 ist. p ist tatsächlich ein stochastischer Vektor, denn:
n
∑
ω∈ Ω
p
∑ ωi
i=1
⋅ (1 − p )
n−
n
∑ ωi =
i=1
n
∑ ∑
k = 0 ω∈ Ω
p k ⋅ (1 − p )
n− k
n
∑ ωi = k
i=1
n
n
n− k
k
= ( p + ( 1 − p ) ) = 1n = 1
∑
 k  ⋅ p ⋅ (1 − p )
k= 0 

Diese Verteilung lässt sich verallgemeinern, falls k ≥ 2 Ausgänge mit Wahrscheinlichkeit
p i möglich sind, so erhalten wir als Verallgemeinerung dir Bernoulli-Verteilung
n
Ber ( n, p1 ,..., p k ) mit den Parametern n ∈ ¥, k ∈ ¥ ≥ 2 , p1 ,..., p k ∈ [ 0,1] mit
gegeben durch den Ereignisraum Ω = {1,..., k}
n
k
∑p
i=1
i
= 1. Sie ist
und den stochastischen Vektor p ( ω ) =
k
∏p
i=1
{ j; ω j = i}
i
Biniomialverteilung Seien n ∈ ¥, 0 < p < 1. Die Binomialverteilung B ( n, p ) oder Bin ( n, p ) ist
gegeben durch den Eriegnisraum Ω = { 0,..., n} und den stochastischen Vektor
n
n− ω
p ( ω ) :=   ⋅ p ω ⋅ ( 1 − p )
für alle ω ∈ Ω .
ω
Es handelt sich tatsächlich um einen stochastischen Vektor, denn
n
n− ω
ω
  ⋅ p ⋅ (1 − p )
ω∈ Ω  ω 
∑
=
biniomischer Lehrsatz
( p + (1 − p ) )
n
= 1n = 1
Die Binomialverteilung ergibt sich aus der Bernoulli-Verteilung, indem man als Zufallsergebnis
nicht den Zufallsvektor selbst nimmt, sondern die Anzahl der Einsen darin Zählt, wodurch sich
der Wertebereich
{ 0,1,..., n}
ergibt.
18/05/2009
Srivastav selber da !!!! 10:20 Pünktlichst
1.7. Verteilungsfunktion und Dichten
Sei ℑ die Menge alller abgeschlossenene Intervalle, ∂ die Menge aller offenen Intervalle in ¡.
Sei σ ( ℑ ) die kleinste σ -Algebra über ¡, die ℑ bzw. ∂ enthält.
σ ( ℑ ) = σ (∂ ).
Satz 1.12
Beweis: zu zeigen σ ( ℑ ) ⊆ σ ( ∂ ) .
Es reicht zu zeigen dass ℑ ⊆ σ ( ∂ ) . denn σ ( ℑ ) ⊆ σ ( σ ( ∂ ) ) = σ ( ∂ )
Sei [ a, b ] ∈ ℑ ein beliebiges abgeschlossenes Intervall.
z.Z. [ a, b ] ∈ σ ( ∂ )
− ∞ , a [ ∪ ] b, + ∞ [ ∈ σ ( ∂ ) ⇒ [ a, b ] =
]14444
4244444
3
Ic ∈ σ ( ∂ )
I
weiter zu zeigen σ ( ∂ ) ⊆ σ ( ℑ ) .
Beweis : Übung
Definition 1.13. : Die Borelsche σ -Algebra über ¡ ist gerade σ ( ℑ ) und ist mit B1 notiert. Die
1
Borelsche σ -Algebra über dem Intervall [ 0,1] ist B
[ 0,1]
und das ist
σ (ℑ)
[ 0,1]
.....
Die Borelsche σ -Algebra über ¡ ist die wichtigste σ -Albebra, um Integration und WahrscheinlichkeitsTheorie über den reellen Zahlen zu fundieren.
Beispiele für nicht-diskrete Zufallsexperimente
• zeitunabhängige Prozeße
− Netzbelastung von Hyperlinks im WWW.
− radioaktiver Zerfall.
• ortsabhängig
Verteilung von Staubpartikeln auf einem CHIP
Definition 1.14.: Ein Wahrscheinlichkeitsmaß auf ( ¡, B1 ) nennen wir reelles Wahrscheinlichkeitsmaß
oder reelle Verteilung.
Sei P ein reelles Wahrscheinlichkeitsmaß. P ist ja eine Funktion P:B1 → [ 0,1] und P ( ¡ ) = 1.
Beispiel für Ereignis [ a, b ] ∈ B1 oder ] a, b[ ∈ B1
P ( [ a, b ] ) oder P ( ] a, b[ ) sind die Maße von [ a, b ] bzw. ] a, b[ .
Reelle Wahrscheinlichkeitsmaße messen "Längen" von Intervallen. Im Fall des Lesbesque-Maßes λ
gilt sogar λ ( [ a, b ] ) = b − a und λ |[ 0,1] ist ein Wahrscheinlichkeitsmaß über
( [ 0,1] , B
1
|[ 0,1]
)
Warnung : Im Allgemeinen P ≠ λ
Definition 1.15. : Sei g:¡ → ¡ eine Funktion. g heißt rechtseitig/linksseitig stetig, falls für allle
x 0 ∈ ¡ gilt lim g ( x ) = g ( x 0 ) bzw. lim g ( x ) = g ( x 0 )
x → x0
x ≥ x0
( xn )
g ( xn ) →
x → x0
x ≤ x0
für alle Folgen
xn → x0 ⇒
g ( x0 )
Stetigkeit in x 0 ⇔ rechts- + linkssietig stetig.
aber rechtssetig stetig ⇒ stetig.
Definiton 1.16. : Verteilungsfunktion
Sei F : ¡ → [ 0,1] eine Funktion mit den Eigenschaften :
( i ) F ist monoton steigend
( ii ) F ist rechsseitig stetig.
F ( t ) = 0, lim F ( t )
( iii ) tlim
→ −∞
t→ ∞
=1
So und heißt Verteilungsfunktion über ¡,
Satz 1.17 : Sei P ein reelles Wahrscheinlichkeitsmaß. Sei F : ¡ → [ 0,1] die Funktion
x → F ( x ) :=P ( ] − ∞ , x ] ) . F heißt Verteilungsfunktion von P.
Beweis.:
( i ) Monotonie z.Z. x ≥ y ⇒ F ( x ) ≥ F ( y ) ∀ x, y ∈ ¡
F( x ) = P ( ] − ∞ , x] )
≥
P ( ] − ∞ , y] ) = F ( y )
Monotonie von
Wahrscheinlichkeitsmaßen
( iii ) lim F ( t ) =
t→ − ∞
0,lim F ( t ) = 1
t→ ∞
Sei ( t n ) n∈ ¥ eine beliebige Folge mit lim t n = ∞
!
(
)
F( tn ) = P ( ] − ∞ , tn ] ) → P ( ] − ∞ , tn ] ) = P ( ¡) = 1
leider ist dieser Schluß nicht erlaubt :
(
)
lim P ( ] − ∞ , t n ] ) = P lim ] − ∞ , t n ] = P ( ] − ∞ , ∞ [ )
t→ ∞
t→ ∞
∞
Sei A n := ] − ∞ , t n [ . bezeichne mit A:=U A n = ¡.
n= 1
A n ⊆ A,A n ⊆ A n + 1 "konvergiert" von unten gegen A.
A n + 1 \A n = ] t n , t n + 1 ] wenn t n → ∞ , dann ] t n , t n + 1 ] → ] ∞ , ∞ ] = ∅ .
Was ist F eigentlich graphisch, kann man F einzeichnen und darüber eine
konkrete Vorstellung von P zu bekomme ?
20/05/2009 12:15 srivastav kommt mal wieder später und hiwi fängt an
Definition 1.18: Sei f: ¡ → [ 0, ∞ [ eine Abbildung mit folgenden Eigenschaftenl:
∞
a)
∫ f ( x ) dx = 1
−∞
b) Es existieren a,b mit − ∞ ≤ a < b ≤ ∞ so, dass f stetig auf [ a,b ] ist und f ( x ) = 0
∀ x ∈ ] a, b[ .
c
Dann heißt f stetige Dichte auf ] a, b[ .
Satz 1.19.: Ist f eine stetige Dichte auf ] a, b[ ,so existiert eine Verteilungsfunktion, F ( t ) :=
t
∫ f ( x ) dx
−∞
∀ t, und über P ( ] x, y[ ) := F ( y ) − F ( x ) , für alle x,y ∈ ¡ ∪ { − ∞ , ∞ } ist ein reelles Wahrscheinlichkeitsmaß
definiert, dessen Verteilungsfunktion F ist. Umgekehrt hat man.
Satz 1.20.: Sei P ein reelles Wahrscheinlichkeitsmaß mit stetiger Verteilungsfunktion F so, dass F
stetig differenzierbar auf J:= { t : 0 < F ( t ) < 1} ist. Mit f ( x ) := F′ ( x ) ∀ x ∈ J und f ( x ) := 0 ∀ x ∈ J c erhält
man eine stetige Dichte f.
Definition 1.21.: Ist P ein reelles Wahrscheinlichkeitsmaß mit Verteilungsfunktion F und besitzt F
eine stetige Dichte f, so heißt f auch stetige Dichte von P.
Srivastav selber wieder da
Wir haben 2 Linien:
1.
f
→
F
→
P
Satz 1.19
stetige Dichte
auf ( a ,b )
Verteilungsfunktion
reelles Warhcsheinlichkeitsmaß
2. Umkehrung ist in bestimmten Situationen zutreffend, aber bedarf schwieriger maßtheoretischer
Hilfsmittel für den Beweis.
Wir konzentireren uns auf relles Wahrscheinlichkeitsmaße, die über Satz 1.19, d.h. Angabe
einer stetigen, definiert werden.
Graphische Interpretation von Satz 1.19:
F(y)
F(x)
Die Rechteckverteilung
Für a, b ∈ ¡ mit a < b wird die Rechteckverteilung R ( a,b ) durch die stetige Dichte
1
 1:x ∈ ( a,b )
⋅ 1( a ,b ) wobei 1( a ,b ) ( x ) = 
, x ∈ ¡, definiert.
b− a
 0 : sonst
Skizze:
Verteilungsfunktion von R ( a,b )
1
:x ≥ b
1
b-a
 x− a

F( x ) = 
:a < x < b
b
−
a

.a
b
:x ≤ a
 0
f=
Über Integraldefinition
∞
F( x ) =
1. Fall: x ≤ a
Def .
F( x ) =
2. Fall: a < x < b
∫
F( x )
∫ 0 ⋅ dt = 0
−∞
−∞
∞
x
∫
f ( t ) dt =
−∞
3. Fall: x ≥ b :
x
f ( t ) dt =
x− a
mit fall 2 b − a
x
∫
−∞
=
=
x= b
1
1
x− a
dt =
1 ⋅ dt =
∫
b− a
b− a a
b− a
b− a
= 1.
b− a
Nachtrag warum ist f eine stetige Dichte auf ( a, b ) ?
• f stetig auf ( a, b )
•
∞
!
∫ f ( t ) dt = 1
−∞
Trivialer weise erfüllt.
wegen Fall 2 oben erfüllt.
25 / 05 / 09
Normalverteilung
Seien a ∈ ¡, σ ∈ ¡ \ { 0} , definiere
1
f ( x) =
2π σ
2
e
−
( x − a)2
für x ∈ ¡
2σ 2
---------------------------------------------------------Die Gauß'sche Glockenkurve wird auch mit Φ ( x ) notiert.
Satz 1.22. : f ist eine stetige Dichte.
Beweis: f ist stetig als Exponentialfunktion
∞
!
∫ f ( x ) dx = 1
z.Z. :
−∞
∞
∫
f ( x ) dx =
−∞
∞
∫
−∞
1  x− a
Φ
 dx =
σ
 σ 
∞
∫
−∞
1
Φ ( y ) dx =
σ
∞
∫
Φ ( y ) dy
−∞
2
 ∞ −y

z.Z.. ∫ Φ ( y ) dy = 1 ⇔ ∫ e dy = 2π ⇔  ∫ e 2 dy  = 2π


−∞
−∞
 −∞

Trick 2-dimensionale Integration; Polarkoordinaten.
kreis mit radius r
∞
∞
−
y2
2
2
x 2 + y 2 = r 2 sin 2 ( Θ ) + r 2 cos 2 ( Θ ) = r 2 ( sin 2 ( Θ ) + cos 2 ( Θ ) ) = r 2
y = r ⋅ sin ( Θ )
x = r ⋅ cos ( Θ )
∞
∫
Problem mit dem Integral
e
−
y2
2
dy Versuchen durch Substitution
−∞
z = y 2 ein Integral e z zu bekommen, denn die Stammfunktion der Exponentialfunktion ist bekannt.
2
∞
∞
y
z
−
−
dz
1
1
1
= 2y ⇔
dz =
dz ⇒ ∫ e 2 dy = ∫ e 2
dz.
dy
2y
2 z
2 z
−∞
−∞
Versuch über partielle Integration führt leider nicht weiter.
Weg über Polarkoordinaten
Dann




∞
∫
−∞
e
−
y2
2
2

 ∞ −y
 ∞ −x

dy  =  ∫ e 2 dy   ∫ e 2 dx  =


 −∞
  −∞




2
2
∞
∞
∫ ∫
e
−
x 2 + y2
2
! 2π ∞
dxdy =
−∞ −∞
−
r2
∫0 ∫0 r ⋅ e 2 drdΘ
E555555555
F
lässt sich schön durch
partielle Integration lösen.
mit Übergang dxdy = rdrdΘ kommt man durch.
Die zugehörige Verteilungsfunktion ist
t
1
F( t ) = ∫
( x − a)2
2σ 2
dx
2π σ
Die zugehörige Verteilung wird als Normalverteilung mit Parameter a und σ bezeichnet und mit
2
−∞
e
−
N ( a, σ ) notiert.
Für den Fall a=0,σ =1 ist F die sogenannte Φ -Funktion .
Φ ( t) =
∞
∫
−∞
2
x
−
1
e 2 dx.
2π
Die zugehörige Verteilung heißt Standardnormalverteilung und wird mit N ( 0,1) notiert.
Die Werte von Φ sind in Tabellen zu finden.
Kugel in ¡ n mit Radius 1. Vektoren v1 ,..., v n auf der Sphäre Sn − 1.
Ich möchte diese Vektoren in 2 gruppen teilen unter Gleichverteilung.
Werfe eine .... durch
Satz n ist gleichverteilt, wenn x und y normalverteilt sind → decaut
03/06/2009
Mal wieder nur der hiwi da
Kapitel 2 Zufallsvariablen, Erwartungswert und Varianz
2.1. Zufallsvariable:
Sei ( Ω , Σ
)
ein Meßraum, und A ∈ Σ ein Ereignis. Wir betrachten die Indikatorfunktion 1A : Ω →
{ 0,1} , wobei
falls ω ∈ A
1
1A ( ω ) = 
sonst
0
Die Indikatorfunktion hat eine wichtige Eigenschaft
1−A1 ( A′ ) ∈ Σ
für jede Teilmenge A' aus { 0,1} . Die Urbilder unter 1A sind mithin Mengen aus Σ . In diesem Sinn kann die
Abb 1A bezüglich der σ -Algebra "gemessen" werden. Dies motiviert.
Definition 2.1.:
Seien ( Ω , Σ
)
und ( Ω ', Σ ') Messräume. Eine Abbildung T : Ω → Ω ' heißt ( Σ , Σ ') − messbar, falls für
A' ∈ Σ ' gilt T − 1 ( A ') ∈ Σ
Beispiele:
a) Seien Σ = ℘ ( Ω
)
und Σ ' = ℘ ( Ω ') . Dann ist jede Abbildung T : Ω → Ω ' ( Σ , Σ ') -messbar.
Bei Anwendungen in der Informatik und der diskreten Mathematik trifft diese Situation häufig auf.
b) Sei a ∈ Ω ' fest und T ( ω ) = a ( d.h. T ist eine konstante Abbildung ) . Dann ist T ( Σ , Σ ') − messbar.
Die Messbarkeit einer Funktion kann man auf den Erzeuger der σ -Algebra Σ ' zurückführen.
Satz 2.2.:
Seien ( Ω , Σ
)
und ( Ω ', Σ ') Messräume und F' ein Erzeuger von Σ ' σ ( F' ) = Σ'.
T : Ω → Ω ' ist ( Σ , Σ ') − messbar genau dann, wenn gilt :
T − 1 ( A ') ∈ Σ für alle A' ∈ F' ( ∗ )
Beweis: Das System Σ '' aller Mengen B' ∈ ℘ ( Ω ') mit T − 1 ( B') ∈ Σ ist eine σ -Algebra über Ω '. Daher
T ist ( Σ , Σ ') -messbar ⇔ Σ ' ⊆ Σ '' ⇔ F' ⊆ F'' ⇔
(∗ )
q.e.d.
Korollar 2.3. : Jede stetige Abbildung T : ¡ p → ¡ q ist ( Bp ,Bq ) − messbar.
Beweis : Ein Erzeuger der Borel σ -Algebra ist das System der offenen Mengen. Da die Urbilder
offener Mengen unter T als stetige Abbildung wieder offen sind, folgt die Aussage 2.3. q.e.d.
Definition 2.4. :
Sei ( Ω , Σ , P ) ein Warhscheinlichkeitsraum und χ : Ω → ¡ ( Σ ,B1 ) − messbar. Die Funtkion χ heißt
messbare Funktion oder auch Zufallsvariable. Statt ( Σ , B1 ) − messbar sagen wir auch kurz Σ -messbar.
2.2. Verteilung und Dichte einer Zufallsvariable
Defintion 2.5.:
Sei ( Ω , Σ , P ) ein Wahrscheinlichkeitsraum und X : Ω → ¡ eine Zufallsvariable. Für A ∈ B1 sei
P X := P ( X − 1 ( A ) ) . P X heißt Verteilung von X.
Es gilt:
Proposition 2.6.: P X ist eine reelles Wahrscheinlichkeitsmaß.
Beweis:
Da X − 1 ( ∅ ) = ∅ und X − 1 ( ¡ ) = Ω , haben wir P X ( ∅ ) = 0 und P X ( Ω ) = 1 .
Die σ -Additivität von P X sieht man so ein. Für eine Folge ( A n ) n = 1 von paarweise disjunkten Borelmengen
∞
in ¡ gilt
∞

 ∞

 ∞

 ∞
 ∞
Px  U An  = P  X− 1  U An   = P  U X− 1 ( An )  = ∑ P ( X− 1 ( An ) ) = ∑ PX ( An )
q.e.d.
n= 1
 n= 1 
 n= 1  
 n= 1
 n= 1

Wir können und die Verteilungsfunktion und Dichte einer Zufallsvariable Definieren.
Definiton 2.7.:
Ist ( Ω , Σ , P ) ein Wahrscheinlichkeitsraum und X : Ω → ¡ eine Zufallsvariable, so ist FX : ¡ → [ 0,1] mit
FX ( t ) =P X ( ] − ∞ , t ] ) die Verteilungsfunktion von X. Besitzt FX eine stetige Dichte so wird diese mit f X bezeichnet
und heißt stetige Dichte von X.
Definition 2.8.:
Sei µ ein reelles Wahrscheinlichkeitsmaß. Eine reelle Zufallsvariable heißt µ -verteilt, wenn P X = µ .
Besonders nützlich ist der Fall, wenn µ eine stetige Dichte f µ besitzt. Man verifiziert leicht, dass fµ auch eine
stetige Dichte von P X d.h. fµ = f X
Somit ist also die Verteilung P X durch die Dichte f µ eindeutig bestimmt.
2
Beispiel : X sei N ( 0,1) -verteilt. Das bedeutet, X hat eine stetige Dichte φ ( x ) =
1 − x2
e
und die Verteilungsfunktion
2π
t
Φ ( t ) = ∫ φ ( x ) dx. Wir gebem abschließend die Definition der Dichte und Verteilung einer diskreten Zufallsfariable.
−∞
Defintion 2.9.:
Sei ( Ω ,℘ ( Ω ) ,P ) ein diskreter Wahrscheinlichkeitsraum und X : Ω → ¡ mit Wertebereich WX . Die Funktion
f X : WX → [ 0,1] mit f X ( y ) = P ( X = y ) , y ∈ WX heißt diskrete Dichte von X.
Der Zusammenhang zur Verteilungsfuntkion FX von X ist unmittelbar gegeben.
Proposition 2.10. :
Für die Verteilungsfunktion FX von X, wobei FX ( x ) = P ( X ≤ x ) für x ∈ WX , gilt
FX ( x ) =
∑ P ( X = y) = ∑
y∈ WX
y≤ x
y∈ WX
y≤ x
fX ( y )
Man sieht, dass der Zusammenhang zwischen Verteilungsfunktion und diskreter Dichte ganz analog zum
kontionuirlichen Fall ist. die Summe entspricht dem Dortigen Integral und die Sprechweise "X ist µ -verteilt"
wird in der nächsten Definition festgelegt.
Defintion 2.11.:
Sei ( Ω ,℘ ( Ω ) , P ) ein diskreter Wahrscheinlichkeitsraum und X : Ω → ¡ eine Zufallsvariable. Sei µ ein
diskretes Wahrscheinlichkeitsmaß ( diskrete Verteilung ) auf WX . X heißt µ -verteilt, wenn die diskrete
Dichte f X von X und der stochastische Vektor von µ gleich sind. d.h.
f X ( y ) = µ ( { y} ) für alle y ∈ WX .
Beispiel:
a) Sei X Ber ( p ) − verteilt. Das bedeutet X : Ω →
{ 0,1}
somit WX = { 0,1} .
y=1
p
f X ( y ) = P ( X = y ) = Ber ( p ) ( { y} ) = 
y= 0
1 − p
b) Sei X B ( n, p ) − verteilt. Das bedeutet X : Ω → { 0,..., n} , WX = { 0,..., n}
 n
n− y
f X ( y ) =B ( n, p ) ( { y} ) =   p y ( 1 − p )
.
y
 
Wir können uns merken, dass die Sprechweise "X gehorcht einer bestimmten Verteilung µ " oder
"X ist µ -verteilt" somit die Angabe von P ( X = y ) y ∈ WX festgelegt ist.
08/06/2009
Mal wieder kein srivastav da
2.3. Erwartungswert, Varianz und Kovarianz
Wir führen, die für die Wahrscheinlichkeit wesentlichen Begriffe des Erwartungswertes und der Varianz
ein.
Sei ( Ω , Σ .P ) ein Wahrscheinlichkeitsraum mit X : Ω → ¡ eine Zufallsvariable.
Beispielsweise: Sei Ω = n und P ( { ω } ) =
1
1 

und X hat 3 Werte  − 1, , 4  .
n
2 

 1
Dann ist Ω = X.− 1 ( − 1) ∪ X.− 1   ∪ X.− 1 ( 4 ) .
 2
1


Sei X.− 1 ( − 1) = 6 , X.− 1   = 7 und X.− 1 ( 4 ) = 2 und Ω = 15
 2
1
+ 2⋅ 4
2
Dann ist der Mittelwert von X:=
15
 1 1
 1
X. − 1 ( − 1) ( − 1) + X.− 1  
+ X. − 1 ( 4 ) ⋅ 4
X.− 1  
X.− 1 ( − 1)
X. − 1 ( 4 )
 2 2
 2 1
Mittelwert ( X ) =
=
⋅ ( − 1) +
+
⋅4
Ω
Ω
Ω
2
Ω
6 ( − 1) + 7
1  1

= P ( X = − 1) ⋅ ( − 1) + P  X =  ⋅   + P ( X = 4 ) ⋅ ( 4 )
2  2

Dabei ist zum Beispiel
1
1
P ( X = − 1) = P { ω ∈ Ω | X ( ω ) = − 1} =
⋅ { ω ∈ Ω | X ( ω ) = − 1} =
⋅ X − 1 ( − 1)
n
n
Definition 2.12.
(
)
Sei ( Ω , Σ , P ) ein diskreter Wahrscheinlichkeitsraum und X : Ω → ¡ eine Zufallsvariable mit Wertebereich WX .
Die reelle Zahl
E( X) =
∑
ω∈ Ω
X( ω ) P({ω} ) =
∑
χ ∈ WX
heißt Erwartungswert von X, sofern
χ ⋅ P( X = χ ) .
∑
χ ∈ WX
χ ⋅ P( X = χ ) < ∞
Bemerkung 1: Die Zweite Identität der Definition 2.12. sieht man so:
E ( X) =
∑
ω∈ Ω
X( ω ) ⋅ P({ω} ) =
∑ ∑
χ ∈ WX X ( ω ) = χ
X( ω ) ⋅ P({ω} ) =
∑
Im Fall der Gleichverteilung Ω = n, Σ = ℘ ( Ω ) , P ( { ω } ) =
E ( X) =
∑
ω∈ Ω
X( ω ) P({ω} ) =
1
⋅ ∑ X ( ω ).
n ω∈ Ω
χ
χ ∈ WX
1
n
∑
X( ω ) = χ
P ( { ω } ) = ...........
D.h. der Erwartungswert ist eine Verallgemeinerung des Mittelwertes E ( X ) gibt den zu erwartenden
Wert von X an. man spricht auch vom typischen Wert von X.
Beispiel: "Faire Münze" Wir nehmen einen diskreten endlichen Wahrscheinlichkeitsraum
und setzen X : Ω → ¡ durch WX = { 0,1} oder { − 1,1}
( Ω , Σ , P)
1
1
= P ( X = 1) ⇒ E ( X ) = 0 ⋅ P ( X = 0 ) + 1 ⋅ P ( X = 1) =
2
2
Weg2 : Wähle P als Gleichverteilung auf Ω und ( Ω , Σ , P ) Laplaceraum.
Weg1 : P ( X = 0 ) =
Wir merken uns die zweite Identität der Definition 2.12. als den praktischen Weg, um den
Erwartungswert einer diskreten Zufallsvariable zu berechnen.
Im kontinuierlichen Fall einer Zufallsvariable X : Ω → ¡ macht die Definition 2.12. keinen Sinn, da die
Summen stets ∞ sind.
Hier muß man sich von den Summen lösen und mit Hilfe der Integrale versuchen, eine Definition zu
geben.
( Ω ,Σ , P)
Sei
ein Wahrscheinlichkeitsraum mit kontinuierlicher Zufallsvariable X : Ω → ¡
d.h. der Wertebereich ist nicht diskret Beispiel WX = [ a, b ]
Hier hilft zur Begriffsbildung der diskrete Fall. Dort ist E ( X ) =
∑
χ ∈ WX
χ ⋅ P( X = χ ) =
∑
χ ∈ WX
χ ⋅ f (χ)
Über die diskrete Dichte erhalten wir den LINK zur stetigen Dichte einer kontinuierlichen
Zufallsvariable. Zur Erinnerung Verteilungsfunktion: FX , FX ( χ ) = P ( X ≤ χ )
Falls diese eine stetife Dichte f X hat, so ist dies die stetige Dichte von X und wir haben.
∞
FX ( χ ) =
∫
f X ( t )dt
−∞
Definition 2.13. : Sei
( Ω , Σ , P)
ein Wahrscheinlichkeitsraum und X : Ω → ¡ eine kontinuierliche
∞
Zufallsvariable mit stetiger Dichte f X . Ist
∫
t ⋅ f X ( t ) dt endlich, so ist E ( X ) =
−∞
∞
∫
t ⋅ f X ( t ) dt
−∞
heißt der Erwartungswert von X.
Eigenschaften des Erwartungswertes
Proposition 2.14. : Ist
( Ω , Σ , P)
ein Wahrscheinlichkeitsraum und X =
n
∑a
i=1
i
⋅ 1Ai mit A i ∈ Σ paarweise
disjunkt, so gilt:
n
E ( X ) =∑ a i ⋅ P ( Ai ) .
i=1
Bemerkung: dies verallgemeinert den diskreten endlichen Fall, wo ja
Beweis : E ( X ) =
∑
χ ∈ WX
χ ⋅ P( X = χ ) =
∑
= ... =
χ ∈ WX
∑ ∑
χ ∈ WX i,a i = χ
a i ⋅ P ( Ai ) =
n
∑a
i=1
i
⋅ P ( Ai )
Hiwi schiebt mal wider die Tafel über die alte.
Satz 2.15. : Eigenschaften des Erwartungswertes.
( i ) Linearität : für X1 ,...,X n
und X =
n
∑a
i=1
n
i
⋅ X i mit a 1 ,...,a n ∈ ¡ gilt E ( X ) = ∑ a i ⋅ E ( X i )
i=1
( ii ) Monotonie : Seien X und Y Zufallsvariablen über Ω mit X ( ω ) ≤ Y ( ω ) für alle ω ∈ Ω .
Dann gilt E ( X ) ≤ E ( Y ) .
( iii ) Sei X eine Zufallsvariable mit X ≥ 0. Dann gilt E ( X ) = 0 ⇔ P ( X = 0 ) = 1
Beweis :
( i)
E ( X) =
= a1 ⋅ E ( X1 )
( ii )




⋅ X ( A1 ) + ... + a n ⋅ X ( A n ) ) ⋅ P ( { ω } ) = a1  ∑ X1 ⋅ P ( { ω } )  + ... + a n  ∑ X n ⋅ P ( { ω } ) 
 ω∈ Ω

 ω∈ Ω

+ ... + a n ⋅ E ( X n )
∑ (a
ω∈ Ω
Aus X ( ω ) ≤ Y ( ω )
E( X) =
( iii )
1
∑
ω∈ Ω
X ( ω ) ⋅ P ( { ω} ) ≤
∑
ω∈ Ω
Y ( ω ) ⋅ P ( { ω} ) = E ( Y )
10 / 06 / 2009
!!!!! Srivastav selber Da !!!!!!!!!!!!!!!!!!!!!!!!!
Definition 2.16. : Sei G = ( V, E ) ein Graph. Seien S,T Partitionen von V S ∪& T = V . G ist ein bipartiter
Graph, falls E ( S) = ∅ = E ( T ) .
Beispiel:
bipartit
nicht bipartit
Beweis Färbung im Beispiel
64444444
4744444444
8
G ist bipartit ⇔ G ist mit 2 Farben färbbar ⇔ G besitzt nur gerade Kreise
G ist mit 2 Farben färbbar bedeutet: Es gibt eine Färbung der Knoten von G mit 2 Farben, so dass
benachbarte knoten unterschiedliche Farben haben.
Satz 2.17. : Sei G ein Graph mit n Knoten und m Kanten, d.h. G = ( V, E ) , V = n, E = m. Dann
enthält G einen bipartiten Subgraphen mit mindestens
m
Kanten.
2
Beispiel :
S
S
T
G = ( V, E ) , V = 5, E = 8 = m,
m
= 4
2
1
= P ( x ∉ T ) für alle x ∈ V, unabängig.
2
Das modellieren wir durch eine Folge von unabhängigen Zufallsvariablen X1 ,...,X n mit Werten 0 oder 1
Beweis : Sei T ⊆ V eine zufällige Menge, d.h. P ( x ∈ T ) =
und X i = 1 steht für Knoten i ∈ T und X i = 0 steht für Knoten i ∉ T, sowie P [ X i = 1] =
Somit ist X1 ,...,X n eine Folge von unabhängigen Bernoulliversuchen.
V = T ∪& S
T
S=Tc
G = ( V,E )
C die Menge der Crossing-Kanten, d.h. C =
zu Zeigen : C ≥
m
.
2
{ ( x, y ) ∈ E; x ∈ T, y ∈ T }
c
1
= P [ X i = 0] ∀ i.
2
Das ist zu stark, denn dannn wäre jeder Subgraph Lösung. Aber das kann eigentlich nicht sein; man
denke an den Fall, dass S = V;T = ∅ .
Wir versuchen einen ersten Schritt E ( C ) zu bestimmen. Angenommen wir können zeigen, dass
E( C ) ≥
m
ist.
2
(
Die bipartiten Subgraphen sehen so aus G ( T ) = ( T ∪& T c ,C ) ⇒ Es gibt einen G ( T∗ ) = T∗ ∪& T∗ ,C∗
c
)
m
Schubfachprinzip.
2
Kern der probabilistischen Methode in Kombinatorik : Aus Mittelwertbetrachtung auf die Existenz eines
Objektes schließen.
so dass C∗ ≥ E ( C ) ≥
Für jede Kante ( x, y ) ∈ E sei Z( x, y ) die 0/1 Zufallsvariable mit
( x, y ) ∈
 1 :
Z( x, y ) = 
 0 :
Sei Z =
∑
( x, y ) ∈ E
C
sonst
.
Z( x, y ) ) = C . Dann


E ( Z ) =E  ∑ Z( x, y ) 
=
E Z( x, y ) =
 ( x, y ) ∈ E
 Linearität des ( x,∑y ) ∈ E

 Erwartungswertes
Mal wieder kein Srivastav a sonder murad.
(
) ( ∑)
x, y ∈ E
0⋅
1
1 1
+ 1 ⋅ = ⋅ m.
2
2 2
q.e.d.
Definition 2.18. : Sei ( Ω , Σ ,P ) ein Wahrscheinlichkeitsraum und X : Ω → ¡ eine Zufallsvariable.
(
)
Die Varianz von X ist Var ( X ) = E ( X − E ( X ) ) , und σ ( X ) = Var ( X ) ist die Streuung von X.
2
Standardabweichung.
Im diskreten Fall
Var ( X ) =
∑ ( χ − E( X) ) P( X = χ )
2
χ ∈ WX
Satz 2.19. Eigenschaften der Varianz : Sei X eine Zufallsvariable, E ( X ) < ∞ und E ( X ) < ∞ Dann gilt.
2
( i ) Var ( X ) ≥ 0
( ii ) Var ( a ⋅ X + B ) = a 2 ⋅ Var ( X )
2
( iii ) Var ( X ) = E ( X ) − E ( X )
( iv ) Var ( X ) = 0 ⇔ P ( X = E ( X ) ) = 1
Beweis: ( i ) ( X − E ( X ) ) ≥ 0. Somit wegen Monotonie des Erwartungswertes
2
(
Var ( X ) = E ( X − E ( X ) )
( ii ) Var ( a ⋅ X + b ) =
(
2
) ≥ E ( 0) = 0.
E ( a ⋅ X + b − E ( a ⋅ X + b) )
) = a ⋅ Var ( X )
( iii ) Var ( X ) = E ( ( X − E ( X ) ) ) = E ( X
(
= a2 ⋅ E ( X − E( X) )
2
2
) = E ( ( a ⋅ X − a ⋅ E( X) ) ) = E ( a ( X − E ( X) ) )
2
2
2
2
2
− 2 ⋅ X ⋅ E( X) + E ( X)
2
) = E( X
2
− 2 ⋅ X ⋅ E( X) + E ( X)
= E ( X2 ) − 2 ⋅ E ( X ⋅ E ( X ) ) + E ( X ) = E ( X2 ) − 2 ⋅ E ( X ) + E ( X ) = E ( X2 ) + E ( X )
2
( iv ) Setze X ' = X − E ( X ) . ( ( E ( X ') =
⇔ P( X = E( X) ) = 1
2
2
)
2
)
2
0 ⇔ P ( X ' = 0 ) = 1) Var ( X ') = 0 ⇔ E ( X ') = 0 ⇔ P ( X ' = 0 ) = 1
Definition2.20. : Sei ( Ω , Σ , P ) ein Wahrscheinlichkeitsraum und X,Y : Ω → ¡ Zufallsvariablen.
mit E ( X 2 ) < ∞ ,E ( Y 2 ) <∞ . Die Kovarianz von X un Y ist gegeben durch
(
)
Cov ( X,Y ) = E ( X − E ( X ) ) ( Y − E ( Y ) ) .
X,Y heissen unkorrelliert, falls Cov ( X, Y ) = 0.
Satz 2.21. : Rechenergeln. Sei ( Ω , Σ , P ) ein Wahrscheinlichkeitsraum X, Y : Ω → ¡ Zufallsvariablen
mit
Beweis :
17 / 06 / 2009 Srivastav selber da !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
2.4. Erwartungswert und Varianz für konkrete Verteilungen
Gegeben sei eine Zufallsvariable X : Ω → ¡, ( Ω , Σ ,P ) Wahrscheinlichkeitsraum. Wir möchten ??unleserlich
, wie X "verteilt" ist. Was heißt das?
Nehmen wir mal an, X mißt die Laufzeit eines Algorithmus, der randomisiert ist, oder X steht für
die Größe von bipatiten Subgraphenm, die wir Zufällig in einem Graphen Wählen (Siehe Beispiel).
Experiment: Wähle Knotenmenge A ⊆ V zufällig und B ⊆ V zufällig und betrachte bipartiten TeilGraphen G ( A, B ) in Graph G.
Sei X := E ( G ( A,B ) ) X ist eine diskrete Zufallsvaeriable .
Serie von k Experimenten sieht schematisch so aus:
# Experimente
# Kanten
Wie entwickelt sich das Diagramm, wenn k → ∞ ?
Für k → ∞ wäre das Diagramm die Verteilung von X.
Warum sind wir an der Verteilung interessiert?
3 skizzierte Verteilungen ähnlich zur Gauß glocke 1. mit schmalem hals
2, fast parabelförmig 3. sehr schmale glocke
Leider ist es meistens nicht möglich die Verteilungsfunktionen FX bzw ihre Dichte f X zu berechnen
und somit das stochastische Verhalten von X komplett zu beschreiben. Hier gibt es Zwei Auswege:
a.) Statistik ;: studiert das Verhalten von endlich vielen Experimenten und liefert probabilistische
Rückschlüsse auf die Verteilung von X z.b. über Stichproben.
b.) Wahrscheinlichkeitstheoretischer Art: Analyse der Verteilung mit Hilfe von Erwartungswert,
Varianz und Beziehungen zueinander, sowie Aussagen über die sogenannten Abweichungen, das sind
die Ausläufer ("tails") der Verteilungsfunktion FX bzw. der Dichte f X
Skizze gaußglocke mit Ausläufern E ( X ) ± λ
- Wenn "tails" klein flach, dann ist f X um E ( X ) konstant.
- steht in beziehung , dazu, dass die Varianz Var ( X ) klein ist.
FX ( x ) = P ( X ≤ x ) .
Beispiel , wo FX nicht analytisch bekannt ist:
MAXCUT Problem in Graphen. Graph G = ( V,E )
δ ( X ) = # Kanten zwischen X und X =
c
MAXCUT → max ( δ ( X ) )
∑
a ij ⋅ Yi ⋅ ( 1 − Yj )
X
Xc
...
blablabla bachelor umstellung und früher war alles besser da hatten wir auch einen Kaiser::::::::
Satz 2.22. : Sei X eine Zufallsvariable
Ist X Binomialverteilt B ( n,p ) mit Wertebereich { 1,...,n} , so ist E ( X ) = n ⋅ p und Var ( X ) = n ⋅ p ( 1 − p )
Was bedeutet "X ist Biniomialverteilt". ?
Das heißt : PX = B ( n,p ) .
n
n− ω
⇒ Ferner: Ρ X ( X = ω ) =   ⋅ p ω ⋅ ( 1 − p ) , ω ∈ { 1,..., n}
ω
Beweis: Behauptung E ( X ) = n ⋅ p.
 n
n− x
x ⋅   ⋅ px ⋅ ( 1 − p )
=
∑
∑
x∈ WX
x∈ WX
 x
 n
 n
n− 1
0
= 0 +   ⋅ p ⋅ ( 1 − p ) + .... + n ⋅   ⋅ p n ⋅ ( 1 − p )
1 
 n
E( X) =
x ⋅ PX ( X = x ) =
 n
n− k
∑k = 1 k ⋅  k  ⋅ pk ⋅ ( 1 − p ) =
 
n
 n
n− k
k ⋅   ⋅ pk ⋅ ( 1 − p )
k= 0
 k
n
∑

 n − 1 1
n− 1
n− 2
0
n− 1
= n ⋅ p ⋅  0 + ( 1 − p) + 
 ⋅ p ⋅ ( 1 − p ) + ... + p ⋅ ( 1 − p ) 
1
 4244444444444
14444444444
3
!
*= 1
Beh: *
=
Binomischer
Lehrsazt
( p + ( 1 − p) )
n− 1
= ( 1)
n− 1
=1
22/06/2009
Srivastav selber da
Sei X eine B ( n, p ) -verteilte Zufallsvariable.
Beh.: Var ( X ) = n ⋅ p ⋅ ( 1 − p )
Beweis :
Var ( X ) = E ( X 2 ) − E ( X ) = E ( X 2 ) − n 2 ⋅ p 2
2
Müssen E ( X 2 ) berechnen aber E ( X 2 ) ≠ E ( X ) ⋅ E ( X )
Lemma 2.22a. : Sei X eine diskrete Zufallsvariable und f : ¡ → ¡ eine Funktion.
Dann ist E ( f ( X ) ) =
∑ f ( x) ⋅ P( X = x).
x∈ WX
 n
n− k
k 2 ⋅   ⋅ pk ⋅ ( 1 − p )
Lemma 2.23.
X B ( n,p ) − verteilt
x∈ WX
k= 1
 k
 n
 n− 1
 n
n− 1
n− 2
2  n
= n ⋅ p ⋅ ( 1 − p ) + 4 ⋅   ⋅ p 2 ⋅ ( 1 − p ) + L + ( n − 1) ⋅ 
⋅ p ⋅ ( 1 − p ) + n 2 ⋅   ⋅ pn

 2
 n − 1
 n

 n
 n− 2
 n  n− 1 
1
1
n− 1
n− 2
2  n
= n ⋅ p ⋅  ( 1 − p ) + ⋅ 4 ⋅   ⋅ p ⋅ ( 1 − p ) + L + ⋅ ( n − 1) ⋅ 
 ⋅ p ⋅ ( 1 − p) + n ⋅   ⋅ p 
n
n
 2
 n − 1
 n
1444444444444444442444444444444444443

⇒ E ( X2 )
=
∑
x2 ⋅ P ( X = x)
=
n
∑
!
= ( n − 1) ⋅ p + 1
  n − 1  1− 1 n − 1
 n − 2  2− 1
 n − k  k− 1
n− 2
n− k
 1⋅ 
 ⋅ p ⋅ p + 2⋅ 
 ⋅ p ⋅ ( 1 − p) + L + k ⋅ 
 ⋅ p ⋅ ( 1 − p)
 2− 1 
k− 1
  1− 1 
= n⋅ p⋅ 
n−1
 ( n − 1) − 1
 n − 1 n − 1
n − ( n − 1)
0
 ( n − 1) ⋅ 
⋅p
⋅ ( 1 − p)
+ n⋅
⋅ p ⋅ ( 1 − p)



 n − 1
 ( n − 1) − 1


+





n
 n − 1 n − 1
n− k
= n⋅ p⋅ ∑ k⋅ 
= n ⋅ p ⋅ ( n ⋅ p − p + 1) = n ⋅ p ⋅ ( n ⋅ p + ( 1 − p ) )
 ⋅ p ⋅ ( 1 − p)
k − 1
k= 1

144444244444
3
= ( n − 1) ⋅ p + 1
⇒ Var ( X ) = n ⋅ p ⋅ ( n ⋅ p + ( 1 − p ) ) − ( n ⋅ p ) = n ⋅ p ⋅ ( n ⋅ p + 1 − p − n ⋅ p ) = n ⋅ p ⋅ ( 1 − p )
2
q.e.d.
Satz 2.23. : Sei X eine N ( µ , σ ) -verteilte Zufallsvariable. Dann gilt :
( i) E ( X) = µ
( ii ) Var ( X ) = σ 2 .
∞
∫
Lemma 2.24 :
1
x⋅
⋅e
2⋅ π ⋅ σ 2
−∞
−
x2
2⋅ σ 2
∞
1
dx = 0 und ∫ µ ⋅
2⋅ π ⋅ σ 2
−∞
⋅e
−
x2
2⋅ σ 2
dx = µ
Beweis Satz 2.23. :
∞
zu ( i ) :E ( X ) =
∫
−∞
=
1
∫ (x+ µ )⋅
2⋅ π ⋅ σ 2
−∞
⋅e
x
−
=
∫
x⋅
−∞
1
2⋅ π ⋅ σ 2
⋅e
−
x2
2⋅ σ 2
dx +
d( x + µ )
∞
=
y→
x− µ
σ
2⋅ π ⋅ σ 2
⋅
∞
∫ ( σ ⋅ y)
2
∫µ⋅
⋅e
−
−∞
⋅e
( x− µ )2
2⋅ σ 2
dx
2
= 1⇒ d ( x + µ ) = dx
2⋅ π ⋅ σ 2
⋅e
∞
⋅ f ( x ) dx =
−∞
1
2⋅ π ⋅ σ
2
−
dx
{
1
−∞
∫ ( x − E ( X) )
zu ( ii ) Var ( X ) =
x⋅
−∞
2⋅ σ 2
∞
1
2
dx
∞
∫
dx =
Dichte der Normalverteilung.
∞
x→ x+ µ
f ( x)
{
x⋅
∞
−
x2
2⋅ σ 2
dx
∫ (x− µ )
2
⋅
−∞
y2
2
=
Lemma 2.24
0+ µ = µ
1
2⋅ π ⋅ σ
2
⋅e
−
q.e.d.
( x− µ )2
2⋅ σ 2
2
∞
y
−
1
2
⋅ σ dy = σ ⋅
⋅ ∫ y ⋅ e 2 dy = σ 2 ⋅
2⋅ π −∞
1444
24443
2
dx
∞
y

−
1
⋅ ( − 1) ⋅ ∫ y ⋅  − y ⋅ e 2

2⋅ π
−∞

2
=1
∞
∞
y
 1

−
=
σ ⋅
⋅ ∫ e 2 dy  = σ 2
partielle Integration
2⋅ π −∞
1444
3
−∞
2444
2
2
q.e.d.
=1
Wie kann mann die Verteilung einer B ( n,p ) -verteilten Zufallsvariable interpretieren?
X B(n,p)-verteilt
WX = Ω = { 0,..., n}
Modellieren X
X1 ,..., X n n Bernoulliversuche, d.h. P ( X i = 1) = p P ( X i = 0 ) = 1 − p ∀ i ∈ 1,...,n.
Bernoulliversuche sind Münzwürfe mit einer mit p-gefälschten Münze.
X = # Einsen in deiesen Münzwürfen =
n
∑
i= 1
25 / 06 / 09
Präsenzübung.
Xi

 dy


29 / 06 / 09
Srivastav selber da °!!!!!!!
Klausur 30 / 07 / 09
13 / 07 / − 18 / 07 / längere Übung
2.4. Unabhängigkeit
Intuitiv: Unabhängige Zufallsexperimente sollten sich nicht beeinflussen.
Das möchten wir modellieren.
( Ω , Σ , P ) Wahrscheinlichkeitsraum und seien A,B Ereignisse aus Σ .
Definition 2.25 : Sei
A,B sind unabhängig, wenn P ( A ∩ B ) = P ( A ) P ( B )
Spezialfall : A ∩ B = ∅ ⇒ P ( A ∩ B ) = P ( ∅ ) = 0
Aber wenn P ( A ) und P ( B ) > 0, so kann man nicht von Unabhängigkeit von A und B sprechen.
Wodurch ist diese Definiton gerechtfertigt? Wir sehen uns die bedingte Wahrscheinlichkeit an.
P ( A | B) =
P ( A ∩ B)
P ( B)
P ( A ) P ( B)
=
= P ( A) .
Falls A,B
unabängig
P ( B)
( Ω , Σ , P)
ein Wahrscheinlichkeitsraum und seien A1 ,..., A n Ereignisse
ana log
P ( B | A)
=
Falls A,B
unabängig
P ( B)
Definition 2.26 : Sei
in Σ .
( i)
Sei 1 ≤ k ≤ n fest, A1 ,..., A n heißen k-weise unabhängig, falls für jede Auswahl von k
Ereignissen A i1 ,..., A i k gilt.
(
P A i1 ∩ ... ∩ A i k
( ii )
) = ∏ P(A ).
k
ij
j= 1
Die A1 ,..., A n heißen unabhängig, falls für jede Auswahl A i1 ,..., A ik und für jedes k ≤ n gilt.
(
P A i1 ∩ ... ∩ A i k
) = ∏ P(A ).
k
ij
j= 1
Korollar 2.27 : Sind A1 ,...,A n sind unabhängig, dann sind sie auch k-weise unabhängig für jedes
k ≤ n.
Bemerkung: Umkehrung gilt Nicht. D.h. k-weise Unabhängigkeit für gewisse feste aber nicht alle
k impliziert keine Unabhängikkeit.
Insbesondere, wenn die Ereignisse paarweise unabhängig
( d.h.2 −
fach ) unabhängig sind, so sind
sie im allgemeinen nicht unabhängig.
Definition 2.28. : Es seien X1 ,..., X n Zufallsvariablen X i : Ω → ¡ ∀ i, mit Wahrscheinlichkeitsraum
( Ω , Σ , P) .
( i ) X1 ,..., X n
heißen k-weise unabhängig für ein festes k ≤ n, falls für jede Auswahl von k
Borelmengen B1 ,..., Bk ∈ ¡ und jede Aushwahl von k Zufallsvariablen X i1 ,..., X i k , gilt
) ∏ P( X ( B ))
(
P X i−11 ( B1 ) ∩ ... ∩ X i−k1 ( Bk ) =
d.h. die Ereignisse A1 = X
( ii )
−1
i1
k
j= 1
−1
ij
( B1 ) ,..., A k
j
= X i−k1 ( Bk ) sind k-weise unabhängig.
X1 ,..., X n heißen unabhängig, wenn sie k-weise unabhängig sind für jedes k ≤ n.
Beispiele:
1.) Wir werfen eine p-gefälschte Münze n-mal hintereinander. Bernoulliversuche
Nehmen wir als Ergebnisraum Ω = { 0 := Kopf ,1:= Zahl} ⊂ ¡.
σ − A lg ebra, Potenzmenge Σ = ℘ ( Ω
)
1− p
stochastischen vektor angeben: ω ∈ Ω : p ( ω ) = 
p
( Ω , Σ , P ) als Bernoulliraum oder Bernoulliverteilung.
:ω = 0
1− ω
= pω ( 1 − p )
:ω = 1
Zufallsvariablen die Münzwürfe repräsentieren:
{ 0,1} und P ( Xi = ω ) = p ( ω ) = pω ( 1 − p )
d.h. P ( X i = 1) = p und P ( X i = 0 ) = 1 − p ∀ i
Xi : Ω →
1− ω
Unabhängigkeit der X1 , ..., X n . Nehmen k ≤ n zunächst k = n.
Ereingisse sind von der Form "X i = ω i "
1
424
3
:= A i
ω i ∈ ¡, ∀ i
P ( A1 ∩ ... ∩ A n ) = P ( A1 ) ⋅ ... ⋅ P ( A n )
= P ( { X1 = ω 1 } ∩ .... ∩ { X n = ω n } ) = P ( X1 = ω 1 ,..., X n = ω n ) = P ( ( X1 ,..., X n ) = ( ω 1 ,..., ω n ) )
=
unabhängig
= p
P ( X1 = ω 1 ) ⋅ ... ⋅ P ( X n = ω n )
ω 1 + ...+ ω n
( 1 − p)
n−
(
n
ω 1 + ... + ω n
) = p∑
ωi
i= 1
=
Bernoulli exp eriment
( 1 − p)
n−
n
∑
pω 1 ( 1 − p )
ωi
1− ω 1
⋅ ..... ⋅ p ω n ( 1 − p )
1− ω n
für alle Auswahlen ω 1 ,..., ω n
i= 1
In der Praxis Schreibt man nicht all dies explizit auf, sondern wählt Formulierungen derart:
"Seien X1 ,...,X n unabhängige 0/1-wertige zufallsvariablen mit
P ( X i = 1) = p und P ( X i = 0 ) = 1 − p ∀ i = 1,..., n
2.) Laplace Experiment: Wir ziehen aus den Zahlen { 1,.., l} n-mal nacheinander eine Zahl
unter Gleichverteilung, unabhängig. Geben sei die Zufallsvariablen an, die dieses Experiment
modellieren und berechnen sie die Wahrscheinlichkeit P ( ( X1 ,..., X n ) = ( ω 1 ,..., ω n ) )
=
unabhängig
P ( X1 = ω 1 ) ⋅ ... ⋅ P ( X n = ω n ) .
Ω = { 1,..., l}
Xi : Ω → Ω
i = 1,..., n
1
i = 1,..., n ∀ ω i
l
Damit habe ich als Zufallsvariablen X1 ,...,X n Unabhängigkeit
P ( Xi = ω i ) =
P ( ( X1 ,..., X n ) = ( ω 1 ,..., ω n ) )
=
unabhängig
n
∏ P( X
i= 1
i
= ωi) =
1
ln
∀ωi
1 / 07 / 09
Srivastav selber da!!!!
Proposition 2.28. : Sei X1 ,...,X n Zufasllsvariablen über einem endlichen Wahrscheinlichkeitsraum ( Ω , Σ ,P ) . X1 ,...,X n sind unabhängig genau dann, wenn
P ( X1 = x1 ,..., X n = x n ) =
n
∏ P( X
i
i= 1
= xi )
für alle x1 ,..., x n ∈ Ω .
Satz 2.29 : Sei ( Ω , Σ ,P ) ein endlicher Wahrscheinlichkeitsraum, und seien X1 ,..., X n unabhängige
Zufallsvariablen. X i : Ω → ¡,i = 1,..., n. Dann gilt:
( i ) E ( X1 ⋅ ... ⋅ X n ) = E ( X1 ) ⋅ ... ⋅ E ( X n ) .
Insbesonderefür n = 2 :E ( X1 ⋅ X 2 ) = E ( X1 ) ⋅ E ( X 2 ) .
( ii ) Cov ( Xi , X j ) = 0 für alle i ≠ `j.
( iii ) Var ( X1 + ... + X n ) = Var ( X1 ) + ... + Var ( X n )
Beweis :
( i ) Für n = 2, dann für alle n. Seien X,Y unabhängige Zufallsvariablen, X,Y : Ω
Beh. : E ( X ⋅ Y ) = E ( X ) ⋅ E ( Y )
→ ¡.
Seien WX , WY die Wertebereiche von X,Y.
E ( X ⋅ Y)

= 

=
Definiton
∑
x∈ WX
y∈ WY
x ⋅ y ⋅ P ( X = x, Y = y )
 
x ⋅ P( X = x)  ⋅ 
x∈ Wx
 
∑
=
∑
Proposition 2.28.
X,Y unabhängig x∈ WX
y∈ WY
x ⋅ y ⋅ P ( X = x ) ⋅ P ( Y = y)

y ⋅ P ( Y = y)  = E ( X) ⋅ E ( Y)
Definition
y∈ WY

∑
q.e.d.
( ii )
Cov ( X i ,X j )
( iii )
Var ( X1 + ... + X n )
=
Satz 2.21
E ( Xi ⋅ X j ) − E ( Xi ) ⋅ E ( X j )
=
Satz 2.21
=
i≠ j
X i ,X j unabhängig
mit ( i )
Var ( X1 ) + ... + Var ( X n ) +
n
∑
i= 1
j= 1
i≠ j
0.
Cov ( Xi , X j )
q.e.d.
q.e.d.
1442443
= 0
( ii )
vervollständigung ( i ) für alle n.
E ( X1 ⋅ ( X 2 ⋅ ... ⋅ X n ) ) = E ( X1 ) ⋅ E ( X 2 ⋅ ( ⋅ X 3 ⋅ ... ⋅ X n ) ) = ... = E ( X1 ) ⋅ ... ⋅ E ( X n )
( i)
( i)
( i)
3. Ungleichungen für große Abweichungen
Aufgabe : Sei X eine Zufallsvariable mit Erwartungswert E ( X ) .
Die verteilung hat skizzenhaft folgende Gestalt.
Skizze
E(X)+λ
E(X)
- λ)E(X)- λ
(X)
<=E
P(X
)
)+λ
X
(
E
>=
X
(
P
Man bezeichnet P ( X ≥ E ( X ) + λ ) und P ( X ≤ E ( X ) − λ ) als große Abweichungen von X vom E ( X ) .
Wenn P ( X ≥ E ( X ) + λ ) ,P ( X ≤ E ( X ) − λ ) = 0,
∀λ > 0
Dann
Wenn große Abweichungen E ( X ) = X schnell gegen Null gehen, z.B. ≤ e − λ
Man sagt, die Zufalllsvariable X ist scharf um den Erwartungswert E ( X ) konzentriert,
falls die großen Abweichungen für λ → ∞ schnell gegen Null gehen z.B. wie e − λ verhalten.
In diesem Fall ist der E ( X ) eine "gute" Approximation für X.
Um scharfe Konzentration zu zeigen, müssen wir die großen Abweichungen mit einer schnell
gegen Null konvergierenden Funktion in λ → ∞ abschätzen. Solche Ungleichungen heißen
Tail Inequalities oder Große Abweichungsungleichungen. Die einfachsten sind die Markov- und
die Chebyshev-Ungleichung.
Satz 3.1. : Markov - Ungleichung : Sei ( Ω , Σ ,P ) eine Wahrscheinlichkeitsraum und
X : Ω → ¡ eine Zufallsvariable mit E ( X ) < ∞ .
( i ) Ist X ≥
0, so gilt für allle t > 0
P( X ≥ t) ≤
E( X)
.
t
( ii ) Ist ϕ : ¡ → ¡ + monoton steigend, so gilt für jedes t > 0
P( X > t) ≤
E ( ϕ ( X) )
t
.
Beweis:
( i)
Sei A t := { X ≥ t}
 1: ω ∈ A t
1A t Indikatorfunktion 1A t ( ω ) = 
.
 0 : sonst
X ≥ 1A t ⋅ X ≥ t ⋅ 1A t
(
)
( )
⇒ E ( X ) ≥ E t ⋅ 1A t = t ⋅ E 1A t = t ⋅ P ( A t ) = t ⋅ P ( X ≥ t )
⇔ P( X ≥ t) ≤
E( X)
t
( )
Nachtrag E 1A t
Diskretes X
=
∑
ω ∈ At
1⋅ P ( { ω } ) = P ( At )
≤
P( ϕ ( X) ≥ ϕ ( t ) ) ≤
( ii ) P ( X ≥ t ) Mit Monotonie
von P
( i)
E ( ϕ ( X) )
ϕ ( t)
.
Satz 3.2. Chebyshev - Ungleichung : Sei ( Ω , Σ ,P ) ein Wahrscheinlichkeitsraum
und X : Ω → ¡ eine Zufallsvariable mit E ( X ) , Var ( X ) < ∞ . Dann gilt für alle t > 0
(
)
P X − E ( X) ≥ t ≤
Var ( X )
t2
.
Beweis:
Sei Y := ( X − E ( X ) ) ≥ 0.
2
Var ( X )
=
Definition
(
(
E ( X − E( X) )
)
2
) = E( Y) .
E ( Y ) Var ( X )
=
.
Markov
t2
t2
P X − E ( X) ≥ t ≤ P( Y ≥ t2 ) ≤
q.e.d.
Anwendung von Markov
Sei X die Laufzeit eines randomisierten Algorithmuses. Wir kenne E ( X ) . Wir möchten kleine
Laufzeiten und möchten daher wissen, wie groß die Wahrscheinlichkeit ist, dass X ≥ 2 ⋅ E ( X )
Markov :
P ( X ≥ 2E ( X ) ) ≤
E ( X)
2E ( X )
=
1
.
2
High-Probability Trick : Mit Markov-Ungleichung aus einer Kenntniss über Erwartungswert
eine Wahrscheinlichkeitsaussage ableiten.
6 / 07 / 2009
Srivastav selber da!!
Vergleich der Markov und Chebyshev Ungleichung.
Sei X1 ,..., X n unabhänige 0/1 Zufallsvariable mit P [ Xi = 1] = p und P [ Xi = 0] =1-p, i = 1,..., n
Werfen n - mal einer p - gefälschten Münze
Sei Sn :=
n
∑
i= 1
X i = Die Anzahl der Einsen in den n Würfen
Sn ist B ( n, p ) − verteilt und daher E ( Sn ) = n ⋅ p, Var ( Sn ) = np ( 1 − p )
Markov - Ungleichng :
P ( Sn ≥ np + t ) ≤
E ( Sn )
np + t
=
np
1
=
np + t 1 + t
np
Chebyshev - Ungleichung :
P ( Sn ≥ np + t ) ≤
Var ( Sn )
Setze t = np ( 1 + f ( n ) )
Markov
..... ≤
Chebyshev
..... ≤
t
2
=
np ( 1 − p )
t2
1
1
=
1+ 1+ f ( n) 2 + f ( n)
:
f ( n) = n
1
n
( 1 − p)
1
≤
2 p≥ c
2
np ( 1 + f ( n ) ) c constant cn ( 1 + f ( n ) )
1
f ( n ) = n n3
:
Welche Ungleichung ist Besser ?
Chebyshev-Ungleichung íst um eine Grössenordnung Besser. Der "Preis" für die bessere
Abschätzung ist die Berechnung der Varianz, während man bei Markov mit dem ErwartungsWert auskommt.
4. Randomisierte Algorithmen
Ein Algorithumus für ein Problem Π mit Instanzen x ∈ Σ * = { 0,1} ist ja eine deterministische
*
Touringmaschiene, die für den Input x eine Folge von Rechenschritten durchführt, und
eventuell anhält. Wir bertrachten hier nur Algorithmen, die terminieren.
Die Laufzeit ist eine Funktion t ( x ) , wobei x = länge von x.
(
)
Der Algorithmus ist polynimiell, wenn t ( x ) = O polynom ( x ) .
Schematische Darstellung
Bild auf digicam
ACCEPT @ Algorithmus berechnet für Eingabe x
eine Lösung des Problems Π .
REJECT @ keine Lösung.
Klasse P
P ist die Klasse aller endlichen Probleme für die es einen polynomiellen Algorithmus A
gibt , so dass
a) x ∈ L ⇒ A ( x ) = ACCEPT
b) x ∉ L ⇒ A ( x ) = REJECT
L ist die Sprache zugehörig zum Problem, das ist die Menge aller Lösungen des Problems.
Klasse NP
Bild auf digicam
x Eingabe des Problems
π "Beweis" oder Zertifikat
NP ist die Klasse aller endlicher Probleme, für die es einen Algorithmus A gibt, der bei
Eingabe von x und zusätzlichen Zertifikat π , x akzeptiert oder verwirft, wobei
a)∀ x ∈ L∃ π : A ( x, π ) = ACCEPT
b)∀ x ∉ L∃ π : A ( x, π ) = REJECT

*

Eingabe : Graph G= ( V, E )  Π ≈ Menge aller Graphgen ≈ Σ * = { 0,1}

Frage : G bipartit ?

Sprache L?
L ≈ Menge aller Bipartiten Graphen.
Satz BIPARTIT ∈ NP und sogar BIPARTIT ∈ P
Beweis:
1.) BIPARTIT ∈ NP
Problem: BIPARTIT
Bedingung a) in Definition NP: Sei G bipartit.π sei die Bipartition von G.
Algorithmus A:
− Sei X,Y die Bipartition von G, d.h. X,Y ⊆ V
− A testet, ob X ∩ Y=∅
− A testet ob es Kanten in X und Kanten in Y gibt.
Wenn X ∩ Y=∅ und nur Kanten zwischen X und Y, dann A ( G, π ) = ACCEPT
Bedingung b) aus Definition von NP Nehme gleichen Algorithmus wie oben und Zertifikat
der obigen Form.
⇒ BIPARTIT∈ NP
PRIME
Eingabe : n ∈ ¥
Frage : ist n eine Primzahl?
Großes offenes Problem PRIME ∈ P?
{
}
Ein Algorithmus: Schaue alle l ∈ 2,..., n an, ob sie n teilen.
Komplexität: O
( n).
Polynomiell in der Eingabe?
Eingabelänge ( n )
Ist die Laufzeit O
=
Binärkodierung
 log 2 ( n )  Bits
( n ) polynomiell in
n =  log 2 ( n )  ?
Annahme : ja
Dann gäbe es kosnanten c1 ,c2 >0 und eine Polynom P, so dass
(
)
c1 n ≤ c 2 ⋅ P  log 2 ( n )  ≤ c3 ⋅ ( log 2 ( n ) )
l
für l ∈ ¥ geiegnet gross und c3 > 0
Beweis der Behauptung : Stellen Algorithmus durch binären Baum dar.
s < S1 ∀ s ∈ S1
s > S2 ∀ s ∈ S2
L s1,1 L s1 L s 2,1 L
Seien x i , x j ∈ S.
Die Elemente S1 ,... heißen Pivotelemente. Wir hatten gezeigt:
1
X ij : 
0
: x i und x j verglichen
: sonst
n
so ist X= ∑
∑
i = 1 j> i
X ij = 2 ⋅ n ⋅ log ( n ) .
2
∀ i, j ∈ { 1,..., n} ;i ≠ j.
j− i + 1
letzteres Zeigen wir:
Sei x1 < ... < x n die sortierte Reihenfolge der Menge S.
falls Pij = E ( X ij ) =
X ij = 1 ⇔ x i und x j werden miteinander verglichen
Wann geschieht das?
Dafür muß eines der beiden x i oder x j als Pivotelement gewählt werden.
Das muß erfolgen bevor iregendein anderes Element aus x i + 1 ,..., x j − 1 als Pivotelement
gewählt wird.
Damit haben wir folgende Situation:
x1 ,..., x i − 1 , x i , x i + 1 ,..., x j− 1 , x j ,..., x n
1424
3 144244
424
3
3 1
spielen für X ij = 1
keine Rolle
x i oder x j als erstes
Pivotelement gewählt
spielen für X ij = 1
keine Rolle
Sei T := { x i ,..., x j} . Bevor ein Element aus T als Pivotelement gewählt wird sind alle Elemente
aus T für den Algorithmus gleichwahrscheinlich.
1
⇒ Pij = 2 ⋅
.
q.e.d.
j− i + 1
Random Sampling
Sei S eine Menge, S = n. Gesucht ist eine Teilemenge, zufällig. mit
A ⊆ S, A ≈ p ⋅ n
p ∈ [ 0,1] fest.
 1 : Element i ∈ S gewählt
X1 ,..., X n 0/1 Zufallsvariable mit X i = 
 0 : sonst
unabhängig, sowie P [ Xi = 1] = p,P [ X i = 0] = 1 − p ∀ i, d.h. n unabängige Bernoulliversuche.
Sei A := { i;Xi = 1} ⊆ S.
 n

E ( A ) = E  ∑ Xi  = n ⋅ p
 i= 1 
Wie groß ist A "wirklich"? Große Abweichung berechnen wollen wissen wie
A − n ⋅ p sich verteilt. Idealfall A = n ⋅ p.
Chebyshev-Ungleichung.
Var ( A )
P  A − n ⋅ p ≥ t  ≤
t
⇒ Mit Wahrscheinlichkeit 1-
2
n⋅ p⋅ q
t2 t=
=
=
n⋅ ω ( n)
ω ( n ) → ∞ beliebig
langsam für n → ∞
z.B.: ω ( n ) = log ( n )
n⋅ p⋅ q
p⋅ q
=
= o ( 1)
n ⋅ ω ( n) ω ( n)
p⋅ q
→ 1 haben wir A − n ⋅ p ≤
ω ( n) n→ ∞
n ⋅ ω ( n ) ,also
n ⋅ p − n ⋅ ω ( n) ≤ A ≤ n ⋅ p + n ⋅ ω ( n)
1442443
1442443
≈ n⋅ p
≈ n⋅ p
Schritte in Graphen
Sei G = ( V,E ) ein Graph. Sei A ⊆ V, Sei δ ( A ) :=
{ ( x, y ) ∈ E; x ∈ A, y ∈ A } .
c
δ ( A ) ist der sogenannte Schnitt induziert durch A in G.
Problem MINCUT
min δ ( A )
A⊆ V
Pr oblem MAXCUT
Bild von der digicam
max δ ( A )
A⊆ V
MINCUT ∈ P, MAXCUT ist NP-schwer.
RandomCut
1. Wähle mit RandomSampling A ⊂ S, Sampling Wahrscheinlichkeit p ∈ [ 0,1] .
2. Ausgabe δ ( A ) .
Frage : δ ( A ) = ?
Random Samplinhg : X1 ,...,X n 0/1 Bernoulliversuche, unabhängig, X i =1 ⇔ i ∈ A, P [ Xi = 1] = p
P [ X i = 0] = 1 − p.
Müssen nun eine neue Funktion f ( X1 ,...,X n ) finden, so dass f ( X1 ,...,X n ) = δ ( A ) .
Digicam bild tabelle
⇒ Xi ,X j tragen zu δ ( A ) nur dann bei, wenn X i = 1 und X j = 0 oder Xi = 0 und X j = 1 und ( i, j) ∈ E.
 1 : ( i, j) ∈ E
Sei a ij := 
.
 0 : sonst
n
a ij ⋅ X i ⋅ ( 1 − X j ) = δ ( A )
!
∑
i, j = 1
 n

E δ ( A ) = E  ∑ a ij ⋅ X i ⋅ ( 1 − X j )  =
 i, j= 1

(
)
=
n
∑
X i ,X j unabhängig
i, j = 1
für i ≠ j
=
p=
E
1
2
2
a ij ⋅ p ⋅ q = p ⋅ q ⋅
n
∑
i, j = 1
i ≠ `j
n
∑
i, j = 1
(
a ij ⋅ E Xi ⋅ ( 1 − X j )
)
a ij = p ⋅ q ⋅ 2 ⋅ E = 2 ⋅ p ⋅ q ⋅ E
aii = 0
weil Graph schlingenlos
Offensichtlich ist RANDOM QUICKSORT korrekt, d.h. die Liste, die ausgegeben wird, ist
richtig sortiert. Die Lösung die existiert ist eine korrekt sortierte Liste, und eine solche wird
ausgegeben. D.h. kein Irrtum!
Zufällig ist hier die Laufzeit T gemessen die Anzahl der Schritte Vergleiche.
∑∑
Aufgabe der Wahrscheinlichkeitstheorie : E ( T ) und Verteilung von T bestimmen. Für
Effizienz erwarten wir, dass E ( T ) plynomiell in n ist.
Algorithmus : Random-Color
Eingabe : Graph G = ( V, E ) der 3-färbbar ist.
Ausgabe : eine Färbung von G, die zufällig ist.
1. Färbe die Knoten von G durch unabhängiges Werfen eines fairen W-3.
{ rot, blau, grün}
2. Ausgabe. f:V →
3. f ist eine 3-Färbung "Accept f"
Random-Color kann sich irren, denn f ist nicht immer eine zulässige 3-Färbung.
Aufgabe der Wahrscheinlichkeitstheorie: Bestimme die Irrtumswahrscheinlichkeit.
Laufzeit ist deterministisch und sogar linear.
Wir möchten die Irrtumswahrscheinlichkeit durch Konstante c < 1 beschränken. Sagen wir
9
99
999
mal c =
oder c =
oder c =
.
10
100
1000
in diesem fall gigantisch groß und erfolgswkeit exponential gering
Ist das eine "Guter" randomisierter Algorithmus ?
Lasse den Algorithmus k-mal laufen. Irrtumswahrscheinlichkeit sei c < 1.
Was ist die Wahrscheinlichkeit, dass bei jedem dieser Läufe ein Irrtum vorliegt ?
Irrtumswahrscheinlichkeit ≤ c k Unabhängikeit!!!
Wann ist c k sehr klein? sagen wir mal c k <
k ⋅ log ( c )

⇔ 10 = α <10− 9
⇔ k⋅ α < −9
1
=10− 9
1000000000
Wichtig c < 1 und nicht abhängig von Problemeingabe.
<0
⇔ k>
9
α
Ein trivialer Algorithmus für das Sortieren von S ⊂ , S = n benötigt n 2 Vergleiche.
1
die n-te Harmonische Zahl.
i= 1 i
Satz 4.2. Die erwartete Anzahl von Vergleichen von Random-Quicksort ist höchstens
n
Sei H n := ∑
O ( n ⋅ log ( n ) ) .
Beweis: Sei X die Anzahl der Vergleiche und sei X ij die 0/1-Zufallsvariable, die 1 ist,
wenn x i ,x j ∈ S verglichen werden und 0 sonst. Dann ist X =
Sei Pij = E ( Xij ) .
⇒ E ( X) =
n
n
∑ ∑ E( X ) = ∑ ∑
ij
i = 1 j> i
Behauptung: Pij =
Dann E ( X ) =
n − i+ 1
i = 1 j> i
Pij
2
für alle i,j ∈ { 1,..., n} ,i ≠ j.
j− i + 1
n
∑∑
i = 1 j> i
Pij =
n
∑∑
i = 1 j> i
2
=
j− i + 1
n
n− i+ 1
i= 1
k=1
∑ ∑
2
k
1
= 2 ⋅ H n ⋅ n ≤ 2 ⋅ n ⋅ log ( n ) = O ( n ⋅ log ( n ) ) .
i= 1 
k= 1 k
n
= 2⋅ ∑
∑
≤ Hn
n
∑∑
i = 1 j> i
X ij
Herunterladen