10. Vorlesung - Martin-Luther-Universität Halle

Werbung
10. Vorlesung
• Grundlagen in Statistik
WS 2006/07
Alexander Hinneburg,
Martin-Luther-Universität Halle/Wittenberg
Seite 291
Beispiel
• Gegeben: Termhäufigkeiten von Dokumenten
• Problemstellung
der Sprachmodellierung
– Was sagen die Termhäufigkeiten über die
Wahrscheinlichkeit eines
Dokuments bzw. einer
Menge von Dokumenten
aus?
WS 2006/07
Term/
Dokument
D1 D2 D3 D4 D5
T1
1
0
1
1
0
T2
2
2
1
0
3
T3
0
1
1
2
1
T4
0
0
0
1
0
T5
1
0
1
0
0
T6
0
1
0
0
0
Alexander Hinneburg,
Martin-Luther-Universität Halle/Wittenberg
Seite 292
Von Häufigkeiten zu Wahrscheinlichkeiten
• Eine Wahrscheinlichkeit kann als relative
Häufigkeit eines Ereignisses interpretiert werden
– Im Beispiel: Spalten auf eins normalisieren
• Axiome von Wahrscheinlichkeiten
–
• Falls E1 nie auftreten kann, gilt:
• Falls E2 immer auftritt, gilt:
– S ist die Menge aller möglichen Ereignisse:
– Wenn
sich gegenseitig ausschließen
WS 2006/07
Alexander Hinneburg,
Martin-Luther-Universität Halle/Wittenberg
Seite 293
Bedingte Wahrscheinlichkeiten
• Sei
die Wahrscheinlichkeit für das Ereignis E,
vorausgesetzt dass das Ereignis F schon eingetreten ist.
• Im Beispiel
– normalisieren der Spalten heißt: das Dokument wurde schon
gewählt (gegebenes Ereignis); ein Term hat dann eine
gegebene Wahrscheinlichkeit Pr[T|D]
• Bayesche Regel: (invertieren von gegebenen Whr.)
WS 2006/07
Alexander Hinneburg,
Martin-Luther-Universität Halle/Wittenberg
Seite 294
Zufallsvariablen
• Eine Zufallsvariable ist eine Funktion, die jedem Ereignis
aus S eine Zahl zuweist.
• Im Beispiel: Term tritt in D auf => X=1, sonst X=0
• Wahrscheinlichkeitsverteilungsfunktion einer Zufallsvar.
– X ist diskret
• Wahrscheinlichkeitsmassenfunktion
– X ist kontinuierlich
• Wahrscheinlichkeitsdichtefunktion mit
WS 2006/07
Alexander Hinneburg,
Martin-Luther-Universität Halle/Wittenberg
Seite 295
Verbundverteilung und Dichte
•
•
•
•
Beziehung zwischen zwei oder mehreren Zufallsvariablen
Im Beispiel: Auftreten von Termen und Dokumenten
Verbundverteilung
Randverteilung
– Diskret
– Kontinuierlich
• Bedingte Verteiltungen
WS 2006/07
Alexander Hinneburg,
Martin-Luther-Universität Halle/Wittenberg
Seite 296
Bayesche Regel für Zufallsvariablen
• Bayesche Regel
• Interpretation
WS 2006/07
Alexander Hinneburg,
Martin-Luther-Universität Halle/Wittenberg
Seite 297
Erwartungswert
• Der Erwartungswert einer Zufallsvariable X ist E[X] und
gibt den durchschnittlichen Wert von X bei vielen
Experimentwiederholungen an.
• Rechenregeln
• Für reelle Funktionen g() gilt
WS 2006/07
Alexander Hinneburg,
Martin-Luther-Universität Halle/Wittenberg
Seite 298
Varianz
• Varianz gibt an, wie stark X um den Erwartungswert
variiert
• Varianz ist das zweite Moment minus das Quadrat des
ersten Moments
• Kovarianz beschreibt die Beziehung zwischen zwei
Zufallsvariablen
• Korrelation ist normalisiert und zwischen -1 und 1
WS 2006/07
Alexander Hinneburg,
Martin-Luther-Universität Halle/Wittenberg
Seite 299
Schwache Gesetz der großen Zahlen
• Sei
eine Menge von unabhängigen
Zufallsvariablen mit identischer Verteilung (iid), alle mit
Erwartungswert und endlicher Varianz
dann gilt für
jedes
• Der Durchschnitt konvergiert gegen den Erwartungswert
bei großen N
WS 2006/07
Alexander Hinneburg,
Martin-Luther-Universität Halle/Wittenberg
Seite 300
Bestimmen von Parametern aus
Stichproben
• Modelle für Wahrscheinlichkeitsverteilungen können durch
Dichtefunktionen mit Parametern beschrieben werden
– Bespiele: Gauß-, Bernoulli-, Binomial-Verteilung, ...
• Stichprobe kann als Trainingsdatensatz genutzt werden,
um die unbekannten Parameter zu bestimmen
• Schätzmethoden
– Eingabe: Stichprobe
– Ausgabe: Parameterschätzung
– Beispiele: Maximum Likelihood, Bayes, Maximum Aposteriory, ...
WS 2006/07
Alexander Hinneburg,
Martin-Luther-Universität Halle/Wittenberg
Seite 301
Maximum Likelihood Schätzung
• Sei
eine unabhängige, identisch verteilte
Stichprobe (iid), deren Instanzen bezüglich einer Dichte
mit unbekanntem Parameter verteilt sind
• Ziel: finde die Parametereinstellung, s.d. die Stichprobe
am wahrscheinlichsten erzeugt wurde
• Likelihood der Stichprobe
• Logarithmus ändert das Maximum nicht
WS 2006/07
Alexander Hinneburg,
Martin-Luther-Universität Halle/Wittenberg
Seite 302
Bernoulli Verteilung
• Binäre Zufallsvariable
– Wahrscheinlichkeit für x=1 ist durch Parameter
durch
gegeben
–
– Erwartungswert und Varianz
• Sei
werden soll
eine iid Stichprobe aus der
und für x=0
geschätzt
• Ergebnis
WS 2006/07
Alexander Hinneburg,
Martin-Luther-Universität Halle/Wittenberg
Seite 303
Bionomial Verteilung
• Wie oft kommt bei N Bernoulli-Experimenten eine Eins?
• Eine Menge von Ergebnissen von Bernoulli-Experimenten
mit m Einsen hat eine Wahrscheinlichkeit proportional zu
• Die Anzahl von Möglichkeiten bei N Experimenten m
Einsen zu bekommen aufaddieren
• Binomialverteilung
WS 2006/07
Alexander Hinneburg,
Martin-Luther-Universität Halle/Wittenberg
Seite 304
Multinomiale Variablen
• Multinomiale Variable wählt einen Zustand aus K
möglichen Zuständen aus
• Repräsentation als K-dimensionaler Bit-Vektor mit K-1
Null-Einträgen und einer Eins.
• K-dimensionaler Parameter-Vektor
• Multinomial-Verteilung
• Likelihood für iid Stichprobe
WS 2006/07
Alexander Hinneburg,
Martin-Luther-Universität Halle/Wittenberg
Seite 305
Herunterladen