10. Vorlesung • Grundlagen in Statistik WS 2006/07 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 291 Beispiel • Gegeben: Termhäufigkeiten von Dokumenten • Problemstellung der Sprachmodellierung – Was sagen die Termhäufigkeiten über die Wahrscheinlichkeit eines Dokuments bzw. einer Menge von Dokumenten aus? WS 2006/07 Term/ Dokument D1 D2 D3 D4 D5 T1 1 0 1 1 0 T2 2 2 1 0 3 T3 0 1 1 2 1 T4 0 0 0 1 0 T5 1 0 1 0 0 T6 0 1 0 0 0 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 292 Von Häufigkeiten zu Wahrscheinlichkeiten • Eine Wahrscheinlichkeit kann als relative Häufigkeit eines Ereignisses interpretiert werden – Im Beispiel: Spalten auf eins normalisieren • Axiome von Wahrscheinlichkeiten – • Falls E1 nie auftreten kann, gilt: • Falls E2 immer auftritt, gilt: – S ist die Menge aller möglichen Ereignisse: – Wenn sich gegenseitig ausschließen WS 2006/07 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 293 Bedingte Wahrscheinlichkeiten • Sei die Wahrscheinlichkeit für das Ereignis E, vorausgesetzt dass das Ereignis F schon eingetreten ist. • Im Beispiel – normalisieren der Spalten heißt: das Dokument wurde schon gewählt (gegebenes Ereignis); ein Term hat dann eine gegebene Wahrscheinlichkeit Pr[T|D] • Bayesche Regel: (invertieren von gegebenen Whr.) WS 2006/07 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 294 Zufallsvariablen • Eine Zufallsvariable ist eine Funktion, die jedem Ereignis aus S eine Zahl zuweist. • Im Beispiel: Term tritt in D auf => X=1, sonst X=0 • Wahrscheinlichkeitsverteilungsfunktion einer Zufallsvar. – X ist diskret • Wahrscheinlichkeitsmassenfunktion – X ist kontinuierlich • Wahrscheinlichkeitsdichtefunktion mit WS 2006/07 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 295 Verbundverteilung und Dichte • • • • Beziehung zwischen zwei oder mehreren Zufallsvariablen Im Beispiel: Auftreten von Termen und Dokumenten Verbundverteilung Randverteilung – Diskret – Kontinuierlich • Bedingte Verteiltungen WS 2006/07 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 296 Bayesche Regel für Zufallsvariablen • Bayesche Regel • Interpretation WS 2006/07 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 297 Erwartungswert • Der Erwartungswert einer Zufallsvariable X ist E[X] und gibt den durchschnittlichen Wert von X bei vielen Experimentwiederholungen an. • Rechenregeln • Für reelle Funktionen g() gilt WS 2006/07 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 298 Varianz • Varianz gibt an, wie stark X um den Erwartungswert variiert • Varianz ist das zweite Moment minus das Quadrat des ersten Moments • Kovarianz beschreibt die Beziehung zwischen zwei Zufallsvariablen • Korrelation ist normalisiert und zwischen -1 und 1 WS 2006/07 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 299 Schwache Gesetz der großen Zahlen • Sei eine Menge von unabhängigen Zufallsvariablen mit identischer Verteilung (iid), alle mit Erwartungswert und endlicher Varianz dann gilt für jedes • Der Durchschnitt konvergiert gegen den Erwartungswert bei großen N WS 2006/07 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 300 Bestimmen von Parametern aus Stichproben • Modelle für Wahrscheinlichkeitsverteilungen können durch Dichtefunktionen mit Parametern beschrieben werden – Bespiele: Gauß-, Bernoulli-, Binomial-Verteilung, ... • Stichprobe kann als Trainingsdatensatz genutzt werden, um die unbekannten Parameter zu bestimmen • Schätzmethoden – Eingabe: Stichprobe – Ausgabe: Parameterschätzung – Beispiele: Maximum Likelihood, Bayes, Maximum Aposteriory, ... WS 2006/07 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 301 Maximum Likelihood Schätzung • Sei eine unabhängige, identisch verteilte Stichprobe (iid), deren Instanzen bezüglich einer Dichte mit unbekanntem Parameter verteilt sind • Ziel: finde die Parametereinstellung, s.d. die Stichprobe am wahrscheinlichsten erzeugt wurde • Likelihood der Stichprobe • Logarithmus ändert das Maximum nicht WS 2006/07 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 302 Bernoulli Verteilung • Binäre Zufallsvariable – Wahrscheinlichkeit für x=1 ist durch Parameter durch gegeben – – Erwartungswert und Varianz • Sei werden soll eine iid Stichprobe aus der und für x=0 geschätzt • Ergebnis WS 2006/07 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 303 Bionomial Verteilung • Wie oft kommt bei N Bernoulli-Experimenten eine Eins? • Eine Menge von Ergebnissen von Bernoulli-Experimenten mit m Einsen hat eine Wahrscheinlichkeit proportional zu • Die Anzahl von Möglichkeiten bei N Experimenten m Einsen zu bekommen aufaddieren • Binomialverteilung WS 2006/07 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 304 Multinomiale Variablen • Multinomiale Variable wählt einen Zustand aus K möglichen Zuständen aus • Repräsentation als K-dimensionaler Bit-Vektor mit K-1 Null-Einträgen und einer Eins. • K-dimensionaler Parameter-Vektor • Multinomial-Verteilung • Likelihood für iid Stichprobe WS 2006/07 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg Seite 305