Einführung in die statistische Sprachverarbeitung

Werbung
Einführung in die statistische Sprachverarbeitung
Johannes Goller
Centrum für Informationsund Sprachverarbeitung
Oettingenstr. 67
80538 München
3. Mai 2006
2
Inhaltsverzeichnis
1
2
3
4
Motivation und Grundlagen
1.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Grundbegriffe und Notationen . . . . . . . . . . . . . . . .
1.3.1 Stochastik, Statistik und Wahrscheinlichkeitstheorie
1.3.2 Zählen und Messen . . . . . . . . . . . . . . . . . .
1.3.3 Mathematische Grundbegriffe und Notationen . . . .
1.3.4 Wahrscheinlichkeitsräume . . . . . . . . . . . . . .
1.4 Standardmodelle . . . . . . . . . . . . . . . . . . . . . . .
1.4.1 Gleichverteilung . . . . . . . . . . . . . . . . . . .
1.4.2 Urnenmodell: Ziehen mit Zurücklegen . . . . . . . .
1.4.3 Urnenmodell: Ziehen ohne Zurücklegen . . . . . . .
1.5 Frequenzlisten als Wahrscheinlichkeitsräume . . . . . . . .
1.6 Die Zipfverteilung . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
7
8
8
11
17
20
24
24
24
27
27
29
Bedingte Wahrscheinlichkeit
2.1 Wie man die Zukunft nicht voraussagt und die Formel von Bayes
2.2 Situationsabhängige Wahrscheinlichkeiten: Mehrstufige Modelle
2.3 Automatisiertes Gefasel: n-Gramm-Modelle . . . . . . . . . . .
2.4 Zufallsvariablen und Projektionen . . . . . . . . . . . . . . . .
2.5 Hidden-Markov-Modelle und POS-Tagging . . . . . . . . . . .
2.6 Anmerkung zur Multiplikation sehr kleiner Zahlen . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
31
31
36
37
38
40
48
Rund um den Erwartungswert
3.1 Der Erwartungswert . . . . . . . . . .
3.2 Varianz und stochastische Konvergenz
3.3 Gesetz der großen Zahl . . . . . . . .
3.4 Korrelation von Zufallsvariablen . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51
51
54
57
58
Testtheorie und Extraktion von Kollokationen
4.1 Der Weg von Beobachtungen zu Modellen . . . . . . . . . .
4.2 Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Ein Beispiel und die Maximum-Likelihood-Methode
4.2.2 Gütekriterien für Schätzer . . . . . . . . . . . . . .
4.3 Stochastik im Kontinuum . . . . . . . . . . . . . . . . . . .
4.3.1 Wozu Stochastik auf R . . . . . . . . . . . . . . . .
4.3.2 Einige Standardverteilungen . . . . . . . . . . . . .
4.4 Alternativtests und Neyman-Pearson-Lemma . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
61
62
62
62
64
65
65
68
69
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
INHALTSVERZEICHNIS
4.5
4.6
5
Studentscher t-Test . . . . . . . . . . . .
Anwendungen in der Computerlinguistik .
4.6.1 Identifikation von Kollokationen .
4.6.2 Classifier-Fusion . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
72
73
74
74
Informationstheorie
5.1 Entropie und Kompression . . . . . . . . . . . . . . . . . . . . . . .
5.2 Mutual Information . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
76
80
Kapitel 1
Motivation und Grundlagen
1.1
Einführung
Hauptziel der Computerlinguistik ist es, Eigenschaften der natürlichen Sprache (oder
von bestimmten natürlichen Einzelsprachen) zu formalisieren, d.h. so zu charakterisieren, daß sie durch Algorithmen berechnet werden können. Hierzu bedient sich die
Computerlinguistik einer Reihe von Hilfsmitteln, die auch in anderen Wissenschaften
eine große Rolle spielen und überdies als eigene Wissenschaften erforscht werden. Zu
diesen Hilfsmitteln gehören v.a. Darstellungsmethoden aus der formalen Logik (etwa
um die Bedeutung von Sätzen formelhaft darzustellen), Strukturierungsmethoden aus
der diskreten und algebraischen Mathematik (etwa um die Struktur und gegenseitige
Ähnlichkeit von Dokumenten zu erfassen), Algorithmen aus der Theorie der formalen
Sprachen und Automaten (etwa um effizientes Syntaxparsing zu ermöglichen), aber
auch Programmiersprachen, Unix-Tools und -Kommandos, Konzepte aus der technischen Informatik und vieles mehr.
Ein ebensolches Hilfsmittel ist die Statistik, oder genauer gesagt, eine Gruppe von
Darstellungs-, Schätzungs- und Entscheidungs-Methoden aus der Stochastik. Die Stochastik gilt heute als derjenige Teil der Mathematik, der sich mit den Gesetzmäßigkeiten des Zufalls beschäftigt, d.h. der versucht, Regularitäten in Prozessen zu erfassen, die keinem bekannten Gesetz unterliegen – oder aber sehr vielen nicht eindeutig
vorhersehbaren Faktoren ausgetzt sind –, und diese Regularitäten zur Vorhersage von
Entwicklungen bzw. zur Unterstützung der Entscheidungsfindung auszunutzen.
Das Ziel des vierstündigen Proseminars “Einführung in die statistische Sprachverarbeitung”, dessen Begleitmaterial der vorliegende Text ist, besteht in der Vermittlung
der wichtigsten stochastischen Methoden, die in der Computerlinguistik zum Einsatz
kommen. Dabei ist unter “Vermittlung” die Erklärung der mathematischen Definitionen und Sätze zu verstehen, ebenso wie die Skizzierung ihrer Beweise, vor allem aber
die Herstellung ihres Zusammenhangs mit ausgewählten computerlinguistischen Anwendungen, sowie die Beschreibung und, soweit möglich, praktische Implementierung
dieser Anwendungen.
Zahlreiche Computerlinguisten sehen ihre Wissenschaft heute in einer statistischen
Phase, in einer Phase der Entwicklung also, in der statistische Methoden gegenüber
anderen Methoden überwiegen oder mit besonderer Aufmerksamkeit erforscht werden. In der Tat hat die Zahl der computerlinguistischen Veröffentlichungen (in Zeit5
6
KAPITEL 1. MOTIVATION UND GRUNDLAGEN
schriften, Konferenzen usw.) mit statistischem Schwerpunkt im Laufe des vergangenen Jahrzehnts sehr deutlich zugenommen, und eine ganze Reihe von Konzepten, die
bisher von ausschließlich symbolischer Natur waren (also nicht-statistische Methoden), wurden erweitert (“probabilistic context free parsing”, “naive Bayes classification” u.a.), und aus der Stochastik hervorgegangene Methoden wurden in die Computerlinguistik eingeführt (“machine learning of natural language grammars”). Dadurch
entsteht bisweilen der Eindruck, statistische oder statistisch motivierte Methoden seien
gewissermaßen der zentrale Forschungsgegenstand der Computerlinguistik, und ihre
mathematische Präzisierung und (ganz und gar auf dem Boden der Mathematik stattfindende) Verfeinerung verliehe der Computerlinguistik sozusagen den letzten Schliff.
Dieser Eindruck soll durch den von diesem Skript begleiteten Kurs nicht erweckt oder
verstärkt werden: Da es in der Computerlinguistik um Sprache und ihre Charakterisierung geht, müssen vielmehr Methoden der Klassifizierung sprachlicher Phänomene,
also Methoden, die aus der Linguistik hervorgehen, im Vordergrund stehen. Das sind
in erster Linie die adäquate Erstellung von Korpora, Lexika und Grammatiken, und
die sorgfältige Beschreibung einzelner sprachlicher Konstruktionen. Statistische Methoden können aber in sehr vielfältiger Weise die Arbeit des Linguisten erleichtern,
weswegen ihnen eine, wenn auch nicht zentrale, so doch grundlegende Bedeutung in
der Computerlinguistik zukommt.
Am Ende des Kurses soll jeder Teilnehmer in der Lage sein,
• Statistische Begriffe und Methoden, die in der Computerlinguistik vorkommen,
zu erklären;
• Wissenschaftliche Veröffentlichungen, die statistische oder statistische motivierte Verfahren der Computerlinguistik beschreiben, zu verstehen und zu implementieren;
• Vorschläge machen zu können, wie gewisse Problemstellungen mit statistischen
Verfahren angegangen werden könnten.
Das Skript gliedert sich daher im ersten Teil in eine Reihe von Kapiteln, die die
Hauptideen und wichtigen Begriffe der Stochastik und Statistik darlegen, und zu jeder
Beispiele für Standard-Anwendungen in der Computerlinguistik geben:
• Charakterisierung des Wahrscheinlichkeitsraums (Beispiele: Frequenzlisten und
andere einfache linguistische Verteilungen)
• Standardmodelle (z.B. Gleichverteilung, Urnenmodelle) und Zufallsvariablen (Beispiele: Invertierte Listen und Indizes von Suchmaschinen)
• Bedingte Wahrscheinlichkeit und mehrstufige Modelle (Beispiele: Bayes-Klassifikation,
statistisches Tagging)
• Erwartungswert, Korrelation und Gesetz der großen Zahl (Beispiele: Bibliometrie und einfaches Machine Learning)
• Parameterschätzung und Hypothesentests (Beispiele: Wortassoziation und Kollokationsextraktion)
Im zweiten Teil werden einige speziellere Entwicklungen stochastischer Grundideen betrachtet, die in der Computerlinguistik besonders nützlich sind:
1.2. LITERATUR
7
• Informationstheorie im Dienste der Datenkompression
• Informationstheorie im Dienste des Machine Learning
• Statistik im Vektorraum (Information Retrieval und Dokumentenklassifikation)
Ein Kurs, der Hilfsmittel und Methoden vermitteln will, die in einer Wissenschaft
verwendet werden, kann nur erfolgreich sein, wenn die Teilnehmer das Gelernte üben.
Die beste Gelegenheit dafür bietet sich in Form von Programmierübungen, bei denen
die stochastischen Methoden implementiert und direkt getestet werden. Zwar ist es
nicht möglich, im Rahmen kleiner Übungen sehr komplexe oder umfangreiche Programme zu zu entwickeln, aber an vielen Stellen bietet sich die Möglichkeit, die Kernmethode oder eine vereinfachte Version zu programmieren; das ist natürlich ideal, insofern dabei sowohl die statistische Methode als auch das Programmieren an sich geübt
werden. Jedes Kapitel wird daher von einer Reihe von Übungsaufgaben – die meisten
Programmieraufgaben – begleitet, die im Kurs zum größten Teil auch als Hausaufgabe
gestellt werden.
1.2
Literatur
Folgende Lehrbücher wurden als zusätzliches Begleitmaterial, bzw. als weiterführende
Literatur, für geeignet befunden. Für spezielle Zusammenhänge finden sich weitere
Literaturhinweise in den einzelnen Kapiteln.
[Manning & Schütze, 2004] Enthält eine große Anzahl computerlinguistischer Anwendungen mit Beschreibungen der zugrundeliegenden Idee, des Algorithmus
und bisweilen mit Implementierungshinweisen. Die Notation sowie die Beschreibung der mathematischen Zusammenhänge ist allerdings recht oberflächlich und
immer wieder auch etwas irreführend. Sicherlich einer guter Überblick über die
am häufigsten zitierten computerlinguistischen Anwendungen statistischer Methoden.
[Georgii, 2004] Eine ausgezeichnete mathematische Einführung in die Stochastik. Für
das Verständnis der Beweise, die alle detailliert beschrieben sind, sind sehr solide Kenntnisse in Analysis allerdings Voraussetzung. Gut geeignet für jeden, der
tiefer in die Mathematik der Statistik eindringen möchte, und evtl. zum Nachschlagen mathematisch sauberer Definitionen der wichtigsten Begriffe.
[Altmann, 1995] Gründliche Erklärung stochastischer Grundbegriffe, also v.a. ein mathematisches Buch, aber im wesentlichen ohne Beweise und für Nicht-Mathematiker
geschrieben. Zahlreiche Rechenbeispiele und -Übungen.
[Woods et al., 1986] Zeigt anhand vieler Beispiele die Zusammenhänge zwischen Linguistik (v.a. Korpuslinguistik) und Statistik. Deckt also v.a. die nicht-informatischen
Teile des Kurses ab.
8
KAPITEL 1. MOTIVATION UND GRUNDLAGEN
1.3
1.3.1
Grundbegriffe und Notationen
Stochastik, Statistik und Wahrscheinlichkeitstheorie
Definition 1 (Stochastik). Die Stochastik ist derjenige Teil der Mathematik, der
sich der Beschreibung und Untersuchung von zufälligen Vorgängen widmet, d.h.
von Vorgängen, die keinen vollständig bekannten Gesetzmäßigkeiten unterliegen.
Auf den ersten Blick erscheint das Vorhaben der Stochastik also weitgehend sinnlos,
oder zumindest nicht besonders wissenschaftlich; denn sie scheint ja nur das Unerklärliche näher beschreiben zu wollen. Tatsächlich kann eine solche nähere Beschreibung natürlich durchaus zu Einsichten führen, die letztlich helfen, präzise Erklärungen
zu finden. Die Stochastik befaßt sich allerdings nur mit der systematischen Auswertung von Beobachtungen über die zufälligen Vorgänge und versucht dann, Modelle
zu finden, die dazu geeignet sind, diese Vorgänge zu reproduzieren – oder auch, vorauszusagen, wie der Vorgang sich in Zukunft verhält, unter der Annahme, daß die im
bisherigen Verhalten gefundenen Regularitäten weiterhin auftreten werden. Sie erhebt
keinerlei Anspruch, Erklärungen für das Verhalten zu geben.
Mit diesem Ziel vor Augen, gliedert sie sich in zwei Teile: Die Wahrscheinlichkeitstheorie (oder Probabilistik), die sich mit den Modellen und den daraus ableitbaren Voraussagen, sowie mit den Methoden der Voraussage selbst, befaßt. Sodann die
Statistik, die Verfahren angibt, mit denen sich zu einer gegebenen Menge von Beobachtungen auf möglichst systematische und objektive Weise eines der von der Wahrscheinlichkeitstheorie vorgegebenen Modelle auswählen läßt. In anderen Worten, die
Wahrscheinlichkeitstheorie geht von Modellen aus und macht Vorhersagen, während
die Statistik von den Daten ausgeht und auf die Modelle schließt.
Definition 2 (Wahrscheinlichkeitstheorie (Probabilistik)). Derjenige Teil der
Stochastik, der festlegt, in welcher Form Modelle von zufälligen Vorgängen angegeben werden können, und wie aus den Modellen Voraussagen abgeleitet werden
können. Die Voraussagen sind stets stochastischer Natur, d.h. sie sind nicht entweder wahr oder falsch, sondern sie sind mit einer gewissen (jeweils spezifizierten)
Sicherheit wahr.
Definition 3 (Statistik). Derjenige Teil der Stochastik, der Verfahren beschreibt
und untersucht, die geeignet sind, schnell und systematisch aus Beobachtungen
Modelle zu konstruieren, die gemäß den Regeln der Wahrscheinlichkeitstheorie
die Beobachtungen möglichst akurat voraussagen.
Beispiel 1. Die Disambiguierung von Attributen vs. Adverbialen ist ein häufig auftretendes Problem bei der Syntaxanalyse; betrachte etwa:
1.3. GRUNDBEGRIFFE UND NOTATIONEN
(1)
X malt eine Blume im Garten.
(2)
X malt eine Blume im Wasser.
(3)
X malt eine Blume in der Vase.
9
In (1) ist nicht klar, ob sich die Blume oder der Maler im Garten befinden; in (2)
herrscht eine ähnliche Unklarheit, obwohl man eine gewisse Tendenz hat, anzunehmen, der Maler befände sich nicht im Wasser, und in (3) ist man praktisch völlig sicher,
daß es nur die Blume ist, die in der Vase ist. Ein (einfach gebautes) SyntaxanalyseProgramm würde aber vermutlich dieselbe Ambiguität in allen drei Beispielen vorfinden, es würde also auch für (2) und (3) jeweils zwei Analysen angeben.
Ein typischer stochastischer Ansatz wäre es nun, die Kookkurrenz (d.h. Häufigkeit
des gemeinsamen Vorkommens) der Paare
malen, im-Garten
malen, im-Wasser
malen, in-der-Vase
Blume, im-Garten
Blume, im-Wasser
Blume, in-der-Vase
in einer großen Menge von Beispielsätzen (also einem Korpus, das man z.B. aus
dem Internet extrahiert) zu betrachten und festzustellen, daß etwa im Fall von (3) “Blume” mit “in-Vase” wesentlich stärker assoziiert ist als “malen” mit “in-Vase”.
Diese Grundidee läßt sich im Sinne der Stochastik formalisieren: Man möchte Voraussagen machen bzgl. der Zusammengehörigkeit von Wortpaaren; hierzu sucht man
ein Modell, daß zu jedem Paar aus Wörtern (oder NP-Konstruktionen) mit einer gewissen Sicherheit voraussagt, daß sie zusammen vorkommen, d.h. zusammen eine Konstituente bilden. Ist nun ein gewisses Textkorpus gegeben, sagt uns die Statistik, auf
welche Weise wir die Wörter und Paare am besten zählen und wie wir dann die Parameter des Modells, d.h. die mit den diversen Voraussagen assoziierten Sicherheiten
berechnen müssen; die Wahrscheinlichkeitstheorie hingegen erlaubt es uns, aus einem
solcherart bestimmten Modell Aussagen in einem gegeben Einzelfall, also etwa in Beispiel (3) oben zu machen.
Das obige Beispiel zeigt recht gut, welche Daten und Hilfsmittel der Linguist benötigt, um einen stochastischen Ansatz zu verfolgen. Insbesondere:
Beobachtungen aus denen Modelle konstruiert werden. Die Beobachtungen macht
der Linguistik normalerweise anhand von elektronisch verfügbaren Texten, also
Korpora, die oft aus reinem Text bestehen, manchmal aber auch
• Wortarten-Tags
• Syntaxanalysen
• Thematische Kategorien
• Phonetische Transskriptionen
10
KAPITEL 1. MOTIVATION UND GRUNDLAGEN
und anderes enthalten. Wir werden später sehen, daß die Verläßlichkeit statistischer Modelle u.a. abhängt von der Zahl der Beobachtungen, die für ihre Konstruktion verwendet wurden. Man ist daher bestrebt, möglichst große Korpora
anzulegen, und es ist klar, daß die Existenz und Größe des WWW solchen Bestrebungen entgegenkommt. Es ist aber auch klar, daß die schiere Anzahl der
Beobachtungen nicht der einzige qualitätsbestimmende Faktor eines statistischen
Modells ist; auch die Repräsentativität, Einheitlichkeit und Leichtigkeit der Verarbeitung spielen eine große Rolle. Es gibt daher eine Reihe von Initiativen, die
für die Erzeugung von Korpora Empfehlungen geben und Standards festlegen.
Zu diesen Initiativen gehören beispielsweise
• Die European Language Resources Association (ELRA) 1 und die Evaluations and Language Resources Distribution Agency (ELDA) 2
• Das Linguistic Data Consortium (LDC) 3
• Die Text Encoding Initiative (TEI) 4
• Die Special Interest Group Lexicon (SIGLEX) der ACL (Association of
Computational Linguistics) 5, 6
• Das Penn-Treebank-Projekt der University of Pennsylvania 7
und zahllose kleinere, z.T. sprachspezifische Initiativen und Projektgruppen.
Software und Tools Die wichtigsten Tools sind
• XML-Parser und XML-Verarbeitungsprogramme, da viele Korpora in XML
vorliegen.
• für die Verarbeitung des reinen Textes Programme zum Editieren, Durchsuchen, Ersetzen, Zerlegen, Sortieren und Zählen. Auf Unix-Systemen stehen solche Tools unmittelbar zur Verfügung, insbesondere emacs und vi,
egrep, sed und perl, sort und uniq, sowie wc. Auch die Konversion
von Dokumentformaten (wie PDF, PS, HTML usw.) sowie von Encodings
(ASCII, Unicode, u.ä.) ist oft notwendig, bevor eigentliche statistische Verfahren angewandt werden können.
• Parser und Finite-State-Tools
• Programme zum Visualisieren von Zusammenhängen oder Tabellen. Besonders gnuplot, dot, Mathematica, Maple, aber auch die DiagrammErstellungsfunktionen von OpenOffice, StarOffice und MS Excel sind hier
zu nennen.
• Programme, die statistische Daten-Zusammenfassungen berechnen; hierzu
gehören der Mittelwert, die Standardabweichung u.ä. (s. spätere Kapitel),
aber auch Visualisierungen von Datenverteilungen, Streuung usw.
1 http://www.elra.info/
2 http://www.elda.org/sommaire.php
3 http://www.ldc.upenn.edu
4 http://www.tei-c.org/
5 http://www.siglex.org
6 http://www.clres.com/corparchive.html
7 http://www.cis.upenn.edu/~treebank/home.html
1.3. GRUNDBEGRIFFE UND NOTATIONEN
11
• Web-Suchmaschinen (sowohl allgemeine als auch speziell von und für Linguisten entwickelte, z.B. The Linguist’s Search Engine 8 , WebCorp 9 .
• Spezielle Suchprogramme, z.B. Tgrep2 10 , WordSmith 11 .
Modelle und standardisierte Formalisierungen Es macht Sinn, die Modelle, in die
man Beobachtungen übertragen will, den von der Wahrscheinlichkeitstheorie
vorgegebenen Standards anzupassen – sowohl hinsichtlich ihrer Struktur, als
auch hinsichtlich der verwendeten Notation und Terminologie. Das macht offensichtlich die Einpassung in vorhandene oder gut erforschte Verfahren einfacher
und erleichtert die Vergleichbarkeit mit bereits existierenden Verfahren.
Diese Standardnotationen und Vorgehensweisen zu erläutern ist eines der Hauptziele der ersten Kapitel dieses Seminars.
1.3.2
Zählen und Messen
Von den in Abschnitt 1.3.1 aufgelisteten Werkzeugen, wie XML-Parsern, Unix-Tools,
Visualisierungsprogrammen, wollen wir auf einige ausgewählte einen genaueren Blick
werfen. Um wenigstens einfachste statistische Verfahren anwenden zu können, muß
der Computerlinguist in der Lage sein, ein als plain text vorliegendes Korpus in Sätze
und Wörter zu zerlegen und gewisse einfache Messungen durchzuführen.
Frequenzliste
Eine der am häufigsten verwendeten Darstellungen eines Korpus ist die Frequenzliste,
das heißt die Liste der im Text vorkommenden Token, jedes assoziiert mit seiner Häufigkeit (Frequenz). Oft werden Frequenzlisten sortiert, entweder nach der Frequenz
oder lexikographisch nach den Token. Abb. 1.1 zeigt den Anfang einer solchen Frequenzliste.
Um eine sortierte Frequenzliste zur erzeugen, sind i.a. drei Schritte erforderlich:
(1) Zerlegung des Korpus in Tokens
(2) Zählen der Tokens und Erzeugen der Frequenzliste
(3) Sortieren nach dem gewünschten Kriterium
Exemplarisch wollen wir hier ein einfaches Verfahren zur Erzeugung einer Frequenzliste mit Hilfe von Perl betrachten. Für den ersten Schritt kommt ein Substitute-Befehl
mit regulärem Ausdruck der Art
host> perl -pe ’s/[\s\.,\!\?]+/\n/;’ < korpus.txt
(auf der Unix-Kommandozeile) in Frage (wir nehmen an, die Korpusdatei heißt
korpus.txt). Das Zählen läßt sich beispielsweise mit den Unixtools sort und uniq
realisieren
| sort | uniq -c
8 http://lse.umiacs.umd.edu:8080/
9 http://www.webcorp.org.uk/
10 http://tedlab.mit.edu/~dr/Tgrep2/
11 http://www.lexically.net/wordsmith/
12
KAPITEL 1. MOTIVATION UND GRUNDLAGEN
74257911
72379329
61771938
39164812
27074901
24651126
23096105
22145573
22033884
19994901
19910132
18410125
17428627
17159728
16001966
14022494
der
und
die
in
von
den
zu
für
mit
des
ist
das
im
auf
Die
nicht
Abbildung 1.1: Anfang einer nach Häufigkeit sortierten Frequenzliste eines deutschsprachigen Korpus.
(zu verstehen als Fortsetzung der obigen Zeile). Eine anschließende Sortierung
nach Frequenz wird etwa durch
| sort -nr >frequenzliste.txt
ermöglicht. Natürlich können unzählige andere Methoden (etwa der Aufbau einer
Hashtabelle) oder andere Programmiersprachen verwendet werden.
Typische Überlegungen, die man vor dem Erstellen einer Frequenzliste anstellen
sollte, sind die folgenden:
• In welchem Encoding liegt die Datei vor (z.B. ASCII, UTF-8 usw)?
• Wie soll tokenisiert werden? Insbesondere welche Zeichen gelten (in welchen
Kontexte) als Wort- bzw. Satztrenner? Wie sollen Zahlen, Datumsangaben, Geldbeträge, Uhrzeiten, Temperaturangaben usw. behandelt werden?
• Wie soll mit Groß- und Kleinschreibung umgegangen werden? Sollen die großgeschriebenen Varianten separat gezählt werden oder nicht?
Letztlich geht es v.a. um die Frage, was eigentlich ein Token ist. Der traditionelle
Wortbegriff der abendländischen Linguistik erweist sich schnell als sehr schlecht definiert und für die meisten Zwecke ungeeignet. In eher agglutinierenden Sprachen (z.B.
Türkisch, Ungarisch, Koreanisch) wird innerhalb eines “Tokens”, also morphologisch,
Wesentliches von dem ausgedrückt, was in eher flektierenden Sprachen (z.B. Deutsch)
mit zusätzlichen Tokens, also syntaktisch, ausgedrückt wird; in vielen asiatischen Sprachen (z.B. Chinesisch, Japanisch, Koreanisch) werden überhaupt keine Leerzeichen zur
Markierung von Tokens verwendet. Tokenisierung, also auch die Erstellung einer guten Frequenzliste ist also ein nicht-triviales Problem, das im Grunde die Klärung vieler
anderer, sehr grundlegender linguistischer Fragen voraussetzt.
1.3. GRUNDBEGRIFFE UND NOTATIONEN
13
Ein für die semantische Analyse besser geeigneter Begriff als Token oder Wort ist
der der lexikalischen Einheit (der beispielsweise in Einführungskursen zur Semantik
und Syntax besprochen wird). Was die oben erstellte Frequenzliste darstellt, ist freilich
nur die Tokenfrequenz, also eine extrem grobe Annäherung an eine Frequenzliste lexikalischer Einheiten, wie man sie eigentlich gerne hätte. Trotzdem ist das die Art von
Frequenzliste, wie wir sie die meiste Zeit verwenden werden, und auch die einzige, die
man ohne größeren Aufwand jederzeit herstellen kann.
n-Gramme
Den Problemen, die bei der Erstellung und Benützung von Frequenzlisten für Einzeltokens auftreten (s. oben), also insbesondere denjenigen Problemen, die daher kommen,
daß wir eben nur Wörter (im Sinne von “durch Leerzeichen getrennte Einheiten”),
und nicht semantische Einheiten betrachten, versucht man z.T. dadurch zu begegnen,
daß man Paare, Tripel oder noch längere Ketten von Wörtern extrahiert, und dann die
statistischen Eigenschaften dieser Einheiten untersucht, also z.B. Frequenzlisten von
Wortpaaren betrachtet.
Längere Wortketten sind aber auch interessant, weil sie die Einzelwörter in Kontext
enthalten, so daß sich an ihnen beispielsweise untersuchen läßt, mit welchen Präpositionen oder Quantoren bestimmte Wörter häufig oder selten zusammen vorkommen.
Auch bei der statistischen Phrasen und Keyword-Extraktion spielen n-Gramme, also
Kettern von n aufeinanderfolgenden Wörtern eine große Rolle. Wir werden später darauf zurückkommen.
Definition 4 (n-Gramm, Unigramm, Bigramm, Trigramm, Tetragramm).
Sei T = t1 , . . . ,tn ein tokenisierter Text, die ti also seine Tokens in der OriginalReihenfolge. Jede Folge von n ∈ N aufeinanderfolgenden Tokens ti , . . . ,ti+n−1 ist
ein n-Gramm (aus T ). 1-Gramme heißen auch Unigramme, 2-Gramme Bigramme,
3-Gramme Trigramme und 4-Gramme Tetragramme.
Normalerweise interessiert man sich für die Menge aller n-Gramme eines Textes (für
jeweils gegebenes n, z.B. 2,3,4).
Beispiel 2. Die Menge aller Bigramme aus dem Text
(4)
In the beginning, God created the heavens and the earth.
ist {(In,the), (the,beginning), (beginning,God), (God,created), (created,the), (the,heavens),
(heavens,and), (and,the), (the,earth)}.
Anmerkungen
• Manchmal fügt man dem Text noch ein erstes und letztes “leeres” Token hinzu,
und erhält dann zwei weitere Bigramme, in o.g. Beispiel wären das: (∅,In) und
(earth,∅).
14
KAPITEL 1. MOTIVATION UND GRUNDLAGEN
• Die Frequenzlisten aus dem vorigen Abschnitt sind offensichtlich UnigrammFrequenzlisten. Auch Bigramm- und sonstige n-Gramm-Frequenzlisten werden
häufig betrachtet und als Grundlage statistischer Untersuchungen benützt.
• Was wir bisher als Token-Trenner betrachtet haben, wird mitunter auch selbst
als Token angesehen, z.B. Interpunktionszeichen wie Komma. Dementsprechend
würde man dann anstelle des Bigramms (beginning,God) zwei andere Bigramme
in die Liste aufnehmen: (beginning,<comma>) und (comma,God).
• Groß- und Kleinschreibung (und bei Nicht-Lateinischen Schriften auch andere
Phänomene wie vorhandene/fehlende Diakritika, Vokalisierungszeichen, Hiragana/Kanji-Variationen u.ä.) müssen je nach Anwendung verschieden behandelt werden. In unserem Beispiel haben wir die Groß- und Kleinschreibung der Bigramme einfach wie im Original belassen; oft machen Normalisierungen jedoch Sinn.
Visualisierung
Da die Statistik damit befaßt ist, Beobachtungen in Texten zu machen und aus diesen
stochastische Modelle abzuleiten, also insbesondere Wahrscheinlichkeitsverteilungen
zu erschließen, kommt sie nicht umhin, die Häufigkeit des Auftretens gewisser Phänomene zu zählen, etwa im Sinne einer Frequenzliste von Uni- oder anderen n-Grammen.
Um Häufigkeiten sehr vieler verschiedener Phänomene, z.B. die Häufigkeiten vieler
tausend unterschiedlicher Wörter, so darzustellen, daß auch ein Mensch gewisse Regularitäten schnell erkennen kann, ist es oft angebracht, sie zu visualisieren anstatt in
langen Tabellen widerzugeben. Solche Visualisierungen werden oft Diagramme genannt.
Eine einfache Art, zu einer gegebenen Reihe von Zahlen ein Linien-Diagramm zu
zeichnen, ist die Verwendung des Open-Source-Programmes gnuplot. gnuplot ist ein
Funktionsplotter (man kann es auch verwenden, um Kurven zu Funktionsgleichungen
zu zeichnen), der über enorm viele Optionen und eine umfangreiche Dokumentation
verfügt; wir wollen das Programm aber nur beispielhaft für den simplen Zweck der
Visualisierung einer kurzen Frequenzliste verwenden.
Die Darstellung soll die Frequenzen der Wörter als Kurve darstellen, als hätte man
die Tokens des Textes auf der X-Achse aufgereiht, und würde senkrecht über jedem
seine Frequenz auftragen. gnuplot kann Datenpaare der Art (x, y) aus einer Datei einlesen, und zwar ein Paar pro Zeile, zuerst den X-Wert, dann ein Leerzeichen, dann den
Y-Wert. Klammern und Kommata werden nicht benötigt.
Sowohl X- als auch Y-Werte müssen Zahlen sein, wir können die Wörter also nicht
so stehen lassen. Wir benutzen einen Perl-Aufruf auf der Kommandozeile, um die Frequenzliste entsprechend umzuformen:
host> perl -pe ’s/^(.*?)\s.*/$. $1/;’ < frequenz.txt > gnuplot.txt
Dann rufen wir gnuplot auf und erzeugen ein Liniendiagramm:
host> gnuplot
gnuplot> plot ’gnuplot.txt’ smooth unique
Das plot-Kommando bewirkt das Einlesen der Datenpaare, das Skalieren des Koordinatensystems, und das Zeichnen der Kurve. smoothunique führt dazu, daß die einzelnen Datenpunkte durch Linien verbunden werden, so daß eine “glatte” Kurve entsteht.
Ohne diese Option sieht man die als kleine Kreuze dargestellten diskreten Punkte. Ein
Beispiel findet sich in Abb. 1.2.
15
1.3. GRUNDBEGRIFFE UND NOTATIONEN
8e+07
’tt’
7e+07
6e+07
5e+07
4e+07
3e+07
2e+07
1e+07
0
0
10
20
30
40
50
60
70
80
90
100
Abbildung 1.2: Visualisierung einer Frequenzliste.
Zusammenfassen von Daten
In der Statistik ist man oft bestrebt, große Menge von Beobachtungsdaten (z.B. Frequenzlisten) in Form von wenigen Zahlen zusammenzufassen, die die wesentlichen
Eigenschaften der Daten widerspiegeln. Die einfachsten Möglichkeiten der Zusammenfassung sind Mittelwert, Standardabweichung und Median.
Definition 5 (Mittelwert und Standardabweichung). Ist f1 , . . . , fn eine endliche Folge von Zahlen, so ist
n
m :=
1X
fi der Mittelwert der fi
n
i=1
n
X
1
( fi − m)2 die Varianz der fi
n
i=1
√
s :=
v die Standardabweichung der fi
v :=
(1.1)
(1.2)
(1.3)
Statt Mittelwert sagt man auch arithmetisches Mittel (im Unterschied zum geometrischen Mittel, das wir hier nicht betrachten wollen). Statt Standardabweichung
sagt man auch Streuung.
P
(Die Bedeutung der -Schreibweise usw. wird in Abschnitt 1.3.3 erläutert, für den
Fall, daß der Leser Schwierigkeiten damit hat.)
Der Mittelwert drückt aus, welchen Wert eine zufällig gezogene Stichprobe aus
16
KAPITEL 1. MOTIVATION UND GRUNDLAGEN
Abbildung 1.3: Gaußsche Glockenkurve für verschiedene Mittelwerte und Varianzen.
Entnommen aus http://en.wikipedia.org/wiki/Normal_distribution.
einer Reihe von Daten wahrscheinlich ungefähr hat. Sind beispielsweise alle Daten
gleich, so hat der Mittelwert (wie man leicht nachrechnet) auch diesen selben Wert.
Die Varianz ist selbst auch ein Mittelwert, und zwar gibt sie die durschnittliche quadratische Abweichung vom Mittelwert wieder; die Streuung ist die Wurzel aus der Varianz
(um die Quadrierung der Abweichungen zu neutralisieren). Die Streuung gibt an, wie
verläßlich der Mittelwert ist, d.h. wie gut wir uns darauf verlassen können, daß eine
beliebig gezogene Stichprobe tatsächlich in der Nähe des Mittelwertes liegen wird. Je
kleiner die Streuung, desto verläßlicher der Mittelwert.
Beispiel 3. Das arithmetische Mittel über die Wortlänger deutscher Wörter, gemessen
an den 50 Tausend häufigsten deutschen Wörtern, ist 8.45; d.h. wenn wir ein beliebiges
Wort herausgreifen, erwarten wir, daß es wahrscheinlich ungefähr 8.45 Buchstaben
lang ist. Die Streuung beträgt 4.17.
Nimmt man die Normalverteilung der Einzelwerte an (zur genauen Klärung dieses
Begriffs später), so kann man aus Mittelwert und Varianz die tatsächliche Verteilung
der Werte rekonstruieren: Die meisten Werte liegen dann genau beim Mittelwert, etwas
weniger von ihnen liegen in kleinen Abständen unterhalb und oberhalb von ihm, noch
weniger haben noch größeren Abstand, usw. Zeichnet man eine Kurve nach denselben Prinzipien wie das Frequenzlisten-Diagramm in Abschnitt 1.3.2, so ergibt sich die
Gaußsche Glockenkurve (Abb. 1.3).
In diesem Fall hat man dann tatsächlich die gesamte Häufigkeitsverteilung der Einzelwerte in Form von zwei Zahlen dargestellt: Mittelwert und Varianz. Und dies ist
auch der Grund, warum man diese beiden Werte häufig berechnet; sie geben einen
groben Eindruck von der ungefähren Größenordnung und Verteilung der Werte in der
gesamten Stichprobe.
1.3. GRUNDBEGRIFFE UND NOTATIONEN
17
Ein weiterer Wert, der in ähnlicher Weise nützlich ist und oft berechnet wird, ist
der Median:
Definition 6 (Median). Sei f1 , . . . , fn eine Folge von Zahlen, n ≥ 1. Der Median
ist der Mittelwert derjenigen f j , für die gilt:
n−1
n−1
|{ fi : fi < f j }| =
oder |{ fi : fi > f j }| =
2
2
(Es gibt immer nur entweder ein solches f j (falls n ungerade ist), oder zwei (falls
n gerade ist).)
D.h. sortiert man die Datenmenge, so ist der Median derjenige Wert, der genau in der
Mitte liegt: Die eine Hälfte der Daten ist kleiner als er, die andere größer. Bei Normalverteilung (und jeder symmetrischen Verteilung) ist der Median mit dem Mittelwert
identisch.
Beispiel 4. Der Median der Zahlenfolge (2, 4, 7) ist 4. Der Median von (2, 4, 7, 9) ist
(4 + 7)/2 = 5.5.
Der Median ist also auch eine Art “Mittelwert”, und er hat gewisse Vorteile gegenüber
dem artithmetischen Mittel; insbesondere ist er “stabiler”, d.h. nicht so empfindlich
wenn “outliers”, d.h. seltene, aber sehr stark vom Durchschnitt abweichende Werte
in den Daten vorkommen. Etwa in der Datenreihe (1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 20) ist der
Median gleich 1, was recht gut den “typischen” Wert wiedergibt, während das arithmetische Mittel bei etwa 2.73 liegt.
1.3.3
Mathematische Grundbegriffe und Notationen
Auf Fragen zur Definition der grundlegendsten Begriffe “Menge”, “Zahl” u.ä. soll hier
nicht eingegangen werden (siehe aber etwa das Skript zum Proseminar Mathematik I).
Jedoch die wichtigsten Notationen sollen im folgenden wiederholt werden.
Explizit angegebene Mengen schreiben wir mit geschweiften Klammern (Mengenklammern): M = {a, b, c}. Die Schreibweise M = {x : ϕ(x)} bedeutet “M ist die Menge
aller Objekte mit der Eigenschaft ϕ”. Diese Objekte müssen keineswegs den Namen
“x” haben; “x” ist nur eine Variable, die innerhalb der Definition verwendet wird, gebunden durch den Allquantor, der dieser Definition implizit ist:
für alle Objekte, nennen wir sie x, gilt: falls ϕ(x) wahr ist, so ist x ∈ M.
Es steht
N = {1, 2, . . .} für die Menge der natürlichen Zahlen;
Z = {. . . , −2, −1, 0, 1, 2, . . .} für die Menge der ganzen Zahlen;
Q = {a/b : a, b ∈ Z} für die Menge der Brüche (rationalen Zahlen);
18
KAPITEL 1. MOTIVATION UND GRUNDLAGEN
R für die Menge der reellen Zahlen, also Q zusammen mit den Grenzwerten aller
konvergenten Folgen.
Wir schreiben P(M) für die Potenzmenge von M, d.h. diejenige Menge, deren
Elemente gerade die Teilmengen von M sind:
P(M) := {x : x ⊆ M}
Bezüglich der Mächtigkeit einer Menge M sagt man “M ist (höchstens) abzählbar”,
wenn man den Elementen von M natürliche Zahlen zuordnen kann, und zwar so, daß
jede natürliche Zahl nur einmal benutzt wird, aber jedes Element in M einer Zahl zugeordnet ist. N, Z und Q sind abzählbar, R ist es nicht. Gemäß dem Satz von Cantor gilt,
daß die Potenzmenge einer abzählbaren, aber unendlichen Menge nicht mehr abzählbar ist. P(N) ist also beispielsweise nicht mehr abzählbar. Solche Mengen heißen auch
überabzählbar. Für die Mächtigkeit einer Menge M schreiben wir |M|. Ist M endlich,
so ist |M| gerade die Anzahl seiner Elemente. Ist M abzählbar unendlich, so gilt also
|M| = |N|. Überabzählbare “Unendlichkeiten” lassen sich auch noch weiter unterscheiden, das wird aber für unsere Zwecke nicht notwendig sein.
Sind A1 , A2 , . . . Mengen, so schreiben wir A1 × A2 × . . . für ihr kartesisches Produkt,
d.h. für die Menge der Tupel, die sich aus ihren Elementen zusammensetzen lassen. Wir
schreiben A1 ∪ A2 ∪ . . . für ihre Vereinigung und A1 ∩ A2 ∩ . . . für ihren Durchschnitt.
Zwei Mengen A und B heißen disjunkt, falls sie keine gemeinsamen Elemente besitzen,
d.h. falls ihr Durchschnitt leer ist: A ∩ B = ∅. Betrachtet man mehr als zwei Mengen, so
spricht man von paarweise disjunkt, falls für je zwei von ihnen (also für alle denkbaren
Paare aus diesen Mengen) Disjunktheit gilt.
Hat man eine Menge M und eine Teilmenge A ⊆ M, so schreibt man AC für die
Komplementmenge von A (in M), d.h.
AC := M − A
(es findet sich auch die Schreibweise Ā in der Literatur). Beachte, daß diese Schreibweise nicht explizit ausdrückt, in welcher Menge das Komplement betrachtet wird, welche Menge also die Rolle von M spielt. Das muß dann jeweils aus dem Zusammenhang
klar gemacht werden.
Betrachtet man sehr viele beteiligte Mengen Ai , so empfiehlt sich für Vereinigung,
Schnitt usw. die kürzere Schreibweise:
[
Ai := A1 ∪ A2 ∪ . . .
i≥1
\
Ai
:= A1 ∩ A2 ∩ . . .
Ai
:= A1 × A2 × . . .
i≥1
Y
i≥1
In diesem Zusammenhang meint man mit “i ≥ 1” (unter dem großen Symbol): “der
Zähler i durchläuft alle natürlichen (!) Zahlen ab 1.” Gelegentlich soll der Zähler andere
Wertemengen durchlaufen; allgemein schreibt man oft
[
Ai
i∈I
19
1.3. GRUNDBEGRIFFE UND NOTATIONEN
um anzudeuten, daß eine gewisse “Indexmenge” I die möglichen Werte des Zählers
enthält. Man unterstellt implizit, daß eine lineare Ordnung auf diesen Werten existiert,
so daß auch die Reihenfolge des Durchlaufens festgelegt ist (sofern die Reihenfolge
nicht ohnehin gleichgültig ist, wie das in o.g. Beispielen ja der Fall ist).
Ähnlich benutzt man zur kürzeren Schreibweise von Summen und Produkten:
n
X
i=1
n
Y
ai
:= a1 + a2 + . . . + an
ai
:= a1 · a2 · . . . · an
i=1
wobei in diesem Beispiel die Indexmenge I := {1, . . . , n} ist. Auch für solchen Summen
und Produkte kommen u.U. unendliche Indexmengen in Betracht; im Falle der Summe
spricht man dann von einer unendlichen Reihe. Viele solche Reihen haben keinen Wert
innerhalb der reellen Zahlen, sondern werden sozusagen immer größer, z.B.
∞
X
i
i=0
Andere hingegen konvergieren gegen einen gewissen Grenzwert, d.h. ihr Abstand zu
diesem Wert wird immer geringer, z.B.
∞
X
ri
i=0
was gegen 1/(1 − r) konvergiert, falls r < 1 (!) (was wir hier nicht beweisen wollen).
Man schreibt dann
!
n
∞
n
X
X
X
1
1
i
i n→∞ 1
oder lim
r =
oder
ri =
r −→
n→∞
1−r
1−r
1−r
i=0
i=0
i=0
Solche unendlichen Summen verhalten sich nicht in allen Fällen wie gewöhnliche Summen. Beispielsweise gilt nicht unbedingt Kommutativität, d.h. wenn man die Reihenfolge der Summanden an unendlichen vielen Stellen ändert, kann sich auch der Wert
(d.h. der Grenzwert) ändern. Bei jeder in einer Rechnung auftretenden unendlichen
Reihe muß man sich daher überlegen, ob sie konvergiert und wenn ja gegen welchen
Grenzwert – und dann darf man sie durch ihren Grenzwert ersetzen. Wir werden unendlichen Reihen nur gelegentlich begegnen.
Induktionsbeweis Ein Beweisverfahren, das in Zusammenhang mit stochastischen
Aussagen häufig vorkommt, und insbesondere auch in der computerlinguistischen Literatur oft verwendet wird, ist der Induktionsbeweis oder Beweis durch (vollständige)
Induktion (über die natürlichen Zahlen). (Er ist eng verwandt mit dem Beweis durch
Induktion über den Aufbau, der z.B. in der Prädikatenlogik eine Rolle spielt, wenn
Aussagen bewiesen werden sollen, die für alle Formeln gelten; das wollen wir hier
aber nicht betrachten.)
Dieses Beweisverfahren ist immer dann sinnvoll, wenn es darum geht zu zeigen,
daß alle natürlichen Zahlen größer gleich einem gewissen n0 eine gewisse Eigenschaft
ϕ besitzen, daß also gilt
ϕ(n) für alle n ∈ N mit n ≥ n0
20
KAPITEL 1. MOTIVATION UND GRUNDLAGEN
Man führt den Beweis durch, indem man zunächst ϕ(n0 ) beweist, und dann die
Aussage:
Falls ϕ(n), dann ϕ(n + 1) für alle n ∈ N
Dann ist man fertig, denn dann hat man ϕ(n0 ) bewiesen, und mit dem zweiten Teil
folgen ϕ(n0 + 1), ϕ(n0 + 2) usw.
Beispiel 5. Wir wollen beweisen, daß
n
X
i=1
i=
n(n + 1)
für alle n ∈ N, n ≥ 1
2
Wir beweisen also zunächst durch Rechnung, daß es für n = 1 gilt:
1
X
i=1=
i=1
1·2
2
Jetzt müssen wir die kompliziertere Aussage beweisen, daß
Falls
n
X
i=1
i=
n+1
X
n(n + 1)
(n + 1)(n + 2)
, dann
i=
für alle n ∈ N
2
2
i=1
Das entspricht gerade dem
Falls ϕ(n), dann ϕ(n + 1) für alle n ∈ N
Wir machen also die Annahme ϕ(n) und versuchen mit Hilfe dieser Annahme ϕ(n + 1)
zu beweisen. n bleibt dabei als Variable stehen. Die genannte Annahme nennt man
Induktionsvoraussetzung, den zu führenden Beweis Induktionsschritt.
Hierzu rechnen wir:
!
n+1
n
X
X
n(n + 1) 2(n + 1)
(∗) n(n + 1)
i=
i + (n + 1) =
+ (n + 1) =
+
=
2
2
2
i=1
i=1
=
n(n + 1) + 2(n + 1) (n + 2)(n + 1)
=
2
2
Bei (∗) haben wir die Induktionsvoraussetzung benutzt, über die dort vorliegende Gleichung sagt man auch “sie gilt nach Induktion”.
Analog kann man sich den Beweis als ein rekursives Programm vorstellen, daß
versucht eine Funktion ϕ(n + 1) auszuführen und hierzu rekursiv die Funktion ϕ(n)
aufruft, und wieder rekursiv ϕ(n − 1) usw., bis ϕ(1), was explizit (im ersten Schritt des
Beweises) angegeben worden war.
1.3.4
Wahrscheinlichkeitsräume
Wahrscheinlichkeitsräume sind die formalen Repräsentationen von stochastischen Modellen, d.h. es sind mathematische Objekte, die Information darüber enthalten, mit welcher Sicherheit (Wahrscheinlichkeit) man glaubt, daß gewisse Ereignisse eintreten oder
gewisse Sachverhalte gegeben sind. Ein Wahrscheinlichkeitsraum hat drei Teile:
1.3. GRUNDBEGRIFFE UND NOTATIONEN
21
Ergebnismenge Ω: Die Menge von Sachverhalten, die sich unmittelbar beobachten
lassen.
Ereignismenge F: Die Menge von verallgemeinerten Ergebnissen, deren Wahrscheinlichkeit man später berechnen können möchte.
Wahrscheinlichkeitsmaß P: Eine Funktion, die jedem verallgemeinerten Ergebnis
(also jedem Element der Ereignismenge) eine Zahl zwischen 0 und 1 zuordnet,
die man als Wahrscheinlichkeit des Eintretens dieses Ereignisses betrachtet.
Beispiel 6. Geht es etwa um das Werfen eines gewöhnlichen, sechsseitigen Würfels,
so wäre {1, 2, 3, 4, 5, 6} eine vernünftige Darstellung der Ergebnismenge. Dagegen die
Ereignismenge sollte auch solche verallgemeinerten Ereignisse wie “es fällt eine gerade Zahl” oder “es fällt eine Zahl kleiner als 3” enthalten. Das Wahrscheinlichkeitsmaß sollte sinnvollerweise allen sechs direkt beobachtbaren Ereignissen die gleiche
Wahrscheinlichkeit (1/6) zuordnen, dagegen den verallgemeinerten Ereignissen entsprechend umso höhere Wahrscheinlichkeit, je allgemeiner sie sind. Etwa das Ereignis
“eine gerade Zahl fällt” sollte, der Intuition entsprechend, die Wahrscheinlichkeit 1/2
haben.
Die verallgemeinerten Ereignisse werden stets als Mengen von Ergebnissen beschrieben; etwa das Ereignis “es fällt eine gerade Zahl” entspricht ja in der Tat der
Menge der Ergebnisse {2, 4, 6}. Ereignisse sind daher immer Teilmengen von Ω – es
müssen aber nicht notwendig immer alle möglichen Teilmengen auch als relevante Ereignisse betrachtet werden. Daher wird die Ereignismenge bei der expliziten Angabe
des Wahrscheinlichkeitsraums eigens erwähnt, sie besteht immer aus Teilmengen von
Ω: F ⊆ P(Ω).
Definition 7 (Wahrscheinlichkeitsraum). Sei Ω eine Menge, F ⊆ P(Ω) und
P : F → [0, 1] eine Funktion von F in das reelle Intervall [0, 1]. (Ω, F, P) ist ein
Wahrscheinlichkeitsraum, falls gilt:
(a) Ω ∈ F
(b) für alle A ∈ F gilt AC := Ω − A ∈ F
(c) für je abzählbar viele A1 , A2 , . . . ∈ F gilt:
[
Ai ∈ F
i≥1
(d) (Normierung) P(Ω) = 1
(e) (σ-Additivität) Für je abzählbar viele, paarweise disjunkte A1 , A2 , . . . ∈ F gilt
!
[
X
P
Ai =
P(Ai )
i≥1
i≥1
(Ω, F) ist dann ein Ereignisraum und F eine Ereignis-σ-Algebra (und hierfür sind
die Bedingungen (d) und (e) natürlich nicht erforderlich).
22
KAPITEL 1. MOTIVATION UND GRUNDLAGEN
Wir brauchen uns nicht mit allen Konsequenzen dieser Definition im einzelnen
beschäftigen. Jedoch sollte man in der Lage sein, gegebene Situationen in diese Formalisierung zu übertragen; eine solche Übertragung ist die Voraussetzung für die Anwendbarkeit stochastischer Methoden auf die Situation.
Beispiel 7. In gewissen Zusammenhängen betrachtet man das Zustandekommen eines
(natürlich-sprachlichen) Dokumentes als einen zufälligen Vorgang, d.h. als ein Geschehen, das keinen näher bekannten Gesetzmäßigkeiten unterliegt. Das ist natürlich
eine drastische Vereinfachung, da man sehr wohl eine Menge darüber weiß, nach welchen Regeln ein Text aufgebaut wird. Derartige Vereinfachungen können aber trotzdem
nützlich sein, entweder weil man an bestimmten Einzelheiten gar nicht interessiert ist,
oder weil ein vereinfachtes Modell eine schnellere oder speicherplatz-sparsamere Implementierung erlaubt.
Eine der einfachsten stochastischen Modellierungen von Dokumenten ist daher die
folgende. Sei Ω die Menge aller Wörter einer Sprache (wir unterstellen, daß diese
Menge in eindeutiger Weise darstellbar ist. Das ist zwar bereits nicht ganz akurat, da
neue Wörter gebildet, Fremdwörter und Eigennamen importiert werden können usw.,
aber diese Ungenauigkeit nehmen wir vorläufig in Kauf).
Ein direkt beobachtbares Ergebnis ist daher: “ein gewisses Wort ω ∈ Ω tritt in einem Dokument auf”. Sind alle Wörter gleich wahrscheinlich (was eine extrem schlechte Annäherung ist), so ist die Wahrscheinlichkeit für das Auftreten eines Wortes
P({ω}) = 1/|Ω|
Beachte, daß wir nicht P(ω) schreiben können, denn P ist nur definiert auf der Ereignisσ-Algebra F, die Teilmengen von Ω enthält. Wir müssen das Einzelereignis daher als
eine (ein-elementige) Teilmenge darstellen.
Wir können aber auch verallgemeinerte Ereignisse betrachten; liegt beispielsweise
eine Klassifikation der Wörter in Verben, Adjektive, Nomen usw. vor, so könnte man die
Wahrscheinlichkeit
X
P(“ein Nomen kommt vor”) = P({ω ∈ Ω : ω ist Nomen}) =
P({ω})
ω∈{ω∈Ω:ω ist Nomen}
betrachten. Die letzte Gleichung gilt nach Def. 7e und weil die Einzelereignisse
{ω}, über die hier summiert wird, natürlich paarweise disjunkt sind.
Tatsächlich können wir für jede Teilmenge von Ω auf diese Weise eine Wahrscheinlichkeit berechnen, so daß wir bedenkenlos F := P(Ω) setzen können und dann definieren: Sei A ∈ F.
X
|A|
.
P(A) :=
P({ω}) =
|Ω|
ω∈A
Damit sind alle drei Teile des Wahrscheinlichkeitsraums, Ω, F und P, definiert.
Das ist allerdings nur deswegen so leicht gefallen, weil Ω endlich ist und wir als Wahrscheinlichkeitsmaß die Gleichverteilung angenommen haben. Im allgemeinen ist die
präzise Angabe des Wahrscheinlichkeitsraumes komplizierter.
Im übrigen müssen wir noch zeigen, daß die fünf Bedingungen von Def. 7 erfüllt
sind: (a) Gilt wegen F = P(Ω). (b) gilt aus demselben Grund. (c) ebenfalls. (d) ist der
23
1.3. GRUNDBEGRIFFE UND NOTATIONEN
Fall, denn P(Ω) = |Ω|/|Ω| = 1, und für (e) seien A1 , . . . paarweise disjunkte Teilmengen von Ω, dann gilt wegen der paarweisen Disjunktheit
[ X
|Ai |
Ai =
i≥1
i≥1
woraus die geforderte Bedingung folgt.
Welches F muß man nehmen? In obigem Beispiel konnten wir F = P(Ω) wählen,
und das scheint ja auch das beste zu sein, denn dann ist man später sicher, daß man
für jedes nur denkbare Ereignis, also für jede nur denkbare Teilmenge von Ω, eine
Wahrscheinlichkeit angeben kann. Andererseits verpflichtet einen diese Definition auch
dazu, P so zu definieren, daß es tatsächlich für jede Teilmenge bestimmt ist und die
Bedingung von Def. 7 erfüllt. Ist Ω überabzählbar, so ist das i.a. nicht mehr machbar
(s. [Georgii, 2004], Satz 1.5). Vorläufig werden wir allerdings nur mit endlichen oder
höchstens abzählbaren Ergebnismengen zu tun haben, und hier muß man automatisch
F = P(Ω) wählen, falls man zumindest alle Einzelereignisse {ω} in F haben möchte
(und das will man immer). Denn sei A ⊆ Ω eine beliebige Teilmenge, dann läßt sich A
darstellen als die disjunkte Vereinigung
[
A=
{a}
a∈A
weswegen A ∈ F gelten muß, andernfalls wären die Bedingungen von Def. 7 verletzt. Da also jede beliebige Teilmenge in F liegen muß, ist F = P(Ω).
Die Frage welches P muß man nehmen ist i.a. schwieriger zu beantworten, und in
der Tat in vielfacher Hinsicht die Hauptbeschäftigung der Statistik: Wie muß man das
Wahrscheinlichkeitsmaß P definieren, damit es eine gegebene Menge von Beobachtungen möglichst gut widergibt, d.h. möglichst gut in der Lage ist, sie vorauszusagen?
Jedoch gibt es eine Reihe von Standardmodellen, die in Abschnitt 1.4 besprochen
werden.
Abschließend noch die Definition eines Begriffes, der für die Darstellung komplizierter Wahrscheinlichkeitsmaße nützlich ist, die der sog. Zähldichte.
Definition 8 (Zähldichte). Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, Ω höchstens abzählbar und
ρ : Ω → [0, 1]
eine Funktion. ρ ist eine Zähldichte (zu P), falls gilt:
ρ(ω) = P({ω}) für alle ω ∈ Ω.
Eine Zähldichte ist also gewissermaßen die Reduktion des Wahrscheinlichkeitsmaßes
auf die Einzelereignisse. Kennt man ρ und (Ω, F), so ist P eindeutig bestimmt, denn
sei A ∈ F, dann ist
X
X
P(A) =
P({ω}) =
ρ(ω)
(1.4)
ω∈A
ω∈A
24
KAPITEL 1. MOTIVATION UND GRUNDLAGEN
wegen Def. 7e.
1.4
1.4.1
Standardmodelle
Gleichverteilung
Sind alle Einzelereignisse, d.h. alle ein-elementigen Teilmengen von Ω, gleich wahrscheinlich, so spricht man von Gleichverteilung. In Bsp. 7 hatten wir die Gleichverteilung von Wörtern angenommen; jedoch ist eine solche Annahme nicht besonders
realistisch. Und in der Tat spielt die Gleichverteilung für die Computerlinguistik praktisch keine Rolle. Allerdings zum Einüben von Schreibweisen und um die einfachsten
Zusammenhänge von Ω, F und P, sowie einfache Rechnungen durchzuführen, ist sie
als Beispiel gut geeignet. Genauer definiert man:
Definition 9 (Gleichverteilung). Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, Ω
höchstens abzählbar. P ist die Gleichverteilung auf Ω, in Zeichen P = UΩ , falls
für alle A ∈ F gilt
P(A) = |A|/|Ω|
Natürlich ist ρ(ω) := 1/|Ω| die Zähldichte der Gleichverteilung.
1.4.2
Urnenmodell: Ziehen mit Zurücklegen
Ein in der Stochastik klassisches Modell für diskrete Ungleichverteilung ist die Urne,
also ein Behälter, in dem sich Objekte verschiedener Art befinden, z.B. Kugeln verschiedener Farben, aber nicht von allen Farben gleich viele.
Zunächst einmal betrachten wir einen Ereignisraum mit Ω als der Menge der Kugeln und wie immer F = P{Ω}. Zieht man einmal aus der Urne, so ist die Wahrscheinlichkeit, eine bestimmte Kugel ω zu ziehen gleich groß für alle Kugeln, es gilt
also P = UΩ .
Hat man Farben F = { f1 , . . . , fm } und von jeder Farbe
P fi seien N fi Kugeln in der
Urne, dann befinden sich darin insgesamt offenbar N = f ∈F N f Kugeln. Klar ist dann
die Wahrscheinlichkeit, eine Kugel der Farbe f zu ziehen, gleich
P({ω ∈ Ω : ω hat Farbe f }) =
Nf
n
Man interessiert sich nun für das n-malige Ziehen von je einer Kugel, und man nimmt
an, daß die gezogene Kugel sofort wieder zurückgelegt wird, bevor man die nächste
zieht (“Ziehen mit Zurücklegen”), so daß sich also an den Verhältnissen in der Urne
nichts ändert.
Um das n-malige Ziehen mit Zurücklegen zu beschreiben, benötigt man natürlich
ein neues Modell, (Ω0 , F0 , P0 ). Und zwar ist
Ω0 = Ωn , F0 = P(Ω0 )
(Dabei steht Ωn für das n-fache kartesische Produkt von Ω mit sich selbst.) Es ist also
jedes beobachtbare Ergebnis ω0 ∈ Ω0 eine Folge von n Kugeln. Wiederum ist P0 = UΩ0 ,
25
1.4. STANDARDMODELLE
denn die Wahrscheinlichkeit, eine bestimmte Folge von Kugeln zu ziehen, ist für alle
Folgen gleich. D.h.
1
P0 ({ω0 = (ω01 , . . . , ω0n )}) =
|Ω|n
Man interessiert sich nun dafür, mit welcher Wahrscheinlichkeit eine bestimmte Abfolge von Farben auftritt, z.B. ( f3 , f1 , f1 ). Betrachte hierzu Ff als die Menge der Kugeln
ω mit Farbe f ∈ F. Angenommen, (h1 , . . . , hn ) ist die Abfolge von Farben (d.h. alle
hi ∈ F). Gesucht ist also
|A|
P({ω0 = (ω01 , . . . , ω0n ) : ω0j ∈ Fh j }) =
n
|Ω|
{z
}
|
=:A
Aber wie groß ist |A|? Mit anderen Worten, wie viele Möglichkeiten gibt es, eine Folge
aus n Kugeln so zu konstruieren, daß die erste aus Fh1 ist, die zweite aus Fh2 , usw.?
Ausflug in die endliche Kombinatorik I
Derartige Fragen bewegen die Kombinatorik. Und die antwortet hier mit einer einfachen Überlegung: Angenommen, wir wollen eine Folge der Länger n wie oben beschrieben konstruieren, beginnend beim ersten Glied. Da haben wir zunächst |Fh1 | =
Nh1 viele Möglichkeiten, die erste Kugel zu wählen. Bei der zweiten Kugel gibt es Nh2
viele Möglichkeiten. Das macht insgesamt bereits Nh1 · Nh2 viele, da ich ja jede erste
mit jeder zweiten kombinieren kann. Und so “multipliziert sich” das weiter, bis man
insgesamt
n
Y
Nh1 · Nh2 · . . . · Nhn =
Nhi
i=1
Möglichkeiten erhält. Somit ist die Wahrscheinlichkeit, eine solche Farbfolge zu ziehen
Qn
Nh
P(A) = i=1 n i
|O|
Beispiel 8. Angenommen, wir haben 10 Kugeln, davon 3 grün, 2 blau und 5 gelb. Wie
wahrscheinlich ist es, beim Ziehen mit Zurücklegen die Abfolge “grün-gelb-grün” zu
erzielen?
Nach obiger Rechnung gilt:
P({ω0 ∈ Ω0 : ω01 , ω03 ∈ Fgrün , ω2 ∈ Fgelb }) =
3·5·3
= 0.045
103
also 4.5%.
Man interessiert sich nun weiterhin dafür, mit welcher Wahrscheinlichkeit eine Kugel
der Farbe f ∈ F k-mal gezogen wird, bei insgesamt n nacheinander gezogenen (und
zurückgelegten) Kugeln (für ein vorgegebenes k ≤ n). Das ist natürlich
P0 ({ω0 ∈ Ω0 : die Folge ω0 enthält genau k Kugeln der Farbe f }) =
=
|{ω0 ∈ Ω0 : die Folge ω0 enthält genau k Kugeln der Farbe f }|
|Ω|n
26
KAPITEL 1. MOTIVATION UND GRUNDLAGEN
Aber wie groß ist die Menge auf dem Zähler dieses Bruches? D.h. wie viele Möglichkeiten gibt es, eine Folge aus n Elementen so zu konstruieren, daß an k vielen Stellen
ein Element eines bestimmten Typs, also einer bestimmten Farbe, vorkommt? Hierzu
noch ein
Ausflug in die endliche Kombinatorik II
Wiederum hilft eine einfache Überlegung: Angenommen, wir haben bereits eine solche
Folge, sagen wir diejenige, die mit k Kugeln der Farbe f beginnt, und dann noch n − k
Kugeln anderer Farben hat. Wenn wir nun alle denkbaren Vertauschungen von Kugeln
vornehmen, bekommen wir nach jeder Vertauschung wieder eine andere Folge, die aber
auch wieder k Kugeln der Farbe f , und n − k Kugeln anderer Farben enthält, denn wir
haben ja nur die Reihenfolge vertauscht, nichts hinzugefügt oder entfernt. In der Tat
können wir durch bilden aller “Anagramme” der Folge alle die Varianten erzeugen, die
uns interessieren. Aber wie viele Anagramme gibt es? Stellen wir uns vor, wir hätten
alle n Kugeln der Folge auf einen Haufen geworfen. Jetzt wollen wir ein “beliebiges”
Anagramm konstruieren. Für die erste Kugel ziehen wir einmal aus dem Haufen, da
gibt es n viele Möglichkeiten. Um die zweite Kugel zu wählen, gibt es nur noch n − 1
viele, dann n − 2, usw. Wir erhalten also
n · (n − 1) · (n − 2) · . . . · 1 = n!
viele Möglichkeiten, ein Anagramm aus den n Kugeln der Folge zu bilden. Leider sind
da jetzt viele Duplikate dabei, also viele Anagramme, die gleich aussehen. Das passiert immer dann, wenn die eine Folge sich von der anderen nur dadurch unterscheidet,
daß zwei Kugeln derselben Farbe f , oder zwei Kugeln, die beide nicht die Farbe f
haben, vertauscht wurden. Nun, wie viele Möglichkeiten gibt es, Kugeln der Farbe f
miteinander zu vertauschen? Nach derselben Überlegung gibt es k! viele Möglichkeiten, denn wir haben ja insgesamt k Kugeln der Farbe f in unserer Folge. Ebenso gibt es
(n − k)! viele Möglichkeiten, Kugeln anderer Farben miteinander zu vertauschen. D.h.
wir haben letztlich
n
n!
=:
k!(n − k)!
k
viele Anagramme, ohne Duplikate, d.h. ohne daß zwei Anagramme sich nur durch
Vertauschen f -farbiger oder nicht- f -farbiger Kugeln untereinander unterscheiden.
Diese Zahl nennt man den Binomialkoeffizienten, und man sagt “n aus k” oder “k
über n”.
Zurück zur Wahrscheinlichkeitsberechnung. Wir wissen nun, wie viele Farbfolgen
es gibt, die an genau k Stellen die Farbe f haben. Jede dieser Folgen hat die gleiche
Wahrscheinlichkeit
Nf N − Nf
·
|Ω|k |Ω|n−k
nach der vorigen Überlegung. Also ist die Gesamtwahrscheinlichkeit
P0 ({ω0 ∈ Ω0 : die Folge ω0 enthält genau k Kugeln der Farbe f }) =
n Nf N − Nf
n Nf k
=
·
=
p (1 − p)n−k
k |Ω|k |Ω|n−k
k |Ω|k
mit p := N f /|Ω|n die Wahrscheinlichkeit für eine Kugel der Farbe f . Es ist nicht wichtig, sich diese Formel zu merken; aber das Prinzip, nach dem wir die “Anagramme”
1.5. FREQUENZLISTEN ALS WAHRSCHEINLICHKEITSRÄUME
27
einer Folge gebildet haben, und die Einsicht, daß es dafür n!/(k!(n − k)!) Möglichkeiten gibt, sollte man sich ein paar mal durch den Kopf gehen lassen. Siehe auch die
dazugehörige Übungsaufgabe (alle Anagramme einer Buchstabenfolge).
Ohne formale Definition noch zwei Begriffe: Das zuerst betrachtete Wahrscheinlichkeitsmaß (für eine bestimmte Farbfolge) nennt man Produktmaß, weil es ja durch
Multiplikation der farbspezifischen Wahrscheinlichkeiten entsteht. Letztere kann man
als Zähldichte auf einem Ω auffassen, das gerade die Menge der möglichen Farben ist
(für diese Sichtweise s. [Georgii, 2004], Abschnitt 2.2.1).
Das anschließend betrachtete Wahrscheinlichkeitsmaß ist die Binomialverteilung,
die in der Stochastik enorme Bedeutung hat. Summen von Werten der Binomialverteilungen
b X
n k
p (1 − p)n−k
k
k=a
die sehr umständlich auszurechnen sind (siehe Übungsaufgabe) kann man durch die
Normalverteilung annähern, worauf wir in einem späteren Kapitel nocheinmal kurz
zurückkommen werden.
1.4.3
Urnenmodell: Ziehen ohne Zurücklegen
Legt man die gezogenen Kugeln nicht mehr in die Urne zurück, so ändert sich das
Wahrscheinlichkeitsmaß nach jedem Zug. Das kann man am besten durch die sog. bedingte Wahrscheinlichkeit ausdrücken, auf die wir später sehr genau eingehen werden,
und die eine weit über die Urnenmodelle hinausgehende Bedeutung, auch für computerlinguistische Anwendungen, hat.
Für einfache Fälle kommt man allerdings mit einer “Variante” der oben dargstellten
Binomialverteilung aus, der sog. hypergeometrischen Verteilung. Das ist hier nur der
Vollständigkeit halber gesagt, für die Computerlinguistik ist es eher nebensächlich. Für
Interessierte finden sich Erklärung und Definition in [Georgii, 2004], Abschnitt 2.2.2.
1.5
Frequenzlisten als Wahrscheinlichkeitsräume
In Abschnitt 1.3.2 haben wir Frequenzlisten und ihre Erzeugung betrachtet, und wir
werden noch sehr häufig darauf zurückkommen. Inwiefern sind auch sie Wahrscheinlichkeitsmaße (auf einem geeignet definierten Wahrscheinlichkeitsraum)?
Beschränken wir uns für diese Betrachtung auf den Fall einer Unigramm-Frequenzliste,
erstellt aus einem Korpus T . Dann können wir setzen
Ω := {w : w ist Unigramm, das in T vorkommt}
d.h. als mögliche Einzelereignisse betrachten wir die einzelnen Unigramme. Da Ω endlich ist, können wir bedenkenlos F := P(Ω) setzen, damit sind die ersten drei Bedingungen aus Def. 7 erfüllt. Um nun P zu definieren, wird es das einfachste sein, die
Zähldichte P({w}) für jedes w ∈ Ω festzulegen. Schreiben wir f (w) für die Frequenz
des Unigramms w, so erscheint folgende Definition sinnvoll:
f (w)
v∈Ω f (v)
P({w}) := P
denn damit sind die beiden verbleibenden Bedingungen erfüllt:
28
KAPITEL 1. MOTIVATION UND GRUNDLAGEN
• Es ist
X
X
P({w}) =
w∈Ω
X
f (w)
1
=P
f (w) = 1.
v∈Ω f (v)
v∈Ω f (v)
P
w∈Ω
w∈Ω
wegen Distributivität.
• Und seien A1 , A2 , . . . höchstens abzählbar viele Ereignisse aus F und paarweise
disjunkt, dann gilt für das aus obiger Zähldichte definierte Wahrscheinlichkeitsmaß (siehe auch Gleichung 1.4 auf Seite 23):
!
[
X
X
Ai =
P(Ai )
P
P({w}) =
i≥1
S
w∈ i≥1 Ai
i≥1
Diese Definition des Wahrscheinlichkeitsmaßes hat aber das Problem, daß sie nur den
Wörtern, die in T vorkamen, nachträglich eine Wahrscheinlichkeit zuweist. Will man
diese geschätzte Wahrscheinlichkeit auf andere Korpora anwenden (z.B. weil man für
einen unbekannten Text T 0 schätzen will, wie spezifisch ein bestimmtes Wort w für ihn
ist, indem man die Häufigkeit von w in T 0 vergleicht mit der Wahrscheinlichkeit des
Auftretens von w0 , die aus dem ursprünglichen Korpus T vorausgesagt wurde), dann
kann man das nur für Wörter tun, die im ursprünglichen Korpus vorkamen; alle anderen
haben Wahrscheinlichkeit Null, denn wenn ein w nicht in T vorkommt, ist f (w) = 0.
Man verwendet daher oft ein korrigiertes Wahrscheinlichkeitsmaß, bei dem man
eine (mehr oder weniger subjektive) Schätzung der Zahl der zufällig nicht in T vorkommenden Wörter vornimmt und diesen Wörtern eine minimale Wahrscheinlichkeit
zuordnet. Als Inspiration für diese Maßnahme mag der Verlauf der Frequenzkurve (z.B.
Abb. 1.1, S. 12) dienen: Offenbar gibt es nur relativ wenige häufige Wörter, aber extrem viele Wörter, die nur einmal vorkommen (“Hapax legomena” 12 ). Man kann sich
also leicht überlegen, daß etwa bei einer “Verlängerung” des Korpus (z.B. in dem man
T 0 an T anhängt), v.a. Wörter hinzukommen werden, die in T gar nicht und in T 0
einmal vorkommen. Empirisch kann man abschätzen, wie viele das ungefähr sind (in
Abhängigkeit vom Größenunterschied zwischen T und T 0 ). Diese “vermutete Anzahl
unbekannter Wörter” kommt in folgender Definition als Variable K vor:
Satz 1 (Frequenzliste als Wahrscheinlichkeitsmaß). Sei T ein Textkorpus, Ω die Menge der in T vorkommenden
P Unigramme und f : Ω → N die Frequenzliste dieser Wörter
und K ∈ N. Sei N := w∈Ω f (w) Es ist mit
P({w}) :=
f (w) + K
N + K · |Ω|
(Ω, F, P) ein Wahrscheinlichkeitsraum.
Beweis. Die Bedingungen aus Def. 7 sind alle erfüllt (s. obige Rechnungen, der zusätzliche Summand K stellt kein Problem dar, wie der Leser durch Nachrechnen leicht
verifiziert).
Die annäherungsweise Berücksichtigung von unbekannten Wörtern wird auch als
Smoothing bezeichnet. Wir werden noch öfter darauf zurückkommen. Eine recht ausführliche Diskussion verschiedener Smoothing-Methoden finden sich in [Manning & Schütze, 2004]
(Abschnitt 6.2), dort allerdings bereits bezogen auf die komplizierteren n-GrammModelle; diesen Fall diskutieren wir in eine späteren Abschnitt genauer.
12 Singular
“Hapax legomenon”
29
1.6. DIE ZIPFVERTEILUNG
1.6
Die Zipfverteilung
Die charakteristische Verteilung von Wörtern einer Sprache, die wir etwa in der Frequenzliste von Abb. 1.1 (S. 12) beobachten konnten, entspricht einem Muster, das an
vielen Stellen der Natur auftritt und explizit erstmals von George Kingsley Zipf 1949
beschrieben wurde; man faßt solche Verteilungen daher unter der Bezeichnung Zipfsches Gesetz zusammen. Das Zipfsche Gesetz besagt, daß in vielen Zusammenhängen,
in denen gewisse Phänomene ungleich verteilt sind, einige wenige Ausprägungen existieren, die extrem häufig sind, aber sehr viele, die extrem selten sind. Etwa im Falle
der natürlichsprachlichen Frequenzliste haben wir ja in der Tat gesehen, daß es sehr
wenige Wörter gibt, die extrem häufig vorkommen (v.a. geschlossene Wortklassen wie
Konjunktionen, Präpositionen und Pronomen), aber eine riesige Menge von extrem
seltenen Wörtern. Ähnlich ist es beispielsweise mit Webseiten (einige wenige werden
extrem häufig besucht bzw. ein Link auf sie gesetzte, eine große Masse nur ein einziges
Mal), oder mit der Größe von Städten (wenige sind gigantisch, eine breite Masse von
ihnen extrem klein).
Formal kann man das Zipfsche Gesetz etwa so beschreiben: Sei (a1 , . . . , an ) eine
nach Häufigkeit sortierte Liste von Phänomenen (z.B. Wörtern) und f (ai ) die Häufigkeit jedes Phänomens. Dann gilt ungefähr:
f (ai ) ≈
1
ia
mit einem festen Parameter a ∈ R, der normalerweise ein bißchen größer als 1 ist.
Im Falle der natürlichen Sprache ist davon auszugehen, daß die Folge der Phänomene
unendlich ist (da es potentiell unendlich viele Wörter gibt). Für die Wahrscheinlichkeit
eines einzelnen Wortes würde man dann ansetzen:
1/ia
P({ω}) = P∞ 1
j=1 ja
(nämlich die Häufigkeit des Wortes, dividiert durch die Gesamthäufigkeit aller Wörter).
Das geht natürlich nur, falls
∞
X
1
ja
j=1
konvergiert (d.h. nicht unendlich groß wird, s. S. 17), was für a > 1 in der Tat der Fall
ist 13 .
13 Vgl.
etwa http://encyclopedia.lockergnome.com/s/b/Zipf’s_law
30
KAPITEL 1. MOTIVATION UND GRUNDLAGEN
Kapitel 2
Bedingte Wahrscheinlichkeit
2.1
Wie man die Zukunft nicht voraussagt und die Formel von Bayes
Im vorigen Kapitel (Bsp. 7 auf S. 22) haben wir das wohl einfachste denkbare stochastische Modell von Sprache betrachtet: Die Gleichverteilung der Wörter, d.h. die
Annahme, alle Wörter würde mit derselben Wahrscheinlichkeit in Dokumenten auftreten. Das ist kein sehr gutes Modell, da die von ihm vorausgesagten Dokumente ja alle
Wörter etwa gleich häufig enthalten müssten, was für authentische Dokumente aber
keineswegs gilt. Im Gegenteil, anhand der Frequenzlisten haben wir gesehen, daß eine
relativ kleine Menge von Wörtern extrem häufig vorkommt, ein mittelgroßer Anteil
einigermaßen regelmäßig, und die weitaus meisten Wörter überhaupt nur ein einziges
Mal, selbst in großen Korpora.
Ein besseres Modell schien die am Ende des letzten Kapitels vorgestellte ZipfVerteilung zu sein, wo man eine Ordnung der Wörter nach Häufigkeit annimmt und
dann die Wahrscheinlichkeit des n-häufigsten Wortes als P(wn ) ≈ 1/ns mit s = 1 + ε
angibt.
Jedoch auch dieser Verteilung gelingt es noch nicht, einer wesentlichen Eigenschaft
der natürlichen Sprache Genüge zu tun, die darin besteht, daß nicht nur das Vorkommen eines bestimmten Wortes, sondern die Reihenfolge der Wörter untereinander eine
zentrale Rolle spielt. Anders ausgedrückt, die Wahrscheinlichkeit eines Wortes w wird
stark davon abhängen, welche Wörter links und rechts von w stehen. Etwa nach einem
Artikel “der” werden im Deutschen z.B. maskuline Substantive im Singular sehr viel
wahrscheinlicher sein als etwa intransitive Verben in der zweiten Person Singular.
Wir müssen also die Wahrscheinlichkeiten für ganze Folgen von Wörtern betrachten, nicht nur von Unigrammen in Isolation. Eine Möglichkeit hierfür, aus der Reihe
der stochastischen Standardmodelle, haben wir ebenfalls im letzten Kapitel betrachtet: Die Produkt- und Binomialverteilung, die es uns erlaubt, die Wahrscheinlichkeit
für das Auftreten bestimmter Folgen zu berechnen. Allerdings waren wir dabei eben
gerade von der falschen Annahme ausgegangen, die Wahrscheinlichkeiten für gewisse Wörter (Kugeln) oder Farben (Wortarten) würde sich nach jedem Zug nicht ändern
(Ziehen mit Zurücklegen). Wir brauchen nun also einen Begriff für situationsabhängige Wahrscheinlichkeiten.
31
32
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT
Einen solchen Begriff liefert uns die Stochastik anhand folgender Überlegung. Sei
(Ω, F, P) ein Wahrscheinlichkeitsraum, A, B ∈ F Ereignisse. Angenommen, wir kennen
P(A) und P(B). Nehmen wir weiter an, wie hätten davon erfahren, daß das Ereignis
B tatsächlich eingetreten sei. Dann befinden wir uns nun in einer neuen Situation, in
der wir ein revidiertes Wahrscheinlichkeitsmaß, sagen wir PB , betrachten. Sicherlich
wollen wir festlegen
PB (B) = 1
(2.1)
denn B ist ja nun sicher. Außerdem werden wir vernünftigerweise davon ausgehen, daß
die Wahrscheinlichkeit von Ereignisses, die B implizieren, jetzt proportional größer ist
als vorher, daß also gilt
PB (A ∩ B) = c · P(A ∩ B)
(2.2)
für eine geeignete Konstante c. Aus diesen beiden Bedingungen läßt sich aber PB (A)
bereits eindeutig bestimmen, denn zunächst gilt natürlich
(2.1)
PB (A) = PB (A ∩ B) + PB (A − B) = PB (A ∩ B)
| {z }
(2.3)
=0 wegen (2.1)
Die erste Gleichung gilt nach Def. 7e, denn A ∩ B und A − B sind disjunkt. Die zweite
Gleichung gilt wegen PB (B) = 1. Da das für alle A ∈ F gilt, also auch für den Spezialfall
A := B, folgt aber
(2.1)
(2.3)
1 = PB (B) = PB (B ∩ B) = c · P(B ∩ B) = c · P(B), also c =
(2.3)
(2.2)
D.h. PB (A) = PB (A ∩ B) = cP(A ∩ B) =
P(A∩B)
P(B)
1
P(B)
für alle A ∈ F.
Wir definieren daher:
Definition 10 (Bedingte Wahrscheinlichkeit). Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, A, B ∈ F Ereignisse. Die bedingte Wahrscheinlichkeit für A unter der
Annahme B ist
P(A ∩ B)
P(A|B) :=
P(B)
Beachte, daß wir nun P(·|B) für das neue Wahrscheinlichkeitsmaß schreiben (statt
PB (·) wie in der Herleitung oben).
Beispiel 9. Einmaliges Würfeln mit einem sechseitigen, gleichmäßigen Würfel. Ω =
{1, . . . , 6}, F = P(Ω), P = UΩ . Es gilt P({1}) = 1/6, aber die Wahrscheinlichkeit für
eine 1, falls man schon weiß, daß eine ungerade Zahl gefallen ist, ist
P({1}|{1, 3, 5}) =
P({1} ∩ {1, 3, 5})
P({1})
1/6 2 1
=
=
= = .
P({1, 3, 5})
P({1, 3, 5}) 1/2 6 3
Jedoch die Wahrscheinlichkeit für eine 1, wenn man schon weiß, daß eine gerade Zahl
gefallen ist:
{1} ∩ {2, 4, 6} P(∅)
P({1}|{2, 4, 6}) =
=
= 0.
P({2, 4, 6})
1/2
2.1. WIE MAN DIE ZUKUNFT NICHT VORAUSSAGT UND DIE FORMEL VON BAYES33
Bemerkung Aussagen über die bedingte Wahrscheinlichkeit werden häufig als Aussagen über Kausalitätsbeziehungen zwischen zwei Ereignisse mißverstanden, so als
wäre P(A|B) die Wahrscheinlichkeit von A, nachdem B eingetreten ist (und womöglich
verursacht von B). Das ist aber nicht gemeint – im Gegenteil: In obigem Beispiel treten A und B ja gleichzeitig ein (es geht um einen einzigen Würfelwurf!). Was P(A|B)
ausdrückt, ist vielmehr unsere Einschätzung der Wahrscheinlichkeit dafür, daß A vorliegt, wenn wir wissen, daß B vorliegt. Man stelle sich also eine Situation vor, in der
jemand würfelt und uns nur mitteilt “es ist eine ungerade Zahl”. Dann schätzen wir die
Wahrscheinlichkeit für “1” als 1/3 ein.
In Zusammenhang mit linguistischen Modellen, insbesondere mit sog. n-GrammModellen, betrachtet man aber häufig die bedingte Wahrscheinlichkeit für das Auftreten eines Wortes w, wenn unmittelbar vorher ein anderes Wort w0 aufgetreten ist, und
schreibt dann P(w|w0 ). Hier hat man es also scheinbar mit einer bedingten Wahrscheinlichkeit von zwei Ereignissen zu tun, die gewissermaßen nacheinander eintreten. Klugerweise sollte man eine solche Situation aber besser als ein Ereignis “Wortpaar” betrachten, und w und w0 als zwei Eigenschaften desselben Ereignisses, nämlich w =“das
rechte Wort ist w” und w0 =“das linke Wort ist w0 ”.
Die Kenntnis von der bedingten Wahrscheinlichkeit P(A|B) eröffnet eine einfache
Möglichkeit zur Berechnung der Wahrscheinlichkeit für das gleichzeitige Vorliegen
beider Ereignisse, also P(A ∩ B):
P(A ∩ B) = P(A|B) · P(B)
Das folgt unmittelbar aus Def. 10.
Definition 11 (Unabhängigkeit). Sei (Ω, F, P) ein Wahrscheinlichkeitsraum,
A, B ∈ F. A und B heißen unabhängig, falls gilt:
P(A|B) = P(A)
Die Unabhängigkeit von zwei Ereignissen drückt also aus, daß unsere Einschätzung der Wahrscheinlichkeit für das Vorliegen von A nicht von unserem eventuellen
Wissen über das Vorliegen von B beeinflußt wird. Ist man sich der Unabhängigkeit
zweier Ereignisse sicher, so ist mit Hilfe obiger Formel P(A ∩ B) besonders einfach zu
berechnen:
Satz 2. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, A, B ∈ F. A und B sind unabhängig,
genau dann wenn
P(A ∩ B) = P(A) · P(B)
Beweis. Sind A und B unabhängig, so gilt offenbar
P(A ∩ B) = P(A|B) · P(B) = P(A)P(B).
Falls umgekehrt P(A ∩ B) = P(A)P(B), so folgt:
P(A|B) =
P(A ∩ B) P(A)P(B)
=
= P(A).
P(B)
P(B)
34
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT
Eine sehr nützliche Formel, die sich auch in vielen computerlinguistischen Anwendungen großer Beliebtheit erfreut, ist die Formel von Bayes. Sie stellt eine einfache
Umformung der oben bewiesenen Gleichungen dar und erlaubt es uns, P(B|A) aus
P(A|B) abzuleiten:
Satz 3 (Formel von Bayes). Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und A, B ∈ F.
Es gilt
P(A|B) · P(B)
P(B|A) =
P(A)
Beweis.
P(B|A) =
P(B ∩ A) P(A ∩ B) P(A|B)P(B)
=
=
P(A)
P(A)
P(A)
Unter der falschen Annahme, die bedingte Wahrscheinlichkeit mache irgendwelche Aussagen über kausale Zusammenhänge, wurde die Bayes-Formel früher als eine Möglichkeit zur Vorhersage der Zukunft mißinterpretiert, bzw. als eine Methode
zur Vorhersage der Ursache aus der Wirkung, da sie ja die Rollen von A und B vertauscht. Wie schon oben ausgeführt, stelle die bedingte Wahrscheinlichkeit aber nur
eine Methode dar, unser partielles Wissen über eine Situation auszunutzen, um zu einer
adäquateren Einschätzung der Wahrscheinlichkeiten zu gelangen. Weder die bedingte
Wahrscheinlichkeit noch die Bayes-Formel erlauben daher irgendwelche Schlußfolgerungen auf Ursache-Wirkungs-Beziehungen.
Ein bekanntes Beispiel für die Anwendung der Bayes-Formel in der Computerlinguistik ist die thematische Klassifikation von Dokumenten mit der sog. Naive-BayesMethode:
Beispiel 10 (Qualität von Diagnoseverfahren). Typische Anwendungen der Bayes-Formel
ist Tests auf bestimmte Krankheiten, wie sie in der Medizin verwendet werden. Diagnoseverfahren sind nie 100%ig sicher, so daß Studien zur Bestimmung ihrer Qualität /
Verläßlichkeit durchgeführt werden. Es stehen nach einer entsprechenden Studie normalerweise drei Größen zur Verfügung:
P(T + |K) = Anteil der Testpositiven an den tatsächlich Erkrankten
P(T + |G) = Anteil der Testpositiven an den Gesunden
P(K) = Anteil der Kranken an der Bevölkerung (geschätzt)
Wird der Test nun eingesetzt, möchte man wissen, wie verläßlich seine Voraussagen
sind. Man möchte wissen, mit welcher Wahrscheinlichkeit ein Testpositiver tatsächlich
krank ist (P(K|T + ), und mit welcher Wahrscheinlichkeit ein Testnegativer tatsächlich
gesund ist (P(G|(T + )C )). Wir betrachten nur die erste Größe:
P(K|T + ) =
P(K ∩ T + )
P(T + )
ist praktisch nicht berechenbar, da man wissen müßte, wie viele Menschen sowohl
krank als auch testpositiv sind (gemessen an der Gesamtbevölkerung), und wie viele
einfach testpositiv sind (wiederum gemessen an der Gesamtbevölkerung).
2.1. WIE MAN DIE ZUKUNFT NICHT VORAUSSAGT UND DIE FORMEL VON BAYES35
Die Bayes-Formel erlaubt es, die gesuchte Wahrscheinlichkeit aus den vorhandenen Größen abzuleiten:
P(K|T + ) =
P(T + |K)P(K)
P(T + |K)P(K)
=
=
+
+
P(T )
P(T |G)P(G) + P(T + |K)P(K)
P(T + |K)P(K)
=
+
P(T |G)(1 − P(K)) + P(T + |K)P(K)
Beispiel 11 (Naive-Bayes-Klassifikation). Gegeben sei ein Korpus aus einer Menge
kleiner Nachrichtentexte, jeder assoziiert mit einer Kategorie, wie “Politik”, “Finanzen”, “Sport” usw. Das Korpus hat also die Struktur
K = {(Ti , ci ) : 1 ≤ i ≤ N, ci ∈ C, Ti ein Text}
wobei C = {politik, finanzen, sport, . . .} die Menge der Kategorien ist. Die einzelnen
Texte Ti seien getaggt, d.h. bei jedem Wort w ist die Wortart WA(w) angegeben (z.B.
“Nomen”, “Adjektiv”, usw.)
Ein Programm soll nun aus dem Korpus möglichst viel lernen, um neue Texte automatisch zu klassifizieren. Definiere hierzu Nom(T ) := die Menge der Nomen eines
Textes T . Wir wollen als Indikatoren für die Textkategorie nur Nomen betrachten, weil
sie vermutlich am meisten zum Inhalt beitragen. Es ist klar, daß sich das System noch
wesentlich verbessern läßt, wenn die Auswahl der als Indikatoren verwendeten Wörter
in linguistisch adäquaterer Weise geschieht.
Sei T 0 ein neuer (unklassifizierter) getaggter Text. Dann soll die wahrscheinlichste
Kategorie cmax wie folgt berechnet werden:
cmax := arg max P(c|Nom(T 0 ))
c∈C
D.h. es soll diejenige Kategorie gewählt werden, deren Wahrscheinlichkeit, gegeben
die Menge der Nomen aus Text T 0 , am größten ist.
Wir könnten versuchen, das direkt zu berechnen:
P(c|Nom(T 0 )) =
P(c, Nom(T 0 )) P({(Ti , ci ) ∈ K|ci = c, Nom(Ti ) = Nom(T 0 )}
=
P(Nom(T 0 ))
P(Nom(T 0 ))
aber das wäre eine nicht sehr verläßliche Größe, da sich nur auf die (sehr kleine)
Menge von Texten aus dem Trainingskorpus verläßt, die sowohl die gesuchten Nomen
enthalten als auch zur fraglichen Kategorie gehören. Ähnlich wie in Bsp. 10 ist es
günstiger, mit der Bayes-Formel zu arbeiten,
cmax = arg max
c∈C
P(Nom(T 0 )|c)P(c)
P(Nom(T 0 ))
und dann anzunehmen, daß
P(Nom(T 0 )|c) =
Y
w∈Nom(T 0 )
P(w|c)
36
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT
d.h. wir betrachten die einzelnen Nomen als unabhängig (wegen dieser Annahme heißt
die Methode naiv). Daraus folgt dann:
Y
P(Nom(T 0 )|c) =
w∈Nom(T 0 )
|{(Ti , ci ) ∈ K : w ∈ Ti , ci = c}|
|{(Ti , ci ) ∈ K : ci = c}|
Wir nehmen ferner an, alle Kategorien seien gleich wahrscheinlich: P(c) = 1/|C|.
cmax = arg max
c∈C
1
|C|
Y
w∈Nom(T 0 )
|{(Ti , ci ) ∈ K : w ∈ Ti , ci = c}|
|{(Ti , ci ) ∈ K : ci = c}|
Der Naive-Bayes-Classifier ist dann derjenige Algorithmus, der für den gegebenen Text T 0 die Kategorie cmax als Klassifikationsergebnis zurückgibt. Es sind natürlich zahlreiche Varianten denkbar, bei denen z.B. mehrere Kategorien pro Text zulässig sind. Ferner ist das Naive-Bayes-Verfahren als ein genereller Ansatz zu verstehen,
der nicht nur für das Zuordnen thematischer Kategorien geeignet ist. Etwa auch für
Wortbedeutungs-Disambiguierung und andere Arten von Klassifikation wurde er bereits verwendet (vgl. [Manning & Schütze, 2004], Kap. 7.2).
2.2
Situationsabhängige Wahrscheinlichkeiten: Mehrstufige Modelle
Wir wollen jetzt die Konstruktion eines natürlichsprachlichen Satzes als ein mehrstufiges Zufallsexperiment auffassen, d.h. als ein Experiment, das aus mehreren Schritten
besteht, wobei nach jedem Schritt das geltende Wahrscheinlichkeitsmaß, d.h. die Wahrscheinlichkeit für das Auftreten gewisser Wörter, angepaßt wird, je nach den bisher
aufgetretenen Wörtern.
Solche Modelle heißen in der Stochastik mehrstufig. Abb. 2.1 zeigt ein Beispiel für
ein mehrstufiges Modell, das die Wahrscheinlichkeiten für das Auftreten von bestimmten Wortarten bei der Generierung von Sätzen wiedergibt. Es ist baumförmig, und die
Wurzel stellt die Wahrscheinlichkeitsverteilung P1 für das erste Wort im Satz dar. Die
zweite Ebene besteht aus fünf verschiedenen Wahrscheinlichkeitsmaßen, von denen
eines ausgewählt wird, sobald die Wortart des ersten Wortes bekannt ist; in Frage kommen P2|det , P2|verb , P2|pron , P2|copula , P2|other . Allgemein wird, falls w die Wortart ist, die
auf der ersten Stufe aufgetreten ist, auf der zweiten Stufe P2|w gewählt. Sind entsprechend w1 , w2 die auf der ersten und zweiten Stufe tatsächlich aufgetretenen Wortarten,
so gilt für das dritte Wort P3|w1,w2 usw. Es ist klar, daß die Wahrscheinlichkeitsmaße auf
höheren Stufen zu verstehen sind als die bedingte Wahrscheinlichkeit für das Auftreten
gewisser Wortarten, unter der Annahme, gewisse Wortarten im linken Kontext seien
sicher.
Formal können wir ein mehrstufiges Modell wie folgt definieren.
Definition 12 (Mehrstufiges Modell). Seien Ω1 , . . . , Ωn Mengen. Es sei eine
Zähldichte ρ1 : Ω1 → [0, 1] und für alle 1 < i ≤ n und alle
(ω1 , . . . , ωi−1 ) ∈ Ω1 × . . . × Ωi−1
2.3. AUTOMATISIERTES GEFASEL: N-GRAMM-MODELLE
37
P3,det,nom
0.8
P2,det
0.2
P 3,det,other
0.4
0.4
Pverb,det
P
2,verb
0.4
P
0.1
0.2
P
1
0.2
P2,pron
verb,pron
Pverb,nom
0.2
P
2,copula
0.1
P
2,other
Abbildung 2.1: Baumdiagramm eines mehrstufigen Modells für Wortartenwahrscheinlichkeit.
Zähldichten
ρi|ω1 ,...,ωi−1 : Ωi → [0, 1]
gegeben. Dann heißt (Ω, F, P) mit Ω := Ω1 × . . . × Ωn , F = P(Ω) und P das durch
die Zähldichte
ρ(ω1 , . . . , ωn ) := ρ1 (ω1 ) · ρ2|ω1 (ω2 ) · . . . · ρn|ω1 ,...,ωn−1 (ωn )
eindeutig bestimmte Wahrscheinlichkeitsmaß ein n-stufiges Modell.
Bemerkung Es ist auch möglich, unendlich-stufige Modelle zu konstruieren. Vgl.
[Georgii, 2004], Satz 3.12 (S. 60).
2.3
Automatisiertes Gefasel: n-Gramm-Modelle
Wir wollen ein mehrstufiges Modell wie eben beschrieben anwenden, um die Wahrscheinlichkeit für das Auftreten bestimmter Wörter, gegeben ihren linken Kontext,
vorauszusagen. Wir nehmen an, wir hätten alle n-Gramme aus einem Text T extrahiert und gezählt (nenne diese Menge M). Dann können wir die Wahrscheinlichkeit
eines n-Gramms (t1 , . . . ,tn ) bestimmen als
P(t1 , . . . ,tn ) =
f (t1 , . . . ,tn )
N
wobei f (t1 , . . . ,tn ) für die Häufigkeit des betreffenden n-Gramms steht und N die Ge-
38
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT
samtzahl aller extrahierten n-Gramme ist:
N :=
X
f (g)
g∈M
Dies ist nun keineswegs die einzige Möglichkeit, die Wahrscheinlichkeit zu schätzen.
Sie ist sogar relativ inadäquat, weil sie n-Grammen, die in T nicht vorkommen, die
Wahrscheinlichkeit 0 zuweist. Ähnlich wie in Abschnitt 1.5 können wir durch Smoothing das Wahrscheinlichkeitsmaß auf das Auftreten ungesehener n-Gramme vorbereiten:
f (t1 , . . . ,tn ) + 1
P(t1 , . . . ,tn ) =
N + |V |n
wobei V für das Vokabular, also die Menge der im Lexikon vorkommenden Wörter
steht. Die Formel geht also davon aus, daß ungesehene n-Gramme nur ungesehene
Kombinationen von bekannten Wörtern sind – völlig unbekannte Wörter werden in
diesem Modell nicht berücksichtigt. Der Leser rechnet leicht nach, daß dies ein gültiges Wahrscheinlichkeitsmaß mit Ω = V n , die Menge alle denkbaren n-Gramme, ist.
Ein n-Gramm-Modell besteht nun darin, auch Wahrscheinlichkeiten für kürzere
n0 -Gramme (n0 < n) zu berechnen und aus n − 1 gegebenen Wörtern das n-te vorauszusagen:
P(w1 , . . . , wn−1 , wn )
P(wn |w1 , . . . , wn−1 ) =
P(w1 , . . . , wn−1 )
Das entspricht gerade einem n-stufigen Modell.
Beispiel 12 (Worterkennung fürs Handy). (noch nicht vollständig.)
2.4
Zufallsvariablen und Projektionen
Häufig sind die Ereignisse, deren Wahrscheinlichkeit man bestimmen möchte, nur
durch gewisse wenige Eigenschaften gekennzeichnet, d.h. sehr allgemeine Ereignisse.
Z.B. in Abschnitt 1.4.2 haben wir beim n-maligen Ziehen aus der Urne nur Ereignisse
von der Art “es wird k-mal eine rote Kugel gezogen” betrachtet, d.h. ein Ereignis, das
aus allen Elementen aus Ω zusammengesetzt ist, die k-mal eine rote Kugel enthalten,
egal an welcher Position der Ziehung.
Ein solches Vorgehen nennt man auch Übergang zu einer geringeren Beobachtungstiefe, denn obwohl der Ergebnisraum Ω die genaue Unterscheidung der Reihenfolge bei der Ziehung ermöglichen würde, betrachtet man nur verallgemeinerte Ereignisse, bei denen die Reihenfolge keine Rolle mehr spielt. Man kann das darstellen als
eine Funktion
X : Ω → Ω0
die die Elemente von Ω abbildet auf “etwas allgemeinere” Elemente in einem neuen
Ergebnisraum Ω0 := N. Die Funktion X bildet nun jede konkrete Ziehung auf die Zahl
der in ihr enthaltenen rote Kugeln ab, d.h. i.a. werden natürlich viele verschiedene
Elemente aus Ω auf dieselbe Zahl in Ω0 abgebildet werden (X ist also nicht injektiv).
Darin drückt sich die Verringerung der Beobachtungstiefe aus.
2.4. ZUFALLSVARIABLEN UND PROJEKTIONEN
39
Eine solche Abbildung nennt man Zufallsvariable; sie kann verwendet werden, um
gewisse Ereignisse knapp und präzise zu beschreiben: Etwa das Ereignis “viermal rot”
wird beschrieben als
X −1 {4} := {ω ∈ Ω : X(ω) = 4}
Hierbei steht X −1 A für “das Urbild der Menge A unter X”, falls A ⊆ Ω0 eine Teilmenge
von Ω0 , d.h. die Menge der Elemente aus Ω, die von X auf eines der Elemente von A
abgebildet werden.
Die Wahrscheinlichkeit von “viermal rot” ist dann
P(X = 4) := P(X −1 {4}) = P{ω ∈ Ω : X(ω) = 4}
Formal kann man die Verringerung der Beobachtungstiefe also als den Übergang von
(Ω, F, P) zu einem neuen Wahrscheinlichkeitsraum (Ω0 , F0 , P0 ) ansehen, der durch eine Abbildung X : Ω → Ω0 definiert wird. Wahrscheinlichkeiten in dem neuen Raum
können dann gesehen werden als “die Wahrscheinlichkeit, daß eine Variable X gewisse
Werte annimmt” und sind formal die Wahrscheinlichkeiten der Urbilder nach dem ursprünglichen Wahrscheinlichkeitsmaß P. Es ist klar, daß die Zufallsvariable nur gültig
ist, falls die Urbilder von Ereignissen in F0 immer Elemente von F sind (sonst kann
man ihre Wahrscheinlichkeit ja nicht mit Hilfe von P bestimmen). Das ist aber in unseren Beispielen immer der Fall, da wir ja stets abzählbare Ω, also F = P(Ω) haben, also
alle Teilmengen (also auch alle denkbaren Urbilder unter X) mit P messen können.
Definition 13 (Zufallsvariable). Seien (Ω, F, P) ein Wahrscheinlichkeitsraum
und (Ω0 , F0 ) ein Ereignisraum (d.h. er erfülle die Axiome 7a-c). Sei X : Ω → Ω0
eine Abbildung mit
X −1 A ∈ F für alle A ∈ F0
Dann heißt X Zufallsvariable und definiert (offensichtlich) ein Wahrscheinlichkeitsmaß P0 auf (Ω0 , F0 ) durch
P0 (A) := PX (A) := P(X −1 A)
PX heißt Verteilung der Zufallsvariable.
Beispiel 13 (Projektionen). Ist Ω = Ω1 × . . . × Ωn ein kartesisches Produkt (sind also
die direkt beobachtbaren Ergebnisse n-Tupel), so interessiert man sich manchmal nur
für die Wahrscheinlicheiten für Werte an einer bestimmten Position. Z.B. möchte man
wissen, wie wahrscheinlich es ist, daß das dritte Wort im Satz ein Nomen ist: Dann wäre
etwa W die Menge der Wortarten und Ω := W n das n-fache kartesische Produkt von
W mit sich selbst (wir betrachten also der Einfachheit halber nur Sätze der maximalen
Länge n). Dann ist die gesuchte Wahrscheinlichkeit zu notieren als
P(X3 = nomen)
wobei wir
X3 : Ω → W , X3 (ω1 , . . . , ωn ) := ω3
40
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT
definieren. Ein solches X3 heißt Projektion auf die dritte Komponente und ist eine Zufallsvariable. Es ist natürlich
PX3 (nomen) = P(X3 = nomen) = P({ω = (ω1 , . . . , ωn ) : ω3 = nomen})
Allgemeiner definiert man:
Definition 14 (Projektion). Sei Ω = Ω1 × . . . × Ωn . Dann ist für 1 ≤ i ≤ n
Xi : Ω → Ωi mit Xi (ω1 , . . . , ωn ) := ωi
die i-te Projektion auf Ω.
Beispiel 14. In Abschnitt 2.3 haben wir bereits Projektionen als Zufallsvariablen benutzt, ohne eigens darauf hinzuweisen: Z.B. die Wahrscheinlichkeit für das Auftreten
eines bestimmten Wortes wn an der n-ten Stelle im Satz, gegeben die Tatsache, das
an den n − 1 Stellen zuvor die Wörter w1 , . . . , wn−1 aufgetreten sind, haben wir etwas ungenau als P(wn |w1 , . . . , wn−1 ) bezeichnet. Streng genommen müsste man aber
schreiben
\
P(Xn = wn |X1 = w1 , . . . , Xn−1 = xn−1 ) = P(Xn−1 {wn } |
Xi−1 {wi })
1≤i≤n−1
In den folgenden Abschnitten werden wir diese Schreibweise verwenden und mit Xi
auch stets die Projektion auf die i-te Komponente bezeichnen.
2.5
Hidden-Markov-Modelle und POS-Tagging
Ein Spezialfall eines mehrstufigen Modells liegt vor, wenn die Wahrscheinlichkeit für
ein gewisses Ereignis auf der n-ten Stufe nur von dem Ereignis abhängt, das auf der
(n − 1)-ten Stufe aufgetreten ist, nicht von früheren, und auch nicht davon, wie viele
Ereignisse vorausgegangen sind. Diese Eigenschaft eines mehrstufigen Modells nennt
man Markov-Eigenschaft.
Q
Definition 15 (Markov-Eigenschaft). Sei M = ( i≥1 Ωi , F, P) ein mehrstufiges
Modell. M hat die Markov-Eigenschaft, falls gilt
P(Xn = ωn |X1 = ω1 , . . . , Xn−1 = ωn−1 ) = P(Xn = ωn |Xn−1 = ωn−1 ) =
= P(Xn = ωn |Xn−1 = ωn−1 ) = P(X2 = ωn |X1 = ωn−1 )
für alle n und alle (ω1 , . . . , ωn ) ∈ Ω.
41
2.5. HIDDEN-MARKOV-MODELLE UND POS-TAGGING
1
-2
0.5
1
-1
0.5
0.5
0
0.5
0.5
1
0.5
2
Abbildung 2.2: Übergangsgraph für das Münzwurfspiel.
Beispiel 15 (Münzwurfspiel). (Nach [Georgii, 2004], Bsp. 6.6, S. 148.) Den Verlauf
vieler Glücksspiele kann man als Kette von Ereignissen sehen, wobei häufig gilt, daß
die Wahrscheinlichkeitsverteilung des jeweils nächsten Ereignisses nur vom aktuellen
Zustand des Spiels, nicht vom gesamten bisherigen Verlauf, abhängt; und das ist gerade oben erwähnte Markov-Eigenschaft. Ein einfaches solches Spiel ist etwa: Seien
zwei Spieler beteiligt, die jeweils einen gewissen Betrag a bzw. b Euro besitzen. In jeder Runde wird eine faire Münze geworfen, und je nach Ergebnis zahlt einer an den
anderen 1 Euro. Das Spiel ist beendet, wenn einer der Spieler kein Geld mehr besitzt.
Wir nehmen an, beide Spieler starten mit 2 Euro und betrachten die Menge der
möglichen Spielverläufe
Ω = {((a1 , b1 ), (a2 , b2 ), . . .) : a1 , . . . , b1 , . . . ∈ {0, 1, 2}}
(Diese Menge enthält streng genommen auch einige unmögliche Spielverläufe, z.B. den
plötzlichen Sprung des Kapitals eines Spielers von 0 auf 2, oder den gleichzeitigen Ruin
von beiden Spielern. Das ist kein Problem, solange das zu definierende Wahrscheinlichkeitsmaß solchen Verläufen die Wahrscheinlichkeit 0 zuordnet.) Wir projizieren den
aktuellen Zustand auf den Gewinn von Spieler 1 in der i-ten Runde:
Xi : Ω → {−2, −1, 0, 1, 2}, ((a1 , b1 ), (a2 , b2 ), . . .) 7→ ai − 2
Dann stellt Abb. 2.2 den sog. Übergangsgraphen für die Zufallsvariable X1 dar. Die
Knoten stellen ihre möglichen Werte dar, die Zahlen an den Übergängen repräsentieren
Wahrscheinlichkeiten. Bezeichnet man als M(x1 , x10 ) die Wahrscheinlichkeit, daß sich in
irgendeiner Runde der Gewinn von Spieler 1 von x zu y verändert, so gilt offenbar:


0.5 falls − 1 ≤ x ≤ 1, |x − y| = 1
P(Xi+1 = y|Xi = x) = M(x, y) = 1
falls x = 2 = y


0
sonst
D.h. die Wahrscheinlichkeit für einen gewissen Wert von Xi+1 in der nächsten Runde
hängt nur vom aktuellen Wert Xi ab (denn es kann nur 1 mehr oder 1 weniger sein
als der aktuelle Wert, oder gleich viel, wenn das Spiel bereits beendet ist), nicht von
früheren Werten.
Über Zufallsvorgänge mit Markov-Eigenschaft sagt man auch, sie haben “kein Gedächtnis”, eben weil die länger zurückliegenden Ereignisse keine Relevanz für die aktuelle Wahrscheinlichkeitsverteilung haben. Typisch ist, daß man den Übergang von
einem Ereignis zum nächsten in Form einer Matrix aufschreiben kann (in Bsp. 15 war
42
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT
M(x, y) diese Matrix); und dies macht man auch zum definierenden Kriterium für die
sog. Markov-Ketten:
Definition 16 (Markov-Kette). Eine Folge von Zufallsvariablen X0 ,X1 , . . . auf
einem Wahrscheinlichkeitsraum Ω, F, P mit Werten in einer Menge Q ist eine
Markov-Kette mit Zustandsraum Q und Übergangsmatrix M, falls für alle n ≥ 0
und alle x0 , . . . , xn+1 ∈ Q gilt:
P(Xn+1 = xn+1 |X0 = x0 , . . . , Xn = xn ) = M(xn , xn+1 ),
sofern P(X0 = x0 , . . . , Xn = xn ) > 0. Die Verteilung α = PX0 heißt die Startverteilung der Markov-Kette.
In der Computerlinguistik sind reine Markov-Ketten nicht sehr weit verbreitet,
wohl aber ihre Erweiterung zu den sog. Hidden-Markov-Modellen. Solche Modelle repräsentieren Maschinen, die sich (genau wie Markov-Ketten) zu jedem Zeitpunkt
in einem gewissen Zustand xi befinden, und regelmäßig in einen neuen Zustand xi+1
übergehen, der anhand einer Wahrscheinlichkeitsverteilung ausgewählt wird, die nur
vom aktuellen Zustand abhängt. Zusätzlich aber erzeugen sie in jedem Zustand einen
Output oi , der seinerseits aus einer Menge Σ von Outputsymbolen anhand einer für xi
spezifischen Verteilung POi gewählt wird.
Das am meisten verbreitete Beispiel dafür ist das statistische Part-Of-Speech-Tagging,
also die Zuordnung von Wortarten (Nomen, Verb, Adjektiv usw.) zu den Wörtern eines Satzes. Man stellt sich hierbei vor, Sätze würden von einer Zufallsmaschine erzeugt, die zwischen Zuständen q ∈ Q hin- und herpendelt, die jeweils für eine gewisse
Wortart spezifisch sind. Sie ist also manchmal im “Nomen-Zustand”, dann wieder im
“Adjektiv-Zustand”, dann im “Determiner-Zustand” usw. Beim Wechsel von einem
Zustand in den nächsten wird jeweils ein Wort produziert, dessen Wortart von dem Zustand abhängt, den die Maschine gerade verläßt. Abb. 2.3 illustriert diese Idee.
Folgende Wahrscheinlichkeitsverteilungen spielen in dem Modell eine Rolle:
• Die Wahrscheinlichkeit, in Zustand qi zu starten (für alle Zustände qi ∈ Q1 );
• Die Wahrscheinlichkeit, von Zustand qi in Zustand q j zu wechseln (paarweise
für alle (qi , q j ) ∈ Q × Q);
• Die Wahrscheinlichkeit, beim Wechsel von qi nach q j den Output σ zu erzeugen
(für alle (qi , q j , σ) ∈ Q × Q × Σ).
Ähnlich wie in mehrstufigen Modellen nehmen wir daher an:
• Eine Zähldichte Π : Q → [0, 1], die für jeden Zustand angibt, mit welcher Wahrscheinlichkeit er Startzustand ist;
• Für jeden Zustand qi ∈ Q eine Zähldichte Mi : Q → [0, 1], die die Übergangwahrscheinlichkeiten zu anderen Zuständen wiedergibt;
1 Wir
stellen uns Q als Menge von nummerierten Zuständen Q = {q1 , q2 , . . . , qn } vor.
43
2.5. HIDDEN-MARKOV-MODELLE UND POS-TAGGING
det
0.02
det
0.4 0.05
0.15
0.35
nom
0.15
0.1
0.15
0.3
0.03
nom
0.4
0.1
part
0.1
0.2
0.4 0.1
0.3
0.2 0.15
verb
0.05
adj
0.4
0.3
0.1
verb
0.2
0.3
...
Output
der
die
das
...
haus
fenster
blume
...
starten
laufen
blühen
...
0.3
0.4
0.3
Start
0.4
0.0023
0.0021
0.0072
0.3
0.0034
0.0092
0.0012
...
0.1
...
Abbildung 2.3: Übergangsgraph (links) und Output- und Start-Wahrscheinlichkeiten
(rechts) für einen Hidden-Markov-POS-Tagger.
• Für jeden Übergang (qi , q j ) ∈ Q × Q eine Zähldichte Ni j : Σ → [0, 1], die die
Output-Wahrscheinlichkeiten für alle Symbole (also in unserem Fall für alle
Wörter) repräsentiert.
Diese Zähldichten geben wir in Form von Tabellen und Listen an, also mathematisch
ausgedrückt in Form von Matrizen und Vektoren. Damit gelangen wir zu folgender
Definition.
Definition 17 (Hidden-Markov-Modell). Seien Q, Σ endliche Mengen, M =
(mi j )i, j∈Q eine Matrix mit Einträgen mi j ∈ [0, 1], Π = (πi )i∈Q ein Vektor mit Einträgen πi ∈ [0, 1] und N = (ni jk )i, j∈Q,k∈Σ mit ni jk ∈ [0, 1]. Sei X0 , X1 , . . . eine Folge
(q)
(σ)
von Zufallsvariablen mit Werten in Ω := Q × Σ, und Xi und Xi jeweils die
Projektionen auf die q- bzw. σ-Komponente. Ein Modell (Ω|N| , P(Ω|N| ), P) ist ein
Hidden-Markov-Modell mit Übergangsmatrix M, Output-Wahrscheinlichkeiten N
und Startwahrscheinlichkeiten Π, falls
π : Q → [0, 1], q 7→ πq
und mi : Q → [0, 1], q 7→ miq für alle i ∈ Q
und ni j : Σ → [0, 1], (q, q0 ) 7→ mqq0 σ für alle i, j ∈ Q
Zähldichten sind, und gilt:
(q)
(1) P(X1 = q) = πq für alle q ∈ Q;
(2) für alle q(1) , q(2) , . . . , q(i+1) ∈ Q und alle i ∈ N:
(q)
(q)
(q)
(q)
(q)
(q)
(q)
P(Xi+1 = q(i+1) |X1 = q(1) , X2 = q(i) , . . .) = P(Xi+1 = q(i+1) |Xi
= q(i) )
= P(X2 = q(i+1) |X1 = q(i) ) = mq(i+1) ,q(i)
44
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT
(3) Für alle (q(1) , σ(1) ), . . . , (q(i+1) , σ(i+1) ) ∈ Ω|N|
(σ)
q
P(Xi+1 = σ(i+1) |X1 = (q(1) , σ(1) ), . . . , Xi = (q(i) , σ(i) ), Xi+1 = q(i+1) ) =
(σ)
(q)
= P(Xi+1 = σ(i+1) |Xi
(σ)
= P(X2
q
= q(i) , Xi+1 = q(i+1) ) =
(q)
(q)
= σ(i+1) |X1 = q(i) , X2 = q(i+1) )) =
= nq(i) ,q(i+1) ,σ(i+1)
Das gesamte Modell bezeichnen wir dann mit (Ω, M, N, Π).
Zum leichteren Verständnis ist es aber sicherlich sinnvoller, sich an Abb. 2.3 zu
orientieren und sich klar zu machen, daß es neben der Zustandsmenge Q und dem
Output-Alphabet Σ eben einfach die drei Tabellen M, N und Π sind, die das Verhalten
des HMM bestimmen.
Bemerkung Das Hidden-Markov-Modell kann auch als probabilistischer Finite-StateAutomat gesehen werden, also als ein Gebilde aus Zuständen und (mit gewissen Wahrscheinlichkeiten versehenen) Übergängen und Output gibt.
Es sind drei Problemstellungen, die uns nun natürlicherweise interessieren müssen:
(a) Sei σ(1) , . . . , σ(n) eine Folge von Output-Symbolen. Mit welcher Wahrscheinlichkeit bringt das Modell gerade diese Sequenz hervor?
(b) Sei σ(1) , . . . , σ(n) eine Folge von Output-Symbolen. Welche Sequenz von Zuständen q1 , . . . , 1n wurde höchstwahrscheinlich durchlaufen, als dieser Output erzeugt wurde?
(c) Sei σ(1) , . . . , σ(n) eine Folge von Output-Symbolen. Welche Wahrscheinlichkeiten müssen in die Tabellen M, N und Π eingetragen werden, damit ein Modell
entsteht, das gerade diesen Output wahrscheinlich macht?
Um die Relevanz dieser Fragen zu verstehen, betrachten wir nocheinmal das Beispiel des POS-Taggers. Dort entsprechen den Zuständen ja die Wortarten, und dem
Output die Wörter. Frage (a) bedeutet also: “Wie wahrscheinlich ist eine gewisse Folge
von Wörtern”; das ist die natürliche Fortsetzung der Sprach-Simulationsmodelle aus
den bisherigen Abschnitten der Vorlesung. Wir erreichen hiermit ein Modell, das nicht
nur Einzelwort-Wahrscheinlichkeiten, sondern auch den linken Kontext (aber nur ein
Wort) und die Wortart berücksichtigt.
Frage (b) bedeutet: “Welche Wortarten haben die Wörter eines gegebenen Satzes”,
denn die Sequenz der Zustände, die bei der Erzeugung eines Satzes wahrscheinlich
durchlaufen wurde, ist ja gerade die Folge der Wortarten für diesen Satz.
Frage (c) läuft auf die Definition des Modells hinaus, also auf die Frage, wie man
seine (sehr zahlreichen) Parameter bestimmen kann. Die Antwort auf diese Frage wird
eine Trainingsprozedur für HMMs sein, die wir aber ersts im nächsten Kapitel betrachten werden.
Vorerst wenden wir uns nur den Fragen (a) und (b) zu.
2.5. HIDDEN-MARKOV-MODELLE UND POS-TAGGING
45
Die Wahrscheinlichkeit einer bestimmten Output-Sequenz
Sei s := (σ(1) , . . . , σ(n) ∈ Σn ) eine Output-Sequenz, hervorgebracht von einem HMM
M := (Ω, M, N, Π), und X1 , . . . , Xn Projektionen wie in Def. 17. Zu berechnen ist
(σ)
P(s) := P(X1
(σ)
= σ(1) , . . . , Xn
= σ(n) )
Da die Output-Sequenz u.U. von jeder Folge von Zuständen erzeugt worden sein
kann, und die Wahrscheinlichkeiten dieser Sequenzen alle voneinander unabhängig
sind, können wir das so berechnen:
P(s) =
X
(q(1) ,...,q(n+1) )∈Qn+1
π(q1 )
n
Y
m(q(t) , q(t+1) )n(q(t) , q(t+1) , σ(t) )
t=2
Jeder Summand repräsentiert eine mögliche Folge von Zuständen; die Wahrscheinlichkeit, daß eine bestimmte Zustandsfolge den gewünschten Output erzeugt, ist dann (wie
im n-stufigen Modell) das Produkt der bedingten Zähldichten.
Jedes Produkt hat 2n+1 Faktoren, insgesamt gibt es |Q|n+1 Summanden, es werden
also insgesamt mindestens |Q|n+1 (2n + 2) Berechnungsschritte benötigt (die Summenbildung mitgezählt), um diese Wahrscheinlichkeit zu bestimmen. Um sich (und dem
Computer) die Arbeit zu erleichtern, bedient man sich daher einer besonderen Berechnungsmethode, die auf dem Prinzip der dynamischen Programmierung beruht.
Dynamische Programmierung ist immer dann anwendbar, wenn eine rekursive Funktion an mehreren aufeinanderfolgenden Stellen ausgewertet werden soll, also etwa
(
n f (n − 1) falls n > 1
f (n) :=
1
sonst
soll ausgewertet werden an den Stellen f (1), f (2), . . . f (K). Eine Möglichkeit wäre
es, zuerst f (K) rekursiv zu berechnen (K viele Berechnungsschritte), dann f (K − 1)
(K −1 viele Schritte) usw. Dabei berechnet man aber gewisse Werte immer wieder (z.B.
f (1) ist Teil jeder Berechnung). Man wird daher, falls der Speicherplatz das erlaubt,
zuerst f (1) berechnen und speichern, dann f (2), wobei man sich dabei schon den
gespeicherten Wert von f (1) zu Hilfe nehmen kann. Ähnlich für die anderen Werte:
Es muß immer nur der letzte Berechnungsschritt ausgeführt werden, weil der Ergebnis
des Restes bereits vorliegt.
Dieses Prinzip der temporären Speicherung rekursiver Zwischenergebnisse nennt
man dynamische Programmierung; seine volle Wirkung entfaltet es erst bei etwas
komplizierteren mehrstelligen Funktionen, wie der oben angebenen Berechnunge der
HMM-Output-Wahrscheinlichkeit. Hierzu müssen wir für P(s) eine rekursive Formulierung angeben, die dann Stück für Stück ausgewertet wird. Hierzu definieren wir als
fi (t) die Wahrscheinlichkeit, vor dem t-ten Output in Zustand qi zu sein:
(P
|Q|
(t−1) ) falls 1 < t ≤ (n + 1)
j=1 f j (t − 1)m(q j , qi )n(q j , qi , σ
fi (t) =
π(qi )
falls t = 1
Abb. 2.4 illustriert diese Methode: Die gesamte Berechnung gleich dem Ausfüllen
einer Tabelle, in der für jedes i (Zeilen der Tabelle) und jedes t (Spalten) der Wert fi (t)
eingetragen wird. Zur Berechnung der ersten Spalte fi (1) werden die Initialwahrscheinlichkeiten πi verwendet, jede weitere Spalte wird aus ihrer linken Vorgänger Spalte
46
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT
det f1(1) f1(2) f1(3)
.......
f (1) f (2) f (3)
2
2
2
.......
n
fi (t)
adj
adv
v
.......
oth f6(1) f6(2) f6(3)
π
σ1 σ2
σ3
σ4
σ5
σ6 σ7
σ8
σ9
σ10 . . . . . . .
Abbildung 2.4: Lattice zur rekursiven Berechnung der Forward-Wahrscheinlichkeit im
HMM. fi (t) bezeichnet die Wahrscheinlichkeit, den Output σ(1) . . . σ(t−1) erzeugt zu
haben und in Zustand qi zu sein.
(“gespeicherte Werte”) nach obiger Rekursionsformel berechnet. Die gesamte Prozedur bearbeitet die Tabelle also von links nach rechts. Am Ende ergibt sich die gesuchte
Wahrscheinlichkeit
|Q|
X
P(s) =
f (i)(n + 1)
i=1
Eine solcherart als Zwischenspeicher verwendete Tabelle nennt man Lattice oder
Trellis, die gesamte Methode heißt Forward-Procedure, weil die Wahrscheinlichkeiten “vorwärts”, also für stets größer werdendes t, berechnet werden.
Die Zahl der Berechnungsschritte ist bei der Lattice-Methode offenbar nur noch
3n · |Q|2 , weil zu jedem Zeitpunkt 1 ≤ t ≤ n genau |Q|2 Produkte mit je 2 Faktoren und
eine Summe berechnet werden müssen.
Die wahrscheinlichste Zustandssequenz (Viterbi-Algorithmus)
Sei ein Output σ(1) , . . . , σ(n) ∈ Σn vorgegeben, gesucht ist nun die Sequenz q(1) , . . . , q(n) ,
die am wahrscheinlichsten ist, d.h.
arg max
(q(1) ,...,q(n) )∈Qn
(q)
(q)
(σ)
P(X1 = q(1) , . . . , Xn = q(n) | X1
(σ)
= σ(1) , . . . , Xn
= σ(n) )
Wiederum benutzen wir die Lattice-Methode, speichern aber diesmal anstelle von
fi (t) in den Feldern der Tabelle den Wert
(
max1≤ j≤|Q| δ j (t − 1)m(q j , qi )n(q j , qi , σ(t−1) ) falls 1 < t ≤ n
δi (t) :=
πi
falls t = 1
D.h. jedes Feld δi (t) der Tabelle enthält die Wahrscheinlichkeit, zum Zeitpunkt t
(also wenn σ(1) , . . . , σ(t−1) bereits ausgegeben wurde), in den Zustand qi zu wechseln
2.5. HIDDEN-MARKOV-MODELLE UND POS-TAGGING
47
und σ(t) auszugeben, wobei davon ausgegangen wird, daß die Maschine sich vorher im
maximal wahrscheinlichen Zustand q j befindet. Am Ende der Berechnung ist
max δi (n + 1)
1≤i≤|Q|
die Wahrscheinlichkeit der wahrscheinlichsten Zustandssequenz. Die Sequenz selbst
läßt sich nur berechnen, wenn man während des Ausfüllens der Tabelle neben δi (t)
auch die Zahl j speichert, für die sich das lokale Maximum ergeben hat, d.h.
ψi (t) := arg max δ j (t − 1)m(q j , qi )n(q j , qi , σ(t−1) ) für 1 < t ≤ n
1≤ j≤|Q|
(Die Benennung δ und ψ ist in Anlehnung an die Notation bei [Manning & Schütze, 2004].)
Dann ist
arg max δ j (n + 1)
1≤ j≤|Q|
die Zustandsnummer k des wahrscheinlichsten Zustandes qk zum letzten Zeitpunkt
n + 1, und die vorhergehenden wahrscheinlichsten Zustände lassen sich aus dem Lattice rekonstruieren, indem man den Wert von ψ j (t) aus dem Eintrag mit dem größten
lokalen (d.h. in der t-ten Spalte größten) Wert für δ j (t) nimmt, es ist also
(qψarg max
1≤ j≤|Q| δ j (2)
(2) , . . . , qψarg max
1≤ j≤|Q| δ j (n+1)
(n+1) , qarg max1≤ j≤|Q| δ j (n+1) )
die gesuchte wahrscheinlichste Sequenz für den gegebenen Output.
Bemerkung Es ist klar, daß die Bestimmung der Maxima i.a. zu “Patt”-Situationen
führen kann, wo zwei in Frage kommende Werte gleich groß sind, d.h. die maximal
wahrscheinliche Zustandssequenz ist nicht eindeutig bestimmt. Die einfachste Möglichkeit, damit umzugehen, ist es in solchen Fällen eine der möglichen Sequenzen beliebig zu wählen. Eine andere Möglichkeit könnte sein, einfach alle möglichen Sequenzen auszugeben.
Bedeutung für das Part-Of-Speech-Tagging Die HMM-Methode ist eine der am
meisten verbreiteten Methoden für das POS-Tagging. Wie schon oben angedeutet,
betrachtet man dort die Worarten-Tags als die Zustände des Modells, die Wörter als
Output-Symbole. Der Vorgang des Tagging entspricht dann der Suche nach der wahrscheinlichsten Zustandssequenz bei gegebenem Output.
Andere Anwendungen von HMM finden sich in
• in der Phonetik (z.B. Berechnung der wahrscheinlichsten Phonem-Sequenz bei
gegebenen Phonen);
• in der Dokumenten-Klassifikation und Analyse der Dokumentenstruktur (z.B.
Berechnung des wahrscheinlichsten Aufbaus eines Dokumentes aus Titel, Zeitschriftenname, Autoren, Affiliation, Abstract, Einführung usw.);
• Computermorphologie (z.B. Berechnung der Morphemstruktur eines Wortes);
48
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT
und im Grunde in allen Zusammenhängen, in denen “die wahre Struktur” hinter einer Folge von beobachtbaren Symbolen berechnet werden soll. Der Übergang von der
Output-Sequenz zur “wahren Struktur” entspricht im übrigen gerade dem Übergang
von einer großen zu einer geringen Beobachtungstiefe, also einem Übergang wie er
von Zufallsvariablen vermittelt wird. Der oben beschriebene Viterbi-Algorithmus berechnet demnach die Belegung einer (komplexen) Zufallsvariable so, daß ihre Wahrscheinlichkeit maximiert wird.
In späteren Kapiteln werden auf die dritte eingangs genannte Frage zurückkommen, d.h. die Frage nach der Bestimmung des Modells (M, N und Π) anhand von
Trainingsbeispielen.
2.6
Anmerkung zur Multiplikation sehr kleiner Zahlen
Sowohl in Zusammenhang mit n-Gramm-Modellen als auch bei den soeben besprochenen Hidden-Markov-Modellen werden häufig lange Reihen kleiner Zahlen p1 , . . . , pn ∈
[0, 1] miteinander multipliziert:
n
Y
pi
i=1
Es ist klar, daß das Ergebnis immer kleiner wird, je mehr solche Zahlen multipliziert werden, und in der Tat erwächst daraus ein erhebliches Problem für die automatisierte Berechnung der an n-Gramm-Modellen, HMMs u.ä. Systemen beteiligten Wahrscheinlichkeiten. In vielen Fällen kann man sich behelfen, indem man anstelle der eigentlichen Wahrscheinlichkeiten p1 , . . . , pn ihre logarithmischen Entsprechungen, d.h.
ihre Bildwerte unter einer logarithmischen Funktion, verwendet:
Definition 18 (Logarithmische Funktion). Sei f : R+ → R eine Abbildung. f ist
eine logarithmische Funktion, falls für alle a, b ∈ R+ gilt
(a) f (ab) = f (a) + f (b)
(b) f (ab ) = b · f (a)
Logarithmische Funktionen bilden also Zahlen so ab, daß man auf den Bildwerten
addieren kann, wann immer man auf den Urbildern multipliziert hätte. Solche Funktionen betrachtet man etwa seit dem 16. Jahrhundert zur Vereinfachung von komplexen
Berechnungen (etwa in der Astronomie und Navigation). Es gibt unendlich viele solche
Funktionen, z.B. die natürliche Logarithmus-Funktion log
0
log(x) := dasjenige x0 ∈ R mit ex = x
wobei e := limn→∞ (1 + 1/n)n , die Eulersche Zahl. Anstelle von e kann man auch jede
andere Zahl b verwenden und erhält dann jeweils die Logarithmusfunktion zur Basis b:
logb . Die meisten Programmiersprachen enthalten (in der Standardbibliothek) zumindest die natürliche Logarithmusfunktion.
2.6. ANMERKUNG ZUR MULTIPLIKATION SEHR KLEINER ZAHLEN
49
Es läßt sich zeigen, daß log(x) < 0 für x < 1, und dann gilt mit obigen Eigenschaften
von logarithmischen Funktionen:
(a) log(1) = 0, denn log(x) = log(1 · x) = log(1) + log(x).
(b) log(1/x) = − log(x), denn 0 = log(1) = log(x · 1/x) = log(x) + log(1/x).
(c) x < y y log(x) < log(y), denn falls x < y folgt x/y < 1, also log(x) − log(y) =
log(x/y) < 0, folglich log(x) < log(y).
Aus der letztgenannten Eigenschaft (der Monotonie des Logarithmus), folgt natürlich für jede Folge p1 , . . . , pn :
arg max pi = arg max log(pi )
1≤i≤n
1≤i≤n
Also können wir in Algorithmen, die letztlich nur Maxima berechnen (wie der oben
beschriebene Viterbi-Algorithmus) anstelle der echten Wahrscheinlichkeiten die “logarithmisierten” Werte verwenden, denn am Maximalwert ändert sich dadurch nichts. Zu
unserem Vorteil aber können wir dann Addition verwenden, wo immer wir bisher Multiplikation benutzt haben, so daß die Zahlen nicht zu schnell winzig werden.
50
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT
Kapitel 3
Rund um den Erwartungswert
In den bisherigen Kapiteln haben wir uns vorrangig mit stochastischen Modellen und
aus ihnen ableitbaren Voraussagen befaßt. Von Betrachtungen des stochastischen Verhaltens von Einzelwörtern (Zipfverteilung) haben wir uns über kontextsensitive Modelle (n-Gramm-Modelle) zu den Hidden-Markov-Modellen vorgearbeitet, die gewissermaßen die Idee der “zugrundeliegenden Struktur” (den Zuständen des Modells) in ihrer
Wechselwirkung mit der “Oberflächen-Struktur” (dem Output) stochastisch modellieren. Der Fokus unserer Betrachtungen lag stets auf Voraussagen, die sich mit Hilfe der
Modelle machen ließen (Wahrscheinlichkeitstheorie).
In den kommenden Abschnitten muß unser Augenmerk in erster Linie auf dem
umgekehrten Weg liegen: Der Bestimmung von Modellen aus Trainingsdaten (Statistik). Hierzu führen wir zunächst den zentralen Begriff des Erwartungswertes ein
und beweisen dann das für unsere Zwecke fundamentale Gesetz der großen Zahl,
das im Wesentlichen besagt, daß die Akuratheit von aus Beispieldaten erschlossenen
Modellparametern aller Wahrscheinlichkeit nach umso besser ist, je größer die Datenmenge ist. Das entspricht ja auch der Intuition, mit der man beispielsweise annimmt,
daß man die Fairness eines Würfels umso besser einschätzen kann, je öfter man ihn
getestet hat. Das Gesetz der großen Zahl stellt also gewissermaßen die formale Rechtfertigung für jede Art von Trainingsdaten-basiertem maschinellen Lernen dar.
Der Erwartungswert wird uns aber auch Grundlage für die Diskussion zweier weiterer elementarer Begriffe sein: Varianz und Kovarianz. Die Varianz ist das Analogon der schon aus Kapitel 1 bekannten (Stichproben-)Varianz, wird diesmal allerdings
nicht für Datenreihen, sondern für Zufallsvariablen, also stochastische Prozesse, bestimmt. Die ist also die durchschnittliche quadratische Abweichung vom Erwartungswert, die wir vom Output eines Zufallsprozesses erwarten. Die Kovarianz liefert einen
Begriff für die Ähnlichkeit zweier Zufallsprozesse und wird in Form der StichprobenKovarianz und ihrer Erweiterung zum Korrelations-Koeffizienten eingesetzt, um beispielsweise Ähnlichkeiten im kombinatorischen Verhalten von Wörtern, Sätzen und
Dokumenten aufzudecken. Wir betrachten eine Anwendung aus der Citation-Analysis
als Beispiel hierfür am Ende des Kapitels.
3.1
Der Erwartungswert
Ähnlich wie das arithmetische Mittel uns in Kapitel 1 dazu diente, große Mengen von
Daten auf einen einzigen Wert zu reduzieren (evtl. noch ergänzt um einen zweiten, die
51
52
KAPITEL 3. RUND UM DEN ERWARTUNGSWERT
Standardabweichung), so hat der Erwartungswert den Zweck, eine Wahrscheinlichkeitsverteilung P auf einen einzigen Wert zu verdichten – eine Art erwarteten Mittelwert.
Definition 19 (Erwartungswert). Sei Ω höchstens abzählbar, X : Ω → R eine
Zufallsvariable mit Werten in R und P ihre Verteilung. Dann ist
X
E(X) :=
x · P(X = x)
x∈XΩ
der Erwartungswert von X, falls die Summe existiert. Beachte, daß XΩ die Bildmenge von Ω unter X ist, d.h. die Menge derjenigen reellen Zahlen, die als Bilder
von Einzelereignissen in Ω vorkommen. Da Ω abzählbar, ist auch XΩ abzählbar.
Zufallsvariablen mit höchstens abzählbar vielen Werten nennen wir im folgenden
auch diskrete Zufallsvariablen.
Anmerkung zur Existenz: Die oben angebene Summe existiert nicht notwendig,
falls es sich um eine unendliche Reihe handelt. Streng genommen muß man hier
voraussetzen, daß die Reihe abolut konvergiert, vgl. [Georgii, 2004], S. 89. Im
Weiteren nehmen wir stets an, daß der Erwarungswert der von uns betrachteten
Zufallsvariablen existiert.
Der Erwartungswert ist also (falls er existiert) im Grunde genommen eine Art Mittelwert über die von einem Zufallsprozeß X hervorgebrachten Werte – nur daß jeder
Wert mit seiner Wahrscheinlichkeit als Gewicht mulitpliziert wird. Der Erwartungswert
selber muß keineswegs ein mögliches Ergebnis ∈ Ω sein; er stellt nur den erwarteten
Mittelwert über alle Ergebnisse dar.
Beispiel 16 (Gleichverteilung). Sei P = UΩ die Gleichverteiung (man denke etwa an
das Würfeln mit einem fairen Würfel). Dann ist
E(X) =
X
x∈XΩ
xP(X = x) =
X
x∈XΩ
x
1
1 X
=
x,
|XΩ| |XΩ|
x∈XΩ
also gerade das arithmetische Mittel der Werte von X. Etwa beim Würfeln, d.h. mit
Ω = {1, 2, 3, 4, 5, 6}, X = idΩ ist
7
1
E(X) = (1 + . . . + 6) = = 3.5
6
2
Beispiel 17 (Binomialverteilung). Ist X : Ω → {0, . . . , n} ⊆ R (für ein n ∈ N) und
n x n−x
P(X = x) = Bn,p ({x}) =
pq
x
53
3.1. DER ERWARTUNGSWERT
die Binomialverteilung mit Parameter p ∈ [0, 1] (und q := 1 − p), so gilt
E(X) =
n
X
x=0
n
n
X
(n − 1)!
n x n−x X
n!
px qn−x = np
·
px−1 qn−x =
x·
pq
=
x·
x!(n − x)!
(x − 1)!(n − x)!
x
x=1
x=1
= np
n
X
x=1
·
(n − 1)!
px−1 q(n−1)−(x−1) =
(x − 1)!((n − 1) − (x − 1))!
= np
n−1
X
x=0
|
·
(n − 1)!
px q(n−1)−x = np.
x!((n − 1) − x)!
{z
}
=1
Etwa in einer Folge von n := 10 Dokumenten, von denen jedes mit Wahrscheinlichkeit p := 0.3 ein bestimmtes Wort enthält, sind also E(X) = np = 0.3 · 10 = 3 Dokumente zu erwarten, die das Wort enthalten.
Beispiel 18 (Indikatorfunktion). Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und
(
1 falls ω ∈ A
1A : Ω → {0, 1}, ω 7→
0 sonst.
eine Zufallsvariable, d.h. 1a ist die Indikatorfunktion, die “1” genau dann zurückgibt, wenn ihr Argument ein Element von A ist. Dann ist der Erwartungswert dieser
Zufallsvariablen
E(1A ) = 0 · P(AC ) + 1 · P(A) = P(A)
Insofern der Erwartungswert den erwarteten Mittelwert eines Zufallsprozesses wiedergibt, ist es natürlich wünschenswert zu prüfen, ob den die Mittelwerte eines über
lange Zeit ausgeführten Zufallsvorgangs tatsächlich dem Erwartungswert entsprechen.
Genauer wünscht man sich eine Aussage der Art: Die Mittelwerte eine Folge wiederholter Zufallsexperimente konvergieren gegen den Erwartungswert, d.h. je länger die
Folge wird, desto eher wird man annehmen können, ihr Mittelwert entspricht dem Erwartungswert.
Diese Aussage wird später in Form des Gesetzes der großen Zahl bewiesen. Vorerst
einige wichtige Eigenschaften des Erwartungswertes:
Satz 4 (Eigenschaften des Erwartungswertes). Seien X,Y reellwertige Zufallsvariablen. Dann gilt:
(a) Falls X > Y , d.h. X(ω) > Y (ω) für alle ω ∈ Ω, so gilt auch E(X) > E(Y ) (Monotonie des Erwartungswertes).
(b) Falls a, b, c ∈ R, so ist E(aX + bY + c) = aE(X) + bE(Y ) + c (Linearität des Erwartungswertes).
(c) Falls X,Y unabhängig, so gilt E(XY ) = E(X)E(Y ).
54
KAPITEL 3. RUND UM DEN ERWARTUNGSWERT
Beweis. Für die ersten beiden Aussagen verweisen wir auf [Georgii, 2004], S. 91ff, die
Beweismethode ist für uns aber nur von marginaler Bedeutung.
Die letzte Aussage folgt durch Rechnung:
X
X X
P(X = x,Y = z/x) =
E(XY ) =
zP(XY = z) =
z·
z∈R
=
z∈R
X
06=x∈R
unabh.
xyP(X = x,Y = y) = =
x,y∈R
X
xyP(X = x)P(Y = y) =
x,y∈R



X
X



=
xP(X = x) yP(Y = y) =
xP(X = x)
yP(Y = y)
=

| {z }

x∈R y∈R
y∈R
x∈R 
unabh. von y
|
{z
}
XX
unabh. von x
=
X
y∈R
3.2
yP(Y = y) ·
X
xP(X = x) = E(Y )E(X).
x∈R
Varianz und stochastische Konvergenz
Bevor wir nun das Gesetz der großen Zahl formulieren können, benötigen wir einen
präzisen Begriff von “Konvergenz”. In der allgemeinen Analysis sagt man, eine Folge
von Zahlen a1 , a2 , . . . konvergiert gegen einen Grenzwert (Limes) a, falls für jede (noch
so kleine) Zahl ε > 0 gilt:
es gibt ein N mit |a − ai | < ε für alle i > N,
mit anderen Worten: falls für jeden noch so geringen Abstand ε gilt, daß die Folge
ab einem gewissen Punkt N diesen Abstand vom Grenzwert a nicht mehr überschreitet.
Man schreibt dann
i→∞
ai −→ a
In der Stochastik, und insbesondere im Gesetz der großen Zahl, hat man es aber
nicht mit Folgen von Zahlen, sondern mit Folgen von Zufallsvariablen zu tun, also
gewissermaßen mit Prozessen, die mit gewissen Wahrscheinlichkeiten gewisse Werte
annehmen. Man definiert daher eine für diese Zwecke modifizierte Form der Konvergenz, die stochastische Konvergenz:
Definition 20 (Stochastische Konvergenz). Sei (Xi )i≥1 = X1 , X2 , . . . eine Folge
von Zufallsvariablen mit Werten in R und auch X eine reellwertige Zufallsvariable. (Xi ) konvergiert stochastisch gegen X, falls für jedes ε > 0 gilt:
n→∞
P(|Xi − X| ≥ ε) −→ 0
D.h. (Xi ) konvergiert stochastisch, falls die Wahrscheinlichkeit für eine Abweichung um mehr als ein gewisses ε gegen Null konvergiert. Letztere Konvergenz
entspricht dabei dem gewöhnlichen Konvergenzbegriff.
Anmerkung: Statt “konvergiert stochastisch” sagt man auch “konvergiert in Wahrscheinlichkeit” (“in probability”).
3.2. VARIANZ UND STOCHASTISCHE KONVERGENZ
55
Das ist keineswegs die einzige Art, wie man einen für die Stochastik interessanten
Konvergenzbegriff definieren kann. Ein weiterer wichtiger solcher Begriff ist die “fast
sichere Konvergenz” (“almost surely”) ([Georgii, 2004], S. 122). Fast sichere Konvergenz ist stärker als stochastische Konvergenz; das Gesetz der großen Zahl kann man
mit beiden beweisen, man unterscheidet danach das schwache Gesetz der großen Zahl
(stochastische Konvergenz) und das starke Gesetz der großen Zahl (fast sichere Konvergenz). Wir zeigen hier nur ersteres; Formulierung und Beweis für die starke Version
finden sich ebenfalls in [Georgii, 2004].
Auf dem Weg zum Gesetz der großen Zahl beweisen wir zunächst zwei weitere,
sehr berühmte Aussagen: die Markov-Ungleichung und die Čebyšev-Ungleichung.
Satz 5 (Markov-Ungleichung). Sei X eine diskrete Zufallsvariable Ω → R, X ≥ 0
(d.h. X(ω) ≥ 0 für alle ω ∈ Ω). Sei ε > 0. Dann gilt
P(X ≥ ε) ≤
E(X)
ε
Beweis. Sei A := {ω ∈ Ω : X(ω) ≥ ε}. Dann gilt:
(∗)
ε · P(X ≥ ε) = ε · P(A) = ε · E(1A ) ≤ E(X · 1A ) =
X
X(ω) · P({ω}) · 1A {ω} ≤ E(X)
ω∈Ω
(3.1)
(∗) gilt, denn erstens ist ε · E(1A ) = E(ε · 1A ) wegen der Linearität von E. Zweitens
sind ε · 1A und X · 1A Funktionen mit
(ε · 1A )(ω) ≤ (X · 1A )(ω) für alle ω ∈ Ω
denn:
und
(
ε falls ω ≥ ε
(ε · 1A )(ω) =
0 sonst
(
X(ω) falls ω ≥ ε
(X · 1A )(ω) =
0
sonst
d.h. die rechte Seite nimmt die Werte von X gerade da an, wo sie größer sind als ε (also
größer gleich die linke Seite), sonst sind beide Funktionen gleich Null.
Dann aber wegen der Monotonie des Erwartungswertes:
εE(1A ) = E(ε1A ) ≤ E(X1A )
wie gewünscht.
Aus (3.1) folgt die Behauptung, da wegen ε > 0 das ε ohne Umgekehrung der
Ungleichung durch Division auf die rechte Seite gebracht werden kann.
Satz 6 (Čebyšev-Ungleichung). Sei X : Ω ∈ R eine diskrete Zufallsvariable und µ =
E(X). Dann gilt
E((X − µ)2 )
P(|X − µ| ≥ ε) ≤
ε2
56
KAPITEL 3. RUND UM DEN ERWARTUNGSWERT
Beweis. Sei Y := (X − µ)2 eine neue (ebenfalls diskrete) Zufallsvariable. Dann gilt
offenbar
P(|X − µ| ≥ ε) = P((X − µ)2 ≥ ε2 ) = P(Y ≥ ε2 )
und Y ≥ 0, also nach der Markov-Ungleichung:
P(Y ≥ ε2 ) ≤
E(Y )
, q.e.d.
ε2
Der auf der rechten Seite der Ungleichung stehende Erwartungswert hat auch in
vielen anderen Zusammenhängen große Bedeutung und wird unter der Bezeichung
Varianz (einer Zufallsvariable) geführt:
Definition 21 (Varianz von Zufallsvariablen). Sei X eine reellwertige Zufallsvariablen, deren Erwartungswert existiert. Es heißt
V(X) := E((X − E(X))2 )
die Varianz von X. Das setzt natürlich voraus, daß auch der rechts stehende Erwartungswert existiert (was nicht notwendig immer so sein muß – wir können das
aber für die von uns betrachteten Fälle annehmen).
Diese Größe steht natürlich in demselben Verhältnis zu der uns schon bekannten
Varianz in Datenreihen (die man auch Stichprobenvarianz nennt), in dem auch der Erwartungswert zum (Stichproben-)Mittelwert steht: Es ist die erwartete Stichprobenvarianz des Outputs eines Zufallsprozesses.
Wegen der Eigenschaften von E gilt offenbar (“Verschiebungssatz”):
V(X) = E((X − E(X))2 ) = E(X 2 − E(2XE(X)) + E(X)2 ) =
= E(X 2 ) − 2E(X)E(E(X)) + E(X)2 = E(X 2 ) − 2E(X)2 + E(X)2 =
= E(X 2 ) − E(X)2 .
Das legt nahe, auch noch eine weitere Größe zu definieren, die anstelle des Quadrates von X (und seinem Erwartungswert), die Produkt aus X mit einer weiteren Zufallsvariable (und das Produkt der Erwartungswerte der beiden) enthält:
Definition 22 (Kovarianz von Zufallsvariablen). Seien X,Y reellwertige Zufallsvariablen, deren Erwartungswerte existieren. Dann heißt
Cov(X,Y ) := E(XY ) − E(X)E(Y )
die Kovarianz von X und Y .
Eigenschaften und Anwendungen der Kovarianz betrachten wir in Abschnitt 3.4.
57
3.3. GESETZ DER GROSSEN ZAHL
3.3
Gesetz der großen Zahl
Die Čebyšev-Ungleichung erlaubt es uns, die Wahrscheinlichkeit für eine Abweichung
des Wertes von X um mehr als ε von µ = E(X) abzuschätzen. Wenden wir diese Ungleichung an, um die Wahrscheinlichkeit einer Abweichung des Mittelwertes einer Reihe
wiederholter Zufallsexperimente um mehr als ε vom Erwartungswert abzuschätzen, so
ergibt sich, daß diese Wahrscheinlichkeit in der Tat gegen Null konvergiert:
Satz 7 ((Schwaches) Gesetz der großen Zahl). Sei (Xi )i≥1 eine Folge von unabhängigen, identisch verteilten Zufallsvariablen, d.h. insbesondere E(Xi ) = E(X j ) für alle
i, j ≥ 1. Sei µ := E(X1 ) und v := V(X1 ). Dann gilt für alle ε > 0
n
!
1 X
v
Xi − µ ≥ ε ≤ 2
Pn := P n
nε
i=1
Also insbesondere Pn → 0 für n → ∞.
Beweis. Wir führen die Zufallsvariable
n
1X
Yn :=
(Xi − µ)
n
i=1
ein, dann gilt für ihre Varianz (falls sie existiert):
n
V(Yn ) =
1 X
v
V(Xi ) =
n2
n
i=1
(diese Gleichung folgt aus der Bienaymé-Gleichung, s. 3.4), also nach der ČebyševUngleichung:
v
P(|Yn | ≥ ε) ≤ 2
nε
Wir haben hier eine besonders schwache Version bewiesen, d.h. eine, die besonders viele Voraussetzungen hat: Unabhängigkeit, identische Verteilung, Existenz von
Erwartungswert und Varianz. Es gibt diverse Varianten, die mit weniger und anderen
Kombinationen auskommen ([Georgii, 2004], S. 117).
Eine einfache Anwendung dieses Gesetzes in der Statistik ist die Konstruktion gewisser Konfidenzintervalle: Wenn man die (Xi ) als Folge von Personen-Befragungen
auffasst, kann man beispielsweise angeben, wie viele Passanten man mindestens befragen muß, um mit einer vorgegebenen Mindestwahrscheinlichkeit eine ebenfalls vorgegebene Maximalabweichung ε bei der Ableitung von Voraussagen aus der Umfrage
nicht zu überschreiten. Nimmt man allerdings Normalverteilung der (Xi ) an, gibt es
genauere Verfahren, solche Mindestzahlen zu bestimmen.
Das Gesetz ist außerdem natürlich fundamental für alles Machine Learning, da
dieses ja auf der Annahme beruht, daß ein lernendes System umso bessere Ergebnisse
erzielt, je mehr Training-Input es erhält. Vertiefungen dieser Überlegungen finden sich
in [Vapnik, 1998].
58
KAPITEL 3. RUND UM DEN ERWARTUNGSWERT
3.4
Korrelation von Zufallsvariablen
Ähnlich wie der Erwartungswert haben auch V und Cov eine Reihe “schöner” mathematischer Eigenschaften, die wir noch ein wenig genauer betrachten wollen:
Satz 8 (Eigenschaften der Varianz). Seien X,Y, X1 , . . . Xn reellwertige Zufallsvariablen, deren Erwartungswerte und Varianzen existieren. Dann gilt:
(a) Sind a, b, c ∈ R, so ist Cov(aX, bY + c) = abCov(X,Y ). Also insbesondere auch
V(aX) = Cov(aX, aX) = a2 V(X).
(b)
V
n
X
!
Xi
i=1
=
n
X
i=1
V(Xi ) +
X
Cov(Xi , X j )
i6= j
Falls also Cov(Xi , X j ) = 0 für alle i 6= j (d.h. falls die (Xi ) paarweise
unkorreliert
P
P
sind, s. unten), so gilt die sog. Gleichung von Bienaymé: V( Xi ) = V(Xi ).
Beweis. (a) folgt aus einer entsprechenden Rechnung (unter Ausnutzung der Eigenschaften von E).
(b) ist komplizierter, Interessierte finden einige Angaben wiederum in [Georgii, 2004],
S. 104. Dort auch weitere Eigenschaften von V und Cov.
Wir definieren noch drei häufig verwendete Begriffe:
Definition 23 (unkorreliert). Seien X,Y reellwertige Zufallsvariablen. X und Y
heißen unkorreliert, falls Cov(X,Y ) = 0.
Unabhängige Zufallsvariablen sind stets auch unkorreliert (daher konnten wir in
Satz 7 die Gleichung von Bienaymé anwenden). Das soll in einer Übungsaufgabe gezeigt werden.
Bisweilen ist es praktisch, Zufallsvariablen durch Multiplikation / Addition von
geeigneten Konstanten so zu manipulieren, daß ihre Erwartungswerte und Varianzen
in einem bestimmten Sinne normiert sind:
Definition 24 (Standardisierte Zufallsvariable). Sei X eine Zufallsvariable.
Die Zufallsvariable
X − E(X)
X ∗ := p
V(X)
heißt standardisierte Form von X.
Eine weitere Übungsaufgabe wird zeigen, daß E(X ∗ ) = 0 und V(X ∗ ) = 1. Ein ähnliches Prinzip liegt der Normierung der Kovarianz zum sog. Korrelations-Koeffizienten
zugrunde:
3.4. KORRELATION VON ZUFALLSVARIABLEN
59
Definition 25 ((Stichproben-)Korrelations-Koeffizient). Seien
x1 , . . . , xn , y1 , . . . , yn ∈ R. Dann heißt
Pn
(xi − x̄)(yi − ȳ)
pPn
cor((xi ), (yi )) := pPn i=1
2
2
i=1 (xi − x̄)
i=1 (yi − ȳ)
der (Stichproben-)Korrelations-Koeffizient von (xi ) und (yi ), wobei x̄ und ȳ die
entsprechenden Mittelwerte sind.
Es handelt sich also, ähnlich zur Standardisierung einer Zufallsvariablen, um eine
Division durch die Standardabweichung – es wird also gewissermaßen die StichprobenKovarianz standardisiert. In der Tat liegt der Korrelations-Koeffizienz stets zwischen
−1 und +1.
Der Korrelations-Koeffizient sagt aus, bis zu welchem Grade zwei Datenreihen linear voneinander abhängen. Liegt er bei +1, so sind die beiden Datenreihen zueinander
proportional, d.h. es gibt eine Konstante c > 0 mit
xi = c · yi für alle 1 ≤ i ≤ n
Liegt er bei −1, so gilt umgekehrte Proportionalität, d.h. c < 0. Bei 0 gibt es gar
keine lineare Abhängigkeit.
In vielen Experimental-Wissenschaften wird der Korrelations-Koeffizient berechnet, um vermutete Kausalzusammenhänge einzuschätzen (obwohl er natürlich keinerlei
Schluß auf Ursache-Wirkungs-Beziehungen zuläßt). Beispielsweise die beiden Eigenschaften “Größe” und “Gewicht” von Menschen korrelieren miteinander, d.h. in entsprechenden Datenreihen tritt ein Korrelations-Koeffizient auf, der relativ nahe bei +1
liegt.
Wir wollen im folgenden eines (von vielen möglichen) Beispielen für eine Anwendung dieses Koeffizienten betrachten, aus dem Bereich der Bibliometrie, d.h. der
Ausnutzung von expliziten Referenzen (Zitaten) zur Klassifikation wissenschaftlicher
Literatur.
Beispiel 19 (Citation-Analysis). Seien d1 , . . . , dn wissenschaftliche Dokumente, d.h.
Dokumente, die Referenzen auf andere Dokumente enthalten (in Form von Literaturangaben und Zitaten). Sei Ri die Menge der Referenzen aus Dokument di für alle i.
Setze dann
cocit(i, j) := |{k : di ∈ Rk und d j ∈ Rk }|
die Anzahl der “Cocitations” für di und d j , d.h. die Anzahl der Dokumente, die Referenzen auf beide enthalten.
Die Idee ist nun, diese Zahlen auszunutzen, um die thematische Ähnlichkeit von di
und d j einzuschätzen. Ein direkter Weg wäre es, festzulegen, daß cocit(di , d j ) bereits
die Ähnlichkeit ist, denn je mehr gemeinsame Erwähnungen zwei Dokumente finden,
desto wahrscheinlicher ist es, daß sie inhaltlich verwandt sind.
60
KAPITEL 3. RUND UM DEN ERWARTUNGSWERT
Eine bessere Methode aber ist es, die gesamten Cocitation-Datenreihen für beide
Dokumente zu betrachten:
xk
yk
:= cocit(di , dk ) für alle 1 ≤ k ≤ n
:= cocit(d j , dk ) für alle 1 ≤ k ≤ n
und dann die Ähnlichkeit als den Korrelations-Koeffizienten dieser beiden Reihen zu
definieren. Der Vorteil besteht (trotz des natürlich wesentlich aufwendigeren Verfahrens) darin, daß eine wesentlich größere Datenbasis verwendet wird, um die Ähnlichkeit zu beurteilen, nämlich das Cocitation-Verhalten mit allen anderen Dokumenten,
nicht nur der beiden di und d j untereinander.
Kapitel 4
Testtheorie und Extraktion von
Kollokationen
Im vorigen Kapitel haben wir den wesentlichen Zusammenhang zwischen Modellen
und den von ihnen vorausgesagten Sachverhalten gesehen: Das Gesetz der großen Zahl,
demzufolge die Sachverhalte in Wahrscheinlichkeit gegen ihre Modelle konvergieren.
Das erlaubt es uns anzunehmen, daß wir aus den in Datenreihen vorliegenden Sachverhalten mit einem gewissen Recht versuchen dürfen, auf die Modelle zu schließen, denn
wir wissen ja, daß die Daten den Modellen asymptotisch ähneln.
Sachverhalt
konvergiert
−→
Modell
Der Ansatz der Statistik (also desjenigen Teils der Stochastik, der sich gerade mit
diesem Problem befaßt), besteht darin, eine Menge von möglichen Modellen vorab zu
definieren, und dann Entscheidungsverfahren zu finden, die helfen das wahre Modell
zu identifizieren. Diese Entscheidungsverfahren beruhen auf Beobachtungen, d.h. eben
auf den Daten, die man mit dem gesuchten Modell “erklären” will. Hierzu definiert
man:
Definition 26 (Statistisches Modell). (X, F, Pϑ : ϑ ∈ Θ) heißt statistisches Modell, falls X eine Menge, F ein System von Teilmengen von X (z.B. die Potenzmenge von X) und
{Pϑ : ϑ ∈ Θ}
eine Familie von Wahrscheinlichkeitsmaßen auf (X, F) ist.
Man stellt sich dabei vor, X sei die Menge der möglichen Beobachtungen (“Einzelereignisse”), F die Menge derjenigen Teilmengen, deren Wahrscheinlichkeit man
modellieren möchte, und {Pϑ } die Menge der zur Auswahl stehenden Wahrscheinlichkeitsmaße. X und F spielen also dieselbe Rolle wie in den wahrscheinlichkeitstheoretischen Modellen Ω und F. Der wesentliche Unterschied ist, daß wir
nun mehrere Wahrscheinlichkeitsmaße betrachten und das beste anhand der aus
X auftretenden Beobachtungen auswählen wollen.
Der Parameter ϑ spielt also die Rolle der “Unbekannten”, gesucht ist das “wahre” ϑ.
61
62
KAPITEL 4. TESTTHEORIE UND EXTRAKTION VON KOLLOKATIONEN
4.1
Der Weg von Beobachtungen zu Modellen
Grundprinzip der in der Statistik verwendeten Methoden ist es, eine Beobachtung x ∈ X
zu machen und dann
(a) entweder mittels einer geeignet definierten Funktion T : X → Θ das wahre ϑ direkt
zu “schätzen”. Eine solche Funktion T nennt man Schätzfunktion oder Schätzer.
(b) oder eine etwas anders angelegte Funktion C : X → P(Θ) zu benutzen, die aus
einer Beobachtung x ∈ X auf einen Bereich ⊆ Θ schließt und dann mit einer gewissen Sicherheit (“Konfidenz”) zusagt, daß das wahre ϑ im Bereich C(x) liegt.
Ein solches C nennt man Bereichschätzer, das C(x) ein Konfidenzintervall.
(c) oder man will nur eine gewisse Hypothese über ϑ (z.B. daß es größer oder kleiner
als ein gewisser vermuteter Wert ist) auf Richtigkeit prüfen und definiert einen
Hypothesentest ϕ : X → {0, 1}, der dann für die Beobachtung x angibt, ob sie für
(ϕ(x) = 0) oder gegen (ϕ(x) = 1) die Hypothese spricht.
Die Methode mit Schätzfunktion ist aufgrund ihrer Einfachheit und Direktheit gut
geeignet, grundsätzliche Aspekte des statistischen Vorgehens zu beleuchten, und wir
werden sie als erstes untersuchen. Konfidenzintervalle haben wir hier der Vollständigkeit halber erwähnt, werden aber nicht genauer auf sie eingehen.
Die in der Computerlinguistik am weitesten verbreitete Technik für eine Reihe von,
v.a. in der Korpuslinguistik viel benutzten, statistischen Methoden ist der Hypothesentest, für den es viele Anwendungen und viele Varianten gibt. Wir werden das in
Abschnitt 4.4 sehr genau diskutieren.
4.2
Schätzer
Definition 27 (Schätzer). Sei (X, F, Pϑ : ϑ ∈ Θ) ein statistisches Modell. Eine
Funktion T : X → Θ ist ein Schätzer.
Alternativ definiert man oft auch zunächst eine Funktion τ : Θ → R (d.h. eine Abbildung der ϑ’s auf reelle “Kenngrößen”), und einen Schätzer für die Kenngröße
τ dann als
T :X→R
(Falls τ umkehrbar, läßt sich natürlich damit ein Schätzer τ−1 ◦T für ϑ definieren.)
4.2.1
Ein Beispiel und die Maximum-Likelihood-Methode
Angenommen, wir möchten die Wahrscheinlichkeit ϑ für das Auftreten eines gewissen
Wortes w in Dokumenten schätzen, anhand eines Beispieldokuments mit n Wörtern,
indem w genau x mal vorkommt. Die Intuition sagt uns, daß wir für die Wahrscheinlichkeit
ϑ = x/n
schätzen sollten (und so haben wir das ja auch bisher immer getan). Wie können wir
das formal begründen?
63
4.2. SCHÄTZER
Zunächst ist x ∈ {0, . . . , n} =: X die Beobachtung, die wir machen, also (wegen Abzählbarkeit von X) sinnvollerweise F := P(X). Ferner nehmen wir an, ein Dokument
der Länge n werde dargestellt als eine Bernoulli-Folge (X1 , . . . , Xn ) ∈ {0, 1}n , d.h. als
eine Folge von Wörtern
(
1
Xi =
0
falls das i-te Wort w ist
andernfalls.
P
Dann hat die absolute Häufigkeit H = ni=1 Xi von w, als Zufallsvariable betrachtet,
die Binomial-Verteilung
P(H = x) = Bn,ϑ ({x})
(beachte, daß hier die gesuchte Wortwahrscheinlichkeit ϑ im Index auftritt.) Damit
haben wir insgesamt das Modell
({0, . . . , n}, P({0, . . . , n}), Bn,ϑ : ϑ ∈ [0, 1])
und wollen nun ϑ auf plausible Weise schätzen, d.h. eine “vernünftige” Funktion
T : X → Θ definieren. Aber was ist vernünftig? Folgendes ist ein Ansatz hierfür, der
sogenannte Maximum-Likelihood-Ansatz. Man überlegt sich, daß die Beobachtung
x, die man macht, wahrscheinlich ein häufig vorkommendes Ereignis ist (denn häufige
Ereignisse sind offenbar wahrscheinlicher als andere). Folglich ist das optimale Pϑ gerade dasjenige, daß das beobachtete Ereignis mit möglichst großer Wahrscheinlichkeit
voraussagt. Von allen möglichen Verteilungen Bn,ϑ suchen wir also dasjenige Bn,ϑmax
mit
Bn,ϑmax ({x}) ≥ Bn,ϑ ({x}) für alle ϑ ∈ Θ
D.h. der gewünschte Schätzer ist
T (x) := arg max Bn,ϑ ({x})
ϑ∈Θ
und diesen Schätzer nennt man den Maximum-Likelihood-Schätzer (ML-Schätzer).
Wir werden später sehen, daß das ML-Kriterium keineswegs das einzige denkbare für
einen guten Schätzer ist. Es ist jedoch das für einfache Zusammenhänge meistens verwendete.
In der Tat sagt T in unserem Falle voraus, daß x/n das gesuchte ϑmax ist, was ja der
Intuition entspricht. Folgender Beweis ist in seiner Methodik für den Kurs nicht von
wesentlicher Bedeutung, wir geben ihn nur der Vollständigkeit halber an.
Satz 9 (Maximum-Likelihood-Schätzer für Bn,ϑ ). Gegeben sei das statistische Modell
({0, . . . , n}, P({0, . . . , n}), Bn,ϑ : ϑ ∈ [0, 1])
für ein n ∈ N. Dann ist T (x) := x/n der Maximum-Likelihood-Schätzer für ϑ.
Beweis. Die sog. Likelihood-Funktion
ρx (ϑ) = Bn,ϑ ({x}) =
„ «
n x
ϑ (1 − ϑ)n−x
x
64
KAPITEL 4. TESTTHEORIE UND EXTRAKTION VON KOLLOKATIONEN
hat ihr Maximum bei x/n, denn für die Ableitung von log ρx nach ϑ gilt1 :
„„ «
«
∂
∂
n x
log(ρx (ϑ)) =
log
ϑ (1 − ϑ)n−x =
∂ϑ
∂ϑ
x
» „
«
–
∂
n!
=
log
+ x log ϑ + (n − x) log(1 − ϑ) =
∂ϑ
x!(n − x)!
(∗)
z }| {
1 −(n − x)
x − nϑ
1
n−x
(1 − ϑ)x − (n − x)ϑ
= 0+ +
= 0+ −
=
=
ϑ
1−ϑ
ϑ 1−ϑ
ϑ(1 − ϑ)
ϑ(1 − ϑ)
| {z }
>0
und für den Ausdruck (∗) gilt:
8
>
<> 0
x − nϑ < 0
>
:= 0
falls x/n > ϑ
falls x/n < ϑ
falls x/n = ϑ
Also ist die Ableitung von log ρx (ϑ) insgesamt links von x/n positiv, rechts davon negativ, und Null bei ϑmax = x/n. Also
erreicht log ρx bei x/n ihr Maximum, und wegen der strengen Monotonie von log gilt das auch von ρx .
Dann ist klar:
max Bn,ϑ ({x}) = Bn,x/n ({x})
ϑ∈Θ
was zu beweisen war.
Man sieht also, daß (unter der Annahme, Dokumente seien als Folgen voneinander unabhängiger Wörter aufzufassen, d.h. unter der Annahme daß die BinomialVerteilung geeignet ist), der intuitive, auf der relativen Häufigkeit basierende Schätzer
ϑ = x/n in der Tat der im Sinne der Maximum-Likelihood-Methode plausibelste Schätzer ist.
Berücksichtigt man zur Schätzung der Wortwahrscheinlichkeit auch Smoothing
(s. 1.5), d.h. benutzt man z.B.
x+1
T (x) =
n + |V |
(mit V das Vokabular der Sprache), so hat man es natürlich nicht mehr mit dem MLSchätzer zu tun, sondern mit einem, der aus anderen Gründen als geeignet gilt (eben
weil er gewisse im Korpus zufällig nicht vorkommenden Ereignisse mit berücksichtigt).
4.2.2
Gütekriterien für Schätzer
In der Stochastik betrachtet man neben dem ML-Kriterium auch noch ein anderes wichtiges “Qualitätsmerkmal” von Schätzfunktionen, die Erwartungstreue:
Definition 28 (Erwartungstreue). Sei T : X → Θ ein Schätzer für ϑ. T heißt erwartungstreu (“unbiased estimator”), falls für T , aufgefaßt als Zufallsvariable,
gilt
X
Eϑ (T ) :=
xPϑ ({x}) = ϑ für alle ϑ ∈ Θ
x∈Ω
(Entsprechend, falls T ein Schätzer für eine Kenngröße τ(ϑ), so fordert man
Eϑ (T ) = τ(ϑ) für alle ϑ.)
1 Für
die Ableitung einer Funktion f nach einer Variablen x schreibt man
∂
∂x
f.
4.3. STOCHASTIK IM KONTINUUM
65
Es soll also der Erwartungswert des Schätzers für jedes ϑ gerade dieses ϑ sein.
D.h.: Gleichgültig welches ϑ das wahre ist; wenn ein gewisses ϑ gilt, soll der Schätzer
dieses ϑ liefern. Dann liefert er ja insbesondere für das tatsächlich geltende ϑ das richtige Ergebnis.
Zusätzlich fordert man oft, daß die Varianz V(T ) des Schätzers möglichst gering
ist. Ist ein Schätzer erwartungstreu und varianzminimierend (d.h. hat er eine geringere erwartete Varianz als jeder andere erwartungstreue Schätzer), so spricht man von
einem besten Schätzer. Ein bester (oder auch nur erwartungstreuer) Schätzer muß
keineswegs ein ML-Schätzer sein; es handelt sich also durchaus um ein von ML unabhängiges Gütekriterium für Schätzer, und diverse Gütekriterien können einander u.U.
widersprechen.
Nachfolgend werden wir die Konstruktion und Beurteilung von Schätzern nicht
weiter vertiefen. Festgehalten werden sollte, daß die Bestimmung der Wortwahrscheinlichkeit aus der relativen Häufigkeit im Prinzip (abgesehen von Smoothing) eine MLSchätzung ist, und daß wir solche Schätzungen intuitiv ständig machen, wenn wir von
(zählbaren) Beobachtungen direkt auf Wahrscheinlichkeitsmaße schließen.
4.3
Stochastik im Kontinuum
In allen bisherigen Definitionen sind wir von höchstens abzählbaren Ereignisräumen
(Ω, F) bzw. (X, F) ausgegangen. Für die Zwecke der Computerlinguistik genügt das
auch meistens; jedoch die in Zusammenhang mit Hypothesentests verwendeten Methoden (die wir in Abschnitt 4.4 betrachten werden) greifen implizit zurück auf Begriffe,
die notwendigerweise auf einer überabzählbaren Menge, nämlich auf R, definiert werden. R und seine kartesischen Produkte Rd (also d-dimensionale R-Räume) nennt man
stetig oder Kontinuum, weil für jede darin konstruierbare konvergente Folge auch der
Grenzwert wieder in R liegt (was beispielweise von Q nicht gilt), d.h. weil in dieser
Hinsicht R keine “Lücken” aufweist. Stochastische Modelle auf R (oder auf Intervallen
von R, die ja ebenfalls überabzählbar sind) nennt man stetige Modelle, im Unterschied
zu höchstens abzählbaren, die man diskret nennt.
In diesem Abschnitt wollen wir einen kurzen Blick auf die wesentlichen Unterschiede zwischen diskreten und stetigen Modellen werfen und einige stetige Standardverteilungen grob besprechen. Wir werden in späteren Abschnitten auf sie zurückgreifen; eine grobe Kenntnis wenigstens von der Existenz dieser Standardverteilungen ist
auch für die Lektüre statistischer und computerlinguistisch-statistischer Literatur unverzichtbar.
4.3.1
Wozu Stochastik auf R
Zunächst ein motivierendes Beispiel.
Beispiel 20 (Energieverteilung). Man stelle sich eine runde Glühbirne vor, die gleichmäßig in alle Richtungen strahlt. Wir betrachten nur die Lichtstrahlen, die entlang
einer Ebene verlaufen, die senkrecht durch die Glühbirne gelegt wird – d.h. wir betrachten Birne und Strahlen im zweidimensionalen.
Dann ist klar daß in allen Winkeln α ∈ [0, 2π] die Gleiche “Menge” Licht ausgestrahlt wird; wir übertragen das auf ein stochastisches Modell, in dem für einen
66
KAPITEL 4. TESTTHEORIE UND EXTRAKTION VON KOLLOKATIONEN
Lichtquelle
α
"Einzelner Lichtstrahl"
Χ(α)
Abbildung 4.1: Gleichverteilung und Zufallsvariable auf R.
gegebenen “einzelnen Lichtstrahl” jede Richtung α ∈ [0, 2π] gleich wahrscheinlich ist,
d.h. wir haben ein stochastisches Modell
([0, 2π, F, U[0,2π] ])
in dem Gleichverteilung auf Ω = [0, 2π] herrscht (über die Gestalt von F in diesem
Fall wird später zu reden sein). Festzuhalten ist zunächst, daß hier in sinnvoller Weise
ein stochastisches Modell verwendet wird für etwas, das zunächst unmittelbar nichts
mit Wahrscheinlichkeit (eher mit Energieverteilung) zu tun hat.
Wir können noch weiter gehen und uns jetzt eine horizontale Linie unterhalb der
Glühbirne vorstellen. Wir sind nun daran interessiert, welche Energieverteilung entlang dieser Linie herrscht: Das ist ja nicht mehr die Gleichverteilung, da einige Bereiche der Linie näher an der Glühbirne (also näher am Zentrum der radial ausgestrahlten Gleichverteilung) liegen als andere. Wir führen daher eine Zufallsvariable
X : [0, 2π] → R
ein, die den Winkel α abbildet auf eine Stelle auf der Linie (gemessen als Entfernung von demjenigen Punkt auf der Linie, der direkt unterhalb der Glühbirne liegt).
Es ist dann U[0,2π] ◦ X −1 , also die Verteilung von X die Funktion, die für jeden Punkt
auf der Linie die Energieverteilung, also gewissermaßen die Wahrscheinlichkeit für das
Auftreffen eines Lichtstrahles, widergibt (eben gerade die Verteilung der Zufallsvariable wie wir das schon früher definiert haben).
Will man also etwa die “Energiedichte” in einem gewissen Abschnitt [a, b] auf der
Linie bestimmen, so würde man
UΩ ({α ∈ Ω : X(α) ∈ [a, b]}) = P(X ∈ [a, b])
berechnen, und dabei natürlich unterstellen, daß X −1 [a, b] ∈ F.
Das Beispiel illustriert, warum es sinnvoll sein kann, stochastische Modelle auf R
(bzw. auf Intervallen von R) zu betrachten, und auch Zufallsvariablen und ihre Verteilungen zu untersuchen. Ein zentrales Problem aber, das sich in diesem Zusammenhang
stellt, besteht nun darin, daß es leider nicht möglich ist F = P(Ω) zu setzen, falls Ω
überabzählbar ist. Tut man es dennoch, so scheitert man an der konsistenten Definition
von Wahrscheinlichkeitsmaßen auf diesem F (s. hierzu [Georgii, 2004], S. 9).
Ein zweites Problem besteht in der geänderten Rolle von Zähldichten (die in stetigen Modellen auch nicht mehr so heißen). Konnten wir bisher die Wahrscheinlichkeiten
67
4.3. STOCHASTIK IM KONTINUUM
der Einzelereignisse ω ∈ Ω als ρ(ω) bezeichnen und dann ein Wahrscheinlichkeitsmaß
durch
X
ρ(ω)
P(A) :=
ω∈A
definieren, so ist dasPjetzt nicht mehr möglich, weil ja auch das A i.a. überabzählbar
und daher die Summe
nicht definiert ist (unendliche Reihen sind in diesem Sinne
nur für abzählbare Mengen möglich). Man definiert daher für stetige Modelle
• F als ein System von ausgewählten Teilmengen. Solche Systeme nennt man
Borelsche σ-Algebren; tatsächlich enthalten sie im Wesentlichen alle abgeschlossenen und offenen Intervalle, sowie Vereinigungen und Schnitte von solchen Intervallen; für eine genauere Definition s. [Georgii, 2004], Kapitel 1. Wichtig ist,
daß für Ereignisse, die nicht in F enthalten sind, keine Wahrscheinlichkeit bestimmt werden kann.
• Dichtefunktionen (das Analogon zu Zähldichten) als Funktionen
ρ : Ω → [0, 1]
die aber nicht genau dieselbe Interpretation haben wie Zähldichten. Insbesondere
ist ρ(x) keineswegs zu verstehen als die Wahrscheinlichkeit von x als Ereignis.
• Wahrscheinlichkeitsmaße als
Z
P(A) =
ρ(x)dx
A
d.h. als Integrale (das überabzählbare Äquivalent von Summen) über die Dichtefunktion. Betrachtete Ereignisse A müssen ∈ F sein; typischerweise sind es Intervalle. Eine wichtige Feststellung in diesem Zusammenhang ist, daß die Wahrscheinlichkeit eines einzelnen Punktes x ∈ R nicht mehr sinnvollerweise betrachtet werden kann – bzw. Null ist:
Z x
P({x}) =
ρ(x)dx = 0.
x
• Streng genommen lassen sich auch Wahrscheinlichkeitsmaße ohne Dichtefunktion definieren, d.h. Wahrscheinlichkeitsmaße auf einem korrekten F, die aber keine identifizierbare Dichtefunktion besitzen (weil sie nicht differenzierbar sind).
Solche Fälle werden wir allerdings nicht betrachten.
Bemerkung Alle Begriffe und Sätze, die wir bisher definiert oder bewiesen haben,
lassen sich auch für stetige Modelle formulieren und beweisen. Das gilt insbesondere
für Erwartungswert, Varianz und Gesetz der großen Zahl.
Ein kleiner Hinweise ist angebracht bzgl. Zufallsvariablen X : Ω → Ω0 : Hier ist die
Forderung
X −1 A ∈ F
die ja für alle A ∈ F0 erfüllt sein muß, damit X eine Zufallsvariable ist, wirklich
wichtig, da nicht mehr alle Teilmengen von Ω notwendig auch in F liegen. Tatsächlich
beschäftigt sich ein nicht geringer Teil der mathematischen Stochastik damit, zu beweisen, daß gewisse Kombinationen und Funktionen von gegebenen Zufallsvariablen
wieder Zufallsvariablen sind, d.h. obige Forderung erfüllen.
68
KAPITEL 4. TESTTHEORIE UND EXTRAKTION VON KOLLOKATIONEN
4.3.2
Einige Standardverteilungen
Die Normalverteilungen
Von zentraler Bedeutung für die gesamte Stochastik und unzählige Anwendungen ist
die Gruppe der Normalverteilungen, insbesondere die Standard-Normalverteilung. Sie
kommt besonders gerne dann zur Anwendung, wenn eine Größe, z.B. ein Meßwert
in der Physik, aber auch evtl. die Häufigkeit eines Wortes in Texten, erwartungsgemäß einen gewissen Wert m0 ∈ R haben sollte, aber tatsächlich von vielen kleinen und
schwer bestimmbaren Faktoren beeinflußt wird, so daß der tatsächlich gemessene Wert
leicht von m0 abweicht. Etwa beim Messen der Temperatur in der Physik kommen
zahlreiche Faktoren, etwa Störungen der Meßgeräte, Luftströmungen usw. ins Spiel, so
daß der von einem Meßgerät gelieferte Wert m̄ nicht ganz genau dem z.B. von einem
Naturgesetz vorhergesagten Wert entspricht, sondern eine Abweichung |m̄ − m0 | auftritt, von der man annimmt, daß sie mit großer Wahrscheinlichkeit sehr klein, und nur
mit geringer Wahrscheinlichkeit groß ist. Genauer nimmt man an, daß der Meßwert m̄
normalverteilt mit Erwartungswert mo ist:
Definition 29 (Normalverteilung). Sei m ∈ R und 0 < v ∈ R. Das Wahrscheinlichkeitsmaß Nm,v , definiert durch
Z
1 −(x−m)2 /2v
√
e
dx
Nm,v (A) =
2πv
A
heißt Normalverteilung zu Erwartungswert m und Varianz v. Für m = 0 und v = 1
heißt N0,1 die Standard-Normalverteilung.
Die Normalverteilung wird auch Gauß-Verteilung, ihr Graph auch die Glockenkurve (“bell curve”) genannt. Diese Kurve haben wir bereits in Abb. 1.3 (S. 16) gesehen. Sie illustriert sehr gut den Charakter dieser Verteilung: Symmetrisch und zentriert
um den Erwartungswert m, hat sie dort ein Maximum, d.h. Nm,v (X = m) ist maximal
(falls X eine Nm,v -verteilte Zufallsvariable ist). Leicht neben m liegende Werte sind
immer noch sehr wahrscheinlich, mit zunehmendem Abstand von m werden die Werte aber immer unwahrscheinlicher; das ist genau was man von einer Größe erwartet,
die vermutlich etwa den Wert m hat, aber vielen kleinen Störfaktoren ausgesetzt ist:
Wahrscheinlich liegt sie bei m oder in unmittelbarer Nähe davon, aber mit geringer
Wahrscheinlichkeit kann sie auch weit weg von m liegen.
Man kann zeigen, daß in der Tat E(Nm,v ) = m und V(Nm,v ) = v, so daß die beiden
Bezeichnungen gerechtfertigt sind. Man kann ferner zeigen (“Zentraler Grenzwertsatz”), daß der standardisierte Mittelwert jeder Folge von n unabhängigen, identisch
verteilten Zufallsvariablen, im Limes n → ∞ standard-normalverteilt ist, was die fundamentale Bedeutung dieser Wahrscheinlichkeitsverteilung begründet. Insbesondere die
Binomialverteilung (d.h. die Verteilung der Häufigkeit des Auftretens von “1” in einer
Bernoulli-Folge der Länge n) konvergiert gegen die Normalverteilung, wie auf vielen
Webseiten in Form von Java-Applets anschaulich gemacht wird, z.B. http://medweb.
uni-muenster.de/institute/imib/lehre/skripte/biomathe/bio/binorm.html.
4.4. ALTERNATIVTESTS UND NEYMAN-PEARSON-LEMMA
69
Von Normalverteilungen abgeleitete Verteilungen
In Zusammenhang mit einigen der Hypothesentests, die später zu betrachten sein werden, treten auch Kombinationen von normalverteilten Zufallsvariablen auf, d.h. Additionen, Produkte usw. von Größen, die normalverteilt mit Varianz v um einen Erwartungswert m schwanken. Solche Kombinationen sind i.a. selbst nicht normalverteilt;
vielmehr ist die Bestimmung ihrer Verteilung eine mitunter außerordentlich schwierige Angelegenheit, die wir hier nicht im Detail studieren, deren Ergebnisse wir für
einige häufig vorkommende Verteilungen aber präsentieren wollen. Wir interessieren
uns besonders für die sog. χ2 - und die t-Verteilungen.
Hierfür zitieren wir aus [Georgii, 2004] S. 238 und S. 241 (mit gewissen Umformulierungen) und verweisen auch auf die dortigen Graphen der beiden Verteilungen.
Satz 10 (χ2 -Verteilung). Seien X1 , . . . , Xn unabhängige, N0,1 -verteilte Zufallsvariablen.
Dann hat die neue Zufallsvariable
Y :=
n
X
Xi2 ,
i=1
also die Summe der Quadrate der Xi die Verteilung mit der Zähldichte
χ2n (x) :=
xn/2−1
e−x/2
Γ(n/2)2n/2
wobei Γ die Eulersche Gamma-Funktion bezeichnet (s. ibd. S. 41). Diese Verteilung
heißt Chi-Quadrat-Verteilung mit n Freiheitsgraden.
Satz 11 (Studentsche t-Verteilung). Seien X1 , . . . , Xn unabhängige, Nm,v -verteilte Zufallsvariablen und
M :=
n
n
i=1
i=1
1X
1 X
Xi ; V ∗ :=
(Xi − M)2
n
n−1
Dann hat die Zufallsvariable
Tm :=
√
n(M − m)
√
V∗
die Studentsche tn−1 -Verteilung (man sagt auch Studentsche t-Verteilung mit n−1 Freiheitsgraden), d.i. die Verteilung mit der Dichtefunktion
x2
τn−1 (x) = 1 +
n−1
− n2
√
n−1
/B(1/2, (n − 1)/2)
wobei B für die Funktion der Beta-Verteilung steht (s. z.B. ebd. S. 43).
4.4
Alternativtests und Neyman-Pearson-Lemma
70
KAPITEL 4. TESTTHEORIE UND EXTRAKTION VON KOLLOKATIONEN
Definition 30 (Test). Sei (X, F, {Pϑ }ϑ∈Θ ) ein statistisches Modell und Θ = Θ0 ∪
Θ1 eine Zerlegung von Θ in Nullhypothese und Alternative.
(a) Jede Abbildung ϕ : X → [0, 1] (als Entscheidungsregel interpretiert) heißt ein
Test von Θ0 gegen Θ1 . Der Test nimmt also eine Beobachtung als Input und
gibt zurück
• 0, falls die Nullhypothese aufrecht erhalten werden soll;
• 1, falls die Alternative angenommen werden soll;
• 0 < γ < 1, falls der Test nicht eindeutig verläuft. In diesem Fall sollte
idealerweise ein Zufallsexperiment auf Ω = {0, 1} mit Wahrscheinlichkeit P({1}) = γ durchgeführt werden, um die Entscheidung endgültig zu
treffen.
(b) Wir definieren für alle ϑ ∈ Θ als Abkürzung
Eϑ (ϕ) := EPϑ (ϕ) d.h. den Erwartungswert für das Wahrscheinlichkeitsmaß Pϑ
(c) Ist Θ0 endlich, so ist die Wahrscheinlichkeit für einen “Fehler erster Art”, d.h.
das fälschliche Annehmen der Alternative, höchstens
max Eϑ (ϕ)
ϑ∈Θ0
(ist Θ0 unendlich, so muß das “Supremum” anstelle des Maximum genommen
werden.) Dieser Wert heißt das effektive Niveau von ϕ.
(d) Die Abbildung
Gϕ : Θ → [0, 1], Gϕ (ϑ) = Eϑ (ϕ)
heißt die Gütefunktion des Tests ϕ. Gϕ (ϑ) gibt also die Wahrscheinlichkeit an,
mit die Alternative erkannt wird, falls sie vorliegt (und zwar falls sie in Form
eines bestimmten ϑ ∈ Θ1 vorliegt).
Von einem guten Test erwartet man ein hohes effektives Niveau und hohe Güte. Man
definiert daher:
Definition 31 (Bester Test). Ein Test ϕ von Θ0 gegen Θ1 heißt bester Test mit
effektivem Niveau β, wenn seine effektives Niveau β ist und für jeden anderen Test
ψ mit der selben erwarteten Precision gilt:
Gϕ (ϑ) ≥ Gψ (ϑ) für alle ϑ ∈ Θ1
d.h. wenn die Güte für alle anderen Tests desselben effektiven Niveaus geringer
ist.
Je nach der Art von Hypothese, die man testen möchte, unterscheidet man nun:
4.4. ALTERNATIVTESTS UND NEYMAN-PEARSON-LEMMA
71
Alternativtests: Hier ist Θ = {0, 1}, d.h. es stehen nur zwei Wahrscheinlichkeitsmaße zur Auswahl, und es soll entschieden werden, welches das richtige ist. Die
Annahme H0 : ϑ = 0 ist hier die Nullhypothese, H1 : ϑ = 1 die Alternative.
Einseitige Tests: Hier ist Θ ⊆ R und getestet wird für ein vermuteten Wert m, ob
H0 : ϑ ≤ m oder H1 : ϑ > m.
Zweiseitige Tests: Wieder ist Θ ⊆ R, aber es soll getestet werden H0 : ϑ = m gegen
H1 : ϑ 6= m (letzteres ist äquivalent zu (ϑ < m) ∨ (ϑ > m), was die Zweiseitigkeit
besser zum Ausdruck bringt).
Für die Konstruktion einfacher Alternativtests, d.h. Tests für Modelle, in denen nur
zwei Wahrscheinlichkeitsmaße in Betracht kommen, existiert ein einfaches Verfahren,
daß auf den sog. Likelhood-Quotienten beruht. Der Likelihood-Quotient gibt, für eine
gegebene Beobachtung x ∈ X, an, um welchen Faktor wahrscheinlicher die Beobachtung ist, falls die Alternative Θ1 stimmt, verglichen mit dem Fall, daß Θ0 stimmt.
Definition 32 (Likelihood-Quotient). Sei (X, F, {Pϑ }ϑ ∈ Θ) ein statistisches
Modell mit Θ = {0, 1} und x ∈ X eine Beobachtung. Dann ist
(
P1 ({x})/P0 ({x}) falls P0 ({x}) > 0
R(x) :=
∞
sonst
der Likelihood-Quotient für x.
Im folgenden Neyman-Pearson-Lemma werden wir sehen, daß es gerade der LikelihoodQuotient ist, der uns hilft herauszufinden, ob wir uns für P1 entscheiden sollen, oder
besser bei P0 bleiben. Dahinter steckt eine ähnliche Überlegung wie bei der MaximumLikelihood-Methode: Wenn die gegebene Beobachtung x (also das Trainingsbeispiel)
unter P1 viel wahrscheinlicher ist als unter P0 , entscheiden wir uns für P1 , sonst nicht.
Weil P0 aber die Nullhypothese ist, hat es einen gewissen “Bonus” – P1 muß schon
eine deutlich größere Wahrscheinlichkeit für x voraussagen als P0 . Aber was ist deutlich? Das muß natürlich vom gewünschten effektiven Niveau abhängen: Um den Erwartungswert für einen Fehler erster Art möglichst gering zu halten, dürfen wir uns
nicht zu leicht für die Alternative entscheiden – je höher die Schwelle bei der Entscheidung, desto geringer die Fehlerwahrscheinlichkeit (erster Art).
Es wird sich zeigen, daß wir die Verteilung P0 ◦ R des Likelihood-Quotienten (er
ist ja eine von x abhängige Zufallsvariable, hat also eine für P0 und P1 jeweils eine
Verteilung) betrachten müssen, um die Schwelle zu finden.
Satz 12 (Neyman-Pearson-Lemma). Sei (X, F, {P0 , P1 }) ein statistisches Modell, α ∈
(0, 1).
(a) Ein bester Test ψ von Θ0 = {0} gegen Θ1 = {1} hat notwendigerweise die Gestalt:
(
1 falls R(x) > c
ψ(x) =
0 falls R(x) < c
für ein vom gewünschten Precision-Niveau α abhängiges c ≥ 0. Ein solcher Test
heißt Neyman-Pearson-Test.
72
KAPITEL 4. TESTTHEORIE UND EXTRAKTION VON KOLLOKATIONEN
(b) Es gibt einen Neyman-Pearson-Test mit E0 (ϕ) = α (der also das gewünschte Niveau voll ausschöpft)
(c) Jeder Neyman-Pearson-Test mit E0 (ϕ) = α ist ein bester Test mit effektivem Niveau
α.
Mit anderen Worten, einen besten Test zum gewünschten Niveau führt man durch,
indem man den Likelihood-Quotienten von P1 gegen P0 (ausgewertet für die gegebene
Beobachtung) ausrechnet und mit einer Schwelle c vergleicht. Wie berechnet man c?
Hierzu betrachtet man P0 ◦ R, die Verteilung des Likelihood-Quotienten bei P0 . Wir
suchen ein c ∈ R so, daß es ein α-Fraktil dieser Verteilung ist, d.h.
P0 (R ≤ c) ≥ 1 − α und P0 (R ≥ c) ≥ 1 − α
Dann ist insbesondere:
P0 (R > c) = 1 − P(R ≤ c) ≥ 1 − α
also
E0 (ϕ) = P(R > c) ≤ α
also wird das gewünschte effektive Niveau eingehalten. Der wesentliche Teil des
Beweises des Lemmas (zu finden in [Georgii, 2004]) zeigt, daß man ein solches αFraktil immer so finden kann, daß das Niveau sogar voll ausgeschöpft wird (d.h. “= α”
statt “≤ α” in obiger Ungleichung), und daß ein Test, der den Likelihood-Quotienten
auf diese Weise zu Grundlage hat, sogar ein bester Test ist.
Es ist möglich, eine dem Neyman-Pearson-Lemma entsprechende Aussage auch für
Situationen zu machen, in denen mehr als zwei Alternativen zur Auswahl stehen. Dort
muß man voraussetzen, daß der Likelihood-Quotient eine in x wachsende Funktion
ist, dann läßt sich ein entsprechender Beweis führen. Ein nicht unerheblicher Teil der
mathematischen Testtheorie widmet sich der Frage, in welchen Fällen der LikelihoodQuotient eine in x wachsende Funktion ist (man zeigt dort, daß das für die üblichen
Standardmodelle (Binomial-Verteilung, Poisson-Verteilung, geometrische Verteilung,
Normalverteilung) der Fall ist).
Wir wollen hier nicht im Detail beleuchten, welche mathematischen Zusammenhänge im einzelnen dazu führen, daß der Likelihood-Quotient und seine α-Fraktile
auch in Situationen, die weitaus komplizierter sind als einfache Alternativtests, die
Grundlage für beste Tests geben. Wir möchten nur festhalten, daß es so ist, und ein
Beispiel für eine solche etwas kompliziertere Situation geben:
4.5
Studentscher t-Test
Der (Studentsche) t-Test ist ein sehr weit verbreitetes Verfahren für Hypothesentests,
die den Erwartungswert einer Normalverteilung betreffen. Eine solche Situation liegt
beispielsweise vor, wenn jemand überprüfen möchte, ob ein (von ihm theoretisch gefundenes) Naturgesetz (empirisch) als zutreffend bestätigt wird. Hierzu denkt er sich
eine Versuchsanordnung aus und sagt anhand seines Gesetzes den Wert einer gewissen
Größe (z.B. Temperatur, elektrische Spannung o.dgl.) als m0 voraus. Es wurde bereits
gesagt, daß wegen Meßungenauigkeiten und anderer Störfaktoren angenommen werden muß, daß der tatsächliche gemessene Wert (bzw. der Mittelwert m̄ einer Reihe von
4.6. ANWENDUNGEN IN DER COMPUTERLINGUISTIK
73
Messungen) um seinen Erwartungswert normalverteilt streuen wird. Man setzt daher
als statistisches Modell an:
(R, F, Nm,v : m ∈ R)
(dabei ist F die oben erwähnte Borelsche σ-Algebra, was uns hier aber nicht weiter
interessieren muß.)
Es ist v als festvorgegebener Parameter anzunehmen (obwohl man auch ein Modell
machen könnte, bei dem sowohl m als auch v unbekannt und im Test zu ermitteln sind).
Zu testen ist nun entweder die einseitige Hypothese
m ≤ m0
oder die zweiseitige
m = m0
Beides kann mit einem t-Test nach Student erreicht werden (man spricht dann jeweils vom einseitigen bzw. zweiseitigen t-Test).
Wir können hier die genauen Zusammenhänge nicht erläutern; klar ist jedoch,
daß wir entsprechend dem Neyman-Pearson-Lemma (das wir hier in seiner auf einbzw. zweiseitige Situationen erweiterten Form betrachten müssten) den LikelhoodQuotienten und seine Verteilung unter Nm,v für minΘ0 , d.h. für m ≤ m0 bzw. m 6= m0 zu
untersuchen haben. Wir tun das, indem wir aus einer Reihe von Meßwerten m1 , . . . , mn
die standardisierte mittlere Abweichung
√
n(m̄ − m0 )
√
Tm =
v̄
(mit m̄ arithmetisches Mittel und v̄ korrigierte Stichprobenvarianz) betrachten, die
nach Satz 11 (S. 69) tn−1 -verteilt ist. Es ist dieser Wert, der hier die Rolle des LikelihoodQuotienten spielt, und es das α-Fraktil der tn−1 -Verteilung, das als Schwellwert fungiert
(um einen besten Test mit effektivem Niveau α zu erhalten).
α-Fraktile der tn−1 -Verteilung sind nicht einfach zu berechnen (man bedenke die
Formel für die Dichtefunktion2 der tn−1 -Verteilung in o.g. Satz und überlege sich das
kurz). In der Praxis wird der tn−1 -Test durchgeführt, in dem der standardisierte Mittelwert aus den Versuchsergebnissen berechnet und mit dem α-Fraktil für ein übliches α verglichen wird – Fraktile der tn−1 -Verteilung für übliche α (0.01,0.005,0.001)
finden sich in Tabellen, z.B. auch im Anhang von [Manning & Schütze, 2004] und
[Georgii, 2004].
4.6
Anwendungen in der Computerlinguistik
Anwendungen der Testtheorie auf computerlinguistische Fragestellungen finden sich
zuhauf in der Literatur. Speziell in der Korpuslinguistik, eine Subdisziplin der Linguistik, die zu allen Zeit gern Verfahren aus der Statistik übernommen hat, sind Tests ein
außerordentlich beliebtes Mittel, um Hypothesen über das kombinatorische Verhalten
oder die semantische Klasse usw. eines Wortes zu prüfen.
Eine ganze Reihe von Tests finden dort Anwendung, die hier nicht alle ausführliche besprochen werden – der t-Test ist nur einer von vielen. Andere wichtige TestMethoden sind z.B. der χ2 -Test und der Likelihood-Ratio-Test.
2 Die
eigentliche Verteilung ist also das Integral über die dort angegebene Funktion.
74
KAPITEL 4. TESTTHEORIE UND EXTRAKTION VON KOLLOKATIONEN
Wir wollen hier als Beispiel nur den Fall des t-Tests, angewandt auf das Problem
der Erkennung von Kollokationen, vorstellen. Das ist eine Anwendung, die auch in
[Manning & Schütze, 2004] detailliert diskutiert wird und in der korpuslinguistischen
Literatur als Standardbeispiel dient.
4.6.1
Identifikation von Kollokationen
4.6.2
Classifier-Fusion
Kapitel 5
Informationstheorie
In diesem Kapitel geht es um Begriffe und Methoden aus einem Bereich, der nicht im
strengen Sinne Teil der Statistik ist, sondern eher eine spezielle Anwendung statistischer Methoden darstellt: die Informationstheorie. Ihre Grundlagen wurden publiziert
in Claude Shannons bahnbrechenden Beitrag 19481 .
Wir betrachten hier aber nicht die ganze Informationstheorie, sondern nur ihren
ersten Teil, den man sehen könnte als die Beschäftigung mit statistischen Eigenschaften der Struktur von Information, losgelöst von ihrer Bedeutung. Man kommt dann
zu Überlegungen über die Reorganisation der Information, etwa mit dem Ziel, Platz
zu sparen, also dieselbe Information mit geringerem Platzverbrauch zu speichern. Eine solche Reorganisation (Kompression) erhält die Semantik nicht (sie kennt sie gar
nicht), sondern stellt lediglich sicher, daß die ursprüngliche Information in eindeutiger
Weise wiederhergestellt werden kann. Wir werden als ein Beispiel für Datenkompression das einfache statische Huffman-Coding betrachten und zeigen, inwiefern die informationstheoretische Entropie, die wir als den Erwartungswert des Platzverbrauchs
definieren werden, ein Maß für die Wirksamkeit der Kompression ist.
Obgleich Semantik bei einer solchen Betrachtung von Information nicht explizit
berücksichtigt wird, gibt es Versuche, Kompressionsverfahren einzusetzen, um die (in
einem semantischen Sinne) wesentlichen Bausteine von Information automatisch zu
finden. Solche Versuche laufen meist unter der Bezeichnung Minimum-DescriptionLength-Verfahren (MDL), und wir werden als ein Beispiel hierfür eine Methode zur automatischen Erstellung eines Modells der Morphologie einer Sprache vorstellen, nämlich das von John Goldsmith ([Goldsmith, 2001]). Die Idee hinter solchen Verfahren
ist die Überlegung, daß ein Modell dann besonders gut ist, wenn es im informationstheoretischen Sinne möglichst effizient ist, d.h. wenn man es möglichst gut komprimieren könnte. Es ist natürlich fraglich, ob sich beispielsweise die Morphologie einer
Sprache (also die Menge aller ihrer Morpheme und zugehörigen Kombinationsregeln)
tatsächlich in diesem Sinne effizienz-optimiert ist, aber Methoden, die eine solche Optimierung der von ihnen generierten Modelle vornehmen, erreichen in der Tat eine
Annäherung an die wirklichen Verhältnisse in der Morphologie. MDL-basierte Methoden finden sich aber auch in vielen anderen Bereichen der Computerlinguistik und des
Machine Learning.
Ein weiterer wichtiger Grundbegriff wird in diesem Kapitel vorgestellt und stellt für
uns eine weitere Methode zur Extraktion von Kollokationen dar (ergänzend zu den auf
1 “The
Mathematical Theory of Communication”, Bell System Technical Journal 1948.
75
76
KAPITEL 5. INFORMATIONSTHEORIE
Hypothesentests beruhenden Verfahren aus Kapitel 4.6.1): Mutual Information. Auch
sie ist, genau wie die Entropie, nichts anderes als der Erwartungswert einer gewissen
Zufallsvariablen.
5.1
Entropie und Kompression
Man stelle sich vor, man habe ein Stück Information, etwa eine Nachricht, zu kodieren, um sie jemandem mitzuteilen. Mit “Kodieren” meinen wir damit keineswegs nur
verschlüsseln, sondern auch jede andere Art von Repräsentation der Nachricht in einer Weise, die von dem anderen (u.U. unter der Annahme, er sei mit der verwendeten
Chiffre vertraut) verstanden werden kann.
Nehmen wir weiter an, die Nachricht könne nur eine aus einer festgelegten Menge
Ω ⊆ {0, . . . , N} von möglichen Nachrichten (jede mögliche Nachricht sei also eine
natürliche Zahl zwischen 0 und N) ausgewählt werden; als Medium der Übermittlung
könne nur ein Kanal verwendet werden, der es erlaubt, Reihen von Nullen und Einsen
zu übertragen2 .
Dann ist ein naheliegendes Kodierungsverfahren die Kodierung durch binäre Zahlen, d.h. die Abbildung der Information ω ∈ Ω auf ihre binäre Darstellung:
0
1
2
3
4
5
6
7
8
9
10
11
7→
7
→
7
→
7
→
7
→
7
→
7
→
7
→
7
→
7
→
7
→
7
→
0
1
10
11
100
101
110
111
1000
1001
1010
1011
usw.
Wie man sieht, wird die Nachricht umso länger, je größer die Zahl ist, die man
übermitteln möchte. Überlegen wir uns den erwarteten Platzverbrauch der Nachricht
(d.h. die Länger bei der Übertragung) genauer: Hat man eine n-stellige binäre Zahl,
so kann man damit offenbar 2n verschiedene Kombinationen von Nullen und Einsen
darstellen, d.h. mit n-stelligen binären Codes kann man genau die Dezimalzahlen zwischen 0 und 2n − 1 übermitteln. Umgekehrt gilt also: Die Nachrichtenlänge für eine
Nachricht x ∈ {0, . . . , N} beträgt
dlog2 xe
(Hinzukommt bei unserem naiven Kodierungsverfahren ferner wohl zusätzlicher
Platzverbrauch für Markierungszeichen, die angeben wo eine Nachricht endet und die
2 Ein Spezialfall all dieser Annahmen ist natürlich der Fall, in dem man Information für sich selbst in
Form einer Datei speichert. Sender und Empfänger sind dann dieselbe Person, und die Datei ist der Kanal.
5.1. ENTROPIE UND KOMPRESSION
77
nächste beginnt, falls mehrere Nachrichten nacheinander durch den Kanal gesandt werden.)
Lieber wäre uns wohl ein Verfahren, bei dem statt der Größer der Zahl ihre Wahrscheinlichkeit für den Platzverbrauch ausschlaggebend ist. Man stelle sich beispielsweise vor, die Nachricht sei eine Temperaturangabe für einen bestimmten Ort. Man
stelle sich weiterhin vor, die Temperaturangabe werde jeden Tag mehrmals von einer
entfernten Wetterstation geschickt und gespeichert. Dann sind gewisse Temperaturangaben viel wahrscheinlicher (nämlich häufiger) als andere (es wird sogar im Sinne einer Normalverteilung gelten, daß es eine erwartete Durchschnittstemperatur gibt, und
die tatsächlichen Werte um sie herum streuen). Nehmen wir also an, wir kennen die
Verteilung P der zu versendenden Nachrichten. Dann könnte man sich ein Kodierungsverfahren überlegen, daß jeder Nachricht x ∈ Ω einen Rang zuordnet, der umso kleiner
ist, je wahrscheinlicher die Zahl ist:
rang(x) = |{y ∈ Ω : P({x} < P({y}))}| + |{y ∈ Ω : P({x}) = P({y}, x < y)}|
Diese Funktion ist injektiv, d.h. es gibt pro Rang nur eine Nachricht, die denselben
Rang innehat (dafür sorgt der zweite Summand, der die Nachrichten mit derselben
Wahrscheinlichkeit wie x nach ihrer Größe anordnet). Folglich können wir als Code
jetzt die binäre Darstellung des Rangs (und nicht der Nachricht selbst) verwenden, und
automatisch werden häufigere Nachrichten (die also einen geringeren Rang haben) mit
kürzeren Binärcodes dargestellt. Man überlegt sich, daß im optimalen Fall (d.h. bei
optimal gewählter Codierung) die Länge der Nachricht gerade
log2 rang(x) = log2
1
= − log2 P({x})
log(P({x})
ist. Beachte, daß wir die Aufrundung diesmal weggelassen haben: Ein wirklich
optimales Kodierungsverfahren wird die Nachrichten so darstellen, daß zwar die Länge
einer einzelnen Nachricht immer noch eine ganze Zahl ist, in diese Nachricht aber
bereits Teile der nächsten Nachricht hineinkodiert sind (wenn es eine nächste Nachricht
gibt), so daß die tatsächliche Länge einer einzelnen Nachricht evtl. tatsächlich keine
ganze Zahl ist.
Als (informationtheoretische) Länge einer Nachricht definiert man daher diese, von
Wahrscheinlichkeit (bzw. relativen Häufigkeit) der Nachricht abhängige, Größe:
Definition 33 (Informationstheoretische Länge). Sei X eine Zufallsvariable mit
Werten in einer Menge Ω und mit Verteilung P und x ∈ Ω. Dann ist
− log2 (P(X = x))
die informationstheoretische Länge von x.
Die Länge L eines Ereignisses ist natürlich selbst auch eine Zufallsvariable (mit
positiven reellen Werten):
L : Ω → R+
Wir können also den Erwartungswert von L berechnen, und das ist in der Tat eine
sinnvolle Größe, es ist nämlich die erwartete durchschnittliche Länge einer Nachricht.
78
KAPITEL 5. INFORMATIONSTHEORIE
Wegen der Gültigkeit des Gesetzes der großen Zahl wird das bei sehr vielen übertragenen Nachrichten also mit großer Wahrscheinlichkeit die tatsächliche durchschnittliche
Länge einer Nachricht (in Bits) sein:
X
X
P(X = x) · log2 (P(X = x))
P(X = x) · L(x) = −
E(L) =
x∈Ω
x∈Ω
Der erwartete Platzverbrauch von n Nachrichten (bei optimaler Kodierung!) wird
also nE(L) Bits sein.
Diesen Erwartungswert nennt man die Entropie (der Zufallsvariablen X). Er hängt
(wie jeder Erwartungswert) nur von der Verteilung P ab (nicht von den Werten, die X
annehmen kann), man spricht also auch von der Entropie der Verteilung P.
Definition 34 ((Informationstheoretische) Entropie). Sei X eine Zufallsvariable mit Werten in Ω und Verteilung P Es ist
X
P(X = x) · − log2 (P(X = x))
H(X) := −
x∈Ω
die informationstheoretische Entropie oder Shannon-Entropie von X (d.h. von P).
Wohlgemerkt, dieser Erwartungswert kann nur den Tatsachen entsprechen, wenn
ein optimales Kodierungsverfahren gewählt wird. Es gibt kein Verfahren, mit dem sich
in jeder Situation ein optimales Kodierungsverfahren finden läßt, es gibt allerdings
Verfahren, die gegen das Optimum konvergieren, wenn die Zahl der Nachrichten und
die zur Verfügung stehenden Resourcen gegen Unendlich konvergieren (arithmetic coding). Alle Verfahren, die auf die Optimierung des Platzverbrauchs durch Verbesserung
der Kodierung abzielen, heißen Kompressionsverfahren. Die Funktion rang von oben
ist ein Beispiel für ein besonders simples Kompressionsverfahren (allerdings mit dem
Nachteil, daß zusätzlicher Platzverbrauch für die Markierung von Grenzen zwischen
Nachrichten anfällt).
Wir betrachten hier ein sehr viel einfacheres Verfahren, das i.a. keine optimale Kodierung erreicht, aber ein schnell verständliches Beispiel für die Wirksamkeit von Kompressionsverfahren darstellt (und nicht den Nachteil der auf rang basierenden Methode
hat).
Beispiel 21 (Static-Huffman-Coding). Sei Ω ein endliche Menge von Symbolen und
T ∈ Ωn ein Text (mit Länge n) aus solchen Symbolen. Das Ziel ist es, eine Kodierung
C : Ω → {b1 , . . . , bm : bi ∈ {0, 1}, m ∈ N}
anzugeben, d.h. eine injektive Abbildung, die jedem Symbol aus Ω eine Folge von
Bits zuordnet, und zwar so, daß kein Code C(x) Präfix eines anderen Codes C(x0 )
(für alle x 6= x0 ) ist (sonst ist bei der späteren Dekodierung nicht klar, wo ein Symbol
aufhört und das nächste beginnt). C soll eine möglichst gute Komprimierung erzielen,
d.h. so gestaltet sein, daß die Länge des Textes nach der Kodierung möglichst klein
ist. Beachte, daß wir in diesen Vorgaben nicht alle Möglichkeiten ausgeschöpft haben,
die es eigentlich gibt: Wir haben gefordert, daß jedem Symbol x ∈ Ω ein Code C(x)
79
5.1. ENTROPIE UND KOMPRESSION
1.0
0
1
0.7
1
0
0.4
1
0
0.2
0.3
0
a
b
c
d
e
f
0.2
0.1
0.2
0.1
0.1
0.3
a
1
b
0
c
d
1
e
Abbildung 5.1: Binärer Baum beim statischen Huffman-Coding.
zugeordnet wird. Wir machen also nicht Gebrauch von der Idee, einem Stück des Codes
bereits den Anfang des nächsten Symbols mitzukodieren. Mit einem solchen Verfahren
können wir nie ganz das Optimum erreichen (nämlich eine Textlänge, die gerade der
Entropie entspricht). Man nennt solche Verfahren blockweise, weil sie den Text nicht
als ganzes komprimieren, sondern Block für Block (Symbol für Symbol). Zunehmend
besser wird es, je größer jeder Block ist (wenn man also beispielsweise Paare oder
Tripel von Buchstaben kodiert). Das wollen wir hier aber nicht betrachten.
Um nun eine gute blockweise Kodierung C zu finden, berechnen wir die relative
Häufigkeit jedes Symbols x ∈ Ω (bezüglich des Textes T :
P({x}) :=
Häufigkeit von x in T
n
(das ergibt bekanntlich ein wohldefiniertes Wahrscheinlichkeitsmaß.) Dann bauen
wir einen Baum wie in Abb. 5.1 gezeigt auf. In der Abbildung nehmen wir der Einfachheit halber an, die Symbolmenge bestehe gerade aus den Symbolen a, b, c, d, e und f.
Auf der linken Seite sind unter den Symbolen ihre relativen Häufigkeiten angegeben.
Der Baum wird dann konstruiert, indem von unten her die beiden seltensten Symbole miteinander verbunden werden, wodurch ein Knoten im Baum entsteht, der mit der
Summe der relativen Häufigkeiten bezeichnet wird. Dann werden iterativ jeweils die
beiden seltensten Ereignisse verbunden, wobei Knoten im Baum auch als Ereignisse
zählen.
Im Ergebnis hat dann das häufigste Symbol den kürzesten Pfad zur Wurzel des
Baumes, das seltenste Symbol den längsten. Beachte, daß die Konstruktion des Baumes nicht eindeutig ist, da Symbole bzw. Knoten ja auch gleichwahrscheinlich sein
können, dann ist die Bestimmung des Minimums eine Willkür-Entscheidung. Es gibt
also durchaus Varianten des angegebenen Baumes, die auch gültige Huffman-Codings
darstellen.
Ist der Baum fertig, werden seine Äste von der Wurzel her sukzessive mit Nullen
und Einsen bezeichnet, und zwar an jedem Knoten der linke Ast mit Null, der rechte
mit Eins. Der Pfad von der Wurzel zu einem Blatt gibt dann die binäre Kodierung für
f
80
KAPITEL 5. INFORMATIONSTHEORIE
das an dem Blatt hängende Symbol an. Also f hat z.B. den Code “1”, c hat “010”.
Nach dem oben gesagten ist dann klar, daß häufige Symbole kürzere Codes erhalten,
da ihre Pfade zur Wurzel ja kürzer sind als die von seltenen Symbolen.
Ferner ist klar, daß kein Code Präfix eines anderen Codes ist, da jeder Code an
einem Blatt endet (also keine Fortsetzung hat).
Das Verfahren heißt statisch, weil die Kodierung erst vorgenommen wird, nachdem der gesamte Text T bekannt ist; die relativen Häufigkeiten beruhen also auf dem
gesamten Text. Es gibt auch Verfahren, die den Text nach und nach einlesen und die
Kodierung währenddessen anpassen; sie heißen dynamisch.
Auf Dekodierungsalgorithmen sowie auf die Verfahren, die zur effizienten Erstellung des Huffman-Baumes eingesetzt werden, gehen wir hier nicht ein (innerhalb der
Computerlinguistik wird das i.a. in Seminaren über Stringalgorithmen behandelt). Einen
guten Überlick findet man auch in [Witten et al., 1999].
5.2
Mutual Information
Aus dem Begriff des Erwartungswerts, speziell des Erwartungswertes der Varianz, hatten wir für zwei Zufallsvariablen die erwartete kombinierte Varianz, die Kovarianz, abgeleitet, sowie ihre standardisierte Form, den Korrelationskoeffizienten. Er ermöglicht
es, Aussagen über die Abhängigkeit zweier Zufallsvariablen zu machen, allerdings nur
insofern es sich um eine lineare Abhängigkeit handelt (d.h. wenn die Abhängigkeit
zwischen X und Y von der Art
X = cY
mit einer reellen Zahl c ist): Je näher der Koeffizienz bei 1 liegt, desto ähnlicher ist
die Beziehung von X und Y einer linearen Abhängigkeit.
Ein anderes für gegenseitige Abhängigkeit läßt sich aus der erwarteten Kodierungslänge, also der Entropie, ableiten. Zunächst einmal definiert man
Definition 35 (Kombinierte Entropie). Seien X und Y Zufallsvariablen auf Ω.
Dann ist
X
H(X,Y ) := −
P(X = x,Y = y) · log2 P(X = x,Y = y)
x,y∈Ω
die kombinierte Entropie von X und Y .
und legt dann weiter fest:
Definition 36 (Mutual Information). Seien X, Y , Ω wie oben. Es ist
X
P(X = x,Y = y)
I(X,Y ) :=
P(X = x,Y = y) log2
=
P(X = x)P(Y = y)
x,y∈Ω
= H(X) + H(Y ) − H(X,Y )
die Mutual Information von X und Y .
81
5.2. MUTUAL INFORMATION
Die entscheidende Rolle spielt hier der Term im Logarithmus: Das ist ein Quotient
aus der Wahrscheinlichkeit daß X und Y bestimmte Werte x und y annehmen, dividiert
durch das Produkt der Einzelwahrscheinlichkeiten für x und y. Wir wissen, daß der
Nenner für alle x, y gleich dem Zähler ist, falls X und Y unabhängig sind. Man kann
daher diesen Quotienten auffassen als “die Wahrscheinlichkeit daß x und y gemeinsam auftreten, dividiert durch die Wahrscheinlichkeit eines zufälligen gemeinsamen
Auftretens” (dabei heißt “zufälliges gemeinsames Auftreten” soviel wie “gemeinsames Auftreten unter der Annahme der Unabhängigkeit”). Dieser Quotient, für alle x, y
berechnet und insgesamt aufsummiert, wird also umso größer, je eher die Beziehung
zwischen X und Y einer Unabhängigkeit gleicht.
In vielen Anwendungen in der Computerlinguistik berechnet man die Mutual Information für zwei konkrete Ereignisse (und nicht für zwei Zufallsvariablen):
Definition 37 (Punktweise Mutual Information). Seien x, y ∈ Ω, px , py ∈ [0, 1],
px + py ≤ 1 und pxy ∈ [0, 1] (also etwa x, y Ereignisse und px , py ihre Wahrscheinlichkeiten, pxy die Wahrscheinlichkeit des gemeinsamen Auftretens von x und y).
Es ist
pxy
I(x, y) := log2
px py
die punktweise Mutual Information für x und y. Man kann zeigen, daß das stets
positiv oder Null ist.
Die punktweise Mutual Information ist meistens gemeint, wenn in Zusammenhang
mit der Extraktion von Kollokationen einfach von der “Mutual Information” die Rede
ist. Wir illustrieren das an einem Beispiel:
Beispiel 22 (Extraktion von Kollokationen). Seien w1 , w2 Wörter, p1 , p2 ihre relativen Häufigkeiten in einem großen Referenzkorpus, p12 die relative Häufigkeit ihres
gemeinsamen Auftretens.
Mit gemeinsamem Auftreten kann das Auftreten als Bigramm w1 w2 gemeint sein,
aber auch das gemeinsame Auftreten in einem Fenster einer festvorgegebenen Länge
N. Um dann p12 zu bestimmen, extrahiert man alle N-Gramme und zählt dann, in
(prozentual) wie vielen von ihnen beide Wörter vorkommen.
Die (punktweise) Mutual Information der beiden Wörter ist dann
p12
MI(w1 , w2 ) = log2
p1 p2
Bei Unabhängigkeit, d.h. wenn die beiden Wörter gerade so oft zusammen vorkommen, wie “der Zufall” (d.h. die Unabhängigkeitsannahme) es vorgibt, wenn also
p12 = p1 p2 ,
dann wird der Term im Logarithmus 1, also der Logarithmus 0, also die Mutual
Information 0. Je stärker die Beziehung zwischen w1 und w2 ist (genauer: Je sicherer
man sich des Auftretens von w2 sein kann, wenn man weiß, daß vorher w1 war, und
umgekehrt), desto größer wird die Mutual Information.
Sie stellt also ebenfalls ein Maß für die “Assoziertheit” von Termen dar und kann
in der Tat benutzt wird, um (Kandidaten für) Kollokationen zu finden.
82
KAPITEL 5. INFORMATIONSTHEORIE
Literaturverzeichnis
[Altmann, 1995] Altmann, G. (1995). Statistik für Linguisten. Wissenschaftlicher
Verlag, Trier.
[Georgii, 2004] Georgii, H.-O. (2002 (2004)). Einführung in die Wahrscheinlichkeitstheorie und Statistik. DeGruyter.
[Goldsmith, 2001] Goldsmith, J. (2001). Computational Linguistics 27, 153–198.
[Manning & Schütze, 2004] Manning, C. & Schütze, H. (1999 (2004)). Foundations
of statistical natural language processing. The MIT Press.
[Vapnik, 1998] Vapnik, V. (1998). Statistical Learning Theory. Wiley-Interscience.
[Witten et al., 1999] Witten, I., Moffat, A. & Bell, T. (1999). Managing Gigabytes.
Morgen Kaufmann Publishing.
[Woods et al., 1986] Woods, A., Fletcher, P. & Hughes, A. (1986). Statistics in language studies. Cambridge University Press.
83
Herunterladen