Einführung in die statistische Sprachverarbeitung Johannes Goller Centrum für Informationsund Sprachverarbeitung Oettingenstr. 67 80538 München 3. Mai 2006 2 Inhaltsverzeichnis 1 2 3 4 Motivation und Grundlagen 1.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Grundbegriffe und Notationen . . . . . . . . . . . . . . . . 1.3.1 Stochastik, Statistik und Wahrscheinlichkeitstheorie 1.3.2 Zählen und Messen . . . . . . . . . . . . . . . . . . 1.3.3 Mathematische Grundbegriffe und Notationen . . . . 1.3.4 Wahrscheinlichkeitsräume . . . . . . . . . . . . . . 1.4 Standardmodelle . . . . . . . . . . . . . . . . . . . . . . . 1.4.1 Gleichverteilung . . . . . . . . . . . . . . . . . . . 1.4.2 Urnenmodell: Ziehen mit Zurücklegen . . . . . . . . 1.4.3 Urnenmodell: Ziehen ohne Zurücklegen . . . . . . . 1.5 Frequenzlisten als Wahrscheinlichkeitsräume . . . . . . . . 1.6 Die Zipfverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 7 8 8 11 17 20 24 24 24 27 27 29 Bedingte Wahrscheinlichkeit 2.1 Wie man die Zukunft nicht voraussagt und die Formel von Bayes 2.2 Situationsabhängige Wahrscheinlichkeiten: Mehrstufige Modelle 2.3 Automatisiertes Gefasel: n-Gramm-Modelle . . . . . . . . . . . 2.4 Zufallsvariablen und Projektionen . . . . . . . . . . . . . . . . 2.5 Hidden-Markov-Modelle und POS-Tagging . . . . . . . . . . . 2.6 Anmerkung zur Multiplikation sehr kleiner Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . 31 31 36 37 38 40 48 Rund um den Erwartungswert 3.1 Der Erwartungswert . . . . . . . . . . 3.2 Varianz und stochastische Konvergenz 3.3 Gesetz der großen Zahl . . . . . . . . 3.4 Korrelation von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 51 54 57 58 Testtheorie und Extraktion von Kollokationen 4.1 Der Weg von Beobachtungen zu Modellen . . . . . . . . . . 4.2 Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Ein Beispiel und die Maximum-Likelihood-Methode 4.2.2 Gütekriterien für Schätzer . . . . . . . . . . . . . . 4.3 Stochastik im Kontinuum . . . . . . . . . . . . . . . . . . . 4.3.1 Wozu Stochastik auf R . . . . . . . . . . . . . . . . 4.3.2 Einige Standardverteilungen . . . . . . . . . . . . . 4.4 Alternativtests und Neyman-Pearson-Lemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 62 62 62 64 65 65 68 69 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 INHALTSVERZEICHNIS 4.5 4.6 5 Studentscher t-Test . . . . . . . . . . . . Anwendungen in der Computerlinguistik . 4.6.1 Identifikation von Kollokationen . 4.6.2 Classifier-Fusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 73 74 74 Informationstheorie 5.1 Entropie und Kompression . . . . . . . . . . . . . . . . . . . . . . . 5.2 Mutual Information . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 76 80 Kapitel 1 Motivation und Grundlagen 1.1 Einführung Hauptziel der Computerlinguistik ist es, Eigenschaften der natürlichen Sprache (oder von bestimmten natürlichen Einzelsprachen) zu formalisieren, d.h. so zu charakterisieren, daß sie durch Algorithmen berechnet werden können. Hierzu bedient sich die Computerlinguistik einer Reihe von Hilfsmitteln, die auch in anderen Wissenschaften eine große Rolle spielen und überdies als eigene Wissenschaften erforscht werden. Zu diesen Hilfsmitteln gehören v.a. Darstellungsmethoden aus der formalen Logik (etwa um die Bedeutung von Sätzen formelhaft darzustellen), Strukturierungsmethoden aus der diskreten und algebraischen Mathematik (etwa um die Struktur und gegenseitige Ähnlichkeit von Dokumenten zu erfassen), Algorithmen aus der Theorie der formalen Sprachen und Automaten (etwa um effizientes Syntaxparsing zu ermöglichen), aber auch Programmiersprachen, Unix-Tools und -Kommandos, Konzepte aus der technischen Informatik und vieles mehr. Ein ebensolches Hilfsmittel ist die Statistik, oder genauer gesagt, eine Gruppe von Darstellungs-, Schätzungs- und Entscheidungs-Methoden aus der Stochastik. Die Stochastik gilt heute als derjenige Teil der Mathematik, der sich mit den Gesetzmäßigkeiten des Zufalls beschäftigt, d.h. der versucht, Regularitäten in Prozessen zu erfassen, die keinem bekannten Gesetz unterliegen – oder aber sehr vielen nicht eindeutig vorhersehbaren Faktoren ausgetzt sind –, und diese Regularitäten zur Vorhersage von Entwicklungen bzw. zur Unterstützung der Entscheidungsfindung auszunutzen. Das Ziel des vierstündigen Proseminars “Einführung in die statistische Sprachverarbeitung”, dessen Begleitmaterial der vorliegende Text ist, besteht in der Vermittlung der wichtigsten stochastischen Methoden, die in der Computerlinguistik zum Einsatz kommen. Dabei ist unter “Vermittlung” die Erklärung der mathematischen Definitionen und Sätze zu verstehen, ebenso wie die Skizzierung ihrer Beweise, vor allem aber die Herstellung ihres Zusammenhangs mit ausgewählten computerlinguistischen Anwendungen, sowie die Beschreibung und, soweit möglich, praktische Implementierung dieser Anwendungen. Zahlreiche Computerlinguisten sehen ihre Wissenschaft heute in einer statistischen Phase, in einer Phase der Entwicklung also, in der statistische Methoden gegenüber anderen Methoden überwiegen oder mit besonderer Aufmerksamkeit erforscht werden. In der Tat hat die Zahl der computerlinguistischen Veröffentlichungen (in Zeit5 6 KAPITEL 1. MOTIVATION UND GRUNDLAGEN schriften, Konferenzen usw.) mit statistischem Schwerpunkt im Laufe des vergangenen Jahrzehnts sehr deutlich zugenommen, und eine ganze Reihe von Konzepten, die bisher von ausschließlich symbolischer Natur waren (also nicht-statistische Methoden), wurden erweitert (“probabilistic context free parsing”, “naive Bayes classification” u.a.), und aus der Stochastik hervorgegangene Methoden wurden in die Computerlinguistik eingeführt (“machine learning of natural language grammars”). Dadurch entsteht bisweilen der Eindruck, statistische oder statistisch motivierte Methoden seien gewissermaßen der zentrale Forschungsgegenstand der Computerlinguistik, und ihre mathematische Präzisierung und (ganz und gar auf dem Boden der Mathematik stattfindende) Verfeinerung verliehe der Computerlinguistik sozusagen den letzten Schliff. Dieser Eindruck soll durch den von diesem Skript begleiteten Kurs nicht erweckt oder verstärkt werden: Da es in der Computerlinguistik um Sprache und ihre Charakterisierung geht, müssen vielmehr Methoden der Klassifizierung sprachlicher Phänomene, also Methoden, die aus der Linguistik hervorgehen, im Vordergrund stehen. Das sind in erster Linie die adäquate Erstellung von Korpora, Lexika und Grammatiken, und die sorgfältige Beschreibung einzelner sprachlicher Konstruktionen. Statistische Methoden können aber in sehr vielfältiger Weise die Arbeit des Linguisten erleichtern, weswegen ihnen eine, wenn auch nicht zentrale, so doch grundlegende Bedeutung in der Computerlinguistik zukommt. Am Ende des Kurses soll jeder Teilnehmer in der Lage sein, • Statistische Begriffe und Methoden, die in der Computerlinguistik vorkommen, zu erklären; • Wissenschaftliche Veröffentlichungen, die statistische oder statistische motivierte Verfahren der Computerlinguistik beschreiben, zu verstehen und zu implementieren; • Vorschläge machen zu können, wie gewisse Problemstellungen mit statistischen Verfahren angegangen werden könnten. Das Skript gliedert sich daher im ersten Teil in eine Reihe von Kapiteln, die die Hauptideen und wichtigen Begriffe der Stochastik und Statistik darlegen, und zu jeder Beispiele für Standard-Anwendungen in der Computerlinguistik geben: • Charakterisierung des Wahrscheinlichkeitsraums (Beispiele: Frequenzlisten und andere einfache linguistische Verteilungen) • Standardmodelle (z.B. Gleichverteilung, Urnenmodelle) und Zufallsvariablen (Beispiele: Invertierte Listen und Indizes von Suchmaschinen) • Bedingte Wahrscheinlichkeit und mehrstufige Modelle (Beispiele: Bayes-Klassifikation, statistisches Tagging) • Erwartungswert, Korrelation und Gesetz der großen Zahl (Beispiele: Bibliometrie und einfaches Machine Learning) • Parameterschätzung und Hypothesentests (Beispiele: Wortassoziation und Kollokationsextraktion) Im zweiten Teil werden einige speziellere Entwicklungen stochastischer Grundideen betrachtet, die in der Computerlinguistik besonders nützlich sind: 1.2. LITERATUR 7 • Informationstheorie im Dienste der Datenkompression • Informationstheorie im Dienste des Machine Learning • Statistik im Vektorraum (Information Retrieval und Dokumentenklassifikation) Ein Kurs, der Hilfsmittel und Methoden vermitteln will, die in einer Wissenschaft verwendet werden, kann nur erfolgreich sein, wenn die Teilnehmer das Gelernte üben. Die beste Gelegenheit dafür bietet sich in Form von Programmierübungen, bei denen die stochastischen Methoden implementiert und direkt getestet werden. Zwar ist es nicht möglich, im Rahmen kleiner Übungen sehr komplexe oder umfangreiche Programme zu zu entwickeln, aber an vielen Stellen bietet sich die Möglichkeit, die Kernmethode oder eine vereinfachte Version zu programmieren; das ist natürlich ideal, insofern dabei sowohl die statistische Methode als auch das Programmieren an sich geübt werden. Jedes Kapitel wird daher von einer Reihe von Übungsaufgaben – die meisten Programmieraufgaben – begleitet, die im Kurs zum größten Teil auch als Hausaufgabe gestellt werden. 1.2 Literatur Folgende Lehrbücher wurden als zusätzliches Begleitmaterial, bzw. als weiterführende Literatur, für geeignet befunden. Für spezielle Zusammenhänge finden sich weitere Literaturhinweise in den einzelnen Kapiteln. [Manning & Schütze, 2004] Enthält eine große Anzahl computerlinguistischer Anwendungen mit Beschreibungen der zugrundeliegenden Idee, des Algorithmus und bisweilen mit Implementierungshinweisen. Die Notation sowie die Beschreibung der mathematischen Zusammenhänge ist allerdings recht oberflächlich und immer wieder auch etwas irreführend. Sicherlich einer guter Überblick über die am häufigsten zitierten computerlinguistischen Anwendungen statistischer Methoden. [Georgii, 2004] Eine ausgezeichnete mathematische Einführung in die Stochastik. Für das Verständnis der Beweise, die alle detailliert beschrieben sind, sind sehr solide Kenntnisse in Analysis allerdings Voraussetzung. Gut geeignet für jeden, der tiefer in die Mathematik der Statistik eindringen möchte, und evtl. zum Nachschlagen mathematisch sauberer Definitionen der wichtigsten Begriffe. [Altmann, 1995] Gründliche Erklärung stochastischer Grundbegriffe, also v.a. ein mathematisches Buch, aber im wesentlichen ohne Beweise und für Nicht-Mathematiker geschrieben. Zahlreiche Rechenbeispiele und -Übungen. [Woods et al., 1986] Zeigt anhand vieler Beispiele die Zusammenhänge zwischen Linguistik (v.a. Korpuslinguistik) und Statistik. Deckt also v.a. die nicht-informatischen Teile des Kurses ab. 8 KAPITEL 1. MOTIVATION UND GRUNDLAGEN 1.3 1.3.1 Grundbegriffe und Notationen Stochastik, Statistik und Wahrscheinlichkeitstheorie Definition 1 (Stochastik). Die Stochastik ist derjenige Teil der Mathematik, der sich der Beschreibung und Untersuchung von zufälligen Vorgängen widmet, d.h. von Vorgängen, die keinen vollständig bekannten Gesetzmäßigkeiten unterliegen. Auf den ersten Blick erscheint das Vorhaben der Stochastik also weitgehend sinnlos, oder zumindest nicht besonders wissenschaftlich; denn sie scheint ja nur das Unerklärliche näher beschreiben zu wollen. Tatsächlich kann eine solche nähere Beschreibung natürlich durchaus zu Einsichten führen, die letztlich helfen, präzise Erklärungen zu finden. Die Stochastik befaßt sich allerdings nur mit der systematischen Auswertung von Beobachtungen über die zufälligen Vorgänge und versucht dann, Modelle zu finden, die dazu geeignet sind, diese Vorgänge zu reproduzieren – oder auch, vorauszusagen, wie der Vorgang sich in Zukunft verhält, unter der Annahme, daß die im bisherigen Verhalten gefundenen Regularitäten weiterhin auftreten werden. Sie erhebt keinerlei Anspruch, Erklärungen für das Verhalten zu geben. Mit diesem Ziel vor Augen, gliedert sie sich in zwei Teile: Die Wahrscheinlichkeitstheorie (oder Probabilistik), die sich mit den Modellen und den daraus ableitbaren Voraussagen, sowie mit den Methoden der Voraussage selbst, befaßt. Sodann die Statistik, die Verfahren angibt, mit denen sich zu einer gegebenen Menge von Beobachtungen auf möglichst systematische und objektive Weise eines der von der Wahrscheinlichkeitstheorie vorgegebenen Modelle auswählen läßt. In anderen Worten, die Wahrscheinlichkeitstheorie geht von Modellen aus und macht Vorhersagen, während die Statistik von den Daten ausgeht und auf die Modelle schließt. Definition 2 (Wahrscheinlichkeitstheorie (Probabilistik)). Derjenige Teil der Stochastik, der festlegt, in welcher Form Modelle von zufälligen Vorgängen angegeben werden können, und wie aus den Modellen Voraussagen abgeleitet werden können. Die Voraussagen sind stets stochastischer Natur, d.h. sie sind nicht entweder wahr oder falsch, sondern sie sind mit einer gewissen (jeweils spezifizierten) Sicherheit wahr. Definition 3 (Statistik). Derjenige Teil der Stochastik, der Verfahren beschreibt und untersucht, die geeignet sind, schnell und systematisch aus Beobachtungen Modelle zu konstruieren, die gemäß den Regeln der Wahrscheinlichkeitstheorie die Beobachtungen möglichst akurat voraussagen. Beispiel 1. Die Disambiguierung von Attributen vs. Adverbialen ist ein häufig auftretendes Problem bei der Syntaxanalyse; betrachte etwa: 1.3. GRUNDBEGRIFFE UND NOTATIONEN (1) X malt eine Blume im Garten. (2) X malt eine Blume im Wasser. (3) X malt eine Blume in der Vase. 9 In (1) ist nicht klar, ob sich die Blume oder der Maler im Garten befinden; in (2) herrscht eine ähnliche Unklarheit, obwohl man eine gewisse Tendenz hat, anzunehmen, der Maler befände sich nicht im Wasser, und in (3) ist man praktisch völlig sicher, daß es nur die Blume ist, die in der Vase ist. Ein (einfach gebautes) SyntaxanalyseProgramm würde aber vermutlich dieselbe Ambiguität in allen drei Beispielen vorfinden, es würde also auch für (2) und (3) jeweils zwei Analysen angeben. Ein typischer stochastischer Ansatz wäre es nun, die Kookkurrenz (d.h. Häufigkeit des gemeinsamen Vorkommens) der Paare malen, im-Garten malen, im-Wasser malen, in-der-Vase Blume, im-Garten Blume, im-Wasser Blume, in-der-Vase in einer großen Menge von Beispielsätzen (also einem Korpus, das man z.B. aus dem Internet extrahiert) zu betrachten und festzustellen, daß etwa im Fall von (3) “Blume” mit “in-Vase” wesentlich stärker assoziiert ist als “malen” mit “in-Vase”. Diese Grundidee läßt sich im Sinne der Stochastik formalisieren: Man möchte Voraussagen machen bzgl. der Zusammengehörigkeit von Wortpaaren; hierzu sucht man ein Modell, daß zu jedem Paar aus Wörtern (oder NP-Konstruktionen) mit einer gewissen Sicherheit voraussagt, daß sie zusammen vorkommen, d.h. zusammen eine Konstituente bilden. Ist nun ein gewisses Textkorpus gegeben, sagt uns die Statistik, auf welche Weise wir die Wörter und Paare am besten zählen und wie wir dann die Parameter des Modells, d.h. die mit den diversen Voraussagen assoziierten Sicherheiten berechnen müssen; die Wahrscheinlichkeitstheorie hingegen erlaubt es uns, aus einem solcherart bestimmten Modell Aussagen in einem gegeben Einzelfall, also etwa in Beispiel (3) oben zu machen. Das obige Beispiel zeigt recht gut, welche Daten und Hilfsmittel der Linguist benötigt, um einen stochastischen Ansatz zu verfolgen. Insbesondere: Beobachtungen aus denen Modelle konstruiert werden. Die Beobachtungen macht der Linguistik normalerweise anhand von elektronisch verfügbaren Texten, also Korpora, die oft aus reinem Text bestehen, manchmal aber auch • Wortarten-Tags • Syntaxanalysen • Thematische Kategorien • Phonetische Transskriptionen 10 KAPITEL 1. MOTIVATION UND GRUNDLAGEN und anderes enthalten. Wir werden später sehen, daß die Verläßlichkeit statistischer Modelle u.a. abhängt von der Zahl der Beobachtungen, die für ihre Konstruktion verwendet wurden. Man ist daher bestrebt, möglichst große Korpora anzulegen, und es ist klar, daß die Existenz und Größe des WWW solchen Bestrebungen entgegenkommt. Es ist aber auch klar, daß die schiere Anzahl der Beobachtungen nicht der einzige qualitätsbestimmende Faktor eines statistischen Modells ist; auch die Repräsentativität, Einheitlichkeit und Leichtigkeit der Verarbeitung spielen eine große Rolle. Es gibt daher eine Reihe von Initiativen, die für die Erzeugung von Korpora Empfehlungen geben und Standards festlegen. Zu diesen Initiativen gehören beispielsweise • Die European Language Resources Association (ELRA) 1 und die Evaluations and Language Resources Distribution Agency (ELDA) 2 • Das Linguistic Data Consortium (LDC) 3 • Die Text Encoding Initiative (TEI) 4 • Die Special Interest Group Lexicon (SIGLEX) der ACL (Association of Computational Linguistics) 5, 6 • Das Penn-Treebank-Projekt der University of Pennsylvania 7 und zahllose kleinere, z.T. sprachspezifische Initiativen und Projektgruppen. Software und Tools Die wichtigsten Tools sind • XML-Parser und XML-Verarbeitungsprogramme, da viele Korpora in XML vorliegen. • für die Verarbeitung des reinen Textes Programme zum Editieren, Durchsuchen, Ersetzen, Zerlegen, Sortieren und Zählen. Auf Unix-Systemen stehen solche Tools unmittelbar zur Verfügung, insbesondere emacs und vi, egrep, sed und perl, sort und uniq, sowie wc. Auch die Konversion von Dokumentformaten (wie PDF, PS, HTML usw.) sowie von Encodings (ASCII, Unicode, u.ä.) ist oft notwendig, bevor eigentliche statistische Verfahren angewandt werden können. • Parser und Finite-State-Tools • Programme zum Visualisieren von Zusammenhängen oder Tabellen. Besonders gnuplot, dot, Mathematica, Maple, aber auch die DiagrammErstellungsfunktionen von OpenOffice, StarOffice und MS Excel sind hier zu nennen. • Programme, die statistische Daten-Zusammenfassungen berechnen; hierzu gehören der Mittelwert, die Standardabweichung u.ä. (s. spätere Kapitel), aber auch Visualisierungen von Datenverteilungen, Streuung usw. 1 http://www.elra.info/ 2 http://www.elda.org/sommaire.php 3 http://www.ldc.upenn.edu 4 http://www.tei-c.org/ 5 http://www.siglex.org 6 http://www.clres.com/corparchive.html 7 http://www.cis.upenn.edu/~treebank/home.html 1.3. GRUNDBEGRIFFE UND NOTATIONEN 11 • Web-Suchmaschinen (sowohl allgemeine als auch speziell von und für Linguisten entwickelte, z.B. The Linguist’s Search Engine 8 , WebCorp 9 . • Spezielle Suchprogramme, z.B. Tgrep2 10 , WordSmith 11 . Modelle und standardisierte Formalisierungen Es macht Sinn, die Modelle, in die man Beobachtungen übertragen will, den von der Wahrscheinlichkeitstheorie vorgegebenen Standards anzupassen – sowohl hinsichtlich ihrer Struktur, als auch hinsichtlich der verwendeten Notation und Terminologie. Das macht offensichtlich die Einpassung in vorhandene oder gut erforschte Verfahren einfacher und erleichtert die Vergleichbarkeit mit bereits existierenden Verfahren. Diese Standardnotationen und Vorgehensweisen zu erläutern ist eines der Hauptziele der ersten Kapitel dieses Seminars. 1.3.2 Zählen und Messen Von den in Abschnitt 1.3.1 aufgelisteten Werkzeugen, wie XML-Parsern, Unix-Tools, Visualisierungsprogrammen, wollen wir auf einige ausgewählte einen genaueren Blick werfen. Um wenigstens einfachste statistische Verfahren anwenden zu können, muß der Computerlinguist in der Lage sein, ein als plain text vorliegendes Korpus in Sätze und Wörter zu zerlegen und gewisse einfache Messungen durchzuführen. Frequenzliste Eine der am häufigsten verwendeten Darstellungen eines Korpus ist die Frequenzliste, das heißt die Liste der im Text vorkommenden Token, jedes assoziiert mit seiner Häufigkeit (Frequenz). Oft werden Frequenzlisten sortiert, entweder nach der Frequenz oder lexikographisch nach den Token. Abb. 1.1 zeigt den Anfang einer solchen Frequenzliste. Um eine sortierte Frequenzliste zur erzeugen, sind i.a. drei Schritte erforderlich: (1) Zerlegung des Korpus in Tokens (2) Zählen der Tokens und Erzeugen der Frequenzliste (3) Sortieren nach dem gewünschten Kriterium Exemplarisch wollen wir hier ein einfaches Verfahren zur Erzeugung einer Frequenzliste mit Hilfe von Perl betrachten. Für den ersten Schritt kommt ein Substitute-Befehl mit regulärem Ausdruck der Art host> perl -pe ’s/[\s\.,\!\?]+/\n/;’ < korpus.txt (auf der Unix-Kommandozeile) in Frage (wir nehmen an, die Korpusdatei heißt korpus.txt). Das Zählen läßt sich beispielsweise mit den Unixtools sort und uniq realisieren | sort | uniq -c 8 http://lse.umiacs.umd.edu:8080/ 9 http://www.webcorp.org.uk/ 10 http://tedlab.mit.edu/~dr/Tgrep2/ 11 http://www.lexically.net/wordsmith/ 12 KAPITEL 1. MOTIVATION UND GRUNDLAGEN 74257911 72379329 61771938 39164812 27074901 24651126 23096105 22145573 22033884 19994901 19910132 18410125 17428627 17159728 16001966 14022494 der und die in von den zu für mit des ist das im auf Die nicht Abbildung 1.1: Anfang einer nach Häufigkeit sortierten Frequenzliste eines deutschsprachigen Korpus. (zu verstehen als Fortsetzung der obigen Zeile). Eine anschließende Sortierung nach Frequenz wird etwa durch | sort -nr >frequenzliste.txt ermöglicht. Natürlich können unzählige andere Methoden (etwa der Aufbau einer Hashtabelle) oder andere Programmiersprachen verwendet werden. Typische Überlegungen, die man vor dem Erstellen einer Frequenzliste anstellen sollte, sind die folgenden: • In welchem Encoding liegt die Datei vor (z.B. ASCII, UTF-8 usw)? • Wie soll tokenisiert werden? Insbesondere welche Zeichen gelten (in welchen Kontexte) als Wort- bzw. Satztrenner? Wie sollen Zahlen, Datumsangaben, Geldbeträge, Uhrzeiten, Temperaturangaben usw. behandelt werden? • Wie soll mit Groß- und Kleinschreibung umgegangen werden? Sollen die großgeschriebenen Varianten separat gezählt werden oder nicht? Letztlich geht es v.a. um die Frage, was eigentlich ein Token ist. Der traditionelle Wortbegriff der abendländischen Linguistik erweist sich schnell als sehr schlecht definiert und für die meisten Zwecke ungeeignet. In eher agglutinierenden Sprachen (z.B. Türkisch, Ungarisch, Koreanisch) wird innerhalb eines “Tokens”, also morphologisch, Wesentliches von dem ausgedrückt, was in eher flektierenden Sprachen (z.B. Deutsch) mit zusätzlichen Tokens, also syntaktisch, ausgedrückt wird; in vielen asiatischen Sprachen (z.B. Chinesisch, Japanisch, Koreanisch) werden überhaupt keine Leerzeichen zur Markierung von Tokens verwendet. Tokenisierung, also auch die Erstellung einer guten Frequenzliste ist also ein nicht-triviales Problem, das im Grunde die Klärung vieler anderer, sehr grundlegender linguistischer Fragen voraussetzt. 1.3. GRUNDBEGRIFFE UND NOTATIONEN 13 Ein für die semantische Analyse besser geeigneter Begriff als Token oder Wort ist der der lexikalischen Einheit (der beispielsweise in Einführungskursen zur Semantik und Syntax besprochen wird). Was die oben erstellte Frequenzliste darstellt, ist freilich nur die Tokenfrequenz, also eine extrem grobe Annäherung an eine Frequenzliste lexikalischer Einheiten, wie man sie eigentlich gerne hätte. Trotzdem ist das die Art von Frequenzliste, wie wir sie die meiste Zeit verwenden werden, und auch die einzige, die man ohne größeren Aufwand jederzeit herstellen kann. n-Gramme Den Problemen, die bei der Erstellung und Benützung von Frequenzlisten für Einzeltokens auftreten (s. oben), also insbesondere denjenigen Problemen, die daher kommen, daß wir eben nur Wörter (im Sinne von “durch Leerzeichen getrennte Einheiten”), und nicht semantische Einheiten betrachten, versucht man z.T. dadurch zu begegnen, daß man Paare, Tripel oder noch längere Ketten von Wörtern extrahiert, und dann die statistischen Eigenschaften dieser Einheiten untersucht, also z.B. Frequenzlisten von Wortpaaren betrachtet. Längere Wortketten sind aber auch interessant, weil sie die Einzelwörter in Kontext enthalten, so daß sich an ihnen beispielsweise untersuchen läßt, mit welchen Präpositionen oder Quantoren bestimmte Wörter häufig oder selten zusammen vorkommen. Auch bei der statistischen Phrasen und Keyword-Extraktion spielen n-Gramme, also Kettern von n aufeinanderfolgenden Wörtern eine große Rolle. Wir werden später darauf zurückkommen. Definition 4 (n-Gramm, Unigramm, Bigramm, Trigramm, Tetragramm). Sei T = t1 , . . . ,tn ein tokenisierter Text, die ti also seine Tokens in der OriginalReihenfolge. Jede Folge von n ∈ N aufeinanderfolgenden Tokens ti , . . . ,ti+n−1 ist ein n-Gramm (aus T ). 1-Gramme heißen auch Unigramme, 2-Gramme Bigramme, 3-Gramme Trigramme und 4-Gramme Tetragramme. Normalerweise interessiert man sich für die Menge aller n-Gramme eines Textes (für jeweils gegebenes n, z.B. 2,3,4). Beispiel 2. Die Menge aller Bigramme aus dem Text (4) In the beginning, God created the heavens and the earth. ist {(In,the), (the,beginning), (beginning,God), (God,created), (created,the), (the,heavens), (heavens,and), (and,the), (the,earth)}. Anmerkungen • Manchmal fügt man dem Text noch ein erstes und letztes “leeres” Token hinzu, und erhält dann zwei weitere Bigramme, in o.g. Beispiel wären das: (∅,In) und (earth,∅). 14 KAPITEL 1. MOTIVATION UND GRUNDLAGEN • Die Frequenzlisten aus dem vorigen Abschnitt sind offensichtlich UnigrammFrequenzlisten. Auch Bigramm- und sonstige n-Gramm-Frequenzlisten werden häufig betrachtet und als Grundlage statistischer Untersuchungen benützt. • Was wir bisher als Token-Trenner betrachtet haben, wird mitunter auch selbst als Token angesehen, z.B. Interpunktionszeichen wie Komma. Dementsprechend würde man dann anstelle des Bigramms (beginning,God) zwei andere Bigramme in die Liste aufnehmen: (beginning,<comma>) und (comma,God). • Groß- und Kleinschreibung (und bei Nicht-Lateinischen Schriften auch andere Phänomene wie vorhandene/fehlende Diakritika, Vokalisierungszeichen, Hiragana/Kanji-Variationen u.ä.) müssen je nach Anwendung verschieden behandelt werden. In unserem Beispiel haben wir die Groß- und Kleinschreibung der Bigramme einfach wie im Original belassen; oft machen Normalisierungen jedoch Sinn. Visualisierung Da die Statistik damit befaßt ist, Beobachtungen in Texten zu machen und aus diesen stochastische Modelle abzuleiten, also insbesondere Wahrscheinlichkeitsverteilungen zu erschließen, kommt sie nicht umhin, die Häufigkeit des Auftretens gewisser Phänomene zu zählen, etwa im Sinne einer Frequenzliste von Uni- oder anderen n-Grammen. Um Häufigkeiten sehr vieler verschiedener Phänomene, z.B. die Häufigkeiten vieler tausend unterschiedlicher Wörter, so darzustellen, daß auch ein Mensch gewisse Regularitäten schnell erkennen kann, ist es oft angebracht, sie zu visualisieren anstatt in langen Tabellen widerzugeben. Solche Visualisierungen werden oft Diagramme genannt. Eine einfache Art, zu einer gegebenen Reihe von Zahlen ein Linien-Diagramm zu zeichnen, ist die Verwendung des Open-Source-Programmes gnuplot. gnuplot ist ein Funktionsplotter (man kann es auch verwenden, um Kurven zu Funktionsgleichungen zu zeichnen), der über enorm viele Optionen und eine umfangreiche Dokumentation verfügt; wir wollen das Programm aber nur beispielhaft für den simplen Zweck der Visualisierung einer kurzen Frequenzliste verwenden. Die Darstellung soll die Frequenzen der Wörter als Kurve darstellen, als hätte man die Tokens des Textes auf der X-Achse aufgereiht, und würde senkrecht über jedem seine Frequenz auftragen. gnuplot kann Datenpaare der Art (x, y) aus einer Datei einlesen, und zwar ein Paar pro Zeile, zuerst den X-Wert, dann ein Leerzeichen, dann den Y-Wert. Klammern und Kommata werden nicht benötigt. Sowohl X- als auch Y-Werte müssen Zahlen sein, wir können die Wörter also nicht so stehen lassen. Wir benutzen einen Perl-Aufruf auf der Kommandozeile, um die Frequenzliste entsprechend umzuformen: host> perl -pe ’s/^(.*?)\s.*/$. $1/;’ < frequenz.txt > gnuplot.txt Dann rufen wir gnuplot auf und erzeugen ein Liniendiagramm: host> gnuplot gnuplot> plot ’gnuplot.txt’ smooth unique Das plot-Kommando bewirkt das Einlesen der Datenpaare, das Skalieren des Koordinatensystems, und das Zeichnen der Kurve. smoothunique führt dazu, daß die einzelnen Datenpunkte durch Linien verbunden werden, so daß eine “glatte” Kurve entsteht. Ohne diese Option sieht man die als kleine Kreuze dargestellten diskreten Punkte. Ein Beispiel findet sich in Abb. 1.2. 15 1.3. GRUNDBEGRIFFE UND NOTATIONEN 8e+07 ’tt’ 7e+07 6e+07 5e+07 4e+07 3e+07 2e+07 1e+07 0 0 10 20 30 40 50 60 70 80 90 100 Abbildung 1.2: Visualisierung einer Frequenzliste. Zusammenfassen von Daten In der Statistik ist man oft bestrebt, große Menge von Beobachtungsdaten (z.B. Frequenzlisten) in Form von wenigen Zahlen zusammenzufassen, die die wesentlichen Eigenschaften der Daten widerspiegeln. Die einfachsten Möglichkeiten der Zusammenfassung sind Mittelwert, Standardabweichung und Median. Definition 5 (Mittelwert und Standardabweichung). Ist f1 , . . . , fn eine endliche Folge von Zahlen, so ist n m := 1X fi der Mittelwert der fi n i=1 n X 1 ( fi − m)2 die Varianz der fi n i=1 √ s := v die Standardabweichung der fi v := (1.1) (1.2) (1.3) Statt Mittelwert sagt man auch arithmetisches Mittel (im Unterschied zum geometrischen Mittel, das wir hier nicht betrachten wollen). Statt Standardabweichung sagt man auch Streuung. P (Die Bedeutung der -Schreibweise usw. wird in Abschnitt 1.3.3 erläutert, für den Fall, daß der Leser Schwierigkeiten damit hat.) Der Mittelwert drückt aus, welchen Wert eine zufällig gezogene Stichprobe aus 16 KAPITEL 1. MOTIVATION UND GRUNDLAGEN Abbildung 1.3: Gaußsche Glockenkurve für verschiedene Mittelwerte und Varianzen. Entnommen aus http://en.wikipedia.org/wiki/Normal_distribution. einer Reihe von Daten wahrscheinlich ungefähr hat. Sind beispielsweise alle Daten gleich, so hat der Mittelwert (wie man leicht nachrechnet) auch diesen selben Wert. Die Varianz ist selbst auch ein Mittelwert, und zwar gibt sie die durschnittliche quadratische Abweichung vom Mittelwert wieder; die Streuung ist die Wurzel aus der Varianz (um die Quadrierung der Abweichungen zu neutralisieren). Die Streuung gibt an, wie verläßlich der Mittelwert ist, d.h. wie gut wir uns darauf verlassen können, daß eine beliebig gezogene Stichprobe tatsächlich in der Nähe des Mittelwertes liegen wird. Je kleiner die Streuung, desto verläßlicher der Mittelwert. Beispiel 3. Das arithmetische Mittel über die Wortlänger deutscher Wörter, gemessen an den 50 Tausend häufigsten deutschen Wörtern, ist 8.45; d.h. wenn wir ein beliebiges Wort herausgreifen, erwarten wir, daß es wahrscheinlich ungefähr 8.45 Buchstaben lang ist. Die Streuung beträgt 4.17. Nimmt man die Normalverteilung der Einzelwerte an (zur genauen Klärung dieses Begriffs später), so kann man aus Mittelwert und Varianz die tatsächliche Verteilung der Werte rekonstruieren: Die meisten Werte liegen dann genau beim Mittelwert, etwas weniger von ihnen liegen in kleinen Abständen unterhalb und oberhalb von ihm, noch weniger haben noch größeren Abstand, usw. Zeichnet man eine Kurve nach denselben Prinzipien wie das Frequenzlisten-Diagramm in Abschnitt 1.3.2, so ergibt sich die Gaußsche Glockenkurve (Abb. 1.3). In diesem Fall hat man dann tatsächlich die gesamte Häufigkeitsverteilung der Einzelwerte in Form von zwei Zahlen dargestellt: Mittelwert und Varianz. Und dies ist auch der Grund, warum man diese beiden Werte häufig berechnet; sie geben einen groben Eindruck von der ungefähren Größenordnung und Verteilung der Werte in der gesamten Stichprobe. 1.3. GRUNDBEGRIFFE UND NOTATIONEN 17 Ein weiterer Wert, der in ähnlicher Weise nützlich ist und oft berechnet wird, ist der Median: Definition 6 (Median). Sei f1 , . . . , fn eine Folge von Zahlen, n ≥ 1. Der Median ist der Mittelwert derjenigen f j , für die gilt: n−1 n−1 |{ fi : fi < f j }| = oder |{ fi : fi > f j }| = 2 2 (Es gibt immer nur entweder ein solches f j (falls n ungerade ist), oder zwei (falls n gerade ist).) D.h. sortiert man die Datenmenge, so ist der Median derjenige Wert, der genau in der Mitte liegt: Die eine Hälfte der Daten ist kleiner als er, die andere größer. Bei Normalverteilung (und jeder symmetrischen Verteilung) ist der Median mit dem Mittelwert identisch. Beispiel 4. Der Median der Zahlenfolge (2, 4, 7) ist 4. Der Median von (2, 4, 7, 9) ist (4 + 7)/2 = 5.5. Der Median ist also auch eine Art “Mittelwert”, und er hat gewisse Vorteile gegenüber dem artithmetischen Mittel; insbesondere ist er “stabiler”, d.h. nicht so empfindlich wenn “outliers”, d.h. seltene, aber sehr stark vom Durchschnitt abweichende Werte in den Daten vorkommen. Etwa in der Datenreihe (1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 20) ist der Median gleich 1, was recht gut den “typischen” Wert wiedergibt, während das arithmetische Mittel bei etwa 2.73 liegt. 1.3.3 Mathematische Grundbegriffe und Notationen Auf Fragen zur Definition der grundlegendsten Begriffe “Menge”, “Zahl” u.ä. soll hier nicht eingegangen werden (siehe aber etwa das Skript zum Proseminar Mathematik I). Jedoch die wichtigsten Notationen sollen im folgenden wiederholt werden. Explizit angegebene Mengen schreiben wir mit geschweiften Klammern (Mengenklammern): M = {a, b, c}. Die Schreibweise M = {x : ϕ(x)} bedeutet “M ist die Menge aller Objekte mit der Eigenschaft ϕ”. Diese Objekte müssen keineswegs den Namen “x” haben; “x” ist nur eine Variable, die innerhalb der Definition verwendet wird, gebunden durch den Allquantor, der dieser Definition implizit ist: für alle Objekte, nennen wir sie x, gilt: falls ϕ(x) wahr ist, so ist x ∈ M. Es steht N = {1, 2, . . .} für die Menge der natürlichen Zahlen; Z = {. . . , −2, −1, 0, 1, 2, . . .} für die Menge der ganzen Zahlen; Q = {a/b : a, b ∈ Z} für die Menge der Brüche (rationalen Zahlen); 18 KAPITEL 1. MOTIVATION UND GRUNDLAGEN R für die Menge der reellen Zahlen, also Q zusammen mit den Grenzwerten aller konvergenten Folgen. Wir schreiben P(M) für die Potenzmenge von M, d.h. diejenige Menge, deren Elemente gerade die Teilmengen von M sind: P(M) := {x : x ⊆ M} Bezüglich der Mächtigkeit einer Menge M sagt man “M ist (höchstens) abzählbar”, wenn man den Elementen von M natürliche Zahlen zuordnen kann, und zwar so, daß jede natürliche Zahl nur einmal benutzt wird, aber jedes Element in M einer Zahl zugeordnet ist. N, Z und Q sind abzählbar, R ist es nicht. Gemäß dem Satz von Cantor gilt, daß die Potenzmenge einer abzählbaren, aber unendlichen Menge nicht mehr abzählbar ist. P(N) ist also beispielsweise nicht mehr abzählbar. Solche Mengen heißen auch überabzählbar. Für die Mächtigkeit einer Menge M schreiben wir |M|. Ist M endlich, so ist |M| gerade die Anzahl seiner Elemente. Ist M abzählbar unendlich, so gilt also |M| = |N|. Überabzählbare “Unendlichkeiten” lassen sich auch noch weiter unterscheiden, das wird aber für unsere Zwecke nicht notwendig sein. Sind A1 , A2 , . . . Mengen, so schreiben wir A1 × A2 × . . . für ihr kartesisches Produkt, d.h. für die Menge der Tupel, die sich aus ihren Elementen zusammensetzen lassen. Wir schreiben A1 ∪ A2 ∪ . . . für ihre Vereinigung und A1 ∩ A2 ∩ . . . für ihren Durchschnitt. Zwei Mengen A und B heißen disjunkt, falls sie keine gemeinsamen Elemente besitzen, d.h. falls ihr Durchschnitt leer ist: A ∩ B = ∅. Betrachtet man mehr als zwei Mengen, so spricht man von paarweise disjunkt, falls für je zwei von ihnen (also für alle denkbaren Paare aus diesen Mengen) Disjunktheit gilt. Hat man eine Menge M und eine Teilmenge A ⊆ M, so schreibt man AC für die Komplementmenge von A (in M), d.h. AC := M − A (es findet sich auch die Schreibweise Ā in der Literatur). Beachte, daß diese Schreibweise nicht explizit ausdrückt, in welcher Menge das Komplement betrachtet wird, welche Menge also die Rolle von M spielt. Das muß dann jeweils aus dem Zusammenhang klar gemacht werden. Betrachtet man sehr viele beteiligte Mengen Ai , so empfiehlt sich für Vereinigung, Schnitt usw. die kürzere Schreibweise: [ Ai := A1 ∪ A2 ∪ . . . i≥1 \ Ai := A1 ∩ A2 ∩ . . . Ai := A1 × A2 × . . . i≥1 Y i≥1 In diesem Zusammenhang meint man mit “i ≥ 1” (unter dem großen Symbol): “der Zähler i durchläuft alle natürlichen (!) Zahlen ab 1.” Gelegentlich soll der Zähler andere Wertemengen durchlaufen; allgemein schreibt man oft [ Ai i∈I 19 1.3. GRUNDBEGRIFFE UND NOTATIONEN um anzudeuten, daß eine gewisse “Indexmenge” I die möglichen Werte des Zählers enthält. Man unterstellt implizit, daß eine lineare Ordnung auf diesen Werten existiert, so daß auch die Reihenfolge des Durchlaufens festgelegt ist (sofern die Reihenfolge nicht ohnehin gleichgültig ist, wie das in o.g. Beispielen ja der Fall ist). Ähnlich benutzt man zur kürzeren Schreibweise von Summen und Produkten: n X i=1 n Y ai := a1 + a2 + . . . + an ai := a1 · a2 · . . . · an i=1 wobei in diesem Beispiel die Indexmenge I := {1, . . . , n} ist. Auch für solchen Summen und Produkte kommen u.U. unendliche Indexmengen in Betracht; im Falle der Summe spricht man dann von einer unendlichen Reihe. Viele solche Reihen haben keinen Wert innerhalb der reellen Zahlen, sondern werden sozusagen immer größer, z.B. ∞ X i i=0 Andere hingegen konvergieren gegen einen gewissen Grenzwert, d.h. ihr Abstand zu diesem Wert wird immer geringer, z.B. ∞ X ri i=0 was gegen 1/(1 − r) konvergiert, falls r < 1 (!) (was wir hier nicht beweisen wollen). Man schreibt dann ! n ∞ n X X X 1 1 i i n→∞ 1 oder lim r = oder ri = r −→ n→∞ 1−r 1−r 1−r i=0 i=0 i=0 Solche unendlichen Summen verhalten sich nicht in allen Fällen wie gewöhnliche Summen. Beispielsweise gilt nicht unbedingt Kommutativität, d.h. wenn man die Reihenfolge der Summanden an unendlichen vielen Stellen ändert, kann sich auch der Wert (d.h. der Grenzwert) ändern. Bei jeder in einer Rechnung auftretenden unendlichen Reihe muß man sich daher überlegen, ob sie konvergiert und wenn ja gegen welchen Grenzwert – und dann darf man sie durch ihren Grenzwert ersetzen. Wir werden unendlichen Reihen nur gelegentlich begegnen. Induktionsbeweis Ein Beweisverfahren, das in Zusammenhang mit stochastischen Aussagen häufig vorkommt, und insbesondere auch in der computerlinguistischen Literatur oft verwendet wird, ist der Induktionsbeweis oder Beweis durch (vollständige) Induktion (über die natürlichen Zahlen). (Er ist eng verwandt mit dem Beweis durch Induktion über den Aufbau, der z.B. in der Prädikatenlogik eine Rolle spielt, wenn Aussagen bewiesen werden sollen, die für alle Formeln gelten; das wollen wir hier aber nicht betrachten.) Dieses Beweisverfahren ist immer dann sinnvoll, wenn es darum geht zu zeigen, daß alle natürlichen Zahlen größer gleich einem gewissen n0 eine gewisse Eigenschaft ϕ besitzen, daß also gilt ϕ(n) für alle n ∈ N mit n ≥ n0 20 KAPITEL 1. MOTIVATION UND GRUNDLAGEN Man führt den Beweis durch, indem man zunächst ϕ(n0 ) beweist, und dann die Aussage: Falls ϕ(n), dann ϕ(n + 1) für alle n ∈ N Dann ist man fertig, denn dann hat man ϕ(n0 ) bewiesen, und mit dem zweiten Teil folgen ϕ(n0 + 1), ϕ(n0 + 2) usw. Beispiel 5. Wir wollen beweisen, daß n X i=1 i= n(n + 1) für alle n ∈ N, n ≥ 1 2 Wir beweisen also zunächst durch Rechnung, daß es für n = 1 gilt: 1 X i=1= i=1 1·2 2 Jetzt müssen wir die kompliziertere Aussage beweisen, daß Falls n X i=1 i= n+1 X n(n + 1) (n + 1)(n + 2) , dann i= für alle n ∈ N 2 2 i=1 Das entspricht gerade dem Falls ϕ(n), dann ϕ(n + 1) für alle n ∈ N Wir machen also die Annahme ϕ(n) und versuchen mit Hilfe dieser Annahme ϕ(n + 1) zu beweisen. n bleibt dabei als Variable stehen. Die genannte Annahme nennt man Induktionsvoraussetzung, den zu führenden Beweis Induktionsschritt. Hierzu rechnen wir: ! n+1 n X X n(n + 1) 2(n + 1) (∗) n(n + 1) i= i + (n + 1) = + (n + 1) = + = 2 2 2 i=1 i=1 = n(n + 1) + 2(n + 1) (n + 2)(n + 1) = 2 2 Bei (∗) haben wir die Induktionsvoraussetzung benutzt, über die dort vorliegende Gleichung sagt man auch “sie gilt nach Induktion”. Analog kann man sich den Beweis als ein rekursives Programm vorstellen, daß versucht eine Funktion ϕ(n + 1) auszuführen und hierzu rekursiv die Funktion ϕ(n) aufruft, und wieder rekursiv ϕ(n − 1) usw., bis ϕ(1), was explizit (im ersten Schritt des Beweises) angegeben worden war. 1.3.4 Wahrscheinlichkeitsräume Wahrscheinlichkeitsräume sind die formalen Repräsentationen von stochastischen Modellen, d.h. es sind mathematische Objekte, die Information darüber enthalten, mit welcher Sicherheit (Wahrscheinlichkeit) man glaubt, daß gewisse Ereignisse eintreten oder gewisse Sachverhalte gegeben sind. Ein Wahrscheinlichkeitsraum hat drei Teile: 1.3. GRUNDBEGRIFFE UND NOTATIONEN 21 Ergebnismenge Ω: Die Menge von Sachverhalten, die sich unmittelbar beobachten lassen. Ereignismenge F: Die Menge von verallgemeinerten Ergebnissen, deren Wahrscheinlichkeit man später berechnen können möchte. Wahrscheinlichkeitsmaß P: Eine Funktion, die jedem verallgemeinerten Ergebnis (also jedem Element der Ereignismenge) eine Zahl zwischen 0 und 1 zuordnet, die man als Wahrscheinlichkeit des Eintretens dieses Ereignisses betrachtet. Beispiel 6. Geht es etwa um das Werfen eines gewöhnlichen, sechsseitigen Würfels, so wäre {1, 2, 3, 4, 5, 6} eine vernünftige Darstellung der Ergebnismenge. Dagegen die Ereignismenge sollte auch solche verallgemeinerten Ereignisse wie “es fällt eine gerade Zahl” oder “es fällt eine Zahl kleiner als 3” enthalten. Das Wahrscheinlichkeitsmaß sollte sinnvollerweise allen sechs direkt beobachtbaren Ereignissen die gleiche Wahrscheinlichkeit (1/6) zuordnen, dagegen den verallgemeinerten Ereignissen entsprechend umso höhere Wahrscheinlichkeit, je allgemeiner sie sind. Etwa das Ereignis “eine gerade Zahl fällt” sollte, der Intuition entsprechend, die Wahrscheinlichkeit 1/2 haben. Die verallgemeinerten Ereignisse werden stets als Mengen von Ergebnissen beschrieben; etwa das Ereignis “es fällt eine gerade Zahl” entspricht ja in der Tat der Menge der Ergebnisse {2, 4, 6}. Ereignisse sind daher immer Teilmengen von Ω – es müssen aber nicht notwendig immer alle möglichen Teilmengen auch als relevante Ereignisse betrachtet werden. Daher wird die Ereignismenge bei der expliziten Angabe des Wahrscheinlichkeitsraums eigens erwähnt, sie besteht immer aus Teilmengen von Ω: F ⊆ P(Ω). Definition 7 (Wahrscheinlichkeitsraum). Sei Ω eine Menge, F ⊆ P(Ω) und P : F → [0, 1] eine Funktion von F in das reelle Intervall [0, 1]. (Ω, F, P) ist ein Wahrscheinlichkeitsraum, falls gilt: (a) Ω ∈ F (b) für alle A ∈ F gilt AC := Ω − A ∈ F (c) für je abzählbar viele A1 , A2 , . . . ∈ F gilt: [ Ai ∈ F i≥1 (d) (Normierung) P(Ω) = 1 (e) (σ-Additivität) Für je abzählbar viele, paarweise disjunkte A1 , A2 , . . . ∈ F gilt ! [ X P Ai = P(Ai ) i≥1 i≥1 (Ω, F) ist dann ein Ereignisraum und F eine Ereignis-σ-Algebra (und hierfür sind die Bedingungen (d) und (e) natürlich nicht erforderlich). 22 KAPITEL 1. MOTIVATION UND GRUNDLAGEN Wir brauchen uns nicht mit allen Konsequenzen dieser Definition im einzelnen beschäftigen. Jedoch sollte man in der Lage sein, gegebene Situationen in diese Formalisierung zu übertragen; eine solche Übertragung ist die Voraussetzung für die Anwendbarkeit stochastischer Methoden auf die Situation. Beispiel 7. In gewissen Zusammenhängen betrachtet man das Zustandekommen eines (natürlich-sprachlichen) Dokumentes als einen zufälligen Vorgang, d.h. als ein Geschehen, das keinen näher bekannten Gesetzmäßigkeiten unterliegt. Das ist natürlich eine drastische Vereinfachung, da man sehr wohl eine Menge darüber weiß, nach welchen Regeln ein Text aufgebaut wird. Derartige Vereinfachungen können aber trotzdem nützlich sein, entweder weil man an bestimmten Einzelheiten gar nicht interessiert ist, oder weil ein vereinfachtes Modell eine schnellere oder speicherplatz-sparsamere Implementierung erlaubt. Eine der einfachsten stochastischen Modellierungen von Dokumenten ist daher die folgende. Sei Ω die Menge aller Wörter einer Sprache (wir unterstellen, daß diese Menge in eindeutiger Weise darstellbar ist. Das ist zwar bereits nicht ganz akurat, da neue Wörter gebildet, Fremdwörter und Eigennamen importiert werden können usw., aber diese Ungenauigkeit nehmen wir vorläufig in Kauf). Ein direkt beobachtbares Ergebnis ist daher: “ein gewisses Wort ω ∈ Ω tritt in einem Dokument auf”. Sind alle Wörter gleich wahrscheinlich (was eine extrem schlechte Annäherung ist), so ist die Wahrscheinlichkeit für das Auftreten eines Wortes P({ω}) = 1/|Ω| Beachte, daß wir nicht P(ω) schreiben können, denn P ist nur definiert auf der Ereignisσ-Algebra F, die Teilmengen von Ω enthält. Wir müssen das Einzelereignis daher als eine (ein-elementige) Teilmenge darstellen. Wir können aber auch verallgemeinerte Ereignisse betrachten; liegt beispielsweise eine Klassifikation der Wörter in Verben, Adjektive, Nomen usw. vor, so könnte man die Wahrscheinlichkeit X P(“ein Nomen kommt vor”) = P({ω ∈ Ω : ω ist Nomen}) = P({ω}) ω∈{ω∈Ω:ω ist Nomen} betrachten. Die letzte Gleichung gilt nach Def. 7e und weil die Einzelereignisse {ω}, über die hier summiert wird, natürlich paarweise disjunkt sind. Tatsächlich können wir für jede Teilmenge von Ω auf diese Weise eine Wahrscheinlichkeit berechnen, so daß wir bedenkenlos F := P(Ω) setzen können und dann definieren: Sei A ∈ F. X |A| . P(A) := P({ω}) = |Ω| ω∈A Damit sind alle drei Teile des Wahrscheinlichkeitsraums, Ω, F und P, definiert. Das ist allerdings nur deswegen so leicht gefallen, weil Ω endlich ist und wir als Wahrscheinlichkeitsmaß die Gleichverteilung angenommen haben. Im allgemeinen ist die präzise Angabe des Wahrscheinlichkeitsraumes komplizierter. Im übrigen müssen wir noch zeigen, daß die fünf Bedingungen von Def. 7 erfüllt sind: (a) Gilt wegen F = P(Ω). (b) gilt aus demselben Grund. (c) ebenfalls. (d) ist der 23 1.3. GRUNDBEGRIFFE UND NOTATIONEN Fall, denn P(Ω) = |Ω|/|Ω| = 1, und für (e) seien A1 , . . . paarweise disjunkte Teilmengen von Ω, dann gilt wegen der paarweisen Disjunktheit [ X |Ai | Ai = i≥1 i≥1 woraus die geforderte Bedingung folgt. Welches F muß man nehmen? In obigem Beispiel konnten wir F = P(Ω) wählen, und das scheint ja auch das beste zu sein, denn dann ist man später sicher, daß man für jedes nur denkbare Ereignis, also für jede nur denkbare Teilmenge von Ω, eine Wahrscheinlichkeit angeben kann. Andererseits verpflichtet einen diese Definition auch dazu, P so zu definieren, daß es tatsächlich für jede Teilmenge bestimmt ist und die Bedingung von Def. 7 erfüllt. Ist Ω überabzählbar, so ist das i.a. nicht mehr machbar (s. [Georgii, 2004], Satz 1.5). Vorläufig werden wir allerdings nur mit endlichen oder höchstens abzählbaren Ergebnismengen zu tun haben, und hier muß man automatisch F = P(Ω) wählen, falls man zumindest alle Einzelereignisse {ω} in F haben möchte (und das will man immer). Denn sei A ⊆ Ω eine beliebige Teilmenge, dann läßt sich A darstellen als die disjunkte Vereinigung [ A= {a} a∈A weswegen A ∈ F gelten muß, andernfalls wären die Bedingungen von Def. 7 verletzt. Da also jede beliebige Teilmenge in F liegen muß, ist F = P(Ω). Die Frage welches P muß man nehmen ist i.a. schwieriger zu beantworten, und in der Tat in vielfacher Hinsicht die Hauptbeschäftigung der Statistik: Wie muß man das Wahrscheinlichkeitsmaß P definieren, damit es eine gegebene Menge von Beobachtungen möglichst gut widergibt, d.h. möglichst gut in der Lage ist, sie vorauszusagen? Jedoch gibt es eine Reihe von Standardmodellen, die in Abschnitt 1.4 besprochen werden. Abschließend noch die Definition eines Begriffes, der für die Darstellung komplizierter Wahrscheinlichkeitsmaße nützlich ist, die der sog. Zähldichte. Definition 8 (Zähldichte). Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, Ω höchstens abzählbar und ρ : Ω → [0, 1] eine Funktion. ρ ist eine Zähldichte (zu P), falls gilt: ρ(ω) = P({ω}) für alle ω ∈ Ω. Eine Zähldichte ist also gewissermaßen die Reduktion des Wahrscheinlichkeitsmaßes auf die Einzelereignisse. Kennt man ρ und (Ω, F), so ist P eindeutig bestimmt, denn sei A ∈ F, dann ist X X P(A) = P({ω}) = ρ(ω) (1.4) ω∈A ω∈A 24 KAPITEL 1. MOTIVATION UND GRUNDLAGEN wegen Def. 7e. 1.4 1.4.1 Standardmodelle Gleichverteilung Sind alle Einzelereignisse, d.h. alle ein-elementigen Teilmengen von Ω, gleich wahrscheinlich, so spricht man von Gleichverteilung. In Bsp. 7 hatten wir die Gleichverteilung von Wörtern angenommen; jedoch ist eine solche Annahme nicht besonders realistisch. Und in der Tat spielt die Gleichverteilung für die Computerlinguistik praktisch keine Rolle. Allerdings zum Einüben von Schreibweisen und um die einfachsten Zusammenhänge von Ω, F und P, sowie einfache Rechnungen durchzuführen, ist sie als Beispiel gut geeignet. Genauer definiert man: Definition 9 (Gleichverteilung). Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, Ω höchstens abzählbar. P ist die Gleichverteilung auf Ω, in Zeichen P = UΩ , falls für alle A ∈ F gilt P(A) = |A|/|Ω| Natürlich ist ρ(ω) := 1/|Ω| die Zähldichte der Gleichverteilung. 1.4.2 Urnenmodell: Ziehen mit Zurücklegen Ein in der Stochastik klassisches Modell für diskrete Ungleichverteilung ist die Urne, also ein Behälter, in dem sich Objekte verschiedener Art befinden, z.B. Kugeln verschiedener Farben, aber nicht von allen Farben gleich viele. Zunächst einmal betrachten wir einen Ereignisraum mit Ω als der Menge der Kugeln und wie immer F = P{Ω}. Zieht man einmal aus der Urne, so ist die Wahrscheinlichkeit, eine bestimmte Kugel ω zu ziehen gleich groß für alle Kugeln, es gilt also P = UΩ . Hat man Farben F = { f1 , . . . , fm } und von jeder Farbe P fi seien N fi Kugeln in der Urne, dann befinden sich darin insgesamt offenbar N = f ∈F N f Kugeln. Klar ist dann die Wahrscheinlichkeit, eine Kugel der Farbe f zu ziehen, gleich P({ω ∈ Ω : ω hat Farbe f }) = Nf n Man interessiert sich nun für das n-malige Ziehen von je einer Kugel, und man nimmt an, daß die gezogene Kugel sofort wieder zurückgelegt wird, bevor man die nächste zieht (“Ziehen mit Zurücklegen”), so daß sich also an den Verhältnissen in der Urne nichts ändert. Um das n-malige Ziehen mit Zurücklegen zu beschreiben, benötigt man natürlich ein neues Modell, (Ω0 , F0 , P0 ). Und zwar ist Ω0 = Ωn , F0 = P(Ω0 ) (Dabei steht Ωn für das n-fache kartesische Produkt von Ω mit sich selbst.) Es ist also jedes beobachtbare Ergebnis ω0 ∈ Ω0 eine Folge von n Kugeln. Wiederum ist P0 = UΩ0 , 25 1.4. STANDARDMODELLE denn die Wahrscheinlichkeit, eine bestimmte Folge von Kugeln zu ziehen, ist für alle Folgen gleich. D.h. 1 P0 ({ω0 = (ω01 , . . . , ω0n )}) = |Ω|n Man interessiert sich nun dafür, mit welcher Wahrscheinlichkeit eine bestimmte Abfolge von Farben auftritt, z.B. ( f3 , f1 , f1 ). Betrachte hierzu Ff als die Menge der Kugeln ω mit Farbe f ∈ F. Angenommen, (h1 , . . . , hn ) ist die Abfolge von Farben (d.h. alle hi ∈ F). Gesucht ist also |A| P({ω0 = (ω01 , . . . , ω0n ) : ω0j ∈ Fh j }) = n |Ω| {z } | =:A Aber wie groß ist |A|? Mit anderen Worten, wie viele Möglichkeiten gibt es, eine Folge aus n Kugeln so zu konstruieren, daß die erste aus Fh1 ist, die zweite aus Fh2 , usw.? Ausflug in die endliche Kombinatorik I Derartige Fragen bewegen die Kombinatorik. Und die antwortet hier mit einer einfachen Überlegung: Angenommen, wir wollen eine Folge der Länger n wie oben beschrieben konstruieren, beginnend beim ersten Glied. Da haben wir zunächst |Fh1 | = Nh1 viele Möglichkeiten, die erste Kugel zu wählen. Bei der zweiten Kugel gibt es Nh2 viele Möglichkeiten. Das macht insgesamt bereits Nh1 · Nh2 viele, da ich ja jede erste mit jeder zweiten kombinieren kann. Und so “multipliziert sich” das weiter, bis man insgesamt n Y Nh1 · Nh2 · . . . · Nhn = Nhi i=1 Möglichkeiten erhält. Somit ist die Wahrscheinlichkeit, eine solche Farbfolge zu ziehen Qn Nh P(A) = i=1 n i |O| Beispiel 8. Angenommen, wir haben 10 Kugeln, davon 3 grün, 2 blau und 5 gelb. Wie wahrscheinlich ist es, beim Ziehen mit Zurücklegen die Abfolge “grün-gelb-grün” zu erzielen? Nach obiger Rechnung gilt: P({ω0 ∈ Ω0 : ω01 , ω03 ∈ Fgrün , ω2 ∈ Fgelb }) = 3·5·3 = 0.045 103 also 4.5%. Man interessiert sich nun weiterhin dafür, mit welcher Wahrscheinlichkeit eine Kugel der Farbe f ∈ F k-mal gezogen wird, bei insgesamt n nacheinander gezogenen (und zurückgelegten) Kugeln (für ein vorgegebenes k ≤ n). Das ist natürlich P0 ({ω0 ∈ Ω0 : die Folge ω0 enthält genau k Kugeln der Farbe f }) = = |{ω0 ∈ Ω0 : die Folge ω0 enthält genau k Kugeln der Farbe f }| |Ω|n 26 KAPITEL 1. MOTIVATION UND GRUNDLAGEN Aber wie groß ist die Menge auf dem Zähler dieses Bruches? D.h. wie viele Möglichkeiten gibt es, eine Folge aus n Elementen so zu konstruieren, daß an k vielen Stellen ein Element eines bestimmten Typs, also einer bestimmten Farbe, vorkommt? Hierzu noch ein Ausflug in die endliche Kombinatorik II Wiederum hilft eine einfache Überlegung: Angenommen, wir haben bereits eine solche Folge, sagen wir diejenige, die mit k Kugeln der Farbe f beginnt, und dann noch n − k Kugeln anderer Farben hat. Wenn wir nun alle denkbaren Vertauschungen von Kugeln vornehmen, bekommen wir nach jeder Vertauschung wieder eine andere Folge, die aber auch wieder k Kugeln der Farbe f , und n − k Kugeln anderer Farben enthält, denn wir haben ja nur die Reihenfolge vertauscht, nichts hinzugefügt oder entfernt. In der Tat können wir durch bilden aller “Anagramme” der Folge alle die Varianten erzeugen, die uns interessieren. Aber wie viele Anagramme gibt es? Stellen wir uns vor, wir hätten alle n Kugeln der Folge auf einen Haufen geworfen. Jetzt wollen wir ein “beliebiges” Anagramm konstruieren. Für die erste Kugel ziehen wir einmal aus dem Haufen, da gibt es n viele Möglichkeiten. Um die zweite Kugel zu wählen, gibt es nur noch n − 1 viele, dann n − 2, usw. Wir erhalten also n · (n − 1) · (n − 2) · . . . · 1 = n! viele Möglichkeiten, ein Anagramm aus den n Kugeln der Folge zu bilden. Leider sind da jetzt viele Duplikate dabei, also viele Anagramme, die gleich aussehen. Das passiert immer dann, wenn die eine Folge sich von der anderen nur dadurch unterscheidet, daß zwei Kugeln derselben Farbe f , oder zwei Kugeln, die beide nicht die Farbe f haben, vertauscht wurden. Nun, wie viele Möglichkeiten gibt es, Kugeln der Farbe f miteinander zu vertauschen? Nach derselben Überlegung gibt es k! viele Möglichkeiten, denn wir haben ja insgesamt k Kugeln der Farbe f in unserer Folge. Ebenso gibt es (n − k)! viele Möglichkeiten, Kugeln anderer Farben miteinander zu vertauschen. D.h. wir haben letztlich n n! =: k!(n − k)! k viele Anagramme, ohne Duplikate, d.h. ohne daß zwei Anagramme sich nur durch Vertauschen f -farbiger oder nicht- f -farbiger Kugeln untereinander unterscheiden. Diese Zahl nennt man den Binomialkoeffizienten, und man sagt “n aus k” oder “k über n”. Zurück zur Wahrscheinlichkeitsberechnung. Wir wissen nun, wie viele Farbfolgen es gibt, die an genau k Stellen die Farbe f haben. Jede dieser Folgen hat die gleiche Wahrscheinlichkeit Nf N − Nf · |Ω|k |Ω|n−k nach der vorigen Überlegung. Also ist die Gesamtwahrscheinlichkeit P0 ({ω0 ∈ Ω0 : die Folge ω0 enthält genau k Kugeln der Farbe f }) = n Nf N − Nf n Nf k = · = p (1 − p)n−k k |Ω|k |Ω|n−k k |Ω|k mit p := N f /|Ω|n die Wahrscheinlichkeit für eine Kugel der Farbe f . Es ist nicht wichtig, sich diese Formel zu merken; aber das Prinzip, nach dem wir die “Anagramme” 1.5. FREQUENZLISTEN ALS WAHRSCHEINLICHKEITSRÄUME 27 einer Folge gebildet haben, und die Einsicht, daß es dafür n!/(k!(n − k)!) Möglichkeiten gibt, sollte man sich ein paar mal durch den Kopf gehen lassen. Siehe auch die dazugehörige Übungsaufgabe (alle Anagramme einer Buchstabenfolge). Ohne formale Definition noch zwei Begriffe: Das zuerst betrachtete Wahrscheinlichkeitsmaß (für eine bestimmte Farbfolge) nennt man Produktmaß, weil es ja durch Multiplikation der farbspezifischen Wahrscheinlichkeiten entsteht. Letztere kann man als Zähldichte auf einem Ω auffassen, das gerade die Menge der möglichen Farben ist (für diese Sichtweise s. [Georgii, 2004], Abschnitt 2.2.1). Das anschließend betrachtete Wahrscheinlichkeitsmaß ist die Binomialverteilung, die in der Stochastik enorme Bedeutung hat. Summen von Werten der Binomialverteilungen b X n k p (1 − p)n−k k k=a die sehr umständlich auszurechnen sind (siehe Übungsaufgabe) kann man durch die Normalverteilung annähern, worauf wir in einem späteren Kapitel nocheinmal kurz zurückkommen werden. 1.4.3 Urnenmodell: Ziehen ohne Zurücklegen Legt man die gezogenen Kugeln nicht mehr in die Urne zurück, so ändert sich das Wahrscheinlichkeitsmaß nach jedem Zug. Das kann man am besten durch die sog. bedingte Wahrscheinlichkeit ausdrücken, auf die wir später sehr genau eingehen werden, und die eine weit über die Urnenmodelle hinausgehende Bedeutung, auch für computerlinguistische Anwendungen, hat. Für einfache Fälle kommt man allerdings mit einer “Variante” der oben dargstellten Binomialverteilung aus, der sog. hypergeometrischen Verteilung. Das ist hier nur der Vollständigkeit halber gesagt, für die Computerlinguistik ist es eher nebensächlich. Für Interessierte finden sich Erklärung und Definition in [Georgii, 2004], Abschnitt 2.2.2. 1.5 Frequenzlisten als Wahrscheinlichkeitsräume In Abschnitt 1.3.2 haben wir Frequenzlisten und ihre Erzeugung betrachtet, und wir werden noch sehr häufig darauf zurückkommen. Inwiefern sind auch sie Wahrscheinlichkeitsmaße (auf einem geeignet definierten Wahrscheinlichkeitsraum)? Beschränken wir uns für diese Betrachtung auf den Fall einer Unigramm-Frequenzliste, erstellt aus einem Korpus T . Dann können wir setzen Ω := {w : w ist Unigramm, das in T vorkommt} d.h. als mögliche Einzelereignisse betrachten wir die einzelnen Unigramme. Da Ω endlich ist, können wir bedenkenlos F := P(Ω) setzen, damit sind die ersten drei Bedingungen aus Def. 7 erfüllt. Um nun P zu definieren, wird es das einfachste sein, die Zähldichte P({w}) für jedes w ∈ Ω festzulegen. Schreiben wir f (w) für die Frequenz des Unigramms w, so erscheint folgende Definition sinnvoll: f (w) v∈Ω f (v) P({w}) := P denn damit sind die beiden verbleibenden Bedingungen erfüllt: 28 KAPITEL 1. MOTIVATION UND GRUNDLAGEN • Es ist X X P({w}) = w∈Ω X f (w) 1 =P f (w) = 1. v∈Ω f (v) v∈Ω f (v) P w∈Ω w∈Ω wegen Distributivität. • Und seien A1 , A2 , . . . höchstens abzählbar viele Ereignisse aus F und paarweise disjunkt, dann gilt für das aus obiger Zähldichte definierte Wahrscheinlichkeitsmaß (siehe auch Gleichung 1.4 auf Seite 23): ! [ X X Ai = P(Ai ) P P({w}) = i≥1 S w∈ i≥1 Ai i≥1 Diese Definition des Wahrscheinlichkeitsmaßes hat aber das Problem, daß sie nur den Wörtern, die in T vorkamen, nachträglich eine Wahrscheinlichkeit zuweist. Will man diese geschätzte Wahrscheinlichkeit auf andere Korpora anwenden (z.B. weil man für einen unbekannten Text T 0 schätzen will, wie spezifisch ein bestimmtes Wort w für ihn ist, indem man die Häufigkeit von w in T 0 vergleicht mit der Wahrscheinlichkeit des Auftretens von w0 , die aus dem ursprünglichen Korpus T vorausgesagt wurde), dann kann man das nur für Wörter tun, die im ursprünglichen Korpus vorkamen; alle anderen haben Wahrscheinlichkeit Null, denn wenn ein w nicht in T vorkommt, ist f (w) = 0. Man verwendet daher oft ein korrigiertes Wahrscheinlichkeitsmaß, bei dem man eine (mehr oder weniger subjektive) Schätzung der Zahl der zufällig nicht in T vorkommenden Wörter vornimmt und diesen Wörtern eine minimale Wahrscheinlichkeit zuordnet. Als Inspiration für diese Maßnahme mag der Verlauf der Frequenzkurve (z.B. Abb. 1.1, S. 12) dienen: Offenbar gibt es nur relativ wenige häufige Wörter, aber extrem viele Wörter, die nur einmal vorkommen (“Hapax legomena” 12 ). Man kann sich also leicht überlegen, daß etwa bei einer “Verlängerung” des Korpus (z.B. in dem man T 0 an T anhängt), v.a. Wörter hinzukommen werden, die in T gar nicht und in T 0 einmal vorkommen. Empirisch kann man abschätzen, wie viele das ungefähr sind (in Abhängigkeit vom Größenunterschied zwischen T und T 0 ). Diese “vermutete Anzahl unbekannter Wörter” kommt in folgender Definition als Variable K vor: Satz 1 (Frequenzliste als Wahrscheinlichkeitsmaß). Sei T ein Textkorpus, Ω die Menge der in T vorkommenden P Unigramme und f : Ω → N die Frequenzliste dieser Wörter und K ∈ N. Sei N := w∈Ω f (w) Es ist mit P({w}) := f (w) + K N + K · |Ω| (Ω, F, P) ein Wahrscheinlichkeitsraum. Beweis. Die Bedingungen aus Def. 7 sind alle erfüllt (s. obige Rechnungen, der zusätzliche Summand K stellt kein Problem dar, wie der Leser durch Nachrechnen leicht verifiziert). Die annäherungsweise Berücksichtigung von unbekannten Wörtern wird auch als Smoothing bezeichnet. Wir werden noch öfter darauf zurückkommen. Eine recht ausführliche Diskussion verschiedener Smoothing-Methoden finden sich in [Manning & Schütze, 2004] (Abschnitt 6.2), dort allerdings bereits bezogen auf die komplizierteren n-GrammModelle; diesen Fall diskutieren wir in eine späteren Abschnitt genauer. 12 Singular “Hapax legomenon” 29 1.6. DIE ZIPFVERTEILUNG 1.6 Die Zipfverteilung Die charakteristische Verteilung von Wörtern einer Sprache, die wir etwa in der Frequenzliste von Abb. 1.1 (S. 12) beobachten konnten, entspricht einem Muster, das an vielen Stellen der Natur auftritt und explizit erstmals von George Kingsley Zipf 1949 beschrieben wurde; man faßt solche Verteilungen daher unter der Bezeichnung Zipfsches Gesetz zusammen. Das Zipfsche Gesetz besagt, daß in vielen Zusammenhängen, in denen gewisse Phänomene ungleich verteilt sind, einige wenige Ausprägungen existieren, die extrem häufig sind, aber sehr viele, die extrem selten sind. Etwa im Falle der natürlichsprachlichen Frequenzliste haben wir ja in der Tat gesehen, daß es sehr wenige Wörter gibt, die extrem häufig vorkommen (v.a. geschlossene Wortklassen wie Konjunktionen, Präpositionen und Pronomen), aber eine riesige Menge von extrem seltenen Wörtern. Ähnlich ist es beispielsweise mit Webseiten (einige wenige werden extrem häufig besucht bzw. ein Link auf sie gesetzte, eine große Masse nur ein einziges Mal), oder mit der Größe von Städten (wenige sind gigantisch, eine breite Masse von ihnen extrem klein). Formal kann man das Zipfsche Gesetz etwa so beschreiben: Sei (a1 , . . . , an ) eine nach Häufigkeit sortierte Liste von Phänomenen (z.B. Wörtern) und f (ai ) die Häufigkeit jedes Phänomens. Dann gilt ungefähr: f (ai ) ≈ 1 ia mit einem festen Parameter a ∈ R, der normalerweise ein bißchen größer als 1 ist. Im Falle der natürlichen Sprache ist davon auszugehen, daß die Folge der Phänomene unendlich ist (da es potentiell unendlich viele Wörter gibt). Für die Wahrscheinlichkeit eines einzelnen Wortes würde man dann ansetzen: 1/ia P({ω}) = P∞ 1 j=1 ja (nämlich die Häufigkeit des Wortes, dividiert durch die Gesamthäufigkeit aller Wörter). Das geht natürlich nur, falls ∞ X 1 ja j=1 konvergiert (d.h. nicht unendlich groß wird, s. S. 17), was für a > 1 in der Tat der Fall ist 13 . 13 Vgl. etwa http://encyclopedia.lockergnome.com/s/b/Zipf’s_law 30 KAPITEL 1. MOTIVATION UND GRUNDLAGEN Kapitel 2 Bedingte Wahrscheinlichkeit 2.1 Wie man die Zukunft nicht voraussagt und die Formel von Bayes Im vorigen Kapitel (Bsp. 7 auf S. 22) haben wir das wohl einfachste denkbare stochastische Modell von Sprache betrachtet: Die Gleichverteilung der Wörter, d.h. die Annahme, alle Wörter würde mit derselben Wahrscheinlichkeit in Dokumenten auftreten. Das ist kein sehr gutes Modell, da die von ihm vorausgesagten Dokumente ja alle Wörter etwa gleich häufig enthalten müssten, was für authentische Dokumente aber keineswegs gilt. Im Gegenteil, anhand der Frequenzlisten haben wir gesehen, daß eine relativ kleine Menge von Wörtern extrem häufig vorkommt, ein mittelgroßer Anteil einigermaßen regelmäßig, und die weitaus meisten Wörter überhaupt nur ein einziges Mal, selbst in großen Korpora. Ein besseres Modell schien die am Ende des letzten Kapitels vorgestellte ZipfVerteilung zu sein, wo man eine Ordnung der Wörter nach Häufigkeit annimmt und dann die Wahrscheinlichkeit des n-häufigsten Wortes als P(wn ) ≈ 1/ns mit s = 1 + ε angibt. Jedoch auch dieser Verteilung gelingt es noch nicht, einer wesentlichen Eigenschaft der natürlichen Sprache Genüge zu tun, die darin besteht, daß nicht nur das Vorkommen eines bestimmten Wortes, sondern die Reihenfolge der Wörter untereinander eine zentrale Rolle spielt. Anders ausgedrückt, die Wahrscheinlichkeit eines Wortes w wird stark davon abhängen, welche Wörter links und rechts von w stehen. Etwa nach einem Artikel “der” werden im Deutschen z.B. maskuline Substantive im Singular sehr viel wahrscheinlicher sein als etwa intransitive Verben in der zweiten Person Singular. Wir müssen also die Wahrscheinlichkeiten für ganze Folgen von Wörtern betrachten, nicht nur von Unigrammen in Isolation. Eine Möglichkeit hierfür, aus der Reihe der stochastischen Standardmodelle, haben wir ebenfalls im letzten Kapitel betrachtet: Die Produkt- und Binomialverteilung, die es uns erlaubt, die Wahrscheinlichkeit für das Auftreten bestimmter Folgen zu berechnen. Allerdings waren wir dabei eben gerade von der falschen Annahme ausgegangen, die Wahrscheinlichkeiten für gewisse Wörter (Kugeln) oder Farben (Wortarten) würde sich nach jedem Zug nicht ändern (Ziehen mit Zurücklegen). Wir brauchen nun also einen Begriff für situationsabhängige Wahrscheinlichkeiten. 31 32 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT Einen solchen Begriff liefert uns die Stochastik anhand folgender Überlegung. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, A, B ∈ F Ereignisse. Angenommen, wir kennen P(A) und P(B). Nehmen wir weiter an, wie hätten davon erfahren, daß das Ereignis B tatsächlich eingetreten sei. Dann befinden wir uns nun in einer neuen Situation, in der wir ein revidiertes Wahrscheinlichkeitsmaß, sagen wir PB , betrachten. Sicherlich wollen wir festlegen PB (B) = 1 (2.1) denn B ist ja nun sicher. Außerdem werden wir vernünftigerweise davon ausgehen, daß die Wahrscheinlichkeit von Ereignisses, die B implizieren, jetzt proportional größer ist als vorher, daß also gilt PB (A ∩ B) = c · P(A ∩ B) (2.2) für eine geeignete Konstante c. Aus diesen beiden Bedingungen läßt sich aber PB (A) bereits eindeutig bestimmen, denn zunächst gilt natürlich (2.1) PB (A) = PB (A ∩ B) + PB (A − B) = PB (A ∩ B) | {z } (2.3) =0 wegen (2.1) Die erste Gleichung gilt nach Def. 7e, denn A ∩ B und A − B sind disjunkt. Die zweite Gleichung gilt wegen PB (B) = 1. Da das für alle A ∈ F gilt, also auch für den Spezialfall A := B, folgt aber (2.1) (2.3) 1 = PB (B) = PB (B ∩ B) = c · P(B ∩ B) = c · P(B), also c = (2.3) (2.2) D.h. PB (A) = PB (A ∩ B) = cP(A ∩ B) = P(A∩B) P(B) 1 P(B) für alle A ∈ F. Wir definieren daher: Definition 10 (Bedingte Wahrscheinlichkeit). Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, A, B ∈ F Ereignisse. Die bedingte Wahrscheinlichkeit für A unter der Annahme B ist P(A ∩ B) P(A|B) := P(B) Beachte, daß wir nun P(·|B) für das neue Wahrscheinlichkeitsmaß schreiben (statt PB (·) wie in der Herleitung oben). Beispiel 9. Einmaliges Würfeln mit einem sechseitigen, gleichmäßigen Würfel. Ω = {1, . . . , 6}, F = P(Ω), P = UΩ . Es gilt P({1}) = 1/6, aber die Wahrscheinlichkeit für eine 1, falls man schon weiß, daß eine ungerade Zahl gefallen ist, ist P({1}|{1, 3, 5}) = P({1} ∩ {1, 3, 5}) P({1}) 1/6 2 1 = = = = . P({1, 3, 5}) P({1, 3, 5}) 1/2 6 3 Jedoch die Wahrscheinlichkeit für eine 1, wenn man schon weiß, daß eine gerade Zahl gefallen ist: {1} ∩ {2, 4, 6} P(∅) P({1}|{2, 4, 6}) = = = 0. P({2, 4, 6}) 1/2 2.1. WIE MAN DIE ZUKUNFT NICHT VORAUSSAGT UND DIE FORMEL VON BAYES33 Bemerkung Aussagen über die bedingte Wahrscheinlichkeit werden häufig als Aussagen über Kausalitätsbeziehungen zwischen zwei Ereignisse mißverstanden, so als wäre P(A|B) die Wahrscheinlichkeit von A, nachdem B eingetreten ist (und womöglich verursacht von B). Das ist aber nicht gemeint – im Gegenteil: In obigem Beispiel treten A und B ja gleichzeitig ein (es geht um einen einzigen Würfelwurf!). Was P(A|B) ausdrückt, ist vielmehr unsere Einschätzung der Wahrscheinlichkeit dafür, daß A vorliegt, wenn wir wissen, daß B vorliegt. Man stelle sich also eine Situation vor, in der jemand würfelt und uns nur mitteilt “es ist eine ungerade Zahl”. Dann schätzen wir die Wahrscheinlichkeit für “1” als 1/3 ein. In Zusammenhang mit linguistischen Modellen, insbesondere mit sog. n-GrammModellen, betrachtet man aber häufig die bedingte Wahrscheinlichkeit für das Auftreten eines Wortes w, wenn unmittelbar vorher ein anderes Wort w0 aufgetreten ist, und schreibt dann P(w|w0 ). Hier hat man es also scheinbar mit einer bedingten Wahrscheinlichkeit von zwei Ereignissen zu tun, die gewissermaßen nacheinander eintreten. Klugerweise sollte man eine solche Situation aber besser als ein Ereignis “Wortpaar” betrachten, und w und w0 als zwei Eigenschaften desselben Ereignisses, nämlich w =“das rechte Wort ist w” und w0 =“das linke Wort ist w0 ”. Die Kenntnis von der bedingten Wahrscheinlichkeit P(A|B) eröffnet eine einfache Möglichkeit zur Berechnung der Wahrscheinlichkeit für das gleichzeitige Vorliegen beider Ereignisse, also P(A ∩ B): P(A ∩ B) = P(A|B) · P(B) Das folgt unmittelbar aus Def. 10. Definition 11 (Unabhängigkeit). Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, A, B ∈ F. A und B heißen unabhängig, falls gilt: P(A|B) = P(A) Die Unabhängigkeit von zwei Ereignissen drückt also aus, daß unsere Einschätzung der Wahrscheinlichkeit für das Vorliegen von A nicht von unserem eventuellen Wissen über das Vorliegen von B beeinflußt wird. Ist man sich der Unabhängigkeit zweier Ereignisse sicher, so ist mit Hilfe obiger Formel P(A ∩ B) besonders einfach zu berechnen: Satz 2. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, A, B ∈ F. A und B sind unabhängig, genau dann wenn P(A ∩ B) = P(A) · P(B) Beweis. Sind A und B unabhängig, so gilt offenbar P(A ∩ B) = P(A|B) · P(B) = P(A)P(B). Falls umgekehrt P(A ∩ B) = P(A)P(B), so folgt: P(A|B) = P(A ∩ B) P(A)P(B) = = P(A). P(B) P(B) 34 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT Eine sehr nützliche Formel, die sich auch in vielen computerlinguistischen Anwendungen großer Beliebtheit erfreut, ist die Formel von Bayes. Sie stellt eine einfache Umformung der oben bewiesenen Gleichungen dar und erlaubt es uns, P(B|A) aus P(A|B) abzuleiten: Satz 3 (Formel von Bayes). Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und A, B ∈ F. Es gilt P(A|B) · P(B) P(B|A) = P(A) Beweis. P(B|A) = P(B ∩ A) P(A ∩ B) P(A|B)P(B) = = P(A) P(A) P(A) Unter der falschen Annahme, die bedingte Wahrscheinlichkeit mache irgendwelche Aussagen über kausale Zusammenhänge, wurde die Bayes-Formel früher als eine Möglichkeit zur Vorhersage der Zukunft mißinterpretiert, bzw. als eine Methode zur Vorhersage der Ursache aus der Wirkung, da sie ja die Rollen von A und B vertauscht. Wie schon oben ausgeführt, stelle die bedingte Wahrscheinlichkeit aber nur eine Methode dar, unser partielles Wissen über eine Situation auszunutzen, um zu einer adäquateren Einschätzung der Wahrscheinlichkeiten zu gelangen. Weder die bedingte Wahrscheinlichkeit noch die Bayes-Formel erlauben daher irgendwelche Schlußfolgerungen auf Ursache-Wirkungs-Beziehungen. Ein bekanntes Beispiel für die Anwendung der Bayes-Formel in der Computerlinguistik ist die thematische Klassifikation von Dokumenten mit der sog. Naive-BayesMethode: Beispiel 10 (Qualität von Diagnoseverfahren). Typische Anwendungen der Bayes-Formel ist Tests auf bestimmte Krankheiten, wie sie in der Medizin verwendet werden. Diagnoseverfahren sind nie 100%ig sicher, so daß Studien zur Bestimmung ihrer Qualität / Verläßlichkeit durchgeführt werden. Es stehen nach einer entsprechenden Studie normalerweise drei Größen zur Verfügung: P(T + |K) = Anteil der Testpositiven an den tatsächlich Erkrankten P(T + |G) = Anteil der Testpositiven an den Gesunden P(K) = Anteil der Kranken an der Bevölkerung (geschätzt) Wird der Test nun eingesetzt, möchte man wissen, wie verläßlich seine Voraussagen sind. Man möchte wissen, mit welcher Wahrscheinlichkeit ein Testpositiver tatsächlich krank ist (P(K|T + ), und mit welcher Wahrscheinlichkeit ein Testnegativer tatsächlich gesund ist (P(G|(T + )C )). Wir betrachten nur die erste Größe: P(K|T + ) = P(K ∩ T + ) P(T + ) ist praktisch nicht berechenbar, da man wissen müßte, wie viele Menschen sowohl krank als auch testpositiv sind (gemessen an der Gesamtbevölkerung), und wie viele einfach testpositiv sind (wiederum gemessen an der Gesamtbevölkerung). 2.1. WIE MAN DIE ZUKUNFT NICHT VORAUSSAGT UND DIE FORMEL VON BAYES35 Die Bayes-Formel erlaubt es, die gesuchte Wahrscheinlichkeit aus den vorhandenen Größen abzuleiten: P(K|T + ) = P(T + |K)P(K) P(T + |K)P(K) = = + + P(T ) P(T |G)P(G) + P(T + |K)P(K) P(T + |K)P(K) = + P(T |G)(1 − P(K)) + P(T + |K)P(K) Beispiel 11 (Naive-Bayes-Klassifikation). Gegeben sei ein Korpus aus einer Menge kleiner Nachrichtentexte, jeder assoziiert mit einer Kategorie, wie “Politik”, “Finanzen”, “Sport” usw. Das Korpus hat also die Struktur K = {(Ti , ci ) : 1 ≤ i ≤ N, ci ∈ C, Ti ein Text} wobei C = {politik, finanzen, sport, . . .} die Menge der Kategorien ist. Die einzelnen Texte Ti seien getaggt, d.h. bei jedem Wort w ist die Wortart WA(w) angegeben (z.B. “Nomen”, “Adjektiv”, usw.) Ein Programm soll nun aus dem Korpus möglichst viel lernen, um neue Texte automatisch zu klassifizieren. Definiere hierzu Nom(T ) := die Menge der Nomen eines Textes T . Wir wollen als Indikatoren für die Textkategorie nur Nomen betrachten, weil sie vermutlich am meisten zum Inhalt beitragen. Es ist klar, daß sich das System noch wesentlich verbessern läßt, wenn die Auswahl der als Indikatoren verwendeten Wörter in linguistisch adäquaterer Weise geschieht. Sei T 0 ein neuer (unklassifizierter) getaggter Text. Dann soll die wahrscheinlichste Kategorie cmax wie folgt berechnet werden: cmax := arg max P(c|Nom(T 0 )) c∈C D.h. es soll diejenige Kategorie gewählt werden, deren Wahrscheinlichkeit, gegeben die Menge der Nomen aus Text T 0 , am größten ist. Wir könnten versuchen, das direkt zu berechnen: P(c|Nom(T 0 )) = P(c, Nom(T 0 )) P({(Ti , ci ) ∈ K|ci = c, Nom(Ti ) = Nom(T 0 )} = P(Nom(T 0 )) P(Nom(T 0 )) aber das wäre eine nicht sehr verläßliche Größe, da sich nur auf die (sehr kleine) Menge von Texten aus dem Trainingskorpus verläßt, die sowohl die gesuchten Nomen enthalten als auch zur fraglichen Kategorie gehören. Ähnlich wie in Bsp. 10 ist es günstiger, mit der Bayes-Formel zu arbeiten, cmax = arg max c∈C P(Nom(T 0 )|c)P(c) P(Nom(T 0 )) und dann anzunehmen, daß P(Nom(T 0 )|c) = Y w∈Nom(T 0 ) P(w|c) 36 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT d.h. wir betrachten die einzelnen Nomen als unabhängig (wegen dieser Annahme heißt die Methode naiv). Daraus folgt dann: Y P(Nom(T 0 )|c) = w∈Nom(T 0 ) |{(Ti , ci ) ∈ K : w ∈ Ti , ci = c}| |{(Ti , ci ) ∈ K : ci = c}| Wir nehmen ferner an, alle Kategorien seien gleich wahrscheinlich: P(c) = 1/|C|. cmax = arg max c∈C 1 |C| Y w∈Nom(T 0 ) |{(Ti , ci ) ∈ K : w ∈ Ti , ci = c}| |{(Ti , ci ) ∈ K : ci = c}| Der Naive-Bayes-Classifier ist dann derjenige Algorithmus, der für den gegebenen Text T 0 die Kategorie cmax als Klassifikationsergebnis zurückgibt. Es sind natürlich zahlreiche Varianten denkbar, bei denen z.B. mehrere Kategorien pro Text zulässig sind. Ferner ist das Naive-Bayes-Verfahren als ein genereller Ansatz zu verstehen, der nicht nur für das Zuordnen thematischer Kategorien geeignet ist. Etwa auch für Wortbedeutungs-Disambiguierung und andere Arten von Klassifikation wurde er bereits verwendet (vgl. [Manning & Schütze, 2004], Kap. 7.2). 2.2 Situationsabhängige Wahrscheinlichkeiten: Mehrstufige Modelle Wir wollen jetzt die Konstruktion eines natürlichsprachlichen Satzes als ein mehrstufiges Zufallsexperiment auffassen, d.h. als ein Experiment, das aus mehreren Schritten besteht, wobei nach jedem Schritt das geltende Wahrscheinlichkeitsmaß, d.h. die Wahrscheinlichkeit für das Auftreten gewisser Wörter, angepaßt wird, je nach den bisher aufgetretenen Wörtern. Solche Modelle heißen in der Stochastik mehrstufig. Abb. 2.1 zeigt ein Beispiel für ein mehrstufiges Modell, das die Wahrscheinlichkeiten für das Auftreten von bestimmten Wortarten bei der Generierung von Sätzen wiedergibt. Es ist baumförmig, und die Wurzel stellt die Wahrscheinlichkeitsverteilung P1 für das erste Wort im Satz dar. Die zweite Ebene besteht aus fünf verschiedenen Wahrscheinlichkeitsmaßen, von denen eines ausgewählt wird, sobald die Wortart des ersten Wortes bekannt ist; in Frage kommen P2|det , P2|verb , P2|pron , P2|copula , P2|other . Allgemein wird, falls w die Wortart ist, die auf der ersten Stufe aufgetreten ist, auf der zweiten Stufe P2|w gewählt. Sind entsprechend w1 , w2 die auf der ersten und zweiten Stufe tatsächlich aufgetretenen Wortarten, so gilt für das dritte Wort P3|w1,w2 usw. Es ist klar, daß die Wahrscheinlichkeitsmaße auf höheren Stufen zu verstehen sind als die bedingte Wahrscheinlichkeit für das Auftreten gewisser Wortarten, unter der Annahme, gewisse Wortarten im linken Kontext seien sicher. Formal können wir ein mehrstufiges Modell wie folgt definieren. Definition 12 (Mehrstufiges Modell). Seien Ω1 , . . . , Ωn Mengen. Es sei eine Zähldichte ρ1 : Ω1 → [0, 1] und für alle 1 < i ≤ n und alle (ω1 , . . . , ωi−1 ) ∈ Ω1 × . . . × Ωi−1 2.3. AUTOMATISIERTES GEFASEL: N-GRAMM-MODELLE 37 P3,det,nom 0.8 P2,det 0.2 P 3,det,other 0.4 0.4 Pverb,det P 2,verb 0.4 P 0.1 0.2 P 1 0.2 P2,pron verb,pron Pverb,nom 0.2 P 2,copula 0.1 P 2,other Abbildung 2.1: Baumdiagramm eines mehrstufigen Modells für Wortartenwahrscheinlichkeit. Zähldichten ρi|ω1 ,...,ωi−1 : Ωi → [0, 1] gegeben. Dann heißt (Ω, F, P) mit Ω := Ω1 × . . . × Ωn , F = P(Ω) und P das durch die Zähldichte ρ(ω1 , . . . , ωn ) := ρ1 (ω1 ) · ρ2|ω1 (ω2 ) · . . . · ρn|ω1 ,...,ωn−1 (ωn ) eindeutig bestimmte Wahrscheinlichkeitsmaß ein n-stufiges Modell. Bemerkung Es ist auch möglich, unendlich-stufige Modelle zu konstruieren. Vgl. [Georgii, 2004], Satz 3.12 (S. 60). 2.3 Automatisiertes Gefasel: n-Gramm-Modelle Wir wollen ein mehrstufiges Modell wie eben beschrieben anwenden, um die Wahrscheinlichkeit für das Auftreten bestimmter Wörter, gegeben ihren linken Kontext, vorauszusagen. Wir nehmen an, wir hätten alle n-Gramme aus einem Text T extrahiert und gezählt (nenne diese Menge M). Dann können wir die Wahrscheinlichkeit eines n-Gramms (t1 , . . . ,tn ) bestimmen als P(t1 , . . . ,tn ) = f (t1 , . . . ,tn ) N wobei f (t1 , . . . ,tn ) für die Häufigkeit des betreffenden n-Gramms steht und N die Ge- 38 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT samtzahl aller extrahierten n-Gramme ist: N := X f (g) g∈M Dies ist nun keineswegs die einzige Möglichkeit, die Wahrscheinlichkeit zu schätzen. Sie ist sogar relativ inadäquat, weil sie n-Grammen, die in T nicht vorkommen, die Wahrscheinlichkeit 0 zuweist. Ähnlich wie in Abschnitt 1.5 können wir durch Smoothing das Wahrscheinlichkeitsmaß auf das Auftreten ungesehener n-Gramme vorbereiten: f (t1 , . . . ,tn ) + 1 P(t1 , . . . ,tn ) = N + |V |n wobei V für das Vokabular, also die Menge der im Lexikon vorkommenden Wörter steht. Die Formel geht also davon aus, daß ungesehene n-Gramme nur ungesehene Kombinationen von bekannten Wörtern sind – völlig unbekannte Wörter werden in diesem Modell nicht berücksichtigt. Der Leser rechnet leicht nach, daß dies ein gültiges Wahrscheinlichkeitsmaß mit Ω = V n , die Menge alle denkbaren n-Gramme, ist. Ein n-Gramm-Modell besteht nun darin, auch Wahrscheinlichkeiten für kürzere n0 -Gramme (n0 < n) zu berechnen und aus n − 1 gegebenen Wörtern das n-te vorauszusagen: P(w1 , . . . , wn−1 , wn ) P(wn |w1 , . . . , wn−1 ) = P(w1 , . . . , wn−1 ) Das entspricht gerade einem n-stufigen Modell. Beispiel 12 (Worterkennung fürs Handy). (noch nicht vollständig.) 2.4 Zufallsvariablen und Projektionen Häufig sind die Ereignisse, deren Wahrscheinlichkeit man bestimmen möchte, nur durch gewisse wenige Eigenschaften gekennzeichnet, d.h. sehr allgemeine Ereignisse. Z.B. in Abschnitt 1.4.2 haben wir beim n-maligen Ziehen aus der Urne nur Ereignisse von der Art “es wird k-mal eine rote Kugel gezogen” betrachtet, d.h. ein Ereignis, das aus allen Elementen aus Ω zusammengesetzt ist, die k-mal eine rote Kugel enthalten, egal an welcher Position der Ziehung. Ein solches Vorgehen nennt man auch Übergang zu einer geringeren Beobachtungstiefe, denn obwohl der Ergebnisraum Ω die genaue Unterscheidung der Reihenfolge bei der Ziehung ermöglichen würde, betrachtet man nur verallgemeinerte Ereignisse, bei denen die Reihenfolge keine Rolle mehr spielt. Man kann das darstellen als eine Funktion X : Ω → Ω0 die die Elemente von Ω abbildet auf “etwas allgemeinere” Elemente in einem neuen Ergebnisraum Ω0 := N. Die Funktion X bildet nun jede konkrete Ziehung auf die Zahl der in ihr enthaltenen rote Kugeln ab, d.h. i.a. werden natürlich viele verschiedene Elemente aus Ω auf dieselbe Zahl in Ω0 abgebildet werden (X ist also nicht injektiv). Darin drückt sich die Verringerung der Beobachtungstiefe aus. 2.4. ZUFALLSVARIABLEN UND PROJEKTIONEN 39 Eine solche Abbildung nennt man Zufallsvariable; sie kann verwendet werden, um gewisse Ereignisse knapp und präzise zu beschreiben: Etwa das Ereignis “viermal rot” wird beschrieben als X −1 {4} := {ω ∈ Ω : X(ω) = 4} Hierbei steht X −1 A für “das Urbild der Menge A unter X”, falls A ⊆ Ω0 eine Teilmenge von Ω0 , d.h. die Menge der Elemente aus Ω, die von X auf eines der Elemente von A abgebildet werden. Die Wahrscheinlichkeit von “viermal rot” ist dann P(X = 4) := P(X −1 {4}) = P{ω ∈ Ω : X(ω) = 4} Formal kann man die Verringerung der Beobachtungstiefe also als den Übergang von (Ω, F, P) zu einem neuen Wahrscheinlichkeitsraum (Ω0 , F0 , P0 ) ansehen, der durch eine Abbildung X : Ω → Ω0 definiert wird. Wahrscheinlichkeiten in dem neuen Raum können dann gesehen werden als “die Wahrscheinlichkeit, daß eine Variable X gewisse Werte annimmt” und sind formal die Wahrscheinlichkeiten der Urbilder nach dem ursprünglichen Wahrscheinlichkeitsmaß P. Es ist klar, daß die Zufallsvariable nur gültig ist, falls die Urbilder von Ereignissen in F0 immer Elemente von F sind (sonst kann man ihre Wahrscheinlichkeit ja nicht mit Hilfe von P bestimmen). Das ist aber in unseren Beispielen immer der Fall, da wir ja stets abzählbare Ω, also F = P(Ω) haben, also alle Teilmengen (also auch alle denkbaren Urbilder unter X) mit P messen können. Definition 13 (Zufallsvariable). Seien (Ω, F, P) ein Wahrscheinlichkeitsraum und (Ω0 , F0 ) ein Ereignisraum (d.h. er erfülle die Axiome 7a-c). Sei X : Ω → Ω0 eine Abbildung mit X −1 A ∈ F für alle A ∈ F0 Dann heißt X Zufallsvariable und definiert (offensichtlich) ein Wahrscheinlichkeitsmaß P0 auf (Ω0 , F0 ) durch P0 (A) := PX (A) := P(X −1 A) PX heißt Verteilung der Zufallsvariable. Beispiel 13 (Projektionen). Ist Ω = Ω1 × . . . × Ωn ein kartesisches Produkt (sind also die direkt beobachtbaren Ergebnisse n-Tupel), so interessiert man sich manchmal nur für die Wahrscheinlicheiten für Werte an einer bestimmten Position. Z.B. möchte man wissen, wie wahrscheinlich es ist, daß das dritte Wort im Satz ein Nomen ist: Dann wäre etwa W die Menge der Wortarten und Ω := W n das n-fache kartesische Produkt von W mit sich selbst (wir betrachten also der Einfachheit halber nur Sätze der maximalen Länge n). Dann ist die gesuchte Wahrscheinlichkeit zu notieren als P(X3 = nomen) wobei wir X3 : Ω → W , X3 (ω1 , . . . , ωn ) := ω3 40 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT definieren. Ein solches X3 heißt Projektion auf die dritte Komponente und ist eine Zufallsvariable. Es ist natürlich PX3 (nomen) = P(X3 = nomen) = P({ω = (ω1 , . . . , ωn ) : ω3 = nomen}) Allgemeiner definiert man: Definition 14 (Projektion). Sei Ω = Ω1 × . . . × Ωn . Dann ist für 1 ≤ i ≤ n Xi : Ω → Ωi mit Xi (ω1 , . . . , ωn ) := ωi die i-te Projektion auf Ω. Beispiel 14. In Abschnitt 2.3 haben wir bereits Projektionen als Zufallsvariablen benutzt, ohne eigens darauf hinzuweisen: Z.B. die Wahrscheinlichkeit für das Auftreten eines bestimmten Wortes wn an der n-ten Stelle im Satz, gegeben die Tatsache, das an den n − 1 Stellen zuvor die Wörter w1 , . . . , wn−1 aufgetreten sind, haben wir etwas ungenau als P(wn |w1 , . . . , wn−1 ) bezeichnet. Streng genommen müsste man aber schreiben \ P(Xn = wn |X1 = w1 , . . . , Xn−1 = xn−1 ) = P(Xn−1 {wn } | Xi−1 {wi }) 1≤i≤n−1 In den folgenden Abschnitten werden wir diese Schreibweise verwenden und mit Xi auch stets die Projektion auf die i-te Komponente bezeichnen. 2.5 Hidden-Markov-Modelle und POS-Tagging Ein Spezialfall eines mehrstufigen Modells liegt vor, wenn die Wahrscheinlichkeit für ein gewisses Ereignis auf der n-ten Stufe nur von dem Ereignis abhängt, das auf der (n − 1)-ten Stufe aufgetreten ist, nicht von früheren, und auch nicht davon, wie viele Ereignisse vorausgegangen sind. Diese Eigenschaft eines mehrstufigen Modells nennt man Markov-Eigenschaft. Q Definition 15 (Markov-Eigenschaft). Sei M = ( i≥1 Ωi , F, P) ein mehrstufiges Modell. M hat die Markov-Eigenschaft, falls gilt P(Xn = ωn |X1 = ω1 , . . . , Xn−1 = ωn−1 ) = P(Xn = ωn |Xn−1 = ωn−1 ) = = P(Xn = ωn |Xn−1 = ωn−1 ) = P(X2 = ωn |X1 = ωn−1 ) für alle n und alle (ω1 , . . . , ωn ) ∈ Ω. 41 2.5. HIDDEN-MARKOV-MODELLE UND POS-TAGGING 1 -2 0.5 1 -1 0.5 0.5 0 0.5 0.5 1 0.5 2 Abbildung 2.2: Übergangsgraph für das Münzwurfspiel. Beispiel 15 (Münzwurfspiel). (Nach [Georgii, 2004], Bsp. 6.6, S. 148.) Den Verlauf vieler Glücksspiele kann man als Kette von Ereignissen sehen, wobei häufig gilt, daß die Wahrscheinlichkeitsverteilung des jeweils nächsten Ereignisses nur vom aktuellen Zustand des Spiels, nicht vom gesamten bisherigen Verlauf, abhängt; und das ist gerade oben erwähnte Markov-Eigenschaft. Ein einfaches solches Spiel ist etwa: Seien zwei Spieler beteiligt, die jeweils einen gewissen Betrag a bzw. b Euro besitzen. In jeder Runde wird eine faire Münze geworfen, und je nach Ergebnis zahlt einer an den anderen 1 Euro. Das Spiel ist beendet, wenn einer der Spieler kein Geld mehr besitzt. Wir nehmen an, beide Spieler starten mit 2 Euro und betrachten die Menge der möglichen Spielverläufe Ω = {((a1 , b1 ), (a2 , b2 ), . . .) : a1 , . . . , b1 , . . . ∈ {0, 1, 2}} (Diese Menge enthält streng genommen auch einige unmögliche Spielverläufe, z.B. den plötzlichen Sprung des Kapitals eines Spielers von 0 auf 2, oder den gleichzeitigen Ruin von beiden Spielern. Das ist kein Problem, solange das zu definierende Wahrscheinlichkeitsmaß solchen Verläufen die Wahrscheinlichkeit 0 zuordnet.) Wir projizieren den aktuellen Zustand auf den Gewinn von Spieler 1 in der i-ten Runde: Xi : Ω → {−2, −1, 0, 1, 2}, ((a1 , b1 ), (a2 , b2 ), . . .) 7→ ai − 2 Dann stellt Abb. 2.2 den sog. Übergangsgraphen für die Zufallsvariable X1 dar. Die Knoten stellen ihre möglichen Werte dar, die Zahlen an den Übergängen repräsentieren Wahrscheinlichkeiten. Bezeichnet man als M(x1 , x10 ) die Wahrscheinlichkeit, daß sich in irgendeiner Runde der Gewinn von Spieler 1 von x zu y verändert, so gilt offenbar: 0.5 falls − 1 ≤ x ≤ 1, |x − y| = 1 P(Xi+1 = y|Xi = x) = M(x, y) = 1 falls x = 2 = y 0 sonst D.h. die Wahrscheinlichkeit für einen gewissen Wert von Xi+1 in der nächsten Runde hängt nur vom aktuellen Wert Xi ab (denn es kann nur 1 mehr oder 1 weniger sein als der aktuelle Wert, oder gleich viel, wenn das Spiel bereits beendet ist), nicht von früheren Werten. Über Zufallsvorgänge mit Markov-Eigenschaft sagt man auch, sie haben “kein Gedächtnis”, eben weil die länger zurückliegenden Ereignisse keine Relevanz für die aktuelle Wahrscheinlichkeitsverteilung haben. Typisch ist, daß man den Übergang von einem Ereignis zum nächsten in Form einer Matrix aufschreiben kann (in Bsp. 15 war 42 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT M(x, y) diese Matrix); und dies macht man auch zum definierenden Kriterium für die sog. Markov-Ketten: Definition 16 (Markov-Kette). Eine Folge von Zufallsvariablen X0 ,X1 , . . . auf einem Wahrscheinlichkeitsraum Ω, F, P mit Werten in einer Menge Q ist eine Markov-Kette mit Zustandsraum Q und Übergangsmatrix M, falls für alle n ≥ 0 und alle x0 , . . . , xn+1 ∈ Q gilt: P(Xn+1 = xn+1 |X0 = x0 , . . . , Xn = xn ) = M(xn , xn+1 ), sofern P(X0 = x0 , . . . , Xn = xn ) > 0. Die Verteilung α = PX0 heißt die Startverteilung der Markov-Kette. In der Computerlinguistik sind reine Markov-Ketten nicht sehr weit verbreitet, wohl aber ihre Erweiterung zu den sog. Hidden-Markov-Modellen. Solche Modelle repräsentieren Maschinen, die sich (genau wie Markov-Ketten) zu jedem Zeitpunkt in einem gewissen Zustand xi befinden, und regelmäßig in einen neuen Zustand xi+1 übergehen, der anhand einer Wahrscheinlichkeitsverteilung ausgewählt wird, die nur vom aktuellen Zustand abhängt. Zusätzlich aber erzeugen sie in jedem Zustand einen Output oi , der seinerseits aus einer Menge Σ von Outputsymbolen anhand einer für xi spezifischen Verteilung POi gewählt wird. Das am meisten verbreitete Beispiel dafür ist das statistische Part-Of-Speech-Tagging, also die Zuordnung von Wortarten (Nomen, Verb, Adjektiv usw.) zu den Wörtern eines Satzes. Man stellt sich hierbei vor, Sätze würden von einer Zufallsmaschine erzeugt, die zwischen Zuständen q ∈ Q hin- und herpendelt, die jeweils für eine gewisse Wortart spezifisch sind. Sie ist also manchmal im “Nomen-Zustand”, dann wieder im “Adjektiv-Zustand”, dann im “Determiner-Zustand” usw. Beim Wechsel von einem Zustand in den nächsten wird jeweils ein Wort produziert, dessen Wortart von dem Zustand abhängt, den die Maschine gerade verläßt. Abb. 2.3 illustriert diese Idee. Folgende Wahrscheinlichkeitsverteilungen spielen in dem Modell eine Rolle: • Die Wahrscheinlichkeit, in Zustand qi zu starten (für alle Zustände qi ∈ Q1 ); • Die Wahrscheinlichkeit, von Zustand qi in Zustand q j zu wechseln (paarweise für alle (qi , q j ) ∈ Q × Q); • Die Wahrscheinlichkeit, beim Wechsel von qi nach q j den Output σ zu erzeugen (für alle (qi , q j , σ) ∈ Q × Q × Σ). Ähnlich wie in mehrstufigen Modellen nehmen wir daher an: • Eine Zähldichte Π : Q → [0, 1], die für jeden Zustand angibt, mit welcher Wahrscheinlichkeit er Startzustand ist; • Für jeden Zustand qi ∈ Q eine Zähldichte Mi : Q → [0, 1], die die Übergangwahrscheinlichkeiten zu anderen Zuständen wiedergibt; 1 Wir stellen uns Q als Menge von nummerierten Zuständen Q = {q1 , q2 , . . . , qn } vor. 43 2.5. HIDDEN-MARKOV-MODELLE UND POS-TAGGING det 0.02 det 0.4 0.05 0.15 0.35 nom 0.15 0.1 0.15 0.3 0.03 nom 0.4 0.1 part 0.1 0.2 0.4 0.1 0.3 0.2 0.15 verb 0.05 adj 0.4 0.3 0.1 verb 0.2 0.3 ... Output der die das ... haus fenster blume ... starten laufen blühen ... 0.3 0.4 0.3 Start 0.4 0.0023 0.0021 0.0072 0.3 0.0034 0.0092 0.0012 ... 0.1 ... Abbildung 2.3: Übergangsgraph (links) und Output- und Start-Wahrscheinlichkeiten (rechts) für einen Hidden-Markov-POS-Tagger. • Für jeden Übergang (qi , q j ) ∈ Q × Q eine Zähldichte Ni j : Σ → [0, 1], die die Output-Wahrscheinlichkeiten für alle Symbole (also in unserem Fall für alle Wörter) repräsentiert. Diese Zähldichten geben wir in Form von Tabellen und Listen an, also mathematisch ausgedrückt in Form von Matrizen und Vektoren. Damit gelangen wir zu folgender Definition. Definition 17 (Hidden-Markov-Modell). Seien Q, Σ endliche Mengen, M = (mi j )i, j∈Q eine Matrix mit Einträgen mi j ∈ [0, 1], Π = (πi )i∈Q ein Vektor mit Einträgen πi ∈ [0, 1] und N = (ni jk )i, j∈Q,k∈Σ mit ni jk ∈ [0, 1]. Sei X0 , X1 , . . . eine Folge (q) (σ) von Zufallsvariablen mit Werten in Ω := Q × Σ, und Xi und Xi jeweils die Projektionen auf die q- bzw. σ-Komponente. Ein Modell (Ω|N| , P(Ω|N| ), P) ist ein Hidden-Markov-Modell mit Übergangsmatrix M, Output-Wahrscheinlichkeiten N und Startwahrscheinlichkeiten Π, falls π : Q → [0, 1], q 7→ πq und mi : Q → [0, 1], q 7→ miq für alle i ∈ Q und ni j : Σ → [0, 1], (q, q0 ) 7→ mqq0 σ für alle i, j ∈ Q Zähldichten sind, und gilt: (q) (1) P(X1 = q) = πq für alle q ∈ Q; (2) für alle q(1) , q(2) , . . . , q(i+1) ∈ Q und alle i ∈ N: (q) (q) (q) (q) (q) (q) (q) P(Xi+1 = q(i+1) |X1 = q(1) , X2 = q(i) , . . .) = P(Xi+1 = q(i+1) |Xi = q(i) ) = P(X2 = q(i+1) |X1 = q(i) ) = mq(i+1) ,q(i) 44 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT (3) Für alle (q(1) , σ(1) ), . . . , (q(i+1) , σ(i+1) ) ∈ Ω|N| (σ) q P(Xi+1 = σ(i+1) |X1 = (q(1) , σ(1) ), . . . , Xi = (q(i) , σ(i) ), Xi+1 = q(i+1) ) = (σ) (q) = P(Xi+1 = σ(i+1) |Xi (σ) = P(X2 q = q(i) , Xi+1 = q(i+1) ) = (q) (q) = σ(i+1) |X1 = q(i) , X2 = q(i+1) )) = = nq(i) ,q(i+1) ,σ(i+1) Das gesamte Modell bezeichnen wir dann mit (Ω, M, N, Π). Zum leichteren Verständnis ist es aber sicherlich sinnvoller, sich an Abb. 2.3 zu orientieren und sich klar zu machen, daß es neben der Zustandsmenge Q und dem Output-Alphabet Σ eben einfach die drei Tabellen M, N und Π sind, die das Verhalten des HMM bestimmen. Bemerkung Das Hidden-Markov-Modell kann auch als probabilistischer Finite-StateAutomat gesehen werden, also als ein Gebilde aus Zuständen und (mit gewissen Wahrscheinlichkeiten versehenen) Übergängen und Output gibt. Es sind drei Problemstellungen, die uns nun natürlicherweise interessieren müssen: (a) Sei σ(1) , . . . , σ(n) eine Folge von Output-Symbolen. Mit welcher Wahrscheinlichkeit bringt das Modell gerade diese Sequenz hervor? (b) Sei σ(1) , . . . , σ(n) eine Folge von Output-Symbolen. Welche Sequenz von Zuständen q1 , . . . , 1n wurde höchstwahrscheinlich durchlaufen, als dieser Output erzeugt wurde? (c) Sei σ(1) , . . . , σ(n) eine Folge von Output-Symbolen. Welche Wahrscheinlichkeiten müssen in die Tabellen M, N und Π eingetragen werden, damit ein Modell entsteht, das gerade diesen Output wahrscheinlich macht? Um die Relevanz dieser Fragen zu verstehen, betrachten wir nocheinmal das Beispiel des POS-Taggers. Dort entsprechen den Zuständen ja die Wortarten, und dem Output die Wörter. Frage (a) bedeutet also: “Wie wahrscheinlich ist eine gewisse Folge von Wörtern”; das ist die natürliche Fortsetzung der Sprach-Simulationsmodelle aus den bisherigen Abschnitten der Vorlesung. Wir erreichen hiermit ein Modell, das nicht nur Einzelwort-Wahrscheinlichkeiten, sondern auch den linken Kontext (aber nur ein Wort) und die Wortart berücksichtigt. Frage (b) bedeutet: “Welche Wortarten haben die Wörter eines gegebenen Satzes”, denn die Sequenz der Zustände, die bei der Erzeugung eines Satzes wahrscheinlich durchlaufen wurde, ist ja gerade die Folge der Wortarten für diesen Satz. Frage (c) läuft auf die Definition des Modells hinaus, also auf die Frage, wie man seine (sehr zahlreichen) Parameter bestimmen kann. Die Antwort auf diese Frage wird eine Trainingsprozedur für HMMs sein, die wir aber ersts im nächsten Kapitel betrachten werden. Vorerst wenden wir uns nur den Fragen (a) und (b) zu. 2.5. HIDDEN-MARKOV-MODELLE UND POS-TAGGING 45 Die Wahrscheinlichkeit einer bestimmten Output-Sequenz Sei s := (σ(1) , . . . , σ(n) ∈ Σn ) eine Output-Sequenz, hervorgebracht von einem HMM M := (Ω, M, N, Π), und X1 , . . . , Xn Projektionen wie in Def. 17. Zu berechnen ist (σ) P(s) := P(X1 (σ) = σ(1) , . . . , Xn = σ(n) ) Da die Output-Sequenz u.U. von jeder Folge von Zuständen erzeugt worden sein kann, und die Wahrscheinlichkeiten dieser Sequenzen alle voneinander unabhängig sind, können wir das so berechnen: P(s) = X (q(1) ,...,q(n+1) )∈Qn+1 π(q1 ) n Y m(q(t) , q(t+1) )n(q(t) , q(t+1) , σ(t) ) t=2 Jeder Summand repräsentiert eine mögliche Folge von Zuständen; die Wahrscheinlichkeit, daß eine bestimmte Zustandsfolge den gewünschten Output erzeugt, ist dann (wie im n-stufigen Modell) das Produkt der bedingten Zähldichten. Jedes Produkt hat 2n+1 Faktoren, insgesamt gibt es |Q|n+1 Summanden, es werden also insgesamt mindestens |Q|n+1 (2n + 2) Berechnungsschritte benötigt (die Summenbildung mitgezählt), um diese Wahrscheinlichkeit zu bestimmen. Um sich (und dem Computer) die Arbeit zu erleichtern, bedient man sich daher einer besonderen Berechnungsmethode, die auf dem Prinzip der dynamischen Programmierung beruht. Dynamische Programmierung ist immer dann anwendbar, wenn eine rekursive Funktion an mehreren aufeinanderfolgenden Stellen ausgewertet werden soll, also etwa ( n f (n − 1) falls n > 1 f (n) := 1 sonst soll ausgewertet werden an den Stellen f (1), f (2), . . . f (K). Eine Möglichkeit wäre es, zuerst f (K) rekursiv zu berechnen (K viele Berechnungsschritte), dann f (K − 1) (K −1 viele Schritte) usw. Dabei berechnet man aber gewisse Werte immer wieder (z.B. f (1) ist Teil jeder Berechnung). Man wird daher, falls der Speicherplatz das erlaubt, zuerst f (1) berechnen und speichern, dann f (2), wobei man sich dabei schon den gespeicherten Wert von f (1) zu Hilfe nehmen kann. Ähnlich für die anderen Werte: Es muß immer nur der letzte Berechnungsschritt ausgeführt werden, weil der Ergebnis des Restes bereits vorliegt. Dieses Prinzip der temporären Speicherung rekursiver Zwischenergebnisse nennt man dynamische Programmierung; seine volle Wirkung entfaltet es erst bei etwas komplizierteren mehrstelligen Funktionen, wie der oben angebenen Berechnunge der HMM-Output-Wahrscheinlichkeit. Hierzu müssen wir für P(s) eine rekursive Formulierung angeben, die dann Stück für Stück ausgewertet wird. Hierzu definieren wir als fi (t) die Wahrscheinlichkeit, vor dem t-ten Output in Zustand qi zu sein: (P |Q| (t−1) ) falls 1 < t ≤ (n + 1) j=1 f j (t − 1)m(q j , qi )n(q j , qi , σ fi (t) = π(qi ) falls t = 1 Abb. 2.4 illustriert diese Methode: Die gesamte Berechnung gleich dem Ausfüllen einer Tabelle, in der für jedes i (Zeilen der Tabelle) und jedes t (Spalten) der Wert fi (t) eingetragen wird. Zur Berechnung der ersten Spalte fi (1) werden die Initialwahrscheinlichkeiten πi verwendet, jede weitere Spalte wird aus ihrer linken Vorgänger Spalte 46 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT det f1(1) f1(2) f1(3) ....... f (1) f (2) f (3) 2 2 2 ....... n fi (t) adj adv v ....... oth f6(1) f6(2) f6(3) π σ1 σ2 σ3 σ4 σ5 σ6 σ7 σ8 σ9 σ10 . . . . . . . Abbildung 2.4: Lattice zur rekursiven Berechnung der Forward-Wahrscheinlichkeit im HMM. fi (t) bezeichnet die Wahrscheinlichkeit, den Output σ(1) . . . σ(t−1) erzeugt zu haben und in Zustand qi zu sein. (“gespeicherte Werte”) nach obiger Rekursionsformel berechnet. Die gesamte Prozedur bearbeitet die Tabelle also von links nach rechts. Am Ende ergibt sich die gesuchte Wahrscheinlichkeit |Q| X P(s) = f (i)(n + 1) i=1 Eine solcherart als Zwischenspeicher verwendete Tabelle nennt man Lattice oder Trellis, die gesamte Methode heißt Forward-Procedure, weil die Wahrscheinlichkeiten “vorwärts”, also für stets größer werdendes t, berechnet werden. Die Zahl der Berechnungsschritte ist bei der Lattice-Methode offenbar nur noch 3n · |Q|2 , weil zu jedem Zeitpunkt 1 ≤ t ≤ n genau |Q|2 Produkte mit je 2 Faktoren und eine Summe berechnet werden müssen. Die wahrscheinlichste Zustandssequenz (Viterbi-Algorithmus) Sei ein Output σ(1) , . . . , σ(n) ∈ Σn vorgegeben, gesucht ist nun die Sequenz q(1) , . . . , q(n) , die am wahrscheinlichsten ist, d.h. arg max (q(1) ,...,q(n) )∈Qn (q) (q) (σ) P(X1 = q(1) , . . . , Xn = q(n) | X1 (σ) = σ(1) , . . . , Xn = σ(n) ) Wiederum benutzen wir die Lattice-Methode, speichern aber diesmal anstelle von fi (t) in den Feldern der Tabelle den Wert ( max1≤ j≤|Q| δ j (t − 1)m(q j , qi )n(q j , qi , σ(t−1) ) falls 1 < t ≤ n δi (t) := πi falls t = 1 D.h. jedes Feld δi (t) der Tabelle enthält die Wahrscheinlichkeit, zum Zeitpunkt t (also wenn σ(1) , . . . , σ(t−1) bereits ausgegeben wurde), in den Zustand qi zu wechseln 2.5. HIDDEN-MARKOV-MODELLE UND POS-TAGGING 47 und σ(t) auszugeben, wobei davon ausgegangen wird, daß die Maschine sich vorher im maximal wahrscheinlichen Zustand q j befindet. Am Ende der Berechnung ist max δi (n + 1) 1≤i≤|Q| die Wahrscheinlichkeit der wahrscheinlichsten Zustandssequenz. Die Sequenz selbst läßt sich nur berechnen, wenn man während des Ausfüllens der Tabelle neben δi (t) auch die Zahl j speichert, für die sich das lokale Maximum ergeben hat, d.h. ψi (t) := arg max δ j (t − 1)m(q j , qi )n(q j , qi , σ(t−1) ) für 1 < t ≤ n 1≤ j≤|Q| (Die Benennung δ und ψ ist in Anlehnung an die Notation bei [Manning & Schütze, 2004].) Dann ist arg max δ j (n + 1) 1≤ j≤|Q| die Zustandsnummer k des wahrscheinlichsten Zustandes qk zum letzten Zeitpunkt n + 1, und die vorhergehenden wahrscheinlichsten Zustände lassen sich aus dem Lattice rekonstruieren, indem man den Wert von ψ j (t) aus dem Eintrag mit dem größten lokalen (d.h. in der t-ten Spalte größten) Wert für δ j (t) nimmt, es ist also (qψarg max 1≤ j≤|Q| δ j (2) (2) , . . . , qψarg max 1≤ j≤|Q| δ j (n+1) (n+1) , qarg max1≤ j≤|Q| δ j (n+1) ) die gesuchte wahrscheinlichste Sequenz für den gegebenen Output. Bemerkung Es ist klar, daß die Bestimmung der Maxima i.a. zu “Patt”-Situationen führen kann, wo zwei in Frage kommende Werte gleich groß sind, d.h. die maximal wahrscheinliche Zustandssequenz ist nicht eindeutig bestimmt. Die einfachste Möglichkeit, damit umzugehen, ist es in solchen Fällen eine der möglichen Sequenzen beliebig zu wählen. Eine andere Möglichkeit könnte sein, einfach alle möglichen Sequenzen auszugeben. Bedeutung für das Part-Of-Speech-Tagging Die HMM-Methode ist eine der am meisten verbreiteten Methoden für das POS-Tagging. Wie schon oben angedeutet, betrachtet man dort die Worarten-Tags als die Zustände des Modells, die Wörter als Output-Symbole. Der Vorgang des Tagging entspricht dann der Suche nach der wahrscheinlichsten Zustandssequenz bei gegebenem Output. Andere Anwendungen von HMM finden sich in • in der Phonetik (z.B. Berechnung der wahrscheinlichsten Phonem-Sequenz bei gegebenen Phonen); • in der Dokumenten-Klassifikation und Analyse der Dokumentenstruktur (z.B. Berechnung des wahrscheinlichsten Aufbaus eines Dokumentes aus Titel, Zeitschriftenname, Autoren, Affiliation, Abstract, Einführung usw.); • Computermorphologie (z.B. Berechnung der Morphemstruktur eines Wortes); 48 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT und im Grunde in allen Zusammenhängen, in denen “die wahre Struktur” hinter einer Folge von beobachtbaren Symbolen berechnet werden soll. Der Übergang von der Output-Sequenz zur “wahren Struktur” entspricht im übrigen gerade dem Übergang von einer großen zu einer geringen Beobachtungstiefe, also einem Übergang wie er von Zufallsvariablen vermittelt wird. Der oben beschriebene Viterbi-Algorithmus berechnet demnach die Belegung einer (komplexen) Zufallsvariable so, daß ihre Wahrscheinlichkeit maximiert wird. In späteren Kapiteln werden auf die dritte eingangs genannte Frage zurückkommen, d.h. die Frage nach der Bestimmung des Modells (M, N und Π) anhand von Trainingsbeispielen. 2.6 Anmerkung zur Multiplikation sehr kleiner Zahlen Sowohl in Zusammenhang mit n-Gramm-Modellen als auch bei den soeben besprochenen Hidden-Markov-Modellen werden häufig lange Reihen kleiner Zahlen p1 , . . . , pn ∈ [0, 1] miteinander multipliziert: n Y pi i=1 Es ist klar, daß das Ergebnis immer kleiner wird, je mehr solche Zahlen multipliziert werden, und in der Tat erwächst daraus ein erhebliches Problem für die automatisierte Berechnung der an n-Gramm-Modellen, HMMs u.ä. Systemen beteiligten Wahrscheinlichkeiten. In vielen Fällen kann man sich behelfen, indem man anstelle der eigentlichen Wahrscheinlichkeiten p1 , . . . , pn ihre logarithmischen Entsprechungen, d.h. ihre Bildwerte unter einer logarithmischen Funktion, verwendet: Definition 18 (Logarithmische Funktion). Sei f : R+ → R eine Abbildung. f ist eine logarithmische Funktion, falls für alle a, b ∈ R+ gilt (a) f (ab) = f (a) + f (b) (b) f (ab ) = b · f (a) Logarithmische Funktionen bilden also Zahlen so ab, daß man auf den Bildwerten addieren kann, wann immer man auf den Urbildern multipliziert hätte. Solche Funktionen betrachtet man etwa seit dem 16. Jahrhundert zur Vereinfachung von komplexen Berechnungen (etwa in der Astronomie und Navigation). Es gibt unendlich viele solche Funktionen, z.B. die natürliche Logarithmus-Funktion log 0 log(x) := dasjenige x0 ∈ R mit ex = x wobei e := limn→∞ (1 + 1/n)n , die Eulersche Zahl. Anstelle von e kann man auch jede andere Zahl b verwenden und erhält dann jeweils die Logarithmusfunktion zur Basis b: logb . Die meisten Programmiersprachen enthalten (in der Standardbibliothek) zumindest die natürliche Logarithmusfunktion. 2.6. ANMERKUNG ZUR MULTIPLIKATION SEHR KLEINER ZAHLEN 49 Es läßt sich zeigen, daß log(x) < 0 für x < 1, und dann gilt mit obigen Eigenschaften von logarithmischen Funktionen: (a) log(1) = 0, denn log(x) = log(1 · x) = log(1) + log(x). (b) log(1/x) = − log(x), denn 0 = log(1) = log(x · 1/x) = log(x) + log(1/x). (c) x < y y log(x) < log(y), denn falls x < y folgt x/y < 1, also log(x) − log(y) = log(x/y) < 0, folglich log(x) < log(y). Aus der letztgenannten Eigenschaft (der Monotonie des Logarithmus), folgt natürlich für jede Folge p1 , . . . , pn : arg max pi = arg max log(pi ) 1≤i≤n 1≤i≤n Also können wir in Algorithmen, die letztlich nur Maxima berechnen (wie der oben beschriebene Viterbi-Algorithmus) anstelle der echten Wahrscheinlichkeiten die “logarithmisierten” Werte verwenden, denn am Maximalwert ändert sich dadurch nichts. Zu unserem Vorteil aber können wir dann Addition verwenden, wo immer wir bisher Multiplikation benutzt haben, so daß die Zahlen nicht zu schnell winzig werden. 50 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT Kapitel 3 Rund um den Erwartungswert In den bisherigen Kapiteln haben wir uns vorrangig mit stochastischen Modellen und aus ihnen ableitbaren Voraussagen befaßt. Von Betrachtungen des stochastischen Verhaltens von Einzelwörtern (Zipfverteilung) haben wir uns über kontextsensitive Modelle (n-Gramm-Modelle) zu den Hidden-Markov-Modellen vorgearbeitet, die gewissermaßen die Idee der “zugrundeliegenden Struktur” (den Zuständen des Modells) in ihrer Wechselwirkung mit der “Oberflächen-Struktur” (dem Output) stochastisch modellieren. Der Fokus unserer Betrachtungen lag stets auf Voraussagen, die sich mit Hilfe der Modelle machen ließen (Wahrscheinlichkeitstheorie). In den kommenden Abschnitten muß unser Augenmerk in erster Linie auf dem umgekehrten Weg liegen: Der Bestimmung von Modellen aus Trainingsdaten (Statistik). Hierzu führen wir zunächst den zentralen Begriff des Erwartungswertes ein und beweisen dann das für unsere Zwecke fundamentale Gesetz der großen Zahl, das im Wesentlichen besagt, daß die Akuratheit von aus Beispieldaten erschlossenen Modellparametern aller Wahrscheinlichkeit nach umso besser ist, je größer die Datenmenge ist. Das entspricht ja auch der Intuition, mit der man beispielsweise annimmt, daß man die Fairness eines Würfels umso besser einschätzen kann, je öfter man ihn getestet hat. Das Gesetz der großen Zahl stellt also gewissermaßen die formale Rechtfertigung für jede Art von Trainingsdaten-basiertem maschinellen Lernen dar. Der Erwartungswert wird uns aber auch Grundlage für die Diskussion zweier weiterer elementarer Begriffe sein: Varianz und Kovarianz. Die Varianz ist das Analogon der schon aus Kapitel 1 bekannten (Stichproben-)Varianz, wird diesmal allerdings nicht für Datenreihen, sondern für Zufallsvariablen, also stochastische Prozesse, bestimmt. Die ist also die durchschnittliche quadratische Abweichung vom Erwartungswert, die wir vom Output eines Zufallsprozesses erwarten. Die Kovarianz liefert einen Begriff für die Ähnlichkeit zweier Zufallsprozesse und wird in Form der StichprobenKovarianz und ihrer Erweiterung zum Korrelations-Koeffizienten eingesetzt, um beispielsweise Ähnlichkeiten im kombinatorischen Verhalten von Wörtern, Sätzen und Dokumenten aufzudecken. Wir betrachten eine Anwendung aus der Citation-Analysis als Beispiel hierfür am Ende des Kapitels. 3.1 Der Erwartungswert Ähnlich wie das arithmetische Mittel uns in Kapitel 1 dazu diente, große Mengen von Daten auf einen einzigen Wert zu reduzieren (evtl. noch ergänzt um einen zweiten, die 51 52 KAPITEL 3. RUND UM DEN ERWARTUNGSWERT Standardabweichung), so hat der Erwartungswert den Zweck, eine Wahrscheinlichkeitsverteilung P auf einen einzigen Wert zu verdichten – eine Art erwarteten Mittelwert. Definition 19 (Erwartungswert). Sei Ω höchstens abzählbar, X : Ω → R eine Zufallsvariable mit Werten in R und P ihre Verteilung. Dann ist X E(X) := x · P(X = x) x∈XΩ der Erwartungswert von X, falls die Summe existiert. Beachte, daß XΩ die Bildmenge von Ω unter X ist, d.h. die Menge derjenigen reellen Zahlen, die als Bilder von Einzelereignissen in Ω vorkommen. Da Ω abzählbar, ist auch XΩ abzählbar. Zufallsvariablen mit höchstens abzählbar vielen Werten nennen wir im folgenden auch diskrete Zufallsvariablen. Anmerkung zur Existenz: Die oben angebene Summe existiert nicht notwendig, falls es sich um eine unendliche Reihe handelt. Streng genommen muß man hier voraussetzen, daß die Reihe abolut konvergiert, vgl. [Georgii, 2004], S. 89. Im Weiteren nehmen wir stets an, daß der Erwarungswert der von uns betrachteten Zufallsvariablen existiert. Der Erwartungswert ist also (falls er existiert) im Grunde genommen eine Art Mittelwert über die von einem Zufallsprozeß X hervorgebrachten Werte – nur daß jeder Wert mit seiner Wahrscheinlichkeit als Gewicht mulitpliziert wird. Der Erwartungswert selber muß keineswegs ein mögliches Ergebnis ∈ Ω sein; er stellt nur den erwarteten Mittelwert über alle Ergebnisse dar. Beispiel 16 (Gleichverteilung). Sei P = UΩ die Gleichverteiung (man denke etwa an das Würfeln mit einem fairen Würfel). Dann ist E(X) = X x∈XΩ xP(X = x) = X x∈XΩ x 1 1 X = x, |XΩ| |XΩ| x∈XΩ also gerade das arithmetische Mittel der Werte von X. Etwa beim Würfeln, d.h. mit Ω = {1, 2, 3, 4, 5, 6}, X = idΩ ist 7 1 E(X) = (1 + . . . + 6) = = 3.5 6 2 Beispiel 17 (Binomialverteilung). Ist X : Ω → {0, . . . , n} ⊆ R (für ein n ∈ N) und n x n−x P(X = x) = Bn,p ({x}) = pq x 53 3.1. DER ERWARTUNGSWERT die Binomialverteilung mit Parameter p ∈ [0, 1] (und q := 1 − p), so gilt E(X) = n X x=0 n n X (n − 1)! n x n−x X n! px qn−x = np · px−1 qn−x = x· pq = x· x!(n − x)! (x − 1)!(n − x)! x x=1 x=1 = np n X x=1 · (n − 1)! px−1 q(n−1)−(x−1) = (x − 1)!((n − 1) − (x − 1))! = np n−1 X x=0 | · (n − 1)! px q(n−1)−x = np. x!((n − 1) − x)! {z } =1 Etwa in einer Folge von n := 10 Dokumenten, von denen jedes mit Wahrscheinlichkeit p := 0.3 ein bestimmtes Wort enthält, sind also E(X) = np = 0.3 · 10 = 3 Dokumente zu erwarten, die das Wort enthalten. Beispiel 18 (Indikatorfunktion). Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und ( 1 falls ω ∈ A 1A : Ω → {0, 1}, ω 7→ 0 sonst. eine Zufallsvariable, d.h. 1a ist die Indikatorfunktion, die “1” genau dann zurückgibt, wenn ihr Argument ein Element von A ist. Dann ist der Erwartungswert dieser Zufallsvariablen E(1A ) = 0 · P(AC ) + 1 · P(A) = P(A) Insofern der Erwartungswert den erwarteten Mittelwert eines Zufallsprozesses wiedergibt, ist es natürlich wünschenswert zu prüfen, ob den die Mittelwerte eines über lange Zeit ausgeführten Zufallsvorgangs tatsächlich dem Erwartungswert entsprechen. Genauer wünscht man sich eine Aussage der Art: Die Mittelwerte eine Folge wiederholter Zufallsexperimente konvergieren gegen den Erwartungswert, d.h. je länger die Folge wird, desto eher wird man annehmen können, ihr Mittelwert entspricht dem Erwartungswert. Diese Aussage wird später in Form des Gesetzes der großen Zahl bewiesen. Vorerst einige wichtige Eigenschaften des Erwartungswertes: Satz 4 (Eigenschaften des Erwartungswertes). Seien X,Y reellwertige Zufallsvariablen. Dann gilt: (a) Falls X > Y , d.h. X(ω) > Y (ω) für alle ω ∈ Ω, so gilt auch E(X) > E(Y ) (Monotonie des Erwartungswertes). (b) Falls a, b, c ∈ R, so ist E(aX + bY + c) = aE(X) + bE(Y ) + c (Linearität des Erwartungswertes). (c) Falls X,Y unabhängig, so gilt E(XY ) = E(X)E(Y ). 54 KAPITEL 3. RUND UM DEN ERWARTUNGSWERT Beweis. Für die ersten beiden Aussagen verweisen wir auf [Georgii, 2004], S. 91ff, die Beweismethode ist für uns aber nur von marginaler Bedeutung. Die letzte Aussage folgt durch Rechnung: X X X P(X = x,Y = z/x) = E(XY ) = zP(XY = z) = z· z∈R = z∈R X 06=x∈R unabh. xyP(X = x,Y = y) = = x,y∈R X xyP(X = x)P(Y = y) = x,y∈R X X = xP(X = x) yP(Y = y) = xP(X = x) yP(Y = y) = | {z } x∈R y∈R y∈R x∈R unabh. von y | {z } XX unabh. von x = X y∈R 3.2 yP(Y = y) · X xP(X = x) = E(Y )E(X). x∈R Varianz und stochastische Konvergenz Bevor wir nun das Gesetz der großen Zahl formulieren können, benötigen wir einen präzisen Begriff von “Konvergenz”. In der allgemeinen Analysis sagt man, eine Folge von Zahlen a1 , a2 , . . . konvergiert gegen einen Grenzwert (Limes) a, falls für jede (noch so kleine) Zahl ε > 0 gilt: es gibt ein N mit |a − ai | < ε für alle i > N, mit anderen Worten: falls für jeden noch so geringen Abstand ε gilt, daß die Folge ab einem gewissen Punkt N diesen Abstand vom Grenzwert a nicht mehr überschreitet. Man schreibt dann i→∞ ai −→ a In der Stochastik, und insbesondere im Gesetz der großen Zahl, hat man es aber nicht mit Folgen von Zahlen, sondern mit Folgen von Zufallsvariablen zu tun, also gewissermaßen mit Prozessen, die mit gewissen Wahrscheinlichkeiten gewisse Werte annehmen. Man definiert daher eine für diese Zwecke modifizierte Form der Konvergenz, die stochastische Konvergenz: Definition 20 (Stochastische Konvergenz). Sei (Xi )i≥1 = X1 , X2 , . . . eine Folge von Zufallsvariablen mit Werten in R und auch X eine reellwertige Zufallsvariable. (Xi ) konvergiert stochastisch gegen X, falls für jedes ε > 0 gilt: n→∞ P(|Xi − X| ≥ ε) −→ 0 D.h. (Xi ) konvergiert stochastisch, falls die Wahrscheinlichkeit für eine Abweichung um mehr als ein gewisses ε gegen Null konvergiert. Letztere Konvergenz entspricht dabei dem gewöhnlichen Konvergenzbegriff. Anmerkung: Statt “konvergiert stochastisch” sagt man auch “konvergiert in Wahrscheinlichkeit” (“in probability”). 3.2. VARIANZ UND STOCHASTISCHE KONVERGENZ 55 Das ist keineswegs die einzige Art, wie man einen für die Stochastik interessanten Konvergenzbegriff definieren kann. Ein weiterer wichtiger solcher Begriff ist die “fast sichere Konvergenz” (“almost surely”) ([Georgii, 2004], S. 122). Fast sichere Konvergenz ist stärker als stochastische Konvergenz; das Gesetz der großen Zahl kann man mit beiden beweisen, man unterscheidet danach das schwache Gesetz der großen Zahl (stochastische Konvergenz) und das starke Gesetz der großen Zahl (fast sichere Konvergenz). Wir zeigen hier nur ersteres; Formulierung und Beweis für die starke Version finden sich ebenfalls in [Georgii, 2004]. Auf dem Weg zum Gesetz der großen Zahl beweisen wir zunächst zwei weitere, sehr berühmte Aussagen: die Markov-Ungleichung und die Čebyšev-Ungleichung. Satz 5 (Markov-Ungleichung). Sei X eine diskrete Zufallsvariable Ω → R, X ≥ 0 (d.h. X(ω) ≥ 0 für alle ω ∈ Ω). Sei ε > 0. Dann gilt P(X ≥ ε) ≤ E(X) ε Beweis. Sei A := {ω ∈ Ω : X(ω) ≥ ε}. Dann gilt: (∗) ε · P(X ≥ ε) = ε · P(A) = ε · E(1A ) ≤ E(X · 1A ) = X X(ω) · P({ω}) · 1A {ω} ≤ E(X) ω∈Ω (3.1) (∗) gilt, denn erstens ist ε · E(1A ) = E(ε · 1A ) wegen der Linearität von E. Zweitens sind ε · 1A und X · 1A Funktionen mit (ε · 1A )(ω) ≤ (X · 1A )(ω) für alle ω ∈ Ω denn: und ( ε falls ω ≥ ε (ε · 1A )(ω) = 0 sonst ( X(ω) falls ω ≥ ε (X · 1A )(ω) = 0 sonst d.h. die rechte Seite nimmt die Werte von X gerade da an, wo sie größer sind als ε (also größer gleich die linke Seite), sonst sind beide Funktionen gleich Null. Dann aber wegen der Monotonie des Erwartungswertes: εE(1A ) = E(ε1A ) ≤ E(X1A ) wie gewünscht. Aus (3.1) folgt die Behauptung, da wegen ε > 0 das ε ohne Umgekehrung der Ungleichung durch Division auf die rechte Seite gebracht werden kann. Satz 6 (Čebyšev-Ungleichung). Sei X : Ω ∈ R eine diskrete Zufallsvariable und µ = E(X). Dann gilt E((X − µ)2 ) P(|X − µ| ≥ ε) ≤ ε2 56 KAPITEL 3. RUND UM DEN ERWARTUNGSWERT Beweis. Sei Y := (X − µ)2 eine neue (ebenfalls diskrete) Zufallsvariable. Dann gilt offenbar P(|X − µ| ≥ ε) = P((X − µ)2 ≥ ε2 ) = P(Y ≥ ε2 ) und Y ≥ 0, also nach der Markov-Ungleichung: P(Y ≥ ε2 ) ≤ E(Y ) , q.e.d. ε2 Der auf der rechten Seite der Ungleichung stehende Erwartungswert hat auch in vielen anderen Zusammenhängen große Bedeutung und wird unter der Bezeichung Varianz (einer Zufallsvariable) geführt: Definition 21 (Varianz von Zufallsvariablen). Sei X eine reellwertige Zufallsvariablen, deren Erwartungswert existiert. Es heißt V(X) := E((X − E(X))2 ) die Varianz von X. Das setzt natürlich voraus, daß auch der rechts stehende Erwartungswert existiert (was nicht notwendig immer so sein muß – wir können das aber für die von uns betrachteten Fälle annehmen). Diese Größe steht natürlich in demselben Verhältnis zu der uns schon bekannten Varianz in Datenreihen (die man auch Stichprobenvarianz nennt), in dem auch der Erwartungswert zum (Stichproben-)Mittelwert steht: Es ist die erwartete Stichprobenvarianz des Outputs eines Zufallsprozesses. Wegen der Eigenschaften von E gilt offenbar (“Verschiebungssatz”): V(X) = E((X − E(X))2 ) = E(X 2 − E(2XE(X)) + E(X)2 ) = = E(X 2 ) − 2E(X)E(E(X)) + E(X)2 = E(X 2 ) − 2E(X)2 + E(X)2 = = E(X 2 ) − E(X)2 . Das legt nahe, auch noch eine weitere Größe zu definieren, die anstelle des Quadrates von X (und seinem Erwartungswert), die Produkt aus X mit einer weiteren Zufallsvariable (und das Produkt der Erwartungswerte der beiden) enthält: Definition 22 (Kovarianz von Zufallsvariablen). Seien X,Y reellwertige Zufallsvariablen, deren Erwartungswerte existieren. Dann heißt Cov(X,Y ) := E(XY ) − E(X)E(Y ) die Kovarianz von X und Y . Eigenschaften und Anwendungen der Kovarianz betrachten wir in Abschnitt 3.4. 57 3.3. GESETZ DER GROSSEN ZAHL 3.3 Gesetz der großen Zahl Die Čebyšev-Ungleichung erlaubt es uns, die Wahrscheinlichkeit für eine Abweichung des Wertes von X um mehr als ε von µ = E(X) abzuschätzen. Wenden wir diese Ungleichung an, um die Wahrscheinlichkeit einer Abweichung des Mittelwertes einer Reihe wiederholter Zufallsexperimente um mehr als ε vom Erwartungswert abzuschätzen, so ergibt sich, daß diese Wahrscheinlichkeit in der Tat gegen Null konvergiert: Satz 7 ((Schwaches) Gesetz der großen Zahl). Sei (Xi )i≥1 eine Folge von unabhängigen, identisch verteilten Zufallsvariablen, d.h. insbesondere E(Xi ) = E(X j ) für alle i, j ≥ 1. Sei µ := E(X1 ) und v := V(X1 ). Dann gilt für alle ε > 0 n ! 1 X v Xi − µ ≥ ε ≤ 2 Pn := P n nε i=1 Also insbesondere Pn → 0 für n → ∞. Beweis. Wir führen die Zufallsvariable n 1X Yn := (Xi − µ) n i=1 ein, dann gilt für ihre Varianz (falls sie existiert): n V(Yn ) = 1 X v V(Xi ) = n2 n i=1 (diese Gleichung folgt aus der Bienaymé-Gleichung, s. 3.4), also nach der ČebyševUngleichung: v P(|Yn | ≥ ε) ≤ 2 nε Wir haben hier eine besonders schwache Version bewiesen, d.h. eine, die besonders viele Voraussetzungen hat: Unabhängigkeit, identische Verteilung, Existenz von Erwartungswert und Varianz. Es gibt diverse Varianten, die mit weniger und anderen Kombinationen auskommen ([Georgii, 2004], S. 117). Eine einfache Anwendung dieses Gesetzes in der Statistik ist die Konstruktion gewisser Konfidenzintervalle: Wenn man die (Xi ) als Folge von Personen-Befragungen auffasst, kann man beispielsweise angeben, wie viele Passanten man mindestens befragen muß, um mit einer vorgegebenen Mindestwahrscheinlichkeit eine ebenfalls vorgegebene Maximalabweichung ε bei der Ableitung von Voraussagen aus der Umfrage nicht zu überschreiten. Nimmt man allerdings Normalverteilung der (Xi ) an, gibt es genauere Verfahren, solche Mindestzahlen zu bestimmen. Das Gesetz ist außerdem natürlich fundamental für alles Machine Learning, da dieses ja auf der Annahme beruht, daß ein lernendes System umso bessere Ergebnisse erzielt, je mehr Training-Input es erhält. Vertiefungen dieser Überlegungen finden sich in [Vapnik, 1998]. 58 KAPITEL 3. RUND UM DEN ERWARTUNGSWERT 3.4 Korrelation von Zufallsvariablen Ähnlich wie der Erwartungswert haben auch V und Cov eine Reihe “schöner” mathematischer Eigenschaften, die wir noch ein wenig genauer betrachten wollen: Satz 8 (Eigenschaften der Varianz). Seien X,Y, X1 , . . . Xn reellwertige Zufallsvariablen, deren Erwartungswerte und Varianzen existieren. Dann gilt: (a) Sind a, b, c ∈ R, so ist Cov(aX, bY + c) = abCov(X,Y ). Also insbesondere auch V(aX) = Cov(aX, aX) = a2 V(X). (b) V n X ! Xi i=1 = n X i=1 V(Xi ) + X Cov(Xi , X j ) i6= j Falls also Cov(Xi , X j ) = 0 für alle i 6= j (d.h. falls die (Xi ) paarweise unkorreliert P P sind, s. unten), so gilt die sog. Gleichung von Bienaymé: V( Xi ) = V(Xi ). Beweis. (a) folgt aus einer entsprechenden Rechnung (unter Ausnutzung der Eigenschaften von E). (b) ist komplizierter, Interessierte finden einige Angaben wiederum in [Georgii, 2004], S. 104. Dort auch weitere Eigenschaften von V und Cov. Wir definieren noch drei häufig verwendete Begriffe: Definition 23 (unkorreliert). Seien X,Y reellwertige Zufallsvariablen. X und Y heißen unkorreliert, falls Cov(X,Y ) = 0. Unabhängige Zufallsvariablen sind stets auch unkorreliert (daher konnten wir in Satz 7 die Gleichung von Bienaymé anwenden). Das soll in einer Übungsaufgabe gezeigt werden. Bisweilen ist es praktisch, Zufallsvariablen durch Multiplikation / Addition von geeigneten Konstanten so zu manipulieren, daß ihre Erwartungswerte und Varianzen in einem bestimmten Sinne normiert sind: Definition 24 (Standardisierte Zufallsvariable). Sei X eine Zufallsvariable. Die Zufallsvariable X − E(X) X ∗ := p V(X) heißt standardisierte Form von X. Eine weitere Übungsaufgabe wird zeigen, daß E(X ∗ ) = 0 und V(X ∗ ) = 1. Ein ähnliches Prinzip liegt der Normierung der Kovarianz zum sog. Korrelations-Koeffizienten zugrunde: 3.4. KORRELATION VON ZUFALLSVARIABLEN 59 Definition 25 ((Stichproben-)Korrelations-Koeffizient). Seien x1 , . . . , xn , y1 , . . . , yn ∈ R. Dann heißt Pn (xi − x̄)(yi − ȳ) pPn cor((xi ), (yi )) := pPn i=1 2 2 i=1 (xi − x̄) i=1 (yi − ȳ) der (Stichproben-)Korrelations-Koeffizient von (xi ) und (yi ), wobei x̄ und ȳ die entsprechenden Mittelwerte sind. Es handelt sich also, ähnlich zur Standardisierung einer Zufallsvariablen, um eine Division durch die Standardabweichung – es wird also gewissermaßen die StichprobenKovarianz standardisiert. In der Tat liegt der Korrelations-Koeffizienz stets zwischen −1 und +1. Der Korrelations-Koeffizient sagt aus, bis zu welchem Grade zwei Datenreihen linear voneinander abhängen. Liegt er bei +1, so sind die beiden Datenreihen zueinander proportional, d.h. es gibt eine Konstante c > 0 mit xi = c · yi für alle 1 ≤ i ≤ n Liegt er bei −1, so gilt umgekehrte Proportionalität, d.h. c < 0. Bei 0 gibt es gar keine lineare Abhängigkeit. In vielen Experimental-Wissenschaften wird der Korrelations-Koeffizient berechnet, um vermutete Kausalzusammenhänge einzuschätzen (obwohl er natürlich keinerlei Schluß auf Ursache-Wirkungs-Beziehungen zuläßt). Beispielsweise die beiden Eigenschaften “Größe” und “Gewicht” von Menschen korrelieren miteinander, d.h. in entsprechenden Datenreihen tritt ein Korrelations-Koeffizient auf, der relativ nahe bei +1 liegt. Wir wollen im folgenden eines (von vielen möglichen) Beispielen für eine Anwendung dieses Koeffizienten betrachten, aus dem Bereich der Bibliometrie, d.h. der Ausnutzung von expliziten Referenzen (Zitaten) zur Klassifikation wissenschaftlicher Literatur. Beispiel 19 (Citation-Analysis). Seien d1 , . . . , dn wissenschaftliche Dokumente, d.h. Dokumente, die Referenzen auf andere Dokumente enthalten (in Form von Literaturangaben und Zitaten). Sei Ri die Menge der Referenzen aus Dokument di für alle i. Setze dann cocit(i, j) := |{k : di ∈ Rk und d j ∈ Rk }| die Anzahl der “Cocitations” für di und d j , d.h. die Anzahl der Dokumente, die Referenzen auf beide enthalten. Die Idee ist nun, diese Zahlen auszunutzen, um die thematische Ähnlichkeit von di und d j einzuschätzen. Ein direkter Weg wäre es, festzulegen, daß cocit(di , d j ) bereits die Ähnlichkeit ist, denn je mehr gemeinsame Erwähnungen zwei Dokumente finden, desto wahrscheinlicher ist es, daß sie inhaltlich verwandt sind. 60 KAPITEL 3. RUND UM DEN ERWARTUNGSWERT Eine bessere Methode aber ist es, die gesamten Cocitation-Datenreihen für beide Dokumente zu betrachten: xk yk := cocit(di , dk ) für alle 1 ≤ k ≤ n := cocit(d j , dk ) für alle 1 ≤ k ≤ n und dann die Ähnlichkeit als den Korrelations-Koeffizienten dieser beiden Reihen zu definieren. Der Vorteil besteht (trotz des natürlich wesentlich aufwendigeren Verfahrens) darin, daß eine wesentlich größere Datenbasis verwendet wird, um die Ähnlichkeit zu beurteilen, nämlich das Cocitation-Verhalten mit allen anderen Dokumenten, nicht nur der beiden di und d j untereinander. Kapitel 4 Testtheorie und Extraktion von Kollokationen Im vorigen Kapitel haben wir den wesentlichen Zusammenhang zwischen Modellen und den von ihnen vorausgesagten Sachverhalten gesehen: Das Gesetz der großen Zahl, demzufolge die Sachverhalte in Wahrscheinlichkeit gegen ihre Modelle konvergieren. Das erlaubt es uns anzunehmen, daß wir aus den in Datenreihen vorliegenden Sachverhalten mit einem gewissen Recht versuchen dürfen, auf die Modelle zu schließen, denn wir wissen ja, daß die Daten den Modellen asymptotisch ähneln. Sachverhalt konvergiert −→ Modell Der Ansatz der Statistik (also desjenigen Teils der Stochastik, der sich gerade mit diesem Problem befaßt), besteht darin, eine Menge von möglichen Modellen vorab zu definieren, und dann Entscheidungsverfahren zu finden, die helfen das wahre Modell zu identifizieren. Diese Entscheidungsverfahren beruhen auf Beobachtungen, d.h. eben auf den Daten, die man mit dem gesuchten Modell “erklären” will. Hierzu definiert man: Definition 26 (Statistisches Modell). (X, F, Pϑ : ϑ ∈ Θ) heißt statistisches Modell, falls X eine Menge, F ein System von Teilmengen von X (z.B. die Potenzmenge von X) und {Pϑ : ϑ ∈ Θ} eine Familie von Wahrscheinlichkeitsmaßen auf (X, F) ist. Man stellt sich dabei vor, X sei die Menge der möglichen Beobachtungen (“Einzelereignisse”), F die Menge derjenigen Teilmengen, deren Wahrscheinlichkeit man modellieren möchte, und {Pϑ } die Menge der zur Auswahl stehenden Wahrscheinlichkeitsmaße. X und F spielen also dieselbe Rolle wie in den wahrscheinlichkeitstheoretischen Modellen Ω und F. Der wesentliche Unterschied ist, daß wir nun mehrere Wahrscheinlichkeitsmaße betrachten und das beste anhand der aus X auftretenden Beobachtungen auswählen wollen. Der Parameter ϑ spielt also die Rolle der “Unbekannten”, gesucht ist das “wahre” ϑ. 61 62 KAPITEL 4. TESTTHEORIE UND EXTRAKTION VON KOLLOKATIONEN 4.1 Der Weg von Beobachtungen zu Modellen Grundprinzip der in der Statistik verwendeten Methoden ist es, eine Beobachtung x ∈ X zu machen und dann (a) entweder mittels einer geeignet definierten Funktion T : X → Θ das wahre ϑ direkt zu “schätzen”. Eine solche Funktion T nennt man Schätzfunktion oder Schätzer. (b) oder eine etwas anders angelegte Funktion C : X → P(Θ) zu benutzen, die aus einer Beobachtung x ∈ X auf einen Bereich ⊆ Θ schließt und dann mit einer gewissen Sicherheit (“Konfidenz”) zusagt, daß das wahre ϑ im Bereich C(x) liegt. Ein solches C nennt man Bereichschätzer, das C(x) ein Konfidenzintervall. (c) oder man will nur eine gewisse Hypothese über ϑ (z.B. daß es größer oder kleiner als ein gewisser vermuteter Wert ist) auf Richtigkeit prüfen und definiert einen Hypothesentest ϕ : X → {0, 1}, der dann für die Beobachtung x angibt, ob sie für (ϕ(x) = 0) oder gegen (ϕ(x) = 1) die Hypothese spricht. Die Methode mit Schätzfunktion ist aufgrund ihrer Einfachheit und Direktheit gut geeignet, grundsätzliche Aspekte des statistischen Vorgehens zu beleuchten, und wir werden sie als erstes untersuchen. Konfidenzintervalle haben wir hier der Vollständigkeit halber erwähnt, werden aber nicht genauer auf sie eingehen. Die in der Computerlinguistik am weitesten verbreitete Technik für eine Reihe von, v.a. in der Korpuslinguistik viel benutzten, statistischen Methoden ist der Hypothesentest, für den es viele Anwendungen und viele Varianten gibt. Wir werden das in Abschnitt 4.4 sehr genau diskutieren. 4.2 Schätzer Definition 27 (Schätzer). Sei (X, F, Pϑ : ϑ ∈ Θ) ein statistisches Modell. Eine Funktion T : X → Θ ist ein Schätzer. Alternativ definiert man oft auch zunächst eine Funktion τ : Θ → R (d.h. eine Abbildung der ϑ’s auf reelle “Kenngrößen”), und einen Schätzer für die Kenngröße τ dann als T :X→R (Falls τ umkehrbar, läßt sich natürlich damit ein Schätzer τ−1 ◦T für ϑ definieren.) 4.2.1 Ein Beispiel und die Maximum-Likelihood-Methode Angenommen, wir möchten die Wahrscheinlichkeit ϑ für das Auftreten eines gewissen Wortes w in Dokumenten schätzen, anhand eines Beispieldokuments mit n Wörtern, indem w genau x mal vorkommt. Die Intuition sagt uns, daß wir für die Wahrscheinlichkeit ϑ = x/n schätzen sollten (und so haben wir das ja auch bisher immer getan). Wie können wir das formal begründen? 63 4.2. SCHÄTZER Zunächst ist x ∈ {0, . . . , n} =: X die Beobachtung, die wir machen, also (wegen Abzählbarkeit von X) sinnvollerweise F := P(X). Ferner nehmen wir an, ein Dokument der Länge n werde dargestellt als eine Bernoulli-Folge (X1 , . . . , Xn ) ∈ {0, 1}n , d.h. als eine Folge von Wörtern ( 1 Xi = 0 falls das i-te Wort w ist andernfalls. P Dann hat die absolute Häufigkeit H = ni=1 Xi von w, als Zufallsvariable betrachtet, die Binomial-Verteilung P(H = x) = Bn,ϑ ({x}) (beachte, daß hier die gesuchte Wortwahrscheinlichkeit ϑ im Index auftritt.) Damit haben wir insgesamt das Modell ({0, . . . , n}, P({0, . . . , n}), Bn,ϑ : ϑ ∈ [0, 1]) und wollen nun ϑ auf plausible Weise schätzen, d.h. eine “vernünftige” Funktion T : X → Θ definieren. Aber was ist vernünftig? Folgendes ist ein Ansatz hierfür, der sogenannte Maximum-Likelihood-Ansatz. Man überlegt sich, daß die Beobachtung x, die man macht, wahrscheinlich ein häufig vorkommendes Ereignis ist (denn häufige Ereignisse sind offenbar wahrscheinlicher als andere). Folglich ist das optimale Pϑ gerade dasjenige, daß das beobachtete Ereignis mit möglichst großer Wahrscheinlichkeit voraussagt. Von allen möglichen Verteilungen Bn,ϑ suchen wir also dasjenige Bn,ϑmax mit Bn,ϑmax ({x}) ≥ Bn,ϑ ({x}) für alle ϑ ∈ Θ D.h. der gewünschte Schätzer ist T (x) := arg max Bn,ϑ ({x}) ϑ∈Θ und diesen Schätzer nennt man den Maximum-Likelihood-Schätzer (ML-Schätzer). Wir werden später sehen, daß das ML-Kriterium keineswegs das einzige denkbare für einen guten Schätzer ist. Es ist jedoch das für einfache Zusammenhänge meistens verwendete. In der Tat sagt T in unserem Falle voraus, daß x/n das gesuchte ϑmax ist, was ja der Intuition entspricht. Folgender Beweis ist in seiner Methodik für den Kurs nicht von wesentlicher Bedeutung, wir geben ihn nur der Vollständigkeit halber an. Satz 9 (Maximum-Likelihood-Schätzer für Bn,ϑ ). Gegeben sei das statistische Modell ({0, . . . , n}, P({0, . . . , n}), Bn,ϑ : ϑ ∈ [0, 1]) für ein n ∈ N. Dann ist T (x) := x/n der Maximum-Likelihood-Schätzer für ϑ. Beweis. Die sog. Likelihood-Funktion ρx (ϑ) = Bn,ϑ ({x}) = „ « n x ϑ (1 − ϑ)n−x x 64 KAPITEL 4. TESTTHEORIE UND EXTRAKTION VON KOLLOKATIONEN hat ihr Maximum bei x/n, denn für die Ableitung von log ρx nach ϑ gilt1 : „„ « « ∂ ∂ n x log(ρx (ϑ)) = log ϑ (1 − ϑ)n−x = ∂ϑ ∂ϑ x » „ « – ∂ n! = log + x log ϑ + (n − x) log(1 − ϑ) = ∂ϑ x!(n − x)! (∗) z }| { 1 −(n − x) x − nϑ 1 n−x (1 − ϑ)x − (n − x)ϑ = 0+ + = 0+ − = = ϑ 1−ϑ ϑ 1−ϑ ϑ(1 − ϑ) ϑ(1 − ϑ) | {z } >0 und für den Ausdruck (∗) gilt: 8 > <> 0 x − nϑ < 0 > := 0 falls x/n > ϑ falls x/n < ϑ falls x/n = ϑ Also ist die Ableitung von log ρx (ϑ) insgesamt links von x/n positiv, rechts davon negativ, und Null bei ϑmax = x/n. Also erreicht log ρx bei x/n ihr Maximum, und wegen der strengen Monotonie von log gilt das auch von ρx . Dann ist klar: max Bn,ϑ ({x}) = Bn,x/n ({x}) ϑ∈Θ was zu beweisen war. Man sieht also, daß (unter der Annahme, Dokumente seien als Folgen voneinander unabhängiger Wörter aufzufassen, d.h. unter der Annahme daß die BinomialVerteilung geeignet ist), der intuitive, auf der relativen Häufigkeit basierende Schätzer ϑ = x/n in der Tat der im Sinne der Maximum-Likelihood-Methode plausibelste Schätzer ist. Berücksichtigt man zur Schätzung der Wortwahrscheinlichkeit auch Smoothing (s. 1.5), d.h. benutzt man z.B. x+1 T (x) = n + |V | (mit V das Vokabular der Sprache), so hat man es natürlich nicht mehr mit dem MLSchätzer zu tun, sondern mit einem, der aus anderen Gründen als geeignet gilt (eben weil er gewisse im Korpus zufällig nicht vorkommenden Ereignisse mit berücksichtigt). 4.2.2 Gütekriterien für Schätzer In der Stochastik betrachtet man neben dem ML-Kriterium auch noch ein anderes wichtiges “Qualitätsmerkmal” von Schätzfunktionen, die Erwartungstreue: Definition 28 (Erwartungstreue). Sei T : X → Θ ein Schätzer für ϑ. T heißt erwartungstreu (“unbiased estimator”), falls für T , aufgefaßt als Zufallsvariable, gilt X Eϑ (T ) := xPϑ ({x}) = ϑ für alle ϑ ∈ Θ x∈Ω (Entsprechend, falls T ein Schätzer für eine Kenngröße τ(ϑ), so fordert man Eϑ (T ) = τ(ϑ) für alle ϑ.) 1 Für die Ableitung einer Funktion f nach einer Variablen x schreibt man ∂ ∂x f. 4.3. STOCHASTIK IM KONTINUUM 65 Es soll also der Erwartungswert des Schätzers für jedes ϑ gerade dieses ϑ sein. D.h.: Gleichgültig welches ϑ das wahre ist; wenn ein gewisses ϑ gilt, soll der Schätzer dieses ϑ liefern. Dann liefert er ja insbesondere für das tatsächlich geltende ϑ das richtige Ergebnis. Zusätzlich fordert man oft, daß die Varianz V(T ) des Schätzers möglichst gering ist. Ist ein Schätzer erwartungstreu und varianzminimierend (d.h. hat er eine geringere erwartete Varianz als jeder andere erwartungstreue Schätzer), so spricht man von einem besten Schätzer. Ein bester (oder auch nur erwartungstreuer) Schätzer muß keineswegs ein ML-Schätzer sein; es handelt sich also durchaus um ein von ML unabhängiges Gütekriterium für Schätzer, und diverse Gütekriterien können einander u.U. widersprechen. Nachfolgend werden wir die Konstruktion und Beurteilung von Schätzern nicht weiter vertiefen. Festgehalten werden sollte, daß die Bestimmung der Wortwahrscheinlichkeit aus der relativen Häufigkeit im Prinzip (abgesehen von Smoothing) eine MLSchätzung ist, und daß wir solche Schätzungen intuitiv ständig machen, wenn wir von (zählbaren) Beobachtungen direkt auf Wahrscheinlichkeitsmaße schließen. 4.3 Stochastik im Kontinuum In allen bisherigen Definitionen sind wir von höchstens abzählbaren Ereignisräumen (Ω, F) bzw. (X, F) ausgegangen. Für die Zwecke der Computerlinguistik genügt das auch meistens; jedoch die in Zusammenhang mit Hypothesentests verwendeten Methoden (die wir in Abschnitt 4.4 betrachten werden) greifen implizit zurück auf Begriffe, die notwendigerweise auf einer überabzählbaren Menge, nämlich auf R, definiert werden. R und seine kartesischen Produkte Rd (also d-dimensionale R-Räume) nennt man stetig oder Kontinuum, weil für jede darin konstruierbare konvergente Folge auch der Grenzwert wieder in R liegt (was beispielweise von Q nicht gilt), d.h. weil in dieser Hinsicht R keine “Lücken” aufweist. Stochastische Modelle auf R (oder auf Intervallen von R, die ja ebenfalls überabzählbar sind) nennt man stetige Modelle, im Unterschied zu höchstens abzählbaren, die man diskret nennt. In diesem Abschnitt wollen wir einen kurzen Blick auf die wesentlichen Unterschiede zwischen diskreten und stetigen Modellen werfen und einige stetige Standardverteilungen grob besprechen. Wir werden in späteren Abschnitten auf sie zurückgreifen; eine grobe Kenntnis wenigstens von der Existenz dieser Standardverteilungen ist auch für die Lektüre statistischer und computerlinguistisch-statistischer Literatur unverzichtbar. 4.3.1 Wozu Stochastik auf R Zunächst ein motivierendes Beispiel. Beispiel 20 (Energieverteilung). Man stelle sich eine runde Glühbirne vor, die gleichmäßig in alle Richtungen strahlt. Wir betrachten nur die Lichtstrahlen, die entlang einer Ebene verlaufen, die senkrecht durch die Glühbirne gelegt wird – d.h. wir betrachten Birne und Strahlen im zweidimensionalen. Dann ist klar daß in allen Winkeln α ∈ [0, 2π] die Gleiche “Menge” Licht ausgestrahlt wird; wir übertragen das auf ein stochastisches Modell, in dem für einen 66 KAPITEL 4. TESTTHEORIE UND EXTRAKTION VON KOLLOKATIONEN Lichtquelle α "Einzelner Lichtstrahl" Χ(α) Abbildung 4.1: Gleichverteilung und Zufallsvariable auf R. gegebenen “einzelnen Lichtstrahl” jede Richtung α ∈ [0, 2π] gleich wahrscheinlich ist, d.h. wir haben ein stochastisches Modell ([0, 2π, F, U[0,2π] ]) in dem Gleichverteilung auf Ω = [0, 2π] herrscht (über die Gestalt von F in diesem Fall wird später zu reden sein). Festzuhalten ist zunächst, daß hier in sinnvoller Weise ein stochastisches Modell verwendet wird für etwas, das zunächst unmittelbar nichts mit Wahrscheinlichkeit (eher mit Energieverteilung) zu tun hat. Wir können noch weiter gehen und uns jetzt eine horizontale Linie unterhalb der Glühbirne vorstellen. Wir sind nun daran interessiert, welche Energieverteilung entlang dieser Linie herrscht: Das ist ja nicht mehr die Gleichverteilung, da einige Bereiche der Linie näher an der Glühbirne (also näher am Zentrum der radial ausgestrahlten Gleichverteilung) liegen als andere. Wir führen daher eine Zufallsvariable X : [0, 2π] → R ein, die den Winkel α abbildet auf eine Stelle auf der Linie (gemessen als Entfernung von demjenigen Punkt auf der Linie, der direkt unterhalb der Glühbirne liegt). Es ist dann U[0,2π] ◦ X −1 , also die Verteilung von X die Funktion, die für jeden Punkt auf der Linie die Energieverteilung, also gewissermaßen die Wahrscheinlichkeit für das Auftreffen eines Lichtstrahles, widergibt (eben gerade die Verteilung der Zufallsvariable wie wir das schon früher definiert haben). Will man also etwa die “Energiedichte” in einem gewissen Abschnitt [a, b] auf der Linie bestimmen, so würde man UΩ ({α ∈ Ω : X(α) ∈ [a, b]}) = P(X ∈ [a, b]) berechnen, und dabei natürlich unterstellen, daß X −1 [a, b] ∈ F. Das Beispiel illustriert, warum es sinnvoll sein kann, stochastische Modelle auf R (bzw. auf Intervallen von R) zu betrachten, und auch Zufallsvariablen und ihre Verteilungen zu untersuchen. Ein zentrales Problem aber, das sich in diesem Zusammenhang stellt, besteht nun darin, daß es leider nicht möglich ist F = P(Ω) zu setzen, falls Ω überabzählbar ist. Tut man es dennoch, so scheitert man an der konsistenten Definition von Wahrscheinlichkeitsmaßen auf diesem F (s. hierzu [Georgii, 2004], S. 9). Ein zweites Problem besteht in der geänderten Rolle von Zähldichten (die in stetigen Modellen auch nicht mehr so heißen). Konnten wir bisher die Wahrscheinlichkeiten 67 4.3. STOCHASTIK IM KONTINUUM der Einzelereignisse ω ∈ Ω als ρ(ω) bezeichnen und dann ein Wahrscheinlichkeitsmaß durch X ρ(ω) P(A) := ω∈A definieren, so ist dasPjetzt nicht mehr möglich, weil ja auch das A i.a. überabzählbar und daher die Summe nicht definiert ist (unendliche Reihen sind in diesem Sinne nur für abzählbare Mengen möglich). Man definiert daher für stetige Modelle • F als ein System von ausgewählten Teilmengen. Solche Systeme nennt man Borelsche σ-Algebren; tatsächlich enthalten sie im Wesentlichen alle abgeschlossenen und offenen Intervalle, sowie Vereinigungen und Schnitte von solchen Intervallen; für eine genauere Definition s. [Georgii, 2004], Kapitel 1. Wichtig ist, daß für Ereignisse, die nicht in F enthalten sind, keine Wahrscheinlichkeit bestimmt werden kann. • Dichtefunktionen (das Analogon zu Zähldichten) als Funktionen ρ : Ω → [0, 1] die aber nicht genau dieselbe Interpretation haben wie Zähldichten. Insbesondere ist ρ(x) keineswegs zu verstehen als die Wahrscheinlichkeit von x als Ereignis. • Wahrscheinlichkeitsmaße als Z P(A) = ρ(x)dx A d.h. als Integrale (das überabzählbare Äquivalent von Summen) über die Dichtefunktion. Betrachtete Ereignisse A müssen ∈ F sein; typischerweise sind es Intervalle. Eine wichtige Feststellung in diesem Zusammenhang ist, daß die Wahrscheinlichkeit eines einzelnen Punktes x ∈ R nicht mehr sinnvollerweise betrachtet werden kann – bzw. Null ist: Z x P({x}) = ρ(x)dx = 0. x • Streng genommen lassen sich auch Wahrscheinlichkeitsmaße ohne Dichtefunktion definieren, d.h. Wahrscheinlichkeitsmaße auf einem korrekten F, die aber keine identifizierbare Dichtefunktion besitzen (weil sie nicht differenzierbar sind). Solche Fälle werden wir allerdings nicht betrachten. Bemerkung Alle Begriffe und Sätze, die wir bisher definiert oder bewiesen haben, lassen sich auch für stetige Modelle formulieren und beweisen. Das gilt insbesondere für Erwartungswert, Varianz und Gesetz der großen Zahl. Ein kleiner Hinweise ist angebracht bzgl. Zufallsvariablen X : Ω → Ω0 : Hier ist die Forderung X −1 A ∈ F die ja für alle A ∈ F0 erfüllt sein muß, damit X eine Zufallsvariable ist, wirklich wichtig, da nicht mehr alle Teilmengen von Ω notwendig auch in F liegen. Tatsächlich beschäftigt sich ein nicht geringer Teil der mathematischen Stochastik damit, zu beweisen, daß gewisse Kombinationen und Funktionen von gegebenen Zufallsvariablen wieder Zufallsvariablen sind, d.h. obige Forderung erfüllen. 68 KAPITEL 4. TESTTHEORIE UND EXTRAKTION VON KOLLOKATIONEN 4.3.2 Einige Standardverteilungen Die Normalverteilungen Von zentraler Bedeutung für die gesamte Stochastik und unzählige Anwendungen ist die Gruppe der Normalverteilungen, insbesondere die Standard-Normalverteilung. Sie kommt besonders gerne dann zur Anwendung, wenn eine Größe, z.B. ein Meßwert in der Physik, aber auch evtl. die Häufigkeit eines Wortes in Texten, erwartungsgemäß einen gewissen Wert m0 ∈ R haben sollte, aber tatsächlich von vielen kleinen und schwer bestimmbaren Faktoren beeinflußt wird, so daß der tatsächlich gemessene Wert leicht von m0 abweicht. Etwa beim Messen der Temperatur in der Physik kommen zahlreiche Faktoren, etwa Störungen der Meßgeräte, Luftströmungen usw. ins Spiel, so daß der von einem Meßgerät gelieferte Wert m̄ nicht ganz genau dem z.B. von einem Naturgesetz vorhergesagten Wert entspricht, sondern eine Abweichung |m̄ − m0 | auftritt, von der man annimmt, daß sie mit großer Wahrscheinlichkeit sehr klein, und nur mit geringer Wahrscheinlichkeit groß ist. Genauer nimmt man an, daß der Meßwert m̄ normalverteilt mit Erwartungswert mo ist: Definition 29 (Normalverteilung). Sei m ∈ R und 0 < v ∈ R. Das Wahrscheinlichkeitsmaß Nm,v , definiert durch Z 1 −(x−m)2 /2v √ e dx Nm,v (A) = 2πv A heißt Normalverteilung zu Erwartungswert m und Varianz v. Für m = 0 und v = 1 heißt N0,1 die Standard-Normalverteilung. Die Normalverteilung wird auch Gauß-Verteilung, ihr Graph auch die Glockenkurve (“bell curve”) genannt. Diese Kurve haben wir bereits in Abb. 1.3 (S. 16) gesehen. Sie illustriert sehr gut den Charakter dieser Verteilung: Symmetrisch und zentriert um den Erwartungswert m, hat sie dort ein Maximum, d.h. Nm,v (X = m) ist maximal (falls X eine Nm,v -verteilte Zufallsvariable ist). Leicht neben m liegende Werte sind immer noch sehr wahrscheinlich, mit zunehmendem Abstand von m werden die Werte aber immer unwahrscheinlicher; das ist genau was man von einer Größe erwartet, die vermutlich etwa den Wert m hat, aber vielen kleinen Störfaktoren ausgesetzt ist: Wahrscheinlich liegt sie bei m oder in unmittelbarer Nähe davon, aber mit geringer Wahrscheinlichkeit kann sie auch weit weg von m liegen. Man kann zeigen, daß in der Tat E(Nm,v ) = m und V(Nm,v ) = v, so daß die beiden Bezeichnungen gerechtfertigt sind. Man kann ferner zeigen (“Zentraler Grenzwertsatz”), daß der standardisierte Mittelwert jeder Folge von n unabhängigen, identisch verteilten Zufallsvariablen, im Limes n → ∞ standard-normalverteilt ist, was die fundamentale Bedeutung dieser Wahrscheinlichkeitsverteilung begründet. Insbesondere die Binomialverteilung (d.h. die Verteilung der Häufigkeit des Auftretens von “1” in einer Bernoulli-Folge der Länge n) konvergiert gegen die Normalverteilung, wie auf vielen Webseiten in Form von Java-Applets anschaulich gemacht wird, z.B. http://medweb. uni-muenster.de/institute/imib/lehre/skripte/biomathe/bio/binorm.html. 4.4. ALTERNATIVTESTS UND NEYMAN-PEARSON-LEMMA 69 Von Normalverteilungen abgeleitete Verteilungen In Zusammenhang mit einigen der Hypothesentests, die später zu betrachten sein werden, treten auch Kombinationen von normalverteilten Zufallsvariablen auf, d.h. Additionen, Produkte usw. von Größen, die normalverteilt mit Varianz v um einen Erwartungswert m schwanken. Solche Kombinationen sind i.a. selbst nicht normalverteilt; vielmehr ist die Bestimmung ihrer Verteilung eine mitunter außerordentlich schwierige Angelegenheit, die wir hier nicht im Detail studieren, deren Ergebnisse wir für einige häufig vorkommende Verteilungen aber präsentieren wollen. Wir interessieren uns besonders für die sog. χ2 - und die t-Verteilungen. Hierfür zitieren wir aus [Georgii, 2004] S. 238 und S. 241 (mit gewissen Umformulierungen) und verweisen auch auf die dortigen Graphen der beiden Verteilungen. Satz 10 (χ2 -Verteilung). Seien X1 , . . . , Xn unabhängige, N0,1 -verteilte Zufallsvariablen. Dann hat die neue Zufallsvariable Y := n X Xi2 , i=1 also die Summe der Quadrate der Xi die Verteilung mit der Zähldichte χ2n (x) := xn/2−1 e−x/2 Γ(n/2)2n/2 wobei Γ die Eulersche Gamma-Funktion bezeichnet (s. ibd. S. 41). Diese Verteilung heißt Chi-Quadrat-Verteilung mit n Freiheitsgraden. Satz 11 (Studentsche t-Verteilung). Seien X1 , . . . , Xn unabhängige, Nm,v -verteilte Zufallsvariablen und M := n n i=1 i=1 1X 1 X Xi ; V ∗ := (Xi − M)2 n n−1 Dann hat die Zufallsvariable Tm := √ n(M − m) √ V∗ die Studentsche tn−1 -Verteilung (man sagt auch Studentsche t-Verteilung mit n−1 Freiheitsgraden), d.i. die Verteilung mit der Dichtefunktion x2 τn−1 (x) = 1 + n−1 − n2 √ n−1 /B(1/2, (n − 1)/2) wobei B für die Funktion der Beta-Verteilung steht (s. z.B. ebd. S. 43). 4.4 Alternativtests und Neyman-Pearson-Lemma 70 KAPITEL 4. TESTTHEORIE UND EXTRAKTION VON KOLLOKATIONEN Definition 30 (Test). Sei (X, F, {Pϑ }ϑ∈Θ ) ein statistisches Modell und Θ = Θ0 ∪ Θ1 eine Zerlegung von Θ in Nullhypothese und Alternative. (a) Jede Abbildung ϕ : X → [0, 1] (als Entscheidungsregel interpretiert) heißt ein Test von Θ0 gegen Θ1 . Der Test nimmt also eine Beobachtung als Input und gibt zurück • 0, falls die Nullhypothese aufrecht erhalten werden soll; • 1, falls die Alternative angenommen werden soll; • 0 < γ < 1, falls der Test nicht eindeutig verläuft. In diesem Fall sollte idealerweise ein Zufallsexperiment auf Ω = {0, 1} mit Wahrscheinlichkeit P({1}) = γ durchgeführt werden, um die Entscheidung endgültig zu treffen. (b) Wir definieren für alle ϑ ∈ Θ als Abkürzung Eϑ (ϕ) := EPϑ (ϕ) d.h. den Erwartungswert für das Wahrscheinlichkeitsmaß Pϑ (c) Ist Θ0 endlich, so ist die Wahrscheinlichkeit für einen “Fehler erster Art”, d.h. das fälschliche Annehmen der Alternative, höchstens max Eϑ (ϕ) ϑ∈Θ0 (ist Θ0 unendlich, so muß das “Supremum” anstelle des Maximum genommen werden.) Dieser Wert heißt das effektive Niveau von ϕ. (d) Die Abbildung Gϕ : Θ → [0, 1], Gϕ (ϑ) = Eϑ (ϕ) heißt die Gütefunktion des Tests ϕ. Gϕ (ϑ) gibt also die Wahrscheinlichkeit an, mit die Alternative erkannt wird, falls sie vorliegt (und zwar falls sie in Form eines bestimmten ϑ ∈ Θ1 vorliegt). Von einem guten Test erwartet man ein hohes effektives Niveau und hohe Güte. Man definiert daher: Definition 31 (Bester Test). Ein Test ϕ von Θ0 gegen Θ1 heißt bester Test mit effektivem Niveau β, wenn seine effektives Niveau β ist und für jeden anderen Test ψ mit der selben erwarteten Precision gilt: Gϕ (ϑ) ≥ Gψ (ϑ) für alle ϑ ∈ Θ1 d.h. wenn die Güte für alle anderen Tests desselben effektiven Niveaus geringer ist. Je nach der Art von Hypothese, die man testen möchte, unterscheidet man nun: 4.4. ALTERNATIVTESTS UND NEYMAN-PEARSON-LEMMA 71 Alternativtests: Hier ist Θ = {0, 1}, d.h. es stehen nur zwei Wahrscheinlichkeitsmaße zur Auswahl, und es soll entschieden werden, welches das richtige ist. Die Annahme H0 : ϑ = 0 ist hier die Nullhypothese, H1 : ϑ = 1 die Alternative. Einseitige Tests: Hier ist Θ ⊆ R und getestet wird für ein vermuteten Wert m, ob H0 : ϑ ≤ m oder H1 : ϑ > m. Zweiseitige Tests: Wieder ist Θ ⊆ R, aber es soll getestet werden H0 : ϑ = m gegen H1 : ϑ 6= m (letzteres ist äquivalent zu (ϑ < m) ∨ (ϑ > m), was die Zweiseitigkeit besser zum Ausdruck bringt). Für die Konstruktion einfacher Alternativtests, d.h. Tests für Modelle, in denen nur zwei Wahrscheinlichkeitsmaße in Betracht kommen, existiert ein einfaches Verfahren, daß auf den sog. Likelhood-Quotienten beruht. Der Likelihood-Quotient gibt, für eine gegebene Beobachtung x ∈ X, an, um welchen Faktor wahrscheinlicher die Beobachtung ist, falls die Alternative Θ1 stimmt, verglichen mit dem Fall, daß Θ0 stimmt. Definition 32 (Likelihood-Quotient). Sei (X, F, {Pϑ }ϑ ∈ Θ) ein statistisches Modell mit Θ = {0, 1} und x ∈ X eine Beobachtung. Dann ist ( P1 ({x})/P0 ({x}) falls P0 ({x}) > 0 R(x) := ∞ sonst der Likelihood-Quotient für x. Im folgenden Neyman-Pearson-Lemma werden wir sehen, daß es gerade der LikelihoodQuotient ist, der uns hilft herauszufinden, ob wir uns für P1 entscheiden sollen, oder besser bei P0 bleiben. Dahinter steckt eine ähnliche Überlegung wie bei der MaximumLikelihood-Methode: Wenn die gegebene Beobachtung x (also das Trainingsbeispiel) unter P1 viel wahrscheinlicher ist als unter P0 , entscheiden wir uns für P1 , sonst nicht. Weil P0 aber die Nullhypothese ist, hat es einen gewissen “Bonus” – P1 muß schon eine deutlich größere Wahrscheinlichkeit für x voraussagen als P0 . Aber was ist deutlich? Das muß natürlich vom gewünschten effektiven Niveau abhängen: Um den Erwartungswert für einen Fehler erster Art möglichst gering zu halten, dürfen wir uns nicht zu leicht für die Alternative entscheiden – je höher die Schwelle bei der Entscheidung, desto geringer die Fehlerwahrscheinlichkeit (erster Art). Es wird sich zeigen, daß wir die Verteilung P0 ◦ R des Likelihood-Quotienten (er ist ja eine von x abhängige Zufallsvariable, hat also eine für P0 und P1 jeweils eine Verteilung) betrachten müssen, um die Schwelle zu finden. Satz 12 (Neyman-Pearson-Lemma). Sei (X, F, {P0 , P1 }) ein statistisches Modell, α ∈ (0, 1). (a) Ein bester Test ψ von Θ0 = {0} gegen Θ1 = {1} hat notwendigerweise die Gestalt: ( 1 falls R(x) > c ψ(x) = 0 falls R(x) < c für ein vom gewünschten Precision-Niveau α abhängiges c ≥ 0. Ein solcher Test heißt Neyman-Pearson-Test. 72 KAPITEL 4. TESTTHEORIE UND EXTRAKTION VON KOLLOKATIONEN (b) Es gibt einen Neyman-Pearson-Test mit E0 (ϕ) = α (der also das gewünschte Niveau voll ausschöpft) (c) Jeder Neyman-Pearson-Test mit E0 (ϕ) = α ist ein bester Test mit effektivem Niveau α. Mit anderen Worten, einen besten Test zum gewünschten Niveau führt man durch, indem man den Likelihood-Quotienten von P1 gegen P0 (ausgewertet für die gegebene Beobachtung) ausrechnet und mit einer Schwelle c vergleicht. Wie berechnet man c? Hierzu betrachtet man P0 ◦ R, die Verteilung des Likelihood-Quotienten bei P0 . Wir suchen ein c ∈ R so, daß es ein α-Fraktil dieser Verteilung ist, d.h. P0 (R ≤ c) ≥ 1 − α und P0 (R ≥ c) ≥ 1 − α Dann ist insbesondere: P0 (R > c) = 1 − P(R ≤ c) ≥ 1 − α also E0 (ϕ) = P(R > c) ≤ α also wird das gewünschte effektive Niveau eingehalten. Der wesentliche Teil des Beweises des Lemmas (zu finden in [Georgii, 2004]) zeigt, daß man ein solches αFraktil immer so finden kann, daß das Niveau sogar voll ausgeschöpft wird (d.h. “= α” statt “≤ α” in obiger Ungleichung), und daß ein Test, der den Likelihood-Quotienten auf diese Weise zu Grundlage hat, sogar ein bester Test ist. Es ist möglich, eine dem Neyman-Pearson-Lemma entsprechende Aussage auch für Situationen zu machen, in denen mehr als zwei Alternativen zur Auswahl stehen. Dort muß man voraussetzen, daß der Likelihood-Quotient eine in x wachsende Funktion ist, dann läßt sich ein entsprechender Beweis führen. Ein nicht unerheblicher Teil der mathematischen Testtheorie widmet sich der Frage, in welchen Fällen der LikelihoodQuotient eine in x wachsende Funktion ist (man zeigt dort, daß das für die üblichen Standardmodelle (Binomial-Verteilung, Poisson-Verteilung, geometrische Verteilung, Normalverteilung) der Fall ist). Wir wollen hier nicht im Detail beleuchten, welche mathematischen Zusammenhänge im einzelnen dazu führen, daß der Likelihood-Quotient und seine α-Fraktile auch in Situationen, die weitaus komplizierter sind als einfache Alternativtests, die Grundlage für beste Tests geben. Wir möchten nur festhalten, daß es so ist, und ein Beispiel für eine solche etwas kompliziertere Situation geben: 4.5 Studentscher t-Test Der (Studentsche) t-Test ist ein sehr weit verbreitetes Verfahren für Hypothesentests, die den Erwartungswert einer Normalverteilung betreffen. Eine solche Situation liegt beispielsweise vor, wenn jemand überprüfen möchte, ob ein (von ihm theoretisch gefundenes) Naturgesetz (empirisch) als zutreffend bestätigt wird. Hierzu denkt er sich eine Versuchsanordnung aus und sagt anhand seines Gesetzes den Wert einer gewissen Größe (z.B. Temperatur, elektrische Spannung o.dgl.) als m0 voraus. Es wurde bereits gesagt, daß wegen Meßungenauigkeiten und anderer Störfaktoren angenommen werden muß, daß der tatsächliche gemessene Wert (bzw. der Mittelwert m̄ einer Reihe von 4.6. ANWENDUNGEN IN DER COMPUTERLINGUISTIK 73 Messungen) um seinen Erwartungswert normalverteilt streuen wird. Man setzt daher als statistisches Modell an: (R, F, Nm,v : m ∈ R) (dabei ist F die oben erwähnte Borelsche σ-Algebra, was uns hier aber nicht weiter interessieren muß.) Es ist v als festvorgegebener Parameter anzunehmen (obwohl man auch ein Modell machen könnte, bei dem sowohl m als auch v unbekannt und im Test zu ermitteln sind). Zu testen ist nun entweder die einseitige Hypothese m ≤ m0 oder die zweiseitige m = m0 Beides kann mit einem t-Test nach Student erreicht werden (man spricht dann jeweils vom einseitigen bzw. zweiseitigen t-Test). Wir können hier die genauen Zusammenhänge nicht erläutern; klar ist jedoch, daß wir entsprechend dem Neyman-Pearson-Lemma (das wir hier in seiner auf einbzw. zweiseitige Situationen erweiterten Form betrachten müssten) den LikelhoodQuotienten und seine Verteilung unter Nm,v für minΘ0 , d.h. für m ≤ m0 bzw. m 6= m0 zu untersuchen haben. Wir tun das, indem wir aus einer Reihe von Meßwerten m1 , . . . , mn die standardisierte mittlere Abweichung √ n(m̄ − m0 ) √ Tm = v̄ (mit m̄ arithmetisches Mittel und v̄ korrigierte Stichprobenvarianz) betrachten, die nach Satz 11 (S. 69) tn−1 -verteilt ist. Es ist dieser Wert, der hier die Rolle des LikelihoodQuotienten spielt, und es das α-Fraktil der tn−1 -Verteilung, das als Schwellwert fungiert (um einen besten Test mit effektivem Niveau α zu erhalten). α-Fraktile der tn−1 -Verteilung sind nicht einfach zu berechnen (man bedenke die Formel für die Dichtefunktion2 der tn−1 -Verteilung in o.g. Satz und überlege sich das kurz). In der Praxis wird der tn−1 -Test durchgeführt, in dem der standardisierte Mittelwert aus den Versuchsergebnissen berechnet und mit dem α-Fraktil für ein übliches α verglichen wird – Fraktile der tn−1 -Verteilung für übliche α (0.01,0.005,0.001) finden sich in Tabellen, z.B. auch im Anhang von [Manning & Schütze, 2004] und [Georgii, 2004]. 4.6 Anwendungen in der Computerlinguistik Anwendungen der Testtheorie auf computerlinguistische Fragestellungen finden sich zuhauf in der Literatur. Speziell in der Korpuslinguistik, eine Subdisziplin der Linguistik, die zu allen Zeit gern Verfahren aus der Statistik übernommen hat, sind Tests ein außerordentlich beliebtes Mittel, um Hypothesen über das kombinatorische Verhalten oder die semantische Klasse usw. eines Wortes zu prüfen. Eine ganze Reihe von Tests finden dort Anwendung, die hier nicht alle ausführliche besprochen werden – der t-Test ist nur einer von vielen. Andere wichtige TestMethoden sind z.B. der χ2 -Test und der Likelihood-Ratio-Test. 2 Die eigentliche Verteilung ist also das Integral über die dort angegebene Funktion. 74 KAPITEL 4. TESTTHEORIE UND EXTRAKTION VON KOLLOKATIONEN Wir wollen hier als Beispiel nur den Fall des t-Tests, angewandt auf das Problem der Erkennung von Kollokationen, vorstellen. Das ist eine Anwendung, die auch in [Manning & Schütze, 2004] detailliert diskutiert wird und in der korpuslinguistischen Literatur als Standardbeispiel dient. 4.6.1 Identifikation von Kollokationen 4.6.2 Classifier-Fusion Kapitel 5 Informationstheorie In diesem Kapitel geht es um Begriffe und Methoden aus einem Bereich, der nicht im strengen Sinne Teil der Statistik ist, sondern eher eine spezielle Anwendung statistischer Methoden darstellt: die Informationstheorie. Ihre Grundlagen wurden publiziert in Claude Shannons bahnbrechenden Beitrag 19481 . Wir betrachten hier aber nicht die ganze Informationstheorie, sondern nur ihren ersten Teil, den man sehen könnte als die Beschäftigung mit statistischen Eigenschaften der Struktur von Information, losgelöst von ihrer Bedeutung. Man kommt dann zu Überlegungen über die Reorganisation der Information, etwa mit dem Ziel, Platz zu sparen, also dieselbe Information mit geringerem Platzverbrauch zu speichern. Eine solche Reorganisation (Kompression) erhält die Semantik nicht (sie kennt sie gar nicht), sondern stellt lediglich sicher, daß die ursprüngliche Information in eindeutiger Weise wiederhergestellt werden kann. Wir werden als ein Beispiel für Datenkompression das einfache statische Huffman-Coding betrachten und zeigen, inwiefern die informationstheoretische Entropie, die wir als den Erwartungswert des Platzverbrauchs definieren werden, ein Maß für die Wirksamkeit der Kompression ist. Obgleich Semantik bei einer solchen Betrachtung von Information nicht explizit berücksichtigt wird, gibt es Versuche, Kompressionsverfahren einzusetzen, um die (in einem semantischen Sinne) wesentlichen Bausteine von Information automatisch zu finden. Solche Versuche laufen meist unter der Bezeichnung Minimum-DescriptionLength-Verfahren (MDL), und wir werden als ein Beispiel hierfür eine Methode zur automatischen Erstellung eines Modells der Morphologie einer Sprache vorstellen, nämlich das von John Goldsmith ([Goldsmith, 2001]). Die Idee hinter solchen Verfahren ist die Überlegung, daß ein Modell dann besonders gut ist, wenn es im informationstheoretischen Sinne möglichst effizient ist, d.h. wenn man es möglichst gut komprimieren könnte. Es ist natürlich fraglich, ob sich beispielsweise die Morphologie einer Sprache (also die Menge aller ihrer Morpheme und zugehörigen Kombinationsregeln) tatsächlich in diesem Sinne effizienz-optimiert ist, aber Methoden, die eine solche Optimierung der von ihnen generierten Modelle vornehmen, erreichen in der Tat eine Annäherung an die wirklichen Verhältnisse in der Morphologie. MDL-basierte Methoden finden sich aber auch in vielen anderen Bereichen der Computerlinguistik und des Machine Learning. Ein weiterer wichtiger Grundbegriff wird in diesem Kapitel vorgestellt und stellt für uns eine weitere Methode zur Extraktion von Kollokationen dar (ergänzend zu den auf 1 “The Mathematical Theory of Communication”, Bell System Technical Journal 1948. 75 76 KAPITEL 5. INFORMATIONSTHEORIE Hypothesentests beruhenden Verfahren aus Kapitel 4.6.1): Mutual Information. Auch sie ist, genau wie die Entropie, nichts anderes als der Erwartungswert einer gewissen Zufallsvariablen. 5.1 Entropie und Kompression Man stelle sich vor, man habe ein Stück Information, etwa eine Nachricht, zu kodieren, um sie jemandem mitzuteilen. Mit “Kodieren” meinen wir damit keineswegs nur verschlüsseln, sondern auch jede andere Art von Repräsentation der Nachricht in einer Weise, die von dem anderen (u.U. unter der Annahme, er sei mit der verwendeten Chiffre vertraut) verstanden werden kann. Nehmen wir weiter an, die Nachricht könne nur eine aus einer festgelegten Menge Ω ⊆ {0, . . . , N} von möglichen Nachrichten (jede mögliche Nachricht sei also eine natürliche Zahl zwischen 0 und N) ausgewählt werden; als Medium der Übermittlung könne nur ein Kanal verwendet werden, der es erlaubt, Reihen von Nullen und Einsen zu übertragen2 . Dann ist ein naheliegendes Kodierungsverfahren die Kodierung durch binäre Zahlen, d.h. die Abbildung der Information ω ∈ Ω auf ihre binäre Darstellung: 0 1 2 3 4 5 6 7 8 9 10 11 7→ 7 → 7 → 7 → 7 → 7 → 7 → 7 → 7 → 7 → 7 → 7 → 0 1 10 11 100 101 110 111 1000 1001 1010 1011 usw. Wie man sieht, wird die Nachricht umso länger, je größer die Zahl ist, die man übermitteln möchte. Überlegen wir uns den erwarteten Platzverbrauch der Nachricht (d.h. die Länger bei der Übertragung) genauer: Hat man eine n-stellige binäre Zahl, so kann man damit offenbar 2n verschiedene Kombinationen von Nullen und Einsen darstellen, d.h. mit n-stelligen binären Codes kann man genau die Dezimalzahlen zwischen 0 und 2n − 1 übermitteln. Umgekehrt gilt also: Die Nachrichtenlänge für eine Nachricht x ∈ {0, . . . , N} beträgt dlog2 xe (Hinzukommt bei unserem naiven Kodierungsverfahren ferner wohl zusätzlicher Platzverbrauch für Markierungszeichen, die angeben wo eine Nachricht endet und die 2 Ein Spezialfall all dieser Annahmen ist natürlich der Fall, in dem man Information für sich selbst in Form einer Datei speichert. Sender und Empfänger sind dann dieselbe Person, und die Datei ist der Kanal. 5.1. ENTROPIE UND KOMPRESSION 77 nächste beginnt, falls mehrere Nachrichten nacheinander durch den Kanal gesandt werden.) Lieber wäre uns wohl ein Verfahren, bei dem statt der Größer der Zahl ihre Wahrscheinlichkeit für den Platzverbrauch ausschlaggebend ist. Man stelle sich beispielsweise vor, die Nachricht sei eine Temperaturangabe für einen bestimmten Ort. Man stelle sich weiterhin vor, die Temperaturangabe werde jeden Tag mehrmals von einer entfernten Wetterstation geschickt und gespeichert. Dann sind gewisse Temperaturangaben viel wahrscheinlicher (nämlich häufiger) als andere (es wird sogar im Sinne einer Normalverteilung gelten, daß es eine erwartete Durchschnittstemperatur gibt, und die tatsächlichen Werte um sie herum streuen). Nehmen wir also an, wir kennen die Verteilung P der zu versendenden Nachrichten. Dann könnte man sich ein Kodierungsverfahren überlegen, daß jeder Nachricht x ∈ Ω einen Rang zuordnet, der umso kleiner ist, je wahrscheinlicher die Zahl ist: rang(x) = |{y ∈ Ω : P({x} < P({y}))}| + |{y ∈ Ω : P({x}) = P({y}, x < y)}| Diese Funktion ist injektiv, d.h. es gibt pro Rang nur eine Nachricht, die denselben Rang innehat (dafür sorgt der zweite Summand, der die Nachrichten mit derselben Wahrscheinlichkeit wie x nach ihrer Größe anordnet). Folglich können wir als Code jetzt die binäre Darstellung des Rangs (und nicht der Nachricht selbst) verwenden, und automatisch werden häufigere Nachrichten (die also einen geringeren Rang haben) mit kürzeren Binärcodes dargestellt. Man überlegt sich, daß im optimalen Fall (d.h. bei optimal gewählter Codierung) die Länge der Nachricht gerade log2 rang(x) = log2 1 = − log2 P({x}) log(P({x}) ist. Beachte, daß wir die Aufrundung diesmal weggelassen haben: Ein wirklich optimales Kodierungsverfahren wird die Nachrichten so darstellen, daß zwar die Länge einer einzelnen Nachricht immer noch eine ganze Zahl ist, in diese Nachricht aber bereits Teile der nächsten Nachricht hineinkodiert sind (wenn es eine nächste Nachricht gibt), so daß die tatsächliche Länge einer einzelnen Nachricht evtl. tatsächlich keine ganze Zahl ist. Als (informationtheoretische) Länge einer Nachricht definiert man daher diese, von Wahrscheinlichkeit (bzw. relativen Häufigkeit) der Nachricht abhängige, Größe: Definition 33 (Informationstheoretische Länge). Sei X eine Zufallsvariable mit Werten in einer Menge Ω und mit Verteilung P und x ∈ Ω. Dann ist − log2 (P(X = x)) die informationstheoretische Länge von x. Die Länge L eines Ereignisses ist natürlich selbst auch eine Zufallsvariable (mit positiven reellen Werten): L : Ω → R+ Wir können also den Erwartungswert von L berechnen, und das ist in der Tat eine sinnvolle Größe, es ist nämlich die erwartete durchschnittliche Länge einer Nachricht. 78 KAPITEL 5. INFORMATIONSTHEORIE Wegen der Gültigkeit des Gesetzes der großen Zahl wird das bei sehr vielen übertragenen Nachrichten also mit großer Wahrscheinlichkeit die tatsächliche durchschnittliche Länge einer Nachricht (in Bits) sein: X X P(X = x) · log2 (P(X = x)) P(X = x) · L(x) = − E(L) = x∈Ω x∈Ω Der erwartete Platzverbrauch von n Nachrichten (bei optimaler Kodierung!) wird also nE(L) Bits sein. Diesen Erwartungswert nennt man die Entropie (der Zufallsvariablen X). Er hängt (wie jeder Erwartungswert) nur von der Verteilung P ab (nicht von den Werten, die X annehmen kann), man spricht also auch von der Entropie der Verteilung P. Definition 34 ((Informationstheoretische) Entropie). Sei X eine Zufallsvariable mit Werten in Ω und Verteilung P Es ist X P(X = x) · − log2 (P(X = x)) H(X) := − x∈Ω die informationstheoretische Entropie oder Shannon-Entropie von X (d.h. von P). Wohlgemerkt, dieser Erwartungswert kann nur den Tatsachen entsprechen, wenn ein optimales Kodierungsverfahren gewählt wird. Es gibt kein Verfahren, mit dem sich in jeder Situation ein optimales Kodierungsverfahren finden läßt, es gibt allerdings Verfahren, die gegen das Optimum konvergieren, wenn die Zahl der Nachrichten und die zur Verfügung stehenden Resourcen gegen Unendlich konvergieren (arithmetic coding). Alle Verfahren, die auf die Optimierung des Platzverbrauchs durch Verbesserung der Kodierung abzielen, heißen Kompressionsverfahren. Die Funktion rang von oben ist ein Beispiel für ein besonders simples Kompressionsverfahren (allerdings mit dem Nachteil, daß zusätzlicher Platzverbrauch für die Markierung von Grenzen zwischen Nachrichten anfällt). Wir betrachten hier ein sehr viel einfacheres Verfahren, das i.a. keine optimale Kodierung erreicht, aber ein schnell verständliches Beispiel für die Wirksamkeit von Kompressionsverfahren darstellt (und nicht den Nachteil der auf rang basierenden Methode hat). Beispiel 21 (Static-Huffman-Coding). Sei Ω ein endliche Menge von Symbolen und T ∈ Ωn ein Text (mit Länge n) aus solchen Symbolen. Das Ziel ist es, eine Kodierung C : Ω → {b1 , . . . , bm : bi ∈ {0, 1}, m ∈ N} anzugeben, d.h. eine injektive Abbildung, die jedem Symbol aus Ω eine Folge von Bits zuordnet, und zwar so, daß kein Code C(x) Präfix eines anderen Codes C(x0 ) (für alle x 6= x0 ) ist (sonst ist bei der späteren Dekodierung nicht klar, wo ein Symbol aufhört und das nächste beginnt). C soll eine möglichst gute Komprimierung erzielen, d.h. so gestaltet sein, daß die Länge des Textes nach der Kodierung möglichst klein ist. Beachte, daß wir in diesen Vorgaben nicht alle Möglichkeiten ausgeschöpft haben, die es eigentlich gibt: Wir haben gefordert, daß jedem Symbol x ∈ Ω ein Code C(x) 79 5.1. ENTROPIE UND KOMPRESSION 1.0 0 1 0.7 1 0 0.4 1 0 0.2 0.3 0 a b c d e f 0.2 0.1 0.2 0.1 0.1 0.3 a 1 b 0 c d 1 e Abbildung 5.1: Binärer Baum beim statischen Huffman-Coding. zugeordnet wird. Wir machen also nicht Gebrauch von der Idee, einem Stück des Codes bereits den Anfang des nächsten Symbols mitzukodieren. Mit einem solchen Verfahren können wir nie ganz das Optimum erreichen (nämlich eine Textlänge, die gerade der Entropie entspricht). Man nennt solche Verfahren blockweise, weil sie den Text nicht als ganzes komprimieren, sondern Block für Block (Symbol für Symbol). Zunehmend besser wird es, je größer jeder Block ist (wenn man also beispielsweise Paare oder Tripel von Buchstaben kodiert). Das wollen wir hier aber nicht betrachten. Um nun eine gute blockweise Kodierung C zu finden, berechnen wir die relative Häufigkeit jedes Symbols x ∈ Ω (bezüglich des Textes T : P({x}) := Häufigkeit von x in T n (das ergibt bekanntlich ein wohldefiniertes Wahrscheinlichkeitsmaß.) Dann bauen wir einen Baum wie in Abb. 5.1 gezeigt auf. In der Abbildung nehmen wir der Einfachheit halber an, die Symbolmenge bestehe gerade aus den Symbolen a, b, c, d, e und f. Auf der linken Seite sind unter den Symbolen ihre relativen Häufigkeiten angegeben. Der Baum wird dann konstruiert, indem von unten her die beiden seltensten Symbole miteinander verbunden werden, wodurch ein Knoten im Baum entsteht, der mit der Summe der relativen Häufigkeiten bezeichnet wird. Dann werden iterativ jeweils die beiden seltensten Ereignisse verbunden, wobei Knoten im Baum auch als Ereignisse zählen. Im Ergebnis hat dann das häufigste Symbol den kürzesten Pfad zur Wurzel des Baumes, das seltenste Symbol den längsten. Beachte, daß die Konstruktion des Baumes nicht eindeutig ist, da Symbole bzw. Knoten ja auch gleichwahrscheinlich sein können, dann ist die Bestimmung des Minimums eine Willkür-Entscheidung. Es gibt also durchaus Varianten des angegebenen Baumes, die auch gültige Huffman-Codings darstellen. Ist der Baum fertig, werden seine Äste von der Wurzel her sukzessive mit Nullen und Einsen bezeichnet, und zwar an jedem Knoten der linke Ast mit Null, der rechte mit Eins. Der Pfad von der Wurzel zu einem Blatt gibt dann die binäre Kodierung für f 80 KAPITEL 5. INFORMATIONSTHEORIE das an dem Blatt hängende Symbol an. Also f hat z.B. den Code “1”, c hat “010”. Nach dem oben gesagten ist dann klar, daß häufige Symbole kürzere Codes erhalten, da ihre Pfade zur Wurzel ja kürzer sind als die von seltenen Symbolen. Ferner ist klar, daß kein Code Präfix eines anderen Codes ist, da jeder Code an einem Blatt endet (also keine Fortsetzung hat). Das Verfahren heißt statisch, weil die Kodierung erst vorgenommen wird, nachdem der gesamte Text T bekannt ist; die relativen Häufigkeiten beruhen also auf dem gesamten Text. Es gibt auch Verfahren, die den Text nach und nach einlesen und die Kodierung währenddessen anpassen; sie heißen dynamisch. Auf Dekodierungsalgorithmen sowie auf die Verfahren, die zur effizienten Erstellung des Huffman-Baumes eingesetzt werden, gehen wir hier nicht ein (innerhalb der Computerlinguistik wird das i.a. in Seminaren über Stringalgorithmen behandelt). Einen guten Überlick findet man auch in [Witten et al., 1999]. 5.2 Mutual Information Aus dem Begriff des Erwartungswerts, speziell des Erwartungswertes der Varianz, hatten wir für zwei Zufallsvariablen die erwartete kombinierte Varianz, die Kovarianz, abgeleitet, sowie ihre standardisierte Form, den Korrelationskoeffizienten. Er ermöglicht es, Aussagen über die Abhängigkeit zweier Zufallsvariablen zu machen, allerdings nur insofern es sich um eine lineare Abhängigkeit handelt (d.h. wenn die Abhängigkeit zwischen X und Y von der Art X = cY mit einer reellen Zahl c ist): Je näher der Koeffizienz bei 1 liegt, desto ähnlicher ist die Beziehung von X und Y einer linearen Abhängigkeit. Ein anderes für gegenseitige Abhängigkeit läßt sich aus der erwarteten Kodierungslänge, also der Entropie, ableiten. Zunächst einmal definiert man Definition 35 (Kombinierte Entropie). Seien X und Y Zufallsvariablen auf Ω. Dann ist X H(X,Y ) := − P(X = x,Y = y) · log2 P(X = x,Y = y) x,y∈Ω die kombinierte Entropie von X und Y . und legt dann weiter fest: Definition 36 (Mutual Information). Seien X, Y , Ω wie oben. Es ist X P(X = x,Y = y) I(X,Y ) := P(X = x,Y = y) log2 = P(X = x)P(Y = y) x,y∈Ω = H(X) + H(Y ) − H(X,Y ) die Mutual Information von X und Y . 81 5.2. MUTUAL INFORMATION Die entscheidende Rolle spielt hier der Term im Logarithmus: Das ist ein Quotient aus der Wahrscheinlichkeit daß X und Y bestimmte Werte x und y annehmen, dividiert durch das Produkt der Einzelwahrscheinlichkeiten für x und y. Wir wissen, daß der Nenner für alle x, y gleich dem Zähler ist, falls X und Y unabhängig sind. Man kann daher diesen Quotienten auffassen als “die Wahrscheinlichkeit daß x und y gemeinsam auftreten, dividiert durch die Wahrscheinlichkeit eines zufälligen gemeinsamen Auftretens” (dabei heißt “zufälliges gemeinsames Auftreten” soviel wie “gemeinsames Auftreten unter der Annahme der Unabhängigkeit”). Dieser Quotient, für alle x, y berechnet und insgesamt aufsummiert, wird also umso größer, je eher die Beziehung zwischen X und Y einer Unabhängigkeit gleicht. In vielen Anwendungen in der Computerlinguistik berechnet man die Mutual Information für zwei konkrete Ereignisse (und nicht für zwei Zufallsvariablen): Definition 37 (Punktweise Mutual Information). Seien x, y ∈ Ω, px , py ∈ [0, 1], px + py ≤ 1 und pxy ∈ [0, 1] (also etwa x, y Ereignisse und px , py ihre Wahrscheinlichkeiten, pxy die Wahrscheinlichkeit des gemeinsamen Auftretens von x und y). Es ist pxy I(x, y) := log2 px py die punktweise Mutual Information für x und y. Man kann zeigen, daß das stets positiv oder Null ist. Die punktweise Mutual Information ist meistens gemeint, wenn in Zusammenhang mit der Extraktion von Kollokationen einfach von der “Mutual Information” die Rede ist. Wir illustrieren das an einem Beispiel: Beispiel 22 (Extraktion von Kollokationen). Seien w1 , w2 Wörter, p1 , p2 ihre relativen Häufigkeiten in einem großen Referenzkorpus, p12 die relative Häufigkeit ihres gemeinsamen Auftretens. Mit gemeinsamem Auftreten kann das Auftreten als Bigramm w1 w2 gemeint sein, aber auch das gemeinsame Auftreten in einem Fenster einer festvorgegebenen Länge N. Um dann p12 zu bestimmen, extrahiert man alle N-Gramme und zählt dann, in (prozentual) wie vielen von ihnen beide Wörter vorkommen. Die (punktweise) Mutual Information der beiden Wörter ist dann p12 MI(w1 , w2 ) = log2 p1 p2 Bei Unabhängigkeit, d.h. wenn die beiden Wörter gerade so oft zusammen vorkommen, wie “der Zufall” (d.h. die Unabhängigkeitsannahme) es vorgibt, wenn also p12 = p1 p2 , dann wird der Term im Logarithmus 1, also der Logarithmus 0, also die Mutual Information 0. Je stärker die Beziehung zwischen w1 und w2 ist (genauer: Je sicherer man sich des Auftretens von w2 sein kann, wenn man weiß, daß vorher w1 war, und umgekehrt), desto größer wird die Mutual Information. Sie stellt also ebenfalls ein Maß für die “Assoziertheit” von Termen dar und kann in der Tat benutzt wird, um (Kandidaten für) Kollokationen zu finden. 82 KAPITEL 5. INFORMATIONSTHEORIE Literaturverzeichnis [Altmann, 1995] Altmann, G. (1995). Statistik für Linguisten. Wissenschaftlicher Verlag, Trier. [Georgii, 2004] Georgii, H.-O. (2002 (2004)). Einführung in die Wahrscheinlichkeitstheorie und Statistik. DeGruyter. [Goldsmith, 2001] Goldsmith, J. (2001). Computational Linguistics 27, 153–198. [Manning & Schütze, 2004] Manning, C. & Schütze, H. (1999 (2004)). Foundations of statistical natural language processing. The MIT Press. [Vapnik, 1998] Vapnik, V. (1998). Statistical Learning Theory. Wiley-Interscience. [Witten et al., 1999] Witten, I., Moffat, A. & Bell, T. (1999). Managing Gigabytes. Morgen Kaufmann Publishing. [Woods et al., 1986] Woods, A., Fletcher, P. & Hughes, A. (1986). Statistics in language studies. Cambridge University Press. 83