Statistische Verfahren in der Computerlinguistik Einführung in die Computerlinguistik Sommersemester 2009 Peter Kolb Übersicht Statistische vs. symbolische Verfahren in der CL Statistik beschreibende Statistik uni- und multivariate Deskription von Daten schließende Statistik Wahrscheinlichkeitsrechnung bedingte Wahrscheinlichkeit Bayes'sche Statistik Markov-Modelle Statistische vs. symbolische CL ● ● ● anfänglich vor allem statistische Ansätze: – maschinelle Übersetzung als Anwendung kryptoanalytischer und statistischer Methoden (Locke u. Booth 1955) – Informationstheorie (Shannon u. Weaver 1949): Übersetzung = Übertragung über gestörten Kanal bald Aufspaltung in statistische und symbolische Ansätze symbolische Ansätze dominierten CL bis 1990 Statistische vs. symbolische CL ● Gründe für die Dominanz symbolischer Ansätze: – mangelnde Leistungsfähigkeit der Hardware – Chomsky 1957: prinzipiell ist kein statistischer Ansatz fähig, Unterschied zwischen den Sätzen (1) Colorless green ideas sleep furiously. (2) Furiously sleep ideas green colorless. zu erfassen, da keiner je in einem engl. Korpus vorkommen wird. – Kompetenz/Performanz: in Korpora können nur Performanzdaten beobachtet werden, Linguisten aber an Kompetenz interessiert Statistische vs. symbolische CL ● ● ● Wiederentdeckung statistischer Verfahren: – Baker CMU 1975, Jelinek IBM 1976: erste Implementierung von Hidden-Markov-Modellen – prakt. Anwendung: Rabiner 1989 Spracherkennung – PoS-Tagging (DeRose 1988) – statistische maschinelle Übersetzung (Brown et al. 1990) in den 90er Jahren wird die CL von statistischen Verfahren „überrollt“ heute eher hybride Ansätze beschreibende vs. schließende Statistik beschreibende (deskriptive, explorative) Statistik graphische Darstellung von Daten Ermittlung von Kenngrößen (z.B. Mittelwert) verwendet keine stochastischen Methoden schließende Statistik versucht über erhobene Daten hinaus Schlussfolgerungen zu ziehen verwendet stochastische Methoden Stochastik: Wahrscheinlichkeitstheorie und Informationstheorie Grundbegriffe der Statistik Daten werden an statistischen Einheiten erhoben Grundgesamtheit (Population) z.B. Phoneme – Phoneminventar einer Sprache untersucht wird meist nur eine Teilmenge der Grundgesamtheit, die Stichprobe an statistischen Einheiten in Stichprobe werden interessierende Größen beobachtet, die Merkmale oder Variablen statistische Einheiten heißen auch Merkmalsträger Merkmale besitzen Werte oder Ausprägungen Grundbegriffe der Statistik Beispiele: Merkmal Ausprägungen Merkmalsträger Wortlänge in Silben 1,2,3,... Wort Satz grammatisch? ja, nein Satz Lautdauer von Phonemen 0 – ∞ sek. Phonem Affixart Präfix, Suffix, ... Affix Wortart Verb, Nomen,... Wort Grundbegriffe der Statistik interessierende Variable = Zielgröße wird beeinflusst von beobachtbaren Variablen: Einflussgrößen, Faktoren nicht beobachtbaren Variablen: Störgrößen, latente Faktoren Grundbegriffe der Statistik Beispiel: statistische Einheiten: Sätze Grundgesamtheit: Sätze der deutschen Schriftsprache Stichprobe: NEGRA-Korpus Zielgröße: Anteil von Sätzen mit Verbzweitstellung Einflussgrößen: Textsorte, Autor Störgrößen: Annotierungsfehler Univariate Deskription von Daten univariate (= eindimensionale) Daten bestehen aus Beobachtungen eines einzelnen Merkmals Stichprobe vom Umfang n: an n stat. Einheiten werden die Werte x1, x2, ..., xn eines Merkmals X beobachtet Beispiel: Merkmal „Wortart“. An den ersten n = 20 Wörtern eines Korpus werden die folgenden Ausprägungen beobachtet (x1, ..., x20): Konj, Pron, Det, N, V, Konj, Pron, Präp, Adj, N, Präp, N, Konj, N, V, Adv, V, Pron, Adv, Präp Rohdaten, Urliste Univariate Deskription von Daten Urliste → Liste der vorkommenden Merkmalsausprägungen: a1 a2 a3 a4 a5 a6 a7 a8 Konj Pron Det N V Präp Adj Adv 3 3 1 4 3 3 1 2 Univariate Deskription von Daten Urliste → Liste der vorkommenden Merkmalsausprägungen: a1 a2 a3 a4 a5 a6 a7 a8 Konj Pron Det N V Präp Adj Adv 3 3 1 4 3 3 1 2 ← absolute Häufigkeit von a8 Univariate Deskription von Daten Anzahl Vorkommen einer Ausprägung aj in Urliste = absolute Häufigkeit von aj: h(aj) = hj, z.B. h(Konj) = 3. Summe aller Häufigkeiten h(a1) + h(a2) + ... + h(ak) gleich Stichprobenumfang n. relative Häufigkeit von aj = Anteil von aj-Werten in Urliste: f(aj) = hj / n. z.B.: f(Konj) = h(Konj) / n = 3 / 20 = 0,15 = 15%. Univariate Deskription von Daten graphische Darstellung von Häufigkeitsverteilungen 4 3,75 3,5 3,25 3 2,75 2,5 2,25 2 abs. Häuf. 1,75 1,5 1,25 1 0,75 0,5 0,25 0 N V Präp Konj Pron Adv Adj Det Univariate Deskription von Daten Beschreibung von Verteilungen Lagemaße und Kenngrößen erlauben den Vergleich von Häufigkeitsverteilungen arithmetisches Mittel: xam = (x1+x2+...+xn) / n (in Excel/OpenOffice Funktion „MITTELW“) Median xmed: Wert in Datenmitte Modus xmod: häufigster Wert Univariate Deskription von Daten 5 Beispiel: zwei Urlisten: 2,5; 3,0; 3,0; 3,5: xam = 3,0, xmed = 3,0 1,0; 2,0; 4,0; 5,0: xam = 3,0, xmed = 3,0 gleiche Lagemaße, Verteilungen sehen aber sehr unterschiedlich aus → weitere Kenngröße: Varianz 4,5 4 3,5 3 2,5 A B 2 1,5 1 0,5 0 1 2 3 4 Univariate Deskription von Daten Varianz: Maß für Streuung einer Verteilung um ihren Mittelwert s² = (x1 – xam)² + ... + (xn – xam) / n Excel: Funktion VARIANZEN Beispiel: 2,5; 3,0; 3,0; 3,5: xam = 3,0, xmed = 3,0, s² = 0,125 1,0; 2,0; 4,0; 5,0: xam = 3,0, xmed = 3,0, s² = 2,5 Standardabweichung = Wurzel aus Varianz Univariate Deskription von Daten ● ● zwei Textkorpora: FABELN und PHILOSOPHIE: Autor Token Autor Werk Token Aesop 3.270 Hegel PhdG 48.756 Lessing 3.148 Kant KdrV 26.248 Novalis 2.766 Nietzsche JGB 22.813 Pestalozzi 3.709 Marx Manifest 10.934 Wördemann 4.713 Spinoza Ethik 36.961 zwei Stichproben im Umfang n = 5 aus den Grundgesamtheiten „Fabeln“ und „philosophische Werke“ Univariate Deskription von Daten f(Konj) 7,5 7 6,5 6 5,5 5 4,5 Fabeln Philosophie 4 3,5 3 2,5 2 1,5 1 0,5 0 1 2 3 4 5 Univariate Deskription von Daten f(Art) 15 14 13 12 11 10 9 Fabeln Philosophie 8 7 6 5 4 3 2 1 0 1 2 3 4 5 Univariate Deskription von Daten f(Nomen) 22,5 20 17,5 15 Fabeln Philosophie 12,5 10 7,5 5 2,5 0 1 2 3 4 5 Univariate Deskription von Daten f(Verb) 12 11 10 9 8 7 Fabeln Philosophie 6 5 4 3 2 1 0 1 2 3 4 5 Multivariate Deskription von Daten Vergleiche bisher eindimensional – jedes Merkmal einzeln betrachtet multivariater Vergleich: mehrere Merkmale zugleich beobachten Streudiagramm erlaubt gleichzeitigen Vergleich von zwei Merkmalen ein Merkmal wird auf x-Achse aufgetragen, das andere auf der y-Achse jedes Element der Stichprobe ein Punkt im Diagramm Multivariate Deskription von Daten 12 11,5 11 10,5 f(Verb) 10 9,5 9 8,5 8 7,5 7 6,5 14 16 18 20 f(Nomen) 22 24 Multivariate Deskription von Daten Bei geeigneter Wahl der Merkmale bilden sich im Streudiagramm distinkte Gruppen, sogenannte Cluster dadurch kann festgestellt werden, welche Merkmale und Werte für Klassifizierungen nutzbar sind Streudiagramm veranschaulicht auch Zusammenhang, den zwei Merkmale aufeinander ausüben Multivariate Deskription von Daten 9 8,5 8 7,5 f(Pronomen) 7 6,5 6 5,5 5 4,5 4 3,5 3 2,5 2 1,5 4,5 4,6 4,7 4,8 4,9 5 5,1 5,2 Wortlänge 5,3 5,4 5,5 5,6 5,7 5,8 Multivariate Deskription von Daten 19 18 17 16 15 h("a") 14 13 12 11 10 9 8 7 6 5 10 15 20 25 30 Textlänge 35 40 45 50 Multivariate Deskription von Daten Streudiagramm zeigt Korrelation der beiden Merkmale wenn die Punkte im Diagramm nahe einer gedachten Geraden liegen, korrelieren die Merkmale positive Korrelation: je größer die x-Werte, desto größer die zugehörigen y-Werte negative Korrelation: je größer die x-Werte, desto kleiner die zugehörigen y-Werte Korrelationsmaße geben Stärke des Zusammenhangs an: z.B. Korrelationskoeffizient nach Bravais-Pearson (Excel-Funktion PEARSON) Multivariate Deskription von Daten statistisch gefundene Korrelation zwischen zwei Merkmalen begründet keinen kausalen Zusammenhang! Beispiel (aus [4]): hohe Korrelation für Merkmale „Orangenimport in Tonnen“ und „Anzahl Krebserkrankungen“, trotzdem besteht offensichtlich kein Zusammenhang (Scheinkorrelation) verdeckte Korrelation: Merkmale korrelieren mit einer unberücksichtigten dritten Variable Richtung der Beeinflussung Wahrscheinlichkeitsrechnung „Wahrscheinlich regnet es morgen“ → Sprecher weiß nicht, ob Ereignis eintritt oder nicht Ziel der Wahrscheinlichkeitsrechnung: Grad der Unsicherheit auf quantitatives Maß zurückführen und damit rechnen Z.B. Wurf eines Würfels: Zufallsvorgang mit mehreren, sich auschließenden Ergebnissen Zufallsexperiment: mögliche Ausgänge bekannt: 1,2,3,4,5,6. Heißen Elementarereignisse. Ereignisraum R = {1,2,3,4,5,6} Wahrscheinlichkeitsrechnung Beispiel: Wurf zweier Münzen. Mögliche Ausgänge sind die vier Elementarereignisse Kopf&Kopf, Kopf&Zahl, Zahl&Kopf, Zahl&Zahl. Sie bilden den Ereignisraum R. Ereignis = Teilmenge des Ereignisraums. Ereignis kann Elementarereignis oder Zusammenfassung mehrerer Elementarereignisse sein. z.B. Würfel: Ereignis „Augenzahl ungerade“ besteht aus Elementarereignissen {1,3,5}. ist Teilmenge für Ereignis = R: sichere Ereignis ist Ereignismenge ∩ R = Ø: unmögliche Ereignis Wahrscheinlichkeitsrechnung Ereignisraum R bestehe aus N gleichmöglichen Elementarereignissen Teilmenge von R, die Ereignis A entspricht, bestehe aus NA Elementarereignissen Wahrscheinlichkeit für Eintreten des Ereignisses A: p = NA / N. z.B. Wahrscheinlichkeit ungerade Zahl zu würfeln: p = NA / N = |{1,3,5}| / |{1,2,3,4,5,6}| = 3 / 6 = 0,5. Wahrscheinlichkeitsrechnung Wahrscheinlichkeiten immer größer oder gleich Null unmögliches Ereignis hat Wahrscheinlichkeit Null sicheres Ereignis hat Wahrscheinlichkeit 1 Additionssatz: wenn A ∩ B = Ø dann P(A U B) = P(A) + P(B) z.B. R = {Kopf, Zahl}, A = {Kopf}, B = {Zahl}, „entweder Kopf oder Zahl“: P(A U B) = 0,5 + 0,5 = 1. wenn A ∩ B ≠ Ø dann P(A U B) = P(A) + P(B) – P(A ∩ B) z.B. Würfel: A = {1,3,5}, B = {1,6}: P(A U B) = 3/6 + 2/6 – 1/6 = 4/6 Wahrscheinlichkeitsrechnung Wahrscheinlichkeit von Verbundereignissen gleichzeitiges Auftreten zweier Ereignisse A und B Multiplikationssatz: P(A ∩ B) = P(A) · P(B) gilt für statistisch unabhängige Ereignisse Urnenmodell: Ziehen mit Zurücklegen Wahrscheinlichkeitsrechnung Ziehen ohne Zurücklegen Ausgang des ersten Zugs beeinflusst Wahrscheinlichkeit im zweiten Zug Multiplikationssatz: P(A ∩ B) = P(A) · P(B|A) gilt für statistisch abhängige Ereignisse bedingte Wahrscheinlichkeit: P(B|A): Wahrscheinlichkeit von B, wenn A bereits eingetreten ist (a posteriori-Wahrscheinlichkeit von B) Literatur [1] Chris Manning und Hinrich Schütze: Foundations of Statistical Natural Language Processing. MIT Press, 1999. [2] Michael P. Oakes: Statistics for Corpus Linguists. Edinburgh University Press, 1998. [3] Gabriel Altmann: Statistik für Linguisten. Wissenschaftlicher Verlag Trier, 1995. [4] Hans Kellerer: Statistik im modernen Wirtschafts- und Sozialleben. Rowohlt, 1960. [5] Walter Krämer: So lügt man mit Statistik. Piper, 2000.