FAKULTÄT FÜR INFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN Bachelorarbeit in Informatik Analyse der Struktur und statistischer Eigenschaften von Texten und Erzeugung zufälliger Texte Andre Hong Lam Dau FAKULTÄT FÜR INFORMATIK DER TECHNISCHEN UNIVERSITÄT MÜNCHEN Bachelorarbeit in Informatik Analysis of the structure and statistical properties of texts and generation of random texts Analyse der Struktur und statistischer Eigenschaften von Texten und Erzeugung zufälliger Texte Autor: Aufgabensteller: Betreuer: Datum: Andre Hong Lam Dau Prof. Dr. Ernst Mayr Dipl.-Inform. Johannes Krugel April 30, 2010 Ich versichere, dass ich diese Bachelorarbeit selbständig verfasst und nur die angegebenen Quellen und Hilfsmittel verwendet habe. München, den 30. April 2010 Andre Hong Lam Dau Danksagung An dieser Stelle möchte ich Professor Ernst W. Mayr und Johannes Krugel danken, die meine Bachelorarbeit betreut und damit erst möglich gemacht haben. Zudem bedanke ich mich von ganzem Herzen bei meiner Familie, insbesondere meinen Eltern und Schwestern, die mich so gut kennen und mich mein Leben lang begleitet und unterstützt haben. Außerdem danke ich natürlich all meinen einzigartigen Freunden, mit denen ich bisher eine wirklich schöne Zeit verbracht habe. Sowohl die Zeit in Stuttgart als auch in München wird unvergesslich bleiben. Ein besonderer Dank gilt jenen, die immer ein offenes Ohr und viel Geduld für mich hatten. Schließlich möchte ich allen anderen meinen Dank aussprechen, die mich unterstützt haben. vii Abstract Methods to analyze texts and text generating models are presented. Entropy estimation methods as well as the concept of mutual information are explained. Markov processes, discrete autoregressive processes and a model for approximate repeats are reviewed together with parameter estimation algorithms. All model and estimation methods have been implemented. The models are evaluated on a theoretical basis as well as by comparing generated texts to the original training data. Advantages and disadvantages of the models are discussed. Entropy and mutual information are both suited for revealing correlation structures. For example they allow to distinguish between coding and non-coding DNA regions. The mutual information function I(k) of natural languages decreases exponentially for small k. Markov chains are good models for both DNA sequences as well as natural language. The main problem is the exponential increase of parameters. Discrete autoregressive processes can just model to some extent the mutual information function of non-coding DNA sequences. The model for approximate repeats yields good results when using sufficiently long DNA sequences and initial parameters not too far away from the actual parameters. The main disadvantage is the quadratic runtime which makes it not feasible to use it on whole genomes. For short sequences the estimated parameters vary greatly. However the median seems to be a good approximation for the actual parameters. ix Zusammenfassung Die Arbeit stellt Konzepte zur statistischen Untersuchung von Texten und der Parameterschätzung für generierende Modelle anhand von Testdatensätzen vor. Konkret werden Methoden zur Schätzung der Entropie und Transinformationsfunktion untersucht. Zudem werden Parameterschätzungsverfahren für Markov-Ketten, diskrete autoregressive Prozesse und ein Modell für ähnliche Wiederholungen evaluiert. Die generierten Texte der Modelle werden sowohl mit theoretischen Methoden als auch anhand von Versuchen mit dem ursprünglichen Text verglichen. Es werden Vor- und Nachteile der Modelle erläutert und praktische Probleme bei der Implementierung angesprochen. Alle vorgestellten Schätzverfahren wurden implementiert und zur Generierung der Versuchsdaten verwendet. Sowohl die Entropie als auch die Transinformationsfunktion eignen sich um Korrelationsstrukturen innerhalb eines Textes zu erfassen. Durch die Entropie und Transinformationsfunktion ist es möglich, codierende von nicht-codierenden Bereichen zu unterscheiden. Natürlichsprachige Texte weisen im Nahbereich einen exponentiellen Abfall der Transinformationsfunktion auf. Bei den Modellen erweist sich das Markov-Modell als geeignet für DNA-Sequenzen und natürlichsprachige Texte. Korrelationen bis zur Markov-Ordnung werden sehr gut wiedergegeben. Nachteil ist die exponentiell wachsende Anzahl an Parametern mit steigender Ordnung. Diskrete autoregressive Prozesse (DAR(p)) können nur sehr einfache lineare Korrelationen simulieren. Sie eignen sich nur zur Modellierung der Transinformationsfunktion nicht-codierender DNA-Sequenzen. Das Modell für ähnliche Wiederholungen ist aufgrund der quadratischen Laufzeit der Parameterschätzung bedingt zur umfangreichen Textanalyse und -generierung geeignet. Die Parameter können gut aus einer DNA-Sequenz geschätzt werden, wenn die Anfangswerte nicht zu weit entfernt liegen und die Sequenz lang genug ist. Bei kurzen Sequenzen kommt es zu Schwankungen zwischen Stichproben. Der Median liefert dann eine Näherung an die tatsächlichen Parameter. Entropie und Transinformation entsprechen weitestgehend der zu Grunde liegenden Markov-Kette. Die Transinformationsfunktion geht durch die Wiederholungen im Text nicht sofort gegen null. xi xii Inhaltsverzeichnis Danksagung vii Abstract ix I. 1 Einleitung und theoretische Grundlagen 1. Einleitung 1.1. Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1. Verwendete Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.2. Testbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Elementare Grundlagen der diskreten Wahrscheinlichkeitstheorie 2.1. Zufallsexperiment . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Diskreter Wahrscheinlichkeitsraum . . . . . . . . . . . . . . . . . 2.2.1. Komplementäres Ereignis . . . . . . . . . . . . . . . . . . 2.3. Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . 2.3.1. Multiplikationssatz . . . . . . . . . . . . . . . . . . . . . . 2.3.2. Gesetz der totalen Wahrscheinlichkeit . . . . . . . . . . . 2.4. Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5. Satz von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6. Diskrete Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . 2.6.1. Dichtefunktion . . . . . . . . . . . . . . . . . . . . . . . . 2.6.2. Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . 2.6.3. Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . 2.6.4. Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.5. Standardabweichung . . . . . . . . . . . . . . . . . . . . . 2.6.6. Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . 2.6.7. Rechenregeln . . . . . . . . . . . . . . . . . . . . . . . . . 2.7. Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . 2.7.1. Starkes Gesetz der großen Zahlen . . . . . . . . . . . . . 3 3 4 5 . . . . . . . . . . . . . . . . . . 7 7 7 8 8 8 8 9 9 10 10 10 10 11 11 11 11 11 12 3. Modelle für die Untersuchung von Texten 3.1. Stochastischer Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1. Stationarität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2. Ergodizität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 14 15 15 II. Analyse von Texten 17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii Inhaltsverzeichnis 4. Einleitung 4.1. Aufbau des Analysetools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Allgemeine Einstellungsmöglichkeiten . . . . . . . . . . . . . . . . . . . . . . 4.3. Bemerkung zur Speicherung von N -Grammen . . . . . . . . . . . . . . . . . 19 19 20 20 5. Häufigkeitsverteilungen 5.1. Untersuchte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Einstellungsmöglichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 21 21 6. Entropie 6.1. Gemessene Größen . . . . . . . . . . . . . . . . . . . . . . 6.2. Einstellungsmöglichkeiten . . . . . . . . . . . . . . . . . . 6.3. Theoretischer Hintergrund . . . . . . . . . . . . . . . . . . 6.3.1. Gemeinsame Entropie mehrerer Zufallsvariablen 6.3.2. Bedingte Entropie . . . . . . . . . . . . . . . . . . . 6.3.3. Blockentropie . . . . . . . . . . . . . . . . . . . . . 6.3.4. Entropierate . . . . . . . . . . . . . . . . . . . . . . 6.4. Entropieschätzung . . . . . . . . . . . . . . . . . . . . . . 6.5. Testergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . 6.5.1. Testergebnisse für DNA-Sequenzen . . . . . . . . 6.5.2. Natürlichsprachige Texte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 23 23 23 25 26 26 27 27 28 28 29 7. Transinformation 7.1. Gemessene Größen . . . . . . . . . . . . 7.2. Einstellungsmöglichkeiten . . . . . . . . 7.3. Theoretischer Hintergrund . . . . . . . . 7.4. Schätzen der Transinformationsfunktion 7.5. Testergebnisse . . . . . . . . . . . . . . . 7.5.1. DNA-Sequenzen . . . . . . . . . 7.5.2. Natürlichsprachige Texte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 31 31 31 32 33 33 33 8. Ausgaben für die Parameterschätzung 8.1. Relative Zeichenhäufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . 8.2. Bedingte relative Zeichenhäufigkeiten . . . . . . . . . . . . . . . . . . . . 8.3. Autokorrelationskoeffizienten eines diskreten autoregressiven Prozesses 8.4. Parameter für das Approximate Repeats-Modell . . . . . . . . . . . . . . . . . . . . . . 37 37 37 37 37 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III. Generierung von Texten 39 9. Einleitung 9.1. Einstellungsmöglichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2. Bemerkung zu den Versuchsreihen . . . . . . . . . . . . . . . . . . . . . . . . 41 41 41 10. Markov-Kette 10.1. Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2. Theoretischer Hintergrund . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 43 43 xiv Inhaltsverzeichnis 10.3. Parameterschätzung . . . . . . . 10.3.1. Rückkehrzeit . . . . . . . 10.3.2. Reduzibilität . . . . . . . . 10.4. Entropie . . . . . . . . . . . . . . 10.5. Transinformation . . . . . . . . . 10.6. Testergebnisse . . . . . . . . . . . 10.6.1. DNA-Sequenzen . . . . . 10.6.2. Natürlichsprachige Texte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 45 45 46 47 48 48 50 11. Diskreter autoregressiver Prozess 11.1. Einstellungsmöglichkeiten . . . . . 11.2. Theoretischer Hintergrund . . . . . 11.3. Parameterschätzung . . . . . . . . 11.3.1. Autokorrelationskoeffizient 11.3.2. Yule-Walker-Gleichungen . 11.4. Entropie . . . . . . . . . . . . . . . 11.5. Transinformation . . . . . . . . . . 11.6. Testergebnisse . . . . . . . . . . . . 11.6.1. DNA-Sequenzen . . . . . . 11.6.2. Natürlichsprachige Texte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 53 53 54 54 55 58 58 58 61 61 12. Ähnliche Wiederholungen 12.1. Parameter . . . . . . . . . . . . . . . . . . . . . 12.2. Theoretischer Hintergrund . . . . . . . . . . . . 12.3. Parameterschätzung . . . . . . . . . . . . . . . 12.4. Komplexität . . . . . . . . . . . . . . . . . . . . 12.4.1. Beschleunigung des Schätzvorgangs . . 12.5. Testergebnisse . . . . . . . . . . . . . . . . . . . 12.5.1. Test der Parameterschätzung . . . . . . 12.5.2. Test der Entropie und Transinformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 65 65 67 69 70 70 70 74 IV. Schlussteil 77 13. Schlussbemerkung 79 Anhang 81 Literaturverzeichnis 85 xv Teil I. Einleitung und theoretische Grundlagen 1 1. Einleitung 1.1. Überblick Ziel dieser Arbeit ist es, verschiedene Modelle zur Generierung von Texten mit vorgegebenen statistischen Eigenschaften zu untersuchen. Die Generatoren sollten Einstellungsmöglichkeiten für Parameter der generierten Texte besitzen und auch in der Lage sein wirklichkeitsnahe Daten zu erzeugen. Dazu soll parallel ein Analysetool entwickelt werden, das vorhandene Daten auf Eigenschaften hin untersuchen kann und dabei Parameter für die Generatoren erzeugt. Mit der Kombination aus Analysetool und Generator sollte es langfristig möglich sein, wirklichkeitsnahe Daten mit kontrollierbaren Eigenschaften zu erzeugen. Diese könnten beispielsweise dazu verwendet werden, Textalgorithmen unter vorgegebenen Bedingungen zu testen und diese zu bewerten. Die Zahl an Modellen und untersuchten Texteigenschaften ist sehr groß. Dabei sind mit Texten nicht nur natürlichsprachige Texte, sondern beispielsweise auch DNA-Sequenzen gemeint. Prinzipiell gibt es bereits viele Methoden und Modelle. Diese Arbeit leistet einen Beitrag zur Realisierung des angesprochenen Generators, indem ausgewählte Messgrößen und Modelle zur Untersuchung und Generierung von Texten auf ihre Tauglichkeit hin überprüft werden. Ein umfassender Überblick über dieses umfassende Themengebiet geht jedoch über den Rahmen dieser Arbeit hinaus. Als Teil dieser Arbeit wurden zwei Programme entwickelt, die die untersuchten Konzepte implementieren, eines zur Analyse von Daten und eines zur Generierung von Daten. Alle in dieser Arbeit aufgeführten Diagramme verwenden Daten, die mit diesen Programmen erstellt wurden. Die erste wichtige Entscheidung für das Projekt war die Auswahl der zu untersuchenden Eigenschaften und Modelle. Im Rahmen dieser Arbeit wurde tendenziell ein informationsund wahrscheinlichkeitheoretischer Ansatz für den Zugang zu den Texten gewählt. Die Arbeit ist in drei Teile gegliedert. Der erste Teil führt die allgemeinen mathematischen Grundlagen ein, die für ein Verständnis der Arbeit notwendig sind. Da ein Großteil dieser Arbeit diskrete Zufallsvariablen und stochastische Prozesse als zentrale Hilfsmittel benötigt, werden zuerst elementare Begriffe und Definitionen der diskreten Wahrscheinlichkeitstheorie eingeführt. Im Anschluss folgt eine kurze Einführung in Modelle allgemein und stochastische Prozesse im Speziellen. Der zweite Teil beschäftigt sich mit der Analyse grundlegender Eigenschaften von realen Texten, unabhängig von einem Generatormodell. Allgemein geben solche Eigenschaften Hinweise auf Strukturen innerhalb des Textes. Ein gutes Generatormodell sollte in der Lage sein, diese Strukturen nachzubilden. Die Übereinstimmung der gemessenen Eigenschaften in künstlicher und ursprünglicher Sequenz sind ein Maß für die Güte eines Generators hinsichtlich dieser Eigenschaft. Die in dieser Arbeit untersuchten Eigenschaften sind: 3 1. Einleitung • Häufigkeitsverteilungen • Blockentropie und bedingte Entropie • Transinformationsfunktion Die meisten der vorgestellten Analysemethoden wurden implementiert. Am Anfang jedes Kapitels steht eine kurze Einleitung, gefolgt von einer Auflistung aller implementierten Konzepte und die dazugehörigen Einstellungsmöglichkeiten. Danach wird der theoretische Hintergrund erläutert und in diesem Zusammenhang die Bedeutung der Eigenschaften erklärt. Im Rahmen des theoretischen Teils wird schließlich eine Methode zur Schätzung der Eigenschaften aus einem Testdatensatz vorgestellt. Abschließend werden am Ende jeden Kapitels die theoretischen Überlegungen mit durchgeführten Tests verglichen, bewertet und interpretiert. Der dritte Teil untersucht verschiedene Generatormodelle und inwieweit sie in der Lage sind, Strukturen in Texten nachzubilden. Die untersuchten Modelle sind: • Markov-Ketten • Diskreter autoregressiver Prozess (DAR(p)) • Approximate Repeats - Modell (Modellierung von ähnlichen Wiederholungen in Texten) Es wird wieder eine kurze Einführung und ein theoretische Hintergrund zu den Modellen gegeben. Insbesondere werden die Modelle auch auf ihre Fähigkeit hin überprüft, die Entropie und Transinformationsfunktion nachzubilden. Es werden Vor- und Nachteile der Modelle diskutiert und unter welchen Bedingungen man sie einsetzen kann. Zentraler Abschnitt jeden Kapitels ist die Parameterschätzung, die anhand eines Textes gute Parameter für das Modell finden soll. Am Ende jeden Kapitels werden die Modelle durch die Auswertung von Tests mit realen Daten auf ihre praktische Tauglichkeit hin untersucht und evaluiert. 1.1.1. Verwendete Datensätze Ursprünglich sollten die Analysemethoden und Generatoren möglichst allgemein gehalten werden, damit sie prinzipiell auf alle Texte anwendbar sind. Praktisch wird es mit zunehmender Komplexität und Genauigkeit schwieriger gute allgemeine Modelle zu finden. Meist sind die Modelle auf bestimmte Anwendungsgebiete zugeschnitten, die sie natürlicherweise tauglicher für eine gewisse Klasse von Texten machen. Der Fokus dieser Arbeit liegt auf der Analyse von DNA-Sequenzen, wobei auch natürlichsprachige Texte mit den Modellen untersucht wurden. Zum Teil lieferten die Modelle jedoch für natürlichsprachige Texte unbefriedigende Ergebnisse. Auch zwischen DNA-Sequenzen gibt es große Unterschiede, insbesondere bei statistischen Analysemethoden. So unterscheiden sich beispielsweise codierende und nicht-codierende Bereiche von DNA-Strängen teils erheblich bezüglich ihrer Eigenschaften. Für die Tests wurden folgende Daten verwendet: 4 1.1. Überblick • Alle Chromosomen des menschlichen Genoms mit X und Y Chromosom: Ein Chromosom enthält große Teile nicht codierender Bereiche, die aus statistischer Sicht besonders interessant sind, da sie beispielsweise viele große repetitive Regionen enthalten. Alle Chromosomen-Sequenzen bestehen zusammen aus mehr als drei Milliarden Basenpaaren. • D. melanogoster neurogenic locus mastermind mRNA: Da aus der mRNA alle Introns entfernt wurden, enthält die DNA-Sequenz keine großen nicht-codierenden Bereiche. Man erwartet deshalb ein anderes statistisches Verhalten als bei den menschlichen Chromosomen. Die mRNA hat ungefähr eine Länge von 6500 bp. • Deutsche Texte aus dem Projekt Gutenberg: Für die Analyse natürlichsprachiger Texte dient unter anderem eine Konkatenation aller deutschen Texte aus dem Projekt Gutenberg (ca. 275 MB). • Französische Texte aus dem Projekt Gutenberg: Ebenso wird eine Konkatenation aller fanzösischen Texte des Projekts Gutenberg verwendet (ca. 800 MB). Bis auf das Approximate Repeats-Modell wurden alle Verfahren auf alle genannten Datensätze angewendet. Die Testergebnisse sind zu umfangreich, um sie dieser Arbeit beizufügen. Deshalb werden in den einzelnen Kapiteln nur einige Chromosomen des Menschen zur Illustration der Testergebnisse verwendet. Weitere Testergebnisse und Diagramme finden sich im Anhang. 1.1.2. Testbedingungen Bei der Untersuchung von DNA-Sequenzen wurde das Alphabet auf A,C,G und T eingeschränkt. Sequenzen im FASTA-Format enthalten häufig große Bereiche, die nur aus dem Buchstaben N bestehen. Sie stehen für nicht entschlüsselte Bereiche. Um die statistischen Eigenschaften nicht zu verfälschen, werden diese Bereiche vor der Berechnung entfernt. Für die Analyse von natürlichsprachigen Texten muss eine Regel für die Behandlung von Sonderzeichen, Steuerzeichen und Leerzeichen festgelegt werden. Im Rahmen der Tests wurden diese Zeichen nicht ignoriert und wie normale Buchstaben behandelt. Zudem wurde zwischen Groß- und Kleinschreibung unterschieden.Daraus ergeben sich Alphabetgrößen von bis zu 230 Zeichen. Interessanterweise erhält man meist auch mit auf druckbare Zeichen reduziertem Alphabet ähnliche statistische Ergebnisse. 5 1. Einleitung 6 2. Elementare Grundlagen der diskreten Wahrscheinlichkeitstheorie Dieses Kapitel dient als Wiederholung und Kurzüberblick über elementare Begriffe und Sätze der diskreten Wahrscheinlichkeitstheorie, die zum Verständnis der folgenden Kapitel benötigt werden. Diese Einführung wurde vor allem unter Zuhilfenahme des Buches ‘Diskrete Strukturen 2’ von Schickinger et al. [12] erstellt. 2.1. Zufallsexperiment Definition 2.1 Ein Zufallsexperiment wird im Folgenden als ein (möglicherweise gedankliches) Experiment verstanden, das • unter vorgegebenen und reproduzierbaren Bedingungen durchgeführt wird, • dessen mögliche Ergebnisse vor der Durchführung bekannt sind, • und bei dem den einzelnen Ergebnissen Wahrscheinlichkeiten zugeordnet werden können. 2.2. Diskreter Wahrscheinlichkeitsraum Definition 2.2 Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, A, p). Ω ist die Menge der möglichen Elementarereignisse und repräsentiert damit alle möglichen Ausgänge eines Zufallsexperimentes. A ⊆ P (Ω) ist die Menge der möglichen Ereignisse. Ein Ereignis ist eine Menge von Elementarereignissen. Ein Ereignis tritt ein, wenn das Ergebnis eines Zufallsexperimentes im Ereignis enthalten ist. Formal muss die Menge der Ereignisse die Eigenschaften einer σ-Algebra 1 über Ω erfüllen. Wird die Menge der Ereignisse nicht explizit angegeben, wird im Folgenden als Ereignismenge die triviale σ-Algebra A = P (Ω) angenommen. p : A → [0; 1] ist ein Wahrscheinlichkeitsmaß über der Menge der Ereignisse mit (2.1) p(Ω) = 1 und p ist σ-additiv, was bedeutet, dass für jede abzählbare Menge M von disjunkten Ereignissen E1 , E2 , ... gilt p( ] Ei ∈M 1 Ei ) = X p(Ei ) (2.2) Ei ∈M Für ein Verständnis der weiteren Konzepte sind Kenntnisse über σ-Algebren nicht notwendig 7 2. Elementare Grundlagen der diskreten Wahrscheinlichkeitstheorie 2.2.1. Komplementäres Ereignis Definition 2.3 Das komplementäre Ereignis zu E bezeichnet man als E und ist definiert als E = Ω\E (2.3) p(E) + p(E) = p(Ω) = 1 (2.4) Anmerkung 2.4 Es gilt 2.3. Bedingte Wahrscheinlichkeit Definition 2.5 Die bedingte Wahrscheinlichkeit eines Ereignisses A unter der Bedingung B bezeichnet die Wahrscheinlichkeit von A, falls bekannt ist, dass zugleich das Ereignis B eingetreten ist. Man schreibt dafür p(A|B) und definiert für p(B) > 0: p(A|B) = p(A ∩ B) p(B) (2.5) Anmerkung 2.6 Sei E ein Ereignis. p(E|E) = 1 (2.6) p(E|Ω) = p(E) (2.7) Satz 2.7 Die bedingte Wahrscheinlichkeit p(·|B) bei gegebener Bedingung B, mit p(B) > 0 ist ein neues gültiges Wahrscheinlichkeitsmaß auf dem ursprünglichen Wahrscheinlichkeitsraum. 2.3.1. Multiplikationssatz Durch Umformung erhält man p(A ∩ B) = p(A|B)p(B) (2.8) Daraus ergibt sich der Multiplikationssatz: Satz 2.8 Seien A1 , ..., An Ereignisse mit p(A1 ∩ ... ∩ An ) > 0, dann gilt: p(A1 ∩ ... ∩ An ) = p(A1 ) · p(A2 |A1 ) · p(A3 |A1 ∩ A2 ) · ... · p(An |A1 ∩ ... ∩ An−1 ) (2.9) 2.3.2. Gesetz der totalen Wahrscheinlichkeit Satz 2.9 Sei M = {E0 , E1 , ...} eine Menge von disjunkten Ereignissen, sodass A⊆ ] En (2.10) n Die Vereinigung aller Ereignisse in M enthält dann alle Elementarereignisse aus A. Falls A eintritt, so tritt genau eines der Ereignisse aus M ein. Es gilt dann X P (A) = P (A|E) (2.11) E∈M 8 2.4. Unabhängigkeit 2.4. Unabhängigkeit Definition 2.10 Zwei Ereignisse A und B sind unabhängig, wenn das Wissen über das Eintreffen des Ereignisses B keinen Einfluss auf die Wahrscheinlichkeit des Eintreffens von A hat. Man definiert zwei Ereignisse als unabhängig, genau dann wenn p(A ∩ B) = p(A) · p(B) (2.12) Für p(B) > 0 ergibt sich damit die der intuitiven Definition entsprechende Gleichung p(A|B) = p(A ∩ B) = p(A) p(B) (2.13) Definition 2.11 Eine abzählbare Menge M von Ereignissen heißt unabhängig, wenn für alle beliebigen Teilmengen T ⊆ M gilt: p( \ Y t) = t∈T p(t) (2.14) t∈T Satz 2.12 Sind A und B unabhängig, so sind auch A und B unabhängig. Es gilt B = B ∩ Ω = B ∩ (A ] A) = (B ∩ A) ] (B ∩ A) (2.15) Daraus ergibt sich für unabhängige Ereignisse A und B p(A ∩ B) = p(B) − p(A ∩ B) = p(B) − p(A)p(B) = p(B)(1 − p(A)) = p(B)p(A) (2.16) 2.5. Satz von Bayes Satz 2.13 Sei M eine abzählbare Menge von paarweise disjunkten Ereignissen und A ein Ereignis, sodass ∀E ∈ M.p(E) > 0 und p(A) > 0 (2.17) sowie A⊆ ] E (2.18) E∈M Dann gilt gemäß dem Satz der totalen Wahrscheinlichkeit p(A) = X p(A|E) (2.19) E∈M Daraus folgt die Bayesformel für alle E ∈ M : p(E|A) = p(E ∩ A) p(A|E)p(E) p(A|E)p(E) = =P p(A) p(A) F ∈M p(A|F )p(F ) (2.20) 9 2. Elementare Grundlagen der diskreten Wahrscheinlichkeitstheorie 2.6. Diskrete Zufallsvariable Definition 2.14 Eine diskrete Zufallsvariable (im Folgenden kurz Zufallsvariable genannt) über der Ergebnismenge Ω eines diskreten Wahrscheinlichkeitsraumes ist eine Funktion X : Ω → WX (2.21) mit diskretem Wertebereich WX . Eine Zufallsvariable kann informell als ein Aspekt oder eine Eigenschaft eines Zufallsereignisses aufgefasst werden. Notation 2.15 Die Wahrscheinlichkeit, dass eine Zufallsvariable X über dem Wahrscheinlichkeitsraum Ω den Wert a annimmt, wird mit p(X = a) := p({ω ∈ Ω|X(ω) = a}) (2.22) bezeichnet. Analoges gilt für alle anderen Vergleichsoperatoren. 2.6.1. Dichtefunktion Definition 2.16 Die Dichtefunktion fX : WX → [0; 1] einer Zufallsvariablen X ist definiert als fX : x 7→ p(X = x) (2.23) Die Dichtefunktion einer diskreten Zufallsvariablen beschreibt die Wahrscheinlichkeit, dass diese einen bestimmten Wert annimmt. Definition 2.17 Die gemeinsame Dichtefunktion mehrerer Zufallsvariablen X1 , ..., Xn ist definiert als fX1 ,...,Xn (x1 , ..., xn ) = p(X1 = x1 , ..., Xn = xn ) (2.24) 2.6.2. Verteilungsfunktion Definition 2.18 Die Verteilungsfunktion FX : WX → [0; 1] einer Zufallsvariablen X ist definiert als FX : x 7→ p(X ≤ x) (2.25) Definition 2.19 Die gemeinsame Verteilungsfunktion mehrerer Zufallsvariablen X1 , ..., Xn ist definiert als FX1 ,...,Xn (x1 , ..., xn ) = p(X1 ≤ x1 , ..., Xn ≤ xn ) (2.26) 2.6.3. Erwartungswert Intuitiv ist der Erwartungswert einer Zufallsvariablen X der erwartete Mittelwert von X nach eine großen Anzahl von unabhängigen Zufallsexperimenten. Definition 2.20 Der Erwartungswert einer Zufallsvariablen X mit Wertebereich WX und Dichtefunktion fX ist definiert als X E(X) = (x · fX (x)) (2.27) x∈WX falls 10 P x∈WX (x · fX (x)) konvergiert. Ansonsten ist der Erwartungswert nicht definiert. 2.7. Gesetz der großen Zahlen 2.6.4. Varianz Definition 2.21 Die Varianz ist ein Maß für die Streuung einer Zufallsvariablen um den Mittelpunkt herum. Formal ist sie als die erwartete quadratische Abweichung vom Erwartungswert definiert. V ar[X] = E[(X − E[X])2 ] (2.28) 2.6.5. Standardabweichung Definition 2.22 Die Standardabweichung einer Zufallsvariablen ist σ= » V ar[X] (2.29) 2.6.6. Unabhängigkeit Definition 2.23 Die Zufallsvariablen X1 , ..., Xn mit Wertebereich WX1 , ..., WXn heißen unabhängig, wenn ∀(x1 , ..., xn ) ∈ (WX1 × ... × WXn ).(p(X1 = x1 , ..., Xn = xn ) = p(X1 = x1 ) · ... · p(Xn = xn )) (2.30) 2.6.7. Rechenregeln Satz 2.24 Linearität des Erwartungswertes E[a · X + b] = a · E[X] + b (2.31) E[a1 · X1 + ... + an · Xn ] = a1 · E[X1 ] + ... + an · E[Xn ] (2.32) Satz 2.25 Für eine beliebige Zufallsvariable X gilt V ar[X] = E[X 2 ] − E[X]2 (2.33) V ar[a · X + b] = a2 · V ar[X] (2.34) Satz 2.26 Satz 2.27 Für unabhängige Zufallsvariablen X1 , ..., Xn gilt: E[X1 · ... · Xn ] = E[X1 ] · ... · E[Xn ] (2.35) Satz 2.28 Für unabhängige Zufallsvariablen X1 , ..., Xn gilt: V ar[X1 + ... + Xn ] = V ar[X1 ] + ... + V ar[Xn ] (2.36) 2.7. Gesetz der großen Zahlen Ein wichtiges Werkzeug der induktiven Statistik sind Zufallsvariablen. Häufig werden komplexe Systeme durch Zufallsvariablen beschrieben. Das Verhalten einer Zufallsvariablen wird durch ihre Wahrscheinlichkeitsverteilung beschrieben. Eine wichtige Aufgabe der induktiven Statistik besteht deshalb in der Schätzung der Verteilung einer Zufallsvariablen. Das bekannteste Prinzip zur Schätzung der Verteilung wird durch das Gesetz der großen Zahlen beschrieben. 11 2. Elementare Grundlagen der diskreten Wahrscheinlichkeitstheorie Schwaches Gesetz der großen Zahlen Satz 2.29 Sei X eine Zufallsvariable und X1 , X2 , ... eine Folge von unabhängigen Zufallsvariablen mit derselben Verteilung wie X. Dann gilt für Xk = X1 + ... + Xk k lim p(|X n − E[X]| < ) = 1 n→∞ (2.37) (2.38) 2.7.1. Starkes Gesetz der großen Zahlen Satz 2.30 Sei X eine Zufallsvariable und X1 , X2 , ... eine Folge von unabhängigen Zufallsvariablen mit derselben Verteilung wie X. Dann gilt für Xk = p X1 + ... + Xk k lim X n = E[X] = 1 n→∞ (2.39) (2.40) Das starke Gesetz impliziert das schwache Gesetz. Das schwache Gesetz besagt, dass die Werte von X n für große n mit großer Wahrscheinlichkeit nahe am Erwartungswert liegen. Es bleibt aber die Wahrscheinlichkeit bestehen, dass unendlich viele Werte von X n Ausreißer sind. Das starke Gesetz besagt, dass das fast sicher nicht eintreten wird und die Folge der X n fast sicher echt konvergiert. Das Gesetz erlaubt es eine Schätzung des Erwartungswertes einer Zufallsvariablen aus vielen unabhängigen Zufallsexperimente unter gleichen Bedingungen zu gewinnen. Die Ausgänge dieser einzelnen Experimente nennt man Stichproben, die unabhängigen Zufallsvariablen nennt man Stichprobenvariablen. Das arithmetische Mittel der Stichproben konvergiert mit wachsender Zahl der Stichproben fast sicher gegen den Erwartungswert der Zufallsvariablen. Auf diese Weise kann man auch die Verteilung einer diskreten Zufallsvariablen X mit endlicher Wertemenge bestimmen. Dazu definiert man für alle möglichen Werte a die Indikatorfunktion IX=a : Ω → {0; 1} mit ( 1, falls X(ω) = a IX=a (ω) = 0, sonst Da E[IX=a ] = p(X = a) kann man mit Hilfe des Gesetzes der großen Zahlen die Verteilung von X annähernd durch die relativen Häufigkeiten der Werte innerhalb der Versuchsreihe bestimmen. 12 3. Modelle für die Untersuchung von Texten Bei der Untersuchung von Texten kann man grundsätzlich zwischen Eigenschaften des Textes und Eigenschaften eines dem Text zu Grunde gelegten Modells unterscheiden. Texteigenschaften lassen sich direkt aus dem Text ermitteln und sind spezifisch für diesen Text. Beispiele hierfür sind die Textlänge, oder relative Wort- und Zeichenhäufigkeiten. Wahrscheinlichkeiten dagegen sind keine Texteigenschaften, sondern erfordern die Definition eines Wahrscheinlichkeitsraumes. Zur Untersuchung vieler in der Praxis interessanter Eigenschaften von Texten benötigt man Annahmen über ein Modell, das dem Text zu Grunde gelegt wird. Im Folgenden Abschnitt wird der Begriff des Modells im Kontext der Untersuchung von Texten näher betrachtet. Ein Textmodell beschreibt eine Klasse von Texten mit bestimmten Eigenschaften und bestimmten Strukturen. Der zu untersuchende Text wird dann als eine spezielle Realisierung des Modells aufgefasst. Es wird dann nicht mehr der eigentliche Text, sondern das Modell untersucht. Anstatt Aussagen über einen einzigen Text werden Aussagen über eine Klasse von Texten mit ähnlichen Eigenschaften gemacht. Durch die mathematisch präzise Formulierung des Modells kann man Methoden und Erkenntnisse aus der Mathematik verwenden, um begründete Schlüsse über das Verhalten des Modells zu ziehen. Das Modell kann jedoch nicht einfach beliebig gewählt werden, sondern sollte möglichst viele Vorkenntnisse über den Text und den Kontext beinhalten. Für jede Anwendung muss das passende Modell ausgesucht werden. Jedes Modell stellt gewisse Annahmen an den Text und unterstellt eine fest vorgegeben Textstruktur. Ein schlecht gewähltes Modell kann zu falschen Schlussfolgerungen führen, obwohl mathematisch alles korrekt formuliert ist. Beispielsweise ist es mathematisch durchaus möglich ein Modell für die Weltbevölkerung zu entwickeln, in dem das Gewicht und die Größe einer Person als unabhängig angenommen werden. Die Schlussfolgerungen des Modells würden dann aber nicht der Realität entsprechen, weil Gewicht und Größe in der Realität offensichtlich zusammenhängen. Die Analyse eines Modells ist im Allgemeinen aufwendig und erfordert fundierte mathematische Kenntnisse. Aus diesem Grund werden häufig bereits bekannte Grundmodelle wiederverwendet und gegebenenfalls angepasst. Die Grundmodelle besitzen meist freie Parameter und definieren damit eine Familie von Modellen. Aufgabe der Parameterschätzung ist es, die Parameter des Grundmodells anhand des Textes so zu bestimmen, dass das resultierende Modell den vorliegenden Text optimal beschreibt. Dazu muss zunächst geklärt werden, wie die Qualität von Parametern bewertet wird. Ein anderes wichtiges Kriterium ist die Effizienz mit der Parameter gefunden werden können. Modelle vereinfachen immer reale Gegebenheiten. Je komplexer ein Modell ist, desto genauer kann die Realität nachgebildet werden und umso wahrscheinlicher ist es, zutreffende Aussagen zu einem Text zu machen. Mit steigender Komplexität wird es jedoch 13 3. Modelle für die Untersuchung von Texten auch gleichzeitig schwieriger ein Modell mathematisch zu analysieren. Ein Modell mit vielen Parametern erlaubt eine bessere Anpassung eines Grundmodells an einen gegebenen Text. Gleichzeitig wird es jedoch auch schwieriger optimale Parameter zu bestimmen. Je nach Anwendungsgebiet muss man also immer einen Kompromiss zwischen Genauigkeit und Handhabbarkeit eines Modells eingehen. Beispielsweise ist es nicht möglich, alle Mechanismen der Evolution, die zur Veränderung des Erbguts beitragen, zu modellieren. Stattdessen beschränkt man sich auf einige vereinfachte Mechanismen, wie zum Beispiel punktweise Mutation einzelner Basenpaare einer DNA-Sequenz, wohlwissend, dass reale DNA-Sequenzen nicht durch ein solch simples Modell genau beschrieben werden können. Auch wenn ein Modell die Realität nicht perfekt beschreibt, lässt es doch in begrenztem Maße Aussagen über die Eigenschaften und Struktur eines Textes zu. Eine wichtige Aufgabe besteht nun darin, die Qualität der aus einem Modell gewonnen Erkenntnisse zu bewerten, um falsche Schlussfolgerungen von echten Eigenschaften zu unterscheiden. 3.1. Stochastischer Prozess Eine wichtige Modellklasse zur Untersuchung von Texten sind stochastische Prozesse. Die meisten in dieser Arbeit untersuchten Eigenschaften und Modelle basieren auf dem Konzept der stochastischen Prozesse. Definition 3.1 Sei W ein Wahrscheinlichkeitsraum und T eine Indexmenge. Ein stochastischer Prozess (Xt )t∈T ist eine Familie von Zufallsvariablen Xt : Ω → WX , t ∈ T mit Wertemenge WX . Ist WX diskret, nennt man den Prozess wertediskret. Ist T diskret (im Normalfall N oder N0 ), so ist der Prozess zeitdiskret. Ein stochastischer Prozess lässt sich damit als die zeitliche Entwicklung einer Zufallsvariablen auffassen. Ein Elementarereignis ω ∈ Ω kann man sich als eine Realisierung des Prozesses vorstellen. Die Zufallsvariablen Xt liefern dann den Zustand der Realisierung ω zum Zeitpunkt t. Bei der Untersuchung von Texten werden in der Regel zeit- und wertediskrete Prozesse betrachtet. Die Zeit entspricht dann meist der Position im Text. Man kann aber auch umgekehrt einen Text als Ergebnis eines dynamischen Systems auffassen. Anschaulich wird angenommen, dass ein Generator schrittweise eine (möglicherweise unendlich lange) Zeichensequenz erzeugt. Der Text wird dann als ein Ausschnitt der erzeugten Sequenz aufgefasst. Durch die Untersuchung des Textes versucht man dann, die Parameter des Prozesses oder Generators zu bestimmen, um anschließend den stochastischen Prozess auf Eigenschaften hin zu untersuchen. Gemäß dem Gesetz der großen Zahlen kann man mit vielen unabhängigen Realisierungen eines Prozesses die Verteilung dieses Prozesses schätzen. Bei der Untersuchung eines einzelnen Textes hat man jedoch nur eine Realisierung des Prozesses zu Verfügung. Um dennoch Aussagen über den zu Grunde liegenden Prozess machen zu können, werden in der Regel Annahmen über die Stationarität und Ergodizität eines Prozesses gemacht. Im Folgenden soll eine Intuition für diese Begriffe gegeben werden. Die Ergodizität wird nicht formal definiert, da für die Definition des Begriffs wie er hier verwendet wird, umfangreichere Grundkenntnisse in der Mess- und Ergodentheorie notwendig sind. Stattdessen wird eine informelle Definition gegeben. 14 3.1. Stochastischer Prozess 3.1.1. Stationarität Im weitesten Sinne ist ein Prozess (Xt ) stationär, wenn gewisse Eigenschaften des Systems bzw. der Zufallsvariablen unabhängig vom Zeitpunkt t sind. Stationarität kann sich also auch nur auf einzelne Eigenschaften beziehen. Beispielsweise ist ein Prozess mittelwertsstationär, wenn alle Xt denselben Erwartungswert besitzen. Spricht man allgemein von einem stationären Prozess, so ist meistens ein stark stationärer Prozess gemeint. Definition 3.2 Ein stochastischer Prozess (Xt ) mit Indexmenge T über einem Wahrscheinlichkeitsraum W mit Ergebnismenge Ω heißt stark stationär, wenn die Gesamtverteilung des zeitverschobenen Prozesses (Xτ +t ), τ ∈ T , nicht von τ abhängt und gleich der Verteilung von (Xt ) ist. Formal bedeutet dies: ∀k ∈ N, τ ∈ T, (t1 , ..., tk ) ∈ T k , (x1 , ..., xk ) ∈ Ωk : FXt1 ,...,Xtk (x1 , ..., xk ) = FXt1 +τ ,...,Xtk +τ (x1 , ..., xk ) (3.1) wobei FXt1 ,...,Xtk die gemeinsame Verteilungsfunktion der Zufallsvariablen zu den Zeitpunkten t1 , ..., tk ist. Die Definition besagt, dass die gemeinsame Verteilung endlich vieler Zufallsvariablen eines stark stationären Prozesses nur von den Zeitabständen zwischen den Zufallsvariablen abhängt und nicht vom absoluten Zeitpunkt. Das wiederum bedeutet, dass sich ein Teilprozess {Xt |t ≥ s} ab einem beliebigen Index s ∈ T genauso verhält wie der gesamte Prozess. Anders gesagt kann ein Beobachter Stichproben des Teilprozesses statistisch nicht von Stichproben des Gesamtprozesses unterscheiden. 3.1.2. Ergodizität Normalerweise benötigt man zur zuverlässigen Schätzung der Verteilung der Zufallsvariablen eines stochastischen Prozesses viele unabhängige und unter gleichen Bedingungen gewonnene Stichproben des Prozesses. In der Realität liegen jedoch oft nur einzelne große Stichproben vor. In der Praxis wird das Problem oft durch die Annahme der Ergodizität eines Prozesses umgangen. Im weitesten Sinne ist ein Prozess ergodisch bezüglich einer stationären Größe, wenn man diese Größe anhand eines ausreichend langen Ausschnittes einer konkreten Realisierung des Prozesses annähernd bestimmen kann. Im Rahmen dieser Arbeit ist mit einem ergodischen Prozess im Allgemeinen ein stationärer Prozess gemeint, dessen Verteilung sich annähernd in den relativen Häufigkeiten innerhalb einer Realisierung des Prozesses widerspiegelt. Mit den genauen Bedingungen, unter denen ein System ergodisch ist und welche Konsequenzen dies hat, beschäftigt sich die Ergodentheorie. Meist ist es jedoch nicht oder nur sehr schwer möglich, bei einer gegebenen Sequenz die Ergodizität oder Stationarität des zu Grunde liegenden Prozesses nachzuweisen. Sie wird in diesem Fall oft einfach unterstellt. 15 3. Modelle für die Untersuchung von Texten 16 Teil II. Analyse von Texten 17 4. Einleitung Dieser Teil der Arbeit beschäftigt sich mit der Analyse von Texteigenschaften. Dabei werden die wahrscheinlichkeitstheoretischen Konzepte des vorangegangenen Kapitels angewendet. Zentrales Ergebnis dieser Untersuchungen ist ein Analysetool, dass für die Generierung der in dieser Arbeit benutzten Daten verwendet wurde. Aus diesem Grund handelt der erste Teil dieses Kapitels vom Analysetool. In den folgenden Kapiteln werden die einzelnen untersuchten Eigenschaften vorgestellt. Zu Beginn jedes Kapitels wird der Bezug zum Analysetool hergestellt, indem die konkret vom Tool untersuchten Eigenschaften mitsamt Einstellungsmöglichkeiten aufgelistet werden. Danach folgt ein Teil über die Theorie, die hinter den gemessenen Eigenschaft steht, gefolgt von der Vorstellung einer Schätzmethode für die Eigenschaften. Am Schluss jede Kapitels werden Testergebnisse zur untersuchten Größe evaluiert. Das Analysetool hat zwei Hauptaufgaben. Es soll einerseits Eigenschaften und Strukturen eines Textes untersuchen, um ihn mit anderen Texten vergleichen zu können. Zudem soll es Informationen aus dem Text extrahieren, die für die Parameterschätzung von Textgeneratoren notwendig sind. Die implementierten Textgeneratoren werden ausführlich im nächsten Teil der Arbeit behandelt. 4.1. Aufbau des Analysetools Es gibt eine Vielzahl von Eigenschaften, auf die man einen Text hin untersuchen kann. Bisher sind nur einige Methoden implementiert. Damit das Analyse-Programm um weitere Methoden erweitert werden kann, ist das Design des Programms modular gehalten. Methoden zur Untersuchung des Textes werden in Modulen implementiert. Ein einzelnes Modul sollte themenverwandte, Ressourcen-teilende oder voneinander abhängige Untersuchungsmethoden enthalten. Das Framework ruft jedes Modul in einem eigenen Thread mit den passenden Parametern auf. Man kann sowohl die Ausführungsreihenfolge der Module einstellen, als auch welche Module parallel ausgeführt werden können. Dadurch soll es möglich sein, die Rechenressourcen gut zu nutzen und auszulasten. Die Einstellungen der Module werden in einer vom Benutzer erstellten Konfigurationsdatei angegeben. Neben allgemeinen Einstellungen, die für alle Module gelten, kann jedes Modul spezielle Einstellungsmöglichkeiten besitzen. 19 4. Einleitung 4.2. Allgemeine Einstellungsmöglichkeiten • Überspringen der ersten Zeile (z.B. nützlich bei FASTA-Headern) • Ersetzen aller Whitespaces durch ein Leerzeichen, um einen einzigen WhitespaceTyp zu erhalten. • Konvertieren des Textes in Großbuchstaben vor der Analyse • Angabe von zu ignorierenden Zeichen (in Form eines regulären Ausdruckes) • Angabe aller gültigen Zeichen. Alle anderen werden ignoriert. Wird ein Zeichen sowohl als gültig als auch als zu ignorieren markiert, wird es ignoriert. • Überspringen aller nicht druckbaren Zeichen 4.3. Bemerkung zur Speicherung von N -Grammen Ein N -Gramm ist eine Zeichenfolge aus N Zeichen. Ein häufiges Teilproblem besteht darin, die Häufigkeiten der N -Gramme zu bestimmen. Ein direkter Ansatz besteht darin, die Häufigkeiten in einer N -dimensionalen Matrix zu speichern. Die Anzahl der Worte wächst jedoch mit N exponentiell an, was besonders bei einem großen Alphabet bereits bei kleinen Werten von N zu Speicherproblemen führen kann. Normalerweise werden deshalb Hash-Tabellen oder Tries verwendet, um Wörter zu speichern. Für das Tool wurde eine Hash-Tabelle verwendet. Jedoch wird nicht das gesamte Wort, sondern nur die erste Position des Wortes im Text in Form eines Pointers als Repräsentant gespeichert. Dadurch werden effektiv Überlappungen der Worte zur Speicherung ausgenutzt. Im Rahmen dieser Arbeit ist mit einem Wort im Normalfall ein N -Gramm gemeint. 20 5. Häufigkeitsverteilungen Eine einfache aber wichtige Form der Analyse ist das Erstellen von Häufigkeitsverteilungen. Bei ausreichend großen Texten lassen sie Rückschlüsse auf Gesetzmäßigkeiten und Wahrscheinlichkeitsverteilungen des untersuchten Textes zu. Ein konkretes Anwendungsgebiet, bei dem Häufigkeitsverteilungen eine zentrale Rolle spielen, ist die Bestimmung der Sprache eines natürlichsprachigen Textes mit stochastischen Methoden [4]. Bigrammhäufigkeiten in DNA-Sequenzen können zudem zur Identifikation von sogenannten CpG-Inseln verwendet werden. Normalerweise ist der CpGGehalt im Genom von Eukaryoten relativ niedrig. Es gibt jedoch bestimme Bereiche mit biologischer Bedeutung, bei denen der CpG-Gehalt höher ist (Fig. 5.1). CpG-Inseln finden sich meist direkt in der Nähe von Genen. 5.1. Untersuchte Verteilungen • Worthäufigkeiten • Unigrammhäufigkeiten • Bigrammhäufigkeiten 5.2. Einstellungsmöglichkeiten • Trennzeichen für Wörter (einzelne Zeichen, Angabe über regulären Ausdruck) • Deaktivierung des Teilmoduls Worthäufigkeiten • Deaktivierung des Teilmoduls Unigrammhäufigkeiten • Deaktivierung des Teilmoduls Bigrammhäufigkeiten 21 5. Häufigkeitsverteilungen Abbildung 5.1.: Unterschiedlicher CpG Gehalt in der mRNA des D. melanogoster neurogenic locus mastermind und eines Chromosoms des Menschen 22 6. Entropie Es gibt viele spezifische Möglichkeiten der statistischen Analyse. Einige sind speziell für einige Textarten mit besonderen Eigenschaften konzipiert. Ein relativ allgemeines Mittel zur ersten Analyse eines Textes ist die Entropieschätzung. Die Entropie ist ein Maß für die Zufälligkeit eines Textes und kann Hinweise auf Korrelationen für weitergehende Analysen bieten. Der Begriff der Entropie wie er hier verwendet wird stammt aus der Informationstheorie und wird dort auch als ein Maß für den allgemeinen Informationsgehalt eines Textes verwendet. Der Informationsbegriff unterscheidet sich jedoch gänzlich von der umgangssprachlichen Information. Der Informationsgehalt ist hier nicht mit einer semantischen Bedeutung verknüpft, sondern wird über Wahrscheinlichkeiten definiert. 6.1. Gemessene Größen • Blockentropien der Ordnungen 1 bis n • Bedingte Entropien der Ordnungen 0 bis n − 1 als Annäherung an die Entropierate 6.2. Einstellungsmöglichkeiten • Maximale Ordnung n für die Entropieschätzung 6.3. Theoretischer Hintergrund In der Informationstheorie ist die Entropie ein Maß für die Ungewissheit bezüglich einer Zufallsvariablen. Je höher die Ungewissheit, desto schwieriger ist es, den Wert einer Zufallsvariablen zu erraten. Es gibt mittlerweile verschiedene Definitionen von Entropie. Die bekannteste ist die Shannon-Entropie, die Gegenstand dieses Kapitels ist. Vor der formalen Definition der Entropie soll neben einem kurzen Überblick über die Entstehung des Begriffs auch eine erste Intuition gegeben werden. Die Definition der Shannon-Entropie geht auf Claude E. Shannon im Jahre 1948 zurück[14]. Shannon wollte ursprünglich die minimale Bandbreite eines Übertragungskanals bestimmen, die für eine zuverlässige Übertragung von Nachrichten einer stationären gedächtnislosen Nachrichtenquelle benötigt werden. Die Nachrichtenquelle erzeugt gemäß einer stationären Verteilung und unabhängig von der Vergangenheit Nachrichten, die übertragen werden sollen. Zur Übertragung werden die Nachrichten mit Hilfe eines festen Alphabetes codiert. Um die minimal benötigte Bandbreite zu finden, sollte die erwartete mittlere Länge der erzeugten Codewörter möglichst kurz sein. Dazu muss das Codewort seltener 23 6. Entropie Nachrichten länger gewählt werden als das Codewort für wahrscheinlichere Nachrichten. In diesem Zusammenhang wird der Informationsgehalt einer Nachricht als die Länge ihres optimalen Codewortes definiert. Mit Information ist nicht die semantische Bedeutung oder Wichtigkeit einer Nachricht im umgangssprachlichen Sinne gemeint, sondern die mittlere Menge an Information, die benötigt wird, um den Wert einer Zufallsvariablen mit bekannter Verteilung genau zu bestimmen. Seltenere Ereignisse sind nach dieser Definition informationsreicher. Intuitiv bedeutet dies, dass man mehr Informationen an den Empfänger senden muss, um ihn über ein unerwartetes Ereignis zu unterrichten, als wenn man ihn nur über Routineereignisse informiert. Die Entropie ist als der mittlere Informationsgehalt einer Zufallsvariablen definiert. Übertragen auf das Modell der Wortcodierung ist die Entropie die erwartete Länge eines Codewortes bei Verwendung eines optimalen Codes. Die Entropie liefert damit eine untere Schranke für die Bandbreite eines Kanals, wenn man Nachrichten dauerhaft zuverlässig übertragen will. Die Idee der Entropie wurde jedoch mittlerweile fortgeführt und Entropie wird mittlerweile allgemein als ein Maß für den mittleren Informationsgehalt und die mittlere Ungewissheit einer Zufallsvariablen betrachtet. Information und Ungewissheit werden in diesem Zusammenhang äquivalent verwendet. Anschaulich bedeutet dies, dass eine Nachricht per Definition informationsreicher ist, je mehr Ungewissheit sie beseitigt. Betrachtet man Entropie als mittlere Ungewissheit, so entspricht der Informationsgehalt eines Ereignisses seinem Überraschungswert. Je niedriger die Wahrscheinlichkeit eines Ereignisses, so überraschender ist es, wenn es eintritt. Diese Sichtweise ist konsistent mit der Definition der Entropie als Informationsgehalt, bei dem Nachrichten mit niedriger Wahrscheinlichkeit ein langes Codewort und damit einen hohen Informationsgehalt haben. Je höher die Entropie, also die Unsicherheit einer Zufallsvariablen, desto schwieriger ist es, das Verhalten der Zufallsvariablen vorauszusagen. Je größer die Ungewissheit über den Wert einer Zufallsvariablen, desto größer ist die Information die man durch die Kenntnis der Zufallsvariablen erhält, da durch das Wissen Ungewissheit beseitigt wurde. Im Folgenden wird die Entropie vor allem als Maß für die Ungewissheit angesehen und als Indikator für statistische Gesetzmäßigkeiten und Zusammenhänge verwendet. Definition 6.1 Der Informationsgehalt oder Überraschungswert eines möglichen Ergebnisses w einer Zufallsvariablen X mit Wertebereich WX ist durch die Funktion IX : WX → R mit Ç IX (w) = log 1 p(X = w) å = − log(p(X = w)) (6.1) gegeben. Definition 6.2 Die Shannon-Entropie einer diskreten Zufallsvariablen X mit endlicher Wertemenge WX ist definiert als der mittlere Informationsgehalt von X H(X) = − X p(X = w) · IX (w) (6.2) w∈WX Betrachtet man die Entropie genauer, so hat sie einige besondere Eigenschaften, die auch die Wahl des negativen Logarithmus als Informationsgehalt erklären. 24 6.3. Theoretischer Hintergrund Maximum Die Entropie ist maximal, wenn die Zufallsvariable gleichverteilt ist. Dies folgt aus Jensens Ungleichung: ñ Ç åô Ç ñ ôå 1 1 H(X) = E log ≤ log E (6.3) p(X) p(X) é Ñ = log X w∈WX 1 p(X = w) · p(X = w) Ç X = log (|WX |) = w∈WX Ç 1 · − log |WX | Ç 1 |WX | ååå (6.4) Gleichverteilung entspricht auch der Intuition maximaler Unsicherheit. Möchte man das nächste Ereignis erraten, so wird man stets das wahrscheinlichste Ereignis wählen. Sind jedoch alle Ereignisse gleich wahrscheinlich, ist die Wahrscheinlichkeit falsch zu liegen maximal. Also liegt eine maximale Ungewissheit vor. Wachstum Liegt eine Gleichverteilung vor, so wird es mit steigender Anzahl möglicher Werte schwieriger das nächste Ereignis vorauszusagen. Man erwartet also, dass die Entropie mit steigender Anzahl möglicher Werte wächst. Dies ist gegeben, da für die Entropie einer gleichverteilten Zufallsvariable mit n möglichen Werten gilt: H(X) = X Å1 Å w∈WX n · − log Å ããã 1 n (6.5) = log(n) Da der Logarithmus streng monoton wächst, wächst auch die Entropie einer gleichverteilten Variable mit wachsendem n. Kontinuierlichkeit Die Entropie ist kontinuierlich bezüglich der Verteilung. Kleine Veränderungen in den Verteilungen bewirken stets nur kleine Änderungen der Entropie. Nullwahrscheinlichkeiten Da limp→0 (p · log(p)) = 0 verändert sich die Entropie nicht, wenn man die Wertemenge um Werte mit Wahrscheinlichkeit 0 erweitert. 6.3.1. Gemeinsame Entropie mehrerer Zufallsvariablen Der Begriff der Entropie lässt sich auch auf die gemeinsame Verteilung mehrerer Zufallsvariablen ausweiten. Definition 6.3 Die gemeinsame Entropie von Zufallsvariablen X1 , ..., Xn ist definiert als H(X1 , ..., Xn ) = X (w1 ,...,wn )∈W =WX1 ×...×WXn Ç p(X1 = w1 , ..., Xn = wn ) log 1 p(X1 = w1 , ..., Xn = wn ) å (6.6) 25 6. Entropie Durch die Definition des Informationsgehaltes über den Logarithmus ergibt sich die gemeinsame Entropie unabhängiger Zufallsvariablen als die Summe der Einzelentropien. Seien X1 , ..., Xn unabhängige Zufallsvariablen, dann gilt H(X1 , ..., Xn ) = H(X1 ) + ... + H(Xn ) (6.7) Intuitiv bedeutet dies, dass die gemeinsame Unsicherheit mehrerer Zufallsvariablen die Summe der Ungewissheiten ist, falls keine Zufallsvariable Informationen über andere Zufallsvariablen enthält. 6.3.2. Bedingte Entropie Definition 6.4 Die bedingte Entropie H(X|A) ist ein Maß für die Restungewissheit einer Zufallsvariablen X mit Wertemenge WX ,unter der Bedingung, dass bekannt ist, dass ein Ereignis A eingetreten ist. Formal ist sie definiert als X H(X|A) = − p(X = w|A) log(p(X = w|A)) (6.8) w∈WX Definition 6.5 Die bedingte Entropie H(X|Y ) einer Zufallsvariablen X unter Kenntnis des Wertes der Zufallsvariablen Y mit Wertemenge WY ist definiert als H(X|Y ) = X p(Y = w) · H(X|Y = w) (6.9) w∈WY Satz 6.6 Zwischen der bedingten Entropie und der gemeinsamen Entropie zweier Zufallsvariablen X und Y besteht folgender als Kettenregel bekannter Zusammenhang: H(X, Y ) = H(Y ) + H(X|Y ) = H(X) + H(Y |X) (6.10) Dies entspricht der Intuition, dass die Unsicherheit zweier Zufallsvariablen die Summe aus der Unsicherheit einer Variablen und der verbleibenden Unsicherheit der anderen Variablen ist. 6.3.3. Blockentropie Bisher wurde die Entropie nur für einzelne Zufallsvariablen definiert. Bei der Untersuchung von Texten betrachtet man jedoch meist stochastische Prozesse, die aus einer Folge von Zufallsvariablen bestehen. Der erste Schritt zur Definition der Entropie eines stochastischen Prozesses geht über die Blockentropien. Definition 6.7 Mit der Blockentropie der Ordnung n eines stochastischen Prozesses (Xt ) meint man die Größe Hn (X) = H(X1 , ..., Xn ) 26 (6.11) 6.4. Entropieschätzung 6.3.4. Entropierate Zur Charakterisierung der Zufälligkeit eines stochastischen Prozesses definiert man die Entropierate. Sie ist die mittlere Unsicherheit der einzelnen Zufallsvariablen eines stochastischen Prozesses und gibt damit den durchschnittlichen Informationsgehalt einer Zufallsvariablen an. Definition 6.8 Sei X ein stochastischer Prozess. Die Entropierate von X ist definiert als h(X) = lim n→∞ 1 Hn (X) n (6.12) falls der Grenzwert existiert. Man kann zeigen, dass der Grenzwert für stationäre Prozesse immer existiert und es dann sogar eine alternative Berechnungsmethode gibt, die im Normalfall schneller konvergiert. h(X) = lim n→∞ 1 Hn = lim H(Xn |Xn−1 , ..., X1 ) n→∞ n (6.13) 6.4. Entropieschätzung Die implementierte Methode zur Entropieschätzung setzt einen stationären ergodischen Prozess voraus, damit die Verteilungen der Zeichen und Wörter durch relative Häufigkeiten geschätzt werden können. Eine Annäherung an einen solchen Prozess kann direkt aus dem Text in Form eines Markov-Modells geschätzt werden (siehe Kapitel 10). Unter der Voraussetzung der Ergodizität werden zur Berechnung der Blockentropie der Ordnung n die relativen Häufigkeiten der Wörter der Länge n bestimmt und als Schätzung für die Blockwahrscheinlichkeiten verwendet. Mit den geschätzten Wahrscheinlichkeiten lässt sich dann die Blockentropie der Ordnung n bestimmen. Die bedingte Entropie H(Xn |Xn−1 , ..., X1 ) kann gemäß der Kettenregel durch die Differenz der ermittelten Blockentropien geschätzt werden: H(Xn |Xn−1 , ..., X1 ) = H(Xn , Xn−1 , ..., X1 ) − H(Xn−1 , ..., X1 ) (6.14) Man kann zeigen, dass der vorgestellte Schätzer für die Entropie nicht erwartungstreu ist, was bedeutet, dass der Erwartungswert der berechneten Blockentropie unter Berücksichtigung der tatsächlichen Verteilung nicht der tatsächlichen Blockentropie entspricht. Führt man also eine Entropieschätzung für viele unabhängige Realisierungen des stochastischen Prozesses durch, so erhält man im Mittel nicht die tatsächliche Entropie. Aufgrund der Endlichkeit der Stichprobe wird die Entropie stattdessen stets unterschätzt. Ein Lösungsansatz versucht durch Korrekturterme den Fehler zu verkleinern. Ein häufiger Ansatz zur Berechnung von Korrekturtermen sind Taylor-Reihen-Entwicklungen. Ein solcher Korrekturterm wurde von Miller verwendet[13]. Er benötigt keine zusätzlichen 27 6. Entropie Abbildung 6.1.: Vergleich von bedingten Entropien abhängig von der Ordnung Annahmen über die Verteilung des Prozesses und ist einfach zu implementieren. Der korrigierte Term für die Schätzung der Blockentropie der Ordnung k unter Annahme eines stationären ergodischen Prozesses X, wie er auch im Analysetool implementiert ist, hat dann die Form Ĥk (X) = − X k w∈WX nw nw #verschiedener k-Gramme log( )+ N −k+1 N −k+1 2 · (N − k + 1) (6.15) wobei nw die absolute Worthäufigkeit, N die Textlänge und k die betrachtete Wortlänge ist. 6.5. Testergebnisse Um das Verhalten des Entropieschätzers und die Aussagekräftigkeit der Entropie im Allgemeinen besser bewerten zu können, wurden sowohl natürlichsprachige Texte als auch DNA-Sequenzen untersucht. 6.5.1. Testergebnisse für DNA-Sequenzen Es wurden sowohl die Chromosomen 1–22 als auch das X und Y Chromosom des Menschen untersucht. Zudem wurde als Vergleich die mRNA des Drosophila melangostar neurogenic locus mastermind (Dromaster) analysiert. Die vollständigen Testergebnisse finden sich im Anhang. Im Folgenden wurden einige Sequenzen ausgewählt (Fig. 6.1). Die untersuchten Sequenzen lagen im FASTA-Format vor. Als Alphabet wurde nur A, C, G, T zugelassen. Unbekannte Bereiche (gekennzeichnet mit N ) wurden bei der Berechnung ignoriert. Für die Untersuchung wurde in Anlehnung an Ebeling et al.[5] die bedingte Entropie H(Xn+1 |X1 , ..., Xn ) = Hn+1 − Hn als Funktion von der Ordnung n dargestellt. Die menschlichen Chromosomen zeigen einen ähnlichen bedingten Entropieverlauf, wohingegen die Entropie von Dromaster deutlich niedriger ist. Der scharfe Knick bei 4 ist 28 6.5. Testergebnisse Abbildung 6.2.: Vergleich von bedingten Entropien abhängig von der Ordnung höchstwahrscheinlich eine Folge der relativ kurzen Sequenz (etwa 6500 bp), die zu einer unrealistischen Unterschätzung der Entropie führt. Man sieht jedoch deutlich, dass die Entropie tendenziell stärker sinkt. Eine Begründung für diese Tatsache könnte sein, dass die mRNA von Dromaster aus codierenden Bereichen besteht. Die Codonfolge folgt einem genauen Schema, das wenig Raum für Zufälligkeit lässt. Da Entropie aber auch ein Maß für Zufälligkeit ist, ist die Entropie von Dromaster entsprechend geringer. Auch wenn die menschlichen Chromosomen eine höhere Entropie haben, ist klar erkennbar, dass DNASequenzen nicht eine Folge von zufälligen Basenpaaren sind, sondern gewisse Korrelationen zwischen Bereichen vorliegen. Auffällig bei allen Sequenzen ist, dass die Steigung der Entropieabnahme nicht flacher, sondern tendenziell steiler wird. Da die menschlichen Chromosomen alle eine Größe von (teilweise weit) über 50 Millionen bp haben, kann der Effekt nicht allein durch eine Unterschätzung der Entropie hervorgerufen werden. Eine mögliche Ursache könnten kurze repetitive Regionen in der DNA sein, wie sie sehr häufig in nicht codierenden Bereichen auftreten. 6.5.2. Natürlichsprachige Texte Das Alphabet einer natürlichen Sprache ist relativ groß, wenn man alle Steuerzeichen, Sonderzeichen und Leerzeichen berücksichtigt (ca. 230 Zeichen). Für die folgende Messung wurden alle Zeichen einbezogen und Groß- und Kleinschreibung beachtet. Aufgrund des großen Alphabetes muss der Testdatensatz groß sein, um eine Unterschätzung der Entropie zu vermeiden. Untersucht wurden alle deutschen (etwa 275 MB) und alle französischen Texte (etwa 800 MB) des Gutenberg-Projektes (Fig. 6.2). Zunächst fällt auf, dass beide Sprachen nahezu identische Entropien haben. Dies könnte an der gemeinsamen Abstammung der Sprache liegen. Es wurde noch ein Versuch durchgeführt, bei dem Sonderzeichen ignoriert und alle verschiedenen Leerzeichenarten wie ein Zeichen behandelt wurden. Die Entropie veränderte sich nicht entscheidendm obwohl im Französischen Sonderzeichen Bestandteil vieler Wörter sind. Weiterhin fällt auf, dass die Entropie von natürlichsprachigen Texten anfangs schneller abnimmt. Dies ist auch plausibel, da bei einer natürlichen Sprache der Zusammenhang mit direkten Nachbarn innerhalb von Wörtern 29 6. Entropie besonders stark ist. Dies folgt allein schon aus der Zusammenstellung eines Wortes aus Silben, bzw. Vokalen und Konsonanten. Wie an den Beispielen deutlich wird, können bereits Blockentropien geringer Ordnung eine relativ große Aussagekraft über Texte haben. Man kann nicht erkennen welcher Art die Korrelation ist, aber man kann deutlich erkennen, dass Korrelation in einem bestimmten Bereich vorliegen, die die Zufälligkeit von Zeichenkombinationen reduziert. Eine daran anschließende Methode, die Korrelationen über weite Teile eines Textes hin untersuchen kann, ist die Transinformationsfunktion, die im folgenden Kapitel vorgestellt wird. 30 7. Transinformation Eine zur Entropie verwandte Größe ist die Transinformation. Im Gegensatz zur Entropie misst sie die gemeinsame Information von Zufallsvariablen und nicht die Unsicherheit. Sie ist ein direktes allgemeines Maß für statistische Zusammenhänge. Im Gegensatz zur Kovarianz untersucht sie allgemeine statistische Abhängigkeiten und nicht nur lineare und eignet sich damit besonders gut, wenn die genauen Mechanismen und Strukturen innerhalb eines Textes unbekannt sind. Die Transinformationsfunktion misst die Transinformation zwischen verschiedenen Stellen im Text und kann damit auch Aufschlüsse über periodische Strukturen liefern. 7.1. Gemessene Größen • Transinformationsfunktion I(k) in einem gewählten Intervall I 7.2. Einstellungsmöglichkeiten • Untere Grenze des Berechnungsintervalls I • Obere Grenze des Berechnungsintervalls I • Schrittweite zwischen zwei Berechnungswerten (sinnvoll zur Darstellung der Transinformationsfunktion über große Bereiche) 7.3. Theoretischer Hintergrund Die Transinformation ist ein Maß für den statistischen Zusammenhang zwischen zwei Zufallsvariablen. Sie ist eng verwandt mit der Entropie und kann über diese definiert werden. Definition 7.1 Die Transinformation zweier Zufallsvariablen X und Y ist definieren als I(X; Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X) (7.1) H(X) ist die Entropie von X und damit ein Maß für die Unsicherheit über den Wert von X. H(X|Y ) ist die Unsicherheit, die verbleibt, wenn man den Wert von Y kennt. H(X) − H(X|Y ) ist damit die Unsicherheit, die durch die Kenntnis von Y beseitigt wurde oder anders ausgedrückt, die Information, die Y über X enthält. Die Transinformation misst den allgemeinen statistischen Zusammenhang, im Gegensatz 31 7. Transinformation zur Kovarianz, bzw. Korrelation zweier Zufallsvariablen, die vor allem lineare Zusammenhänge zwischen Zufallsvariablen erfasst. Setzt man die Definition der Entropie und der bedingten Entropie im diskreten Fall ein, so erhält man die explizite Formel Ç I(X; Y ) = X (x,y) p(x, y) log p(x, y) p(x)p(y) å (7.2) p(x,y) Der Term p(x)p(y) stellt die tatsächliche gemeinsame Wahrscheinlichkeit in ein Verhältnis zur gemeinsamen Wahrscheinlichkeit, wenn X und Y unabhängig wären. Die Transinformation ist dann der mittlere Logarithmus dieses Verhältnisses. p(x)p(y) Wegen log( p(x)p(y) ) = log(1) = 0 ist die Transinformation Null, wenn die Zufallsvariablen unabhängig sind. X enthält dann keine Information über Y und umgekehrt. In allen anderen Fällen ist die Transinformation wegen H(X) ≥ H(X|Y ) größer Null. Sie ist maximal, wenn H(X|Y ) = 0, was bedeutet, dass X deterministisch aus Y berechenbar ist. Gleiches gilt für den umgekehrten Fall. Dies bedeutet aber auch, dass I(X, X) = H(X) ≥ I(X, Y ) für alle Zufallsvariablen Y . Keine Zufallsvariable kann mehr Informationen über X enthalten, als X selbst. Betrachtet man einen stochastischen Prozess, so kann man die Transinformation zwischen verschiedenen Zeitpunkten des Prozesses betrachten. Bei einem stationären Prozess hängt die Transinformation nur vom Abstand der Zufallsvariablen, nicht jedoch vom genauen Zeitpunkt ab. Definition 7.2 Die Transinformationsfunktion eines stationären stochastischen Prozesses mit Indexmenge T und Wertebereich WX ist gegeben durch I(k) = I(Xt , Xt+k ) (7.3) mit k ∈ T für alle t ∈ T . Der Verlauf der Transinformationsfunktion eines Prozesses kann Aufschluss über die Entwicklung eines Prozesses geben und Regelmäßigkeiten im statistischen Zusammenhang aufdecken. Im Normalfall nimmt die Transinformationsfunktion im Mittel ab. Geht die Transinformationsfunktion für große k nicht gegen Null, so spricht man von langreichweitiger Korrelation. 7.4. Schätzen der Transinformationsfunktion Schätzt man die Wahrscheinlichkeiten p(xi , xj ) mit relativen Häufigkeiten ab, so lässt sich die Transinformationsfunktion berechnen. Vorraussetzung ist, dass der Prozess bezüglich der gemeinsamen Verteilung zweier Zufallsvariablen stationär und ergodisch ist. Dies ist eine schwächere Forderung als starke Stationarität, bei der gefordert ist, dass alle Verteilungen aller Zufallszahlenkombinationen stationär sind. Da der einfache Schätzer für die Entropie im Allgemeinen nicht erwartungstreu ist und die Transinformation über die Entropie definiert ist, ist auch der oben beschriebene Schätzer nicht erwartungstreu. Allerdings wächst die Anzahl möglicher Zeichenkombinationen 32 7.5. Testergebnisse nicht mit wachsendem Abstand, sondern ist konstant quadratisch in der Größe des Alphabets. Lediglich die Anzahl der Stichproben sinkt mit wachsendem k linear. Dennoch kann man bereits bei mittlerer Länge des Textes die Transinformation auch für große k gut schätzen. 7.5. Testergebnisse Es wurden sowohl natürlichsprachige Texte als auch DNA-Sequenzen untersucht. Dabei ergaben sich gänzlich verschiedene Verläufe der Transinformationsfunktion. 7.5.1. DNA-Sequenzen Es gelten die gleichen Versuchsbedingungen wie bei der Entropieschätzung: Es wurden sowohl die Chromosomen 1–22 als auch das X und Y Chromosom des Menschen untersucht. Zudem wurde als Vergleich die mRNA des Drosophila melangostar neurogenic locus mastermind (Dromaster) analysiert. Im Folgenden wurden einige Sequenzen ausgewählt (Fig. 7.1). Die untersuchten Sequenzen lagen im FASTA-Format vor. Als Alphabet wurde nur A, C, G, T zugelassen. Unbekannte Bereiche (gekennzeichnet mit N ) wurden bei der Berechnung ignoriert. Am auffälligsten ist der Verlauf der Funktion für Dromaster. Im Vergleich zu menschlichen Chromosomen besteht ein starker statistischer Zusammenhang über große Bereiche. Besonders gut sichtbar ist die Codonstruktur (drei Basenpaare bilden eine Einheit), da mRNA ein codierender DNA-Strang ist. Bei den menschlichen Chromosomen ist die Codonstruktur kaum oder gar nicht sichtbar, weil sie durch die großen nicht codierenden Bereiche überdeckt wird. Alle menschlichen Chromosomen haben einen ähnlichen Verlauf. Tatsächlich kann man in begrenztem Umfang anhand von Korrelationsstrukturen DNA-Sequenzen Arten zuordnen wie von Hütt et al. beschrieben wird[8]. Es fällt auf, dass die Funktion nicht gegen Null zu streben scheint. Tatsächlich liegen in DNA-Sequenzen langreichweitige Korrelationen vor. Die Erklärung und Untersuchung dieser Strukturen ist immer noch Thema aktueller Forschungen. 7.5.2. Natürlichsprachige Texte Auch hier werden alle Sonderzeichen und Leerzeichen berücksichtigt und zwischen Großund Kleinschreibung unterschieden. Fig. 7.2 zeigt die Ergebnisse. Bis k = 6 entspricht der Verlauf einer Exponentialfunktion (Fig. 7.3). Danach nähert sich die Transinformationsfunktion immer mehr einer Konstanten an. Wie die DNA-Sequenz wird die Transinformationsfunktion nicht Null. Dies könnte sowohl mit der Satzstruktur und Grammatik, als auch der Verwendung eines bestimmten Themenwortschatzes zusammenhängen. Die Transinformationsfunktion zeigt besonders deutlich große Abhängigkeiten im nahen Bereich. Dieser Bereich entspricht ungefähr der Länge eines Wortes. Im mittleren Bereich sind sich die Funktionen sehr ähnlich. Selbst kleine Unebenheiten im Graphen stimmen bis zu einer Ordnung von etwa k = 40 überein. Dies deutet darauf hin, dass diese Unebenheiten nicht zufällig entstanden sein könnten. 33 7. Transinformation 34 Abbildung 7.1.: Transinformationsfunktion I(k) in Abhängigkeit von k 7.5. Testergebnisse Abbildung 7.2.: Transinformationsfunktion I(k) in Abhängigkeit von k Abbildung 7.3.: Transinformationsfunktion I(k) in Abhängigkeit von k 35 7. Transinformation 36 8. Ausgaben für die Parameterschätzung Die folgenden Ausgaben dienen primär als Parameter für Generatoren. Aus diesem Grund werden sie an dieser Stelle nur kurz aufgelistet. Ihre genaue Funktion und Bedeutung wird im entsprechenden Kapiteln des dazugehörigen Generators behandelt. 8.1. Relative Zeichenhäufigkeiten Wird von allen Generatoren zur Schätzung der Marginalwahrscheinlichkeit der einzelnen Zeichen an einer beliebigen Position benötigt. 8.2. Bedingte relative Zeichenhäufigkeiten Berechnet bedingte relative Häufigkeiten der Ordnung n. Bei einem gegebenen Wort w der Länge n ist mit der bedingten relativen Häufigkeit der Ordnung n eines Zeichens a der Quotient #Vorkommen von wa (8.1) #Vorkommen von w gemeint. Die Häufigkeiten werden zum Schätzen der Parameter einer Markov-Kette benötigt (siehe Kapitel 10). Ein Problem bei der Speicherung der bedingten Häufigkeiten sind die großen Datenmengen bei höheren Ordnungen. Die Dateien können sehr groß werden. 8.3. Autokorrelationskoeffizienten eines diskreten autoregressiven Prozesses Schätzt die Autokorrelationskoeffizienten bis zu einer Ordnung k unter der Annahme, dass dem Text ein diskreter autoregressiver (DAR) Prozess zu Grunde liegt. Diese werden zur Parameterschätzung eines DAR-Prozesses benötigt. (siehe Kapitel 11). 8.4. Parameter für das Approximate Repeats-Modell Schätzt die Parameter für ein Modell mit ähnlichen Wiederholungen. (siehe Kapitel 12) 37 8. Ausgaben für die Parameterschätzung 38 Teil III. Generierung von Texten 39 9. Einleitung Dieser Teil beschäftigt sich mit den generierenden Modellen, die im Rahmen dieser Arbeit implementiert wurden. Ein Generator erzeugt gemäß einem Modell einen künstlichen Text. Die Parameter für das Modell werden vorher aus realen Sequenzen geschätzt und dem Generator als Parameterdateien übergeben. Der künstlich erzeugte Text kann dann beispielsweise mit dem ursprünglichen Text verglichen werden, um das Modell zu untersuchen. Ähnlich dem Analysetool ist es modular gehalten. Es gibt jedoch keine gemeinsame Einstellungsdatei. Stattdessen definiert jedes Modul einen eigenen Satz von benötigten Parameterdateien. Nach der Einführung folgen Kapitel zu den untersuchten Modellen. Jedes Kapitel beginnt mit einer Einführung, gefolgt von einem theoretischen Teil, der auch die Parameterschätzung behandelt. Am Schluss jedes Kapitels werden die Modelle anhand von Testdaten untersucht. 9.1. Einstellungsmöglichkeiten • Länge der erzeugten Sequenz • Auswahl des zu verwendenden Generators 9.2. Bemerkung zu den Versuchsreihen Eine einfache und gute Möglichkeit, um ein Parameterschäzungsverfahren für ein Modell zu testen, ist, künstlich Texte mit festgelegten Parametern zu generieren und anschließend eine Parameterschätzung auf den Daten durchzuführen. Ein guter Schätzer sollte in etwa die ursprünglichen Modellparameter extrahieren können. Natürlich garantiert eine erfolgreiche Parameterückgewinnung kein gutes Modell, ist aber ein Indikator für einen konsistenten Parameterschätzer. Bis auf das Approximate Repeats-Modell wurden alle Testdaten (Chromosomen des Menschen, Dromaster, deutsche und französische Texte) analysiert. Pro analysierter Datei wurde für jedes Modell eine entsprechende künstliche Sequenz erzeugt, untersucht und mit der Originalsequenz verglichen. Die Länge der erzeugten Sequenzen war im Fall der Chromosomen 20 Millionen bp. Um die Sequenzen vergleichbar zu machen, wurde für das kurze Dromaster-DNA-Stück auch nur eine kurze Sequenz von 6500 bp erzeugt. Für die natürlichsprachigen Texte wurde jeweils ein Text mit einer Länge von 200 MB erzeugt. 41 9. Einleitung 42 10. Markov-Kette Markov-Ketten sind ein weit verbreitetes Werkzeug zur Modellierung von Texten. Man kann sie relativ einfach trainieren und anwenden. Markov-Ketten beruhen auf dem Prinzip der bedingten Wahrscheinlichkeiten. Viele Abhängigkeiten können bis zu einem gewissen Grad ohne Kenntnis der Textmechanismen durch eine Markov-Kette modelliert werden. Der Nachteil von Markov-Ketten ist die exponentiell wachsende Parameterzahl bei steigender Ordnung. Mit einer hohen Ordnung lassen sich Korrelationen über größere Bereiche modellieren. Jedoch ist bereits eine Ordnung von zehn für natürlichsprachige Texte problematisch. Markov-Ketten eignen sich deshalb, um Strukturen und Korrelationen mit sehr kurzer Reichweite relativ genau zu modellieren. 10.1. Parameter • Markov-Ordnung • Übergangswahrscheinlichkeiten • Marginalverteilung der Zeichen 10.2. Theoretischer Hintergrund Eine häufig verwendete Klasse stochastischer Prozesse zur Modellierung eines Textes sind Markov-Ketten. Definition 10.1 Ein diskreter stochastischer Prozess (Xt ) besitzt die Markov-Eigenschaft, falls für alle n ∈ T gilt: p(Xn+1 |X1 , ..., Xn ) = p(Xn+1 |Xn ) (10.1) (Xt ) ist dann eine Markov-Kette der Ordnung 1. Die Markov-Eigenschaft wird auch Gedächtnislosigkeit gennant. Die Wahrscheinlichkeit eines Zustandes hängt nur vom direkten Vorgängerzustand ab. Der Begriff lässt sich auch auf die letzten n Zustände erweitern. Definition 10.2 Eine diskrete Markov-Kette der Ordnung n ist ein diskreter stochastischer Prozess (Xt ) mit Wertemenge WX mit der Eigenschaft p(Xk+1 |X1 , ..., Xk ) = p(Xk+1 |Xk−n+1 , ..., Xk ) (10.2) Falls p(Xk+1 |Xk−n+1 , ..., Xk ) nicht von k abhängt, nennt man die Markov-Kette zeithomogen. In diesem Fall spricht man von der Übergangswahrscheinlichkeit pij , wobei i, j ∈ WX . 43 10. Markov-Kette Anmerkung 10.3 Mit der Markov-Eigenschaft ist meist nur die erste Definition gemeint. Jedoch lässt sich zu jeder Markov-Kette der Ordnung n eine äquivalente Markov-Kette erster Ordnung definieren: Yt = (Xt , ..., Xt+n−1 ) (10.3) Der Prozess (Yt ) besitzt die Markov-Eigenschaft, falls (Xt ) eine Markov-Kette der Ordnung n ist. Alle Sätze für Markov-Ketten erster Ordnung lassen sich deshalb auch auf Markov-Ketten höherer Ordnung übertragen. Im Folgenden werden ausschließlich zeithomogene diskrete Markov-Ketten mit endlichem Wertevorrat betrachtet. Anmerkung 10.4 Durch die Angabe der Übergangswahrscheinlichkeiten und einer Startverteilung µ = (p1 , ..., p|WX | ) für X1 ist eine zeithomogene Markov-Kette mit endlicher Wertemenge WX vollständig bestimmt. Alle anderen gemeinsamen Verteilungen der Zufallsvariablen lassen sich daraus berechnen. Beispielsweise gilt für die Blockwahrscheinlichkeiten zum Zeitpunkt t = 1: p(X1 , ..., Xn ) = p(X1 )p(X2 |X1 )...p(Xn |X1 , ..., Xn − 1) = p(X1 )p(X2 |X1 )p(X3 |X2 )...p(Xn |Xn−1 ) (10.4) Die anderen Verteilungen ergeben sich als Marginalverteilungen der Blockverteilungen. Definition 10.5 Eine Startverteilung µ für eine zeithomogenen Markov-Kette ist stationär, wenn µ(j) = X µ(i)pij (10.5) i∈WX Dies bedeutet insbesondere, dass die Marginalverteilungen der einzelnen Werte zu jedem Zeitpunkt gleich ist, wenn eine zeithomogene Markov-Kette eine stationäre Startverteilung besitzt. Anmerkung 10.6 Sei (Xt ) eine zeithomogene Markov-Kette mit stationärer Startverteilung. Dann ist (Xt ) ein stationärer Prozess. Da die Verteilung einer zeithomogenen Markov-Kette vollständig durch ihre Startverteilung und Übergangswahrscheinlichkeiten gegeben ist, und die Marginalverteilung zu jedem Zeitpunkt gleich ist, ist auch die Gesamtverteilung zu jedem Zeitpunkt gleich. Markov-Ketten sind also Prozesse, die sich die letzten Zeichen merken und mit diesem begrenzten Wissen raten, welches Zeichen wohl am wahrscheinlichsten kommen würde, wenn es vom wahren dem Text zu Grunde liegenden Modell erzeugt werden würde. Sie benötigen also kein Wissen über das wahre Modell, sondern bestimmen das nächste Zeichen rein auf statistischer Basis. Aus diesem Grund lassen sie sich für eine Vielzahl von Texten verwenden. Da DNA-Sequenzen nur ein Alphabet der Größe vier haben, bieten sie sich in DNA-Sequenzen auch zur Modellierung von Korrelation mit niedriger bis mittlerer Reichweite an. Insgesamt sind Markov-Ketten sehr gute flexibel einsetzbare Prozesse, deren einziges Problem die Speicherung der Übergangswahrscheinlichkeiten bei hohen Ordnungen ist. 44 10.3. Parameterschätzung 10.3. Parameterschätzung Um die Übergangswahrscheinlichkeiten einer dem Text unterstellten Markov-Kette aus den relativen Übergangshäufigkeiten zu schätzen, muss diese nur zeithomogen, aber nicht stationär sein. Allerdings wäre dies wünschenswert, damit man die Analyseverfahren aus dem vorherigen Teil der Arbeit auch auf künstlich erzeugte Sequenzen der Markov-Kette anwenden kann. Besitzt die Markov-Kette zudem eine eindeutige stationäre Startverteilung, so kann man zeigen, dass diese annähernd durch die relativen Häufigkeiten innerhalb einer von der Kette erzeugten Sequenz gegeben ist. Ziel ist es also, eine stationäre zeithomogene Markov-Kette zu konstruieren, deren Übergangswahrscheinlichkeiten in etwa den relativen Übergangshäufigkeiten im Text entsprechen und die eine eindeutige stationäre Startverteilung besitzt. Die stationäre Verteilung sollte dann in etwa den relativen Häufigkeiten im Text entsprechen. Die von der MarkovKette erzeugten Sequenzen hätten dann bis zur Ordnung der Markov-Kette in etwa die selbe Entropie und Transinformation wie der ursprüngliche Text. Nachfolgend werden hinreichende Bedingungen für die Stationarität zeithomogener MarkovKetten mit eindeutiger stationärer Verteilung aufgeführt und untersucht, inwieweit diese für einen realen Text angewendet werden können. 10.3.1. Rückkehrzeit Definition 10.7 Die Rückkehrzeit eines Wertes i ist eine Zufallsvariable Ti = min{n ≥ 1|X1+n = i, falls X1 = i} (10.6) Die Rückkehrzeit ist also der Abstand bis zum nächsten i, fallsX1 = i. Wenn die MarkovKette zeithomogen ist, so ist die Rückkehrzeit unabhängig vom Zeitindex. 10.3.2. Reduzibilität (n) Definition 10.8 Sei pij = p(Xt = i, Xt+n = j). Eine Markov-Kette heißt irreduzibel, wenn man von jedem Zustand jeden Zustand mit positiver Wahrscheinlichkeit erreichen kann, also (n) ∀i, j∃n.(pij > 0) (10.7) Anmerkung 10.9 Irreduzibilität ist eine Eigenschaft der Übergangswahrscheinlichkeiten und ist unabhängig von der Startverteilung. Satz 10.10 Für eine irreduzible zeithomogene Markov-Kette existiert eine eindeutige stationäre Verteilung µ mit 1 µ(i) = (10.8) E[Ti ] wobei Ti die Rückkehrzeit von i ist. Der Erwartungswert der Rückkehrzeit lässt sich im Falle einer zeithomogenen MarkovKette durch den mittleren Abstand zwischen zwei Vorkommen von i innerhalb des Textes 45 10. Markov-Kette annähern. Addiert man den Abstand bis zum ersten Vorkommen von i mit der Länge des Restes nach dem letzten Vorkommen und fasst die Summe als einen weiteren Abstand zwischen zwei Vorkommen von i auf, dann entspricht die mittlere Rückkehrzeit Länge des Textes Anzahl der Vorkommen von i . Dies wiederum bedeutet, dass die relative Häufigkeit von i ungefähr der Wahrscheinlichkeit von i innerhalb der stationären Verteilung entspricht. Im Falle einer Markov-Kette höherer Ordnung betrachtet man Worthäufigkeiten und Übergänge zwischen Wörtern. Wenn man sicherstellen kann, dass die Markov-Kette der Ordnung n mit den geschätzten Übergangswahrscheinlichkeiten irreduzibel ist, dann besitzt sie eine stationäre Verteilung, die in etwa mit den relativen Häufigkeiten der Wörter bis zur Länge n im Text übereinstimmen. Um die Irreduzibilität einer Markov-Kette der Ordnung n nachzuweisen, reicht es sicherzustellen, dass es Übergänge von jedem Wort der Länge n, das im Text vorkommt, zu jedem anderen Wort gibt. Da die Übergangswahrscheinlichkeiten direkt aus den relativen Übergangshäufigkeiten geschätzt werden, sind offensichtlich alle Worte vom Startwort erreichbar. Ebenso ist das letzte Wort von jedem anderen Wort erreichbar. Wenn das Startwort vom letzten Wort aus erreichbar ist, dann ist die Markov-Kette also in jedem Fall irreduzibel. Bei realen Sequenzen mit ausreichender Länge ist dies meist der Fall. Wenn man sichergehen möchte, dass es einen Übergang gibt, kann man bei langen Texten einfach das Startwort am Schluss des Textes anhängen, bevor man die Übergangswahrscheinlichkeiten schätzt. Ist der Text im Vergleich zur Menge aller theoretisch möglichen Worte der Länge n groß, so ändert das Anhängen des Startwortes die Übergangswahrscheinlichkeiten und die resultierende stationäre Verteilung nicht entscheidend, sodass die Markov-Kette immer noch als ein Modell für den Text genommen werden kann. 10.4. Entropie Die stationäre Verteilung der n − Gramme einer geschätzten Markov-Kette der Ordnung n entspricht aufgrund der Konstruktionsweise den relativen Häufigkeiten im Text. Dadurch entspricht auch die Verteilung aller kürzeren Worte den relativen Häufigkeiten. Da die Übergangswahrscheinlichkeiten zwischen n − Grammen zudem direkt aus den relativen Übergangshäufigkeiten geschätzt werden, entspricht auch die Verteilung der (n + 1) − Gramme den relativen Häufigkeiten im Text. Da die konstruierte Markov-Kette irreduzibel ist, kann man deshalb davon ausgehen, dass die relativen Häufigkeiten der Worte bis zur Länge n + 1 in einem künstlich erzeugten Text in etwa den relativen Häufigkeiten im Originaltext entsprechen. Aus diesem Grund werden beide Texte bis zur Ordnung n + 1 nahezu identische geschätzte Blockentropien besitzen. Dies bedeutet, dass auch die bedingten Entropien bis zur Ordnung n nahezu identisch sind. Die bedingten Entropien H(Xk |X1 , ..., Xk−1 ) einer Markov-Kette der Ordnung n sind ab k >= n konstant und entsprechen damit der Entropierate der Markov-Kette. Für k > n ergibt sich nämlich im Falle einer stationären und zeithomogenen Kette folgende 46 10.5. Transinformation Rechnung: H(Xk |X1 , ..., Xk−1 ) (10.9) = X (p(X1 = x1 , ..., Xk = xk ) log(p(Xk = xk |X1 = x1 , ..., Xk−1 = xk−1 )))) (10.10) = X (p(X1 = x1 , ..., Xk = xk ) log(p(Xk = xk |Xk−n = xk−n , ..., Xk−1 = xk−1 )))) (10.11) = X (p(Xk−n = xk−n , ..., Xk = xk ) log(p(Xk = xk |Xk−n = xk−n , ..., Xk−1 = xk−1 )))) (10.12) = X (p(X1 = x1 , ..., Xn+1 = xn+1 ) log(p(Xn+1 = xn+1 |X1 = x1 , ..., Xn = xn )))) =H(Xn+1 |X1 , ..., Xn ) (10.13) (10.14) Die erste Umformung folgt aus der Gedächtnislosigkeit, die zweite aus einer Marginalisierung der Blockwahrscheinlichkeiten und die letzte aus der Stationarität und Zeithomogenität. 10.5. Transinformation Wegen der Übereinstimmung der relativen Worthäufigkeiten bis zur Ordnung n+1, wobei n die Ordnung der Markov-Kette ist, stimmt auch die Transinformationsfunktion bis n + 1 überein. Falls die Markov-Kette die Eigenschaft der Aperiodizität besitzt, dann geht die Transinformation danach relativ schnell gegen Null. Diese Eigenschaft ist bei langen realen Texten meist gegeben. Definition 10.11 Die Periode eines Wertes ist das größte k, sodass die Rückkehrzeit stets ein Vielfaches von k ist. Hat ein Wert eine Periode von 1, so ist er aperiodisch. Eine Markov-Kette ist aperiodisch, wenn alle ihre Zustände aperiodisch sind. Anmerkung 10.12 Da innerhalb einer irreduziblen Markov-Kette alle Werte voneinander erreichbar sind, sind alle Werte aperiodisch, sobald ein Wert aperiodisch ist. Satz 10.13 Für eine irreduzible und aperiodische Markov-Kette mit Übergangswahrscheinlichkeiten pij und stationärer Verteilung µ gilt (n) lim p n→∞ ij = µ(j) (10.15) 47 10. Markov-Kette Eine direkte Folge des Satzes ist die Konvergenz der Transinformationsfunktion gegen Null bei einer irreduziblen und aperiodischen Markov-Kette: Ç lim I(k) = k→∞ = lim k→∞ lim k→∞ X p(X1 = x, X1+k = y) log x,y∈WX X Ç p(X1 = x, X1+k = y) log x,y∈WX p(X1 = x, X1+k = y) p(p(X1 = x)p(X1+k = y) å (10.16) p(X1 = x)p(X1+k = y|X1 = x) µ(x)µ(y) å (10.17) = = = = lim k→∞ lim k→∞ lim k→∞ X p(X1 = x, X1+k = y) log x,y∈WX X x,y∈WX X (k) µ(x)pxy (10.18) µ(x)µ(y) Ç p(X1 = x, X1+k = y) log ! µ(x)µ(y) µ(x)µ(y) p(X1 = x, X1+k = y) log(1) å (10.19) (10.20) x,y∈WX 0 (10.21) 10.6. Testergebnisse Um das Verhalten einer Markov-Ketten der Ordnung n zu testen, wurden zunächst aus den Testdaten die Häufigkeiten aller n-Gramme ermittelt. Die Häufigkeiten werden als Startverteilung der Markov-Kette verwendet und dienen der Berechnung der Übergangswahrscheinlichkeiten. Aufgrund der unterschiedlichen Alphabetgrößen, wurden für DNASequenzen und natürlichsprachige Texte verschiedene Markov-Ordnungen verwendet. Mit den trainierten Markov-Ketten wurden dann künstliche Texte erzeugt und untersucht. Die Ergebnisse für reale und künstliche Texte wurden anschließend hinsichtlich Entropie und Transinformation untersucht. Die Testergebnisse zeigen, dass Markov-Ketten sowohl für DNA-Sequenzen als auch für natürlichsprachige Texte geeignet sind. Dies entspricht auch der Intention Abhängigkeiten ohne Kenntnisse der zu Grunde liegenden Mechanismen zu modellieren. 10.6.1. DNA-Sequenzen Es wurden alle Chromosomen des Menschen und Dromaster einzeln untersucht. Für die Chromosomen wurden künstliche Sequenzen mit 20 Millionen bp erstellt. Um vergleichbare Versuchsergebnisse zu halten (mitsamt einer Unterschätzung der Entropie für höhere Ordnungen) wurde für Dromaster nur eine Sequenz der Länge 6500 bp erstellt. Es wurden Markov-Ketten siebter Ordnung erstellt. Fig. 10.1,10.2,??,?? zeigen die Ergebnisse der Versuche für einige Chromosomen und Dromaster. Die restlichen Ergebnisse finden sich in Form von Schaubildern im Anhang. Die genauen Testergebnisse sind zu umfangreich um sie anzuhängen. Für die Chromosomen liegt eine nahezu perfekte Übereinstimmung von Entropie und Transinformation bis zur Markov-Ordnung vor. Danach fällt die Transinformation der 48 10.6. Testergebnisse Abbildung 10.1.: Vergleich von bedingten Entropien abhängig von der Ordnung Abbildung 10.2.: Vergleich von bedingten Entropien abhängig von der Ordnung Abbildung 10.3.: Vergleich der Transinformationsfunktion 49 10. Markov-Kette Abbildung 10.4.: Vergleich der Transinformationsfunktion Markov-Kette schnell gegen Null, was auf eine irreduzible und aperiodische MarkovKette hindeutet. Die Entropie bleibt konstant bis auf einen leichten Abfall aufgrund einer Unterschätzung der Entropie. Die Markov-Kette verhält sich also wie theoretisch erwartet. Einzig für Dromaster ist die Übereinstimmung nicht perfekt. Dies könnte an der relativ kurzen künstlich erzeugten Sequenz liegen. Je kleiner die erzeugte Sequenz, desto größer ist die Wahrscheinlichkeit von Fluktuationen zwischen verschiedenen künstlich erzeugten Sequenzen. Dies ist besonders der Fall, wenn die trainierte Markov-Kette Werte mit hoher Rückkehrzeit enthält, da dann bei zu kurzen Sequenzen die mittlere Rückkehrzeit nicht dem Erwartungswert der Rückkehrzeit entspricht. 10.6.2. Natürlichsprachige Texte Ähnliches wie bei de DNA-Sequenzen gilt auch für natürlichsprachige Texte. Der größte Nachteil der Markov-Ketten wiegt hier jedoch besonders schwer: Da die Anzahl der möglichen n-Gramme exponentiell mit n wächst, ist es schwierig Markov-Ketten höherer Ordnung zu konstruieren, wenn das Alphabet groß ist. Aus diesem Grund wurden für die Test nur Markov-Ketten zweiter Ordnung verwendet. Fig. 10.5,10.6 zeigen die Ergebnisse für alle deutschen Texte aus dem Projekt Gutenberg. Für französische Texte sehen die Diagramme jedoch identisch aus. 50 10.6. Testergebnisse Abbildung 10.5.: Vergleich von bedingten Entropien abhängig von der Ordnung Abbildung 10.6.: Vergleich der Transinformationsfunktion 51 10. Markov-Kette 52 11. Diskreter autoregressiver Prozess Ein diskreter autoregressiver Prozess ist eine spezielle Markov-Kette mit einer einfachen Struktur. Die Parameter eines DAR(p)-Prozesses lassen sich effizient schätzen und darstellen im Gegensatz zu den Parametern eines allgemeinen Markov-Modells. Sie sind in der Lage einfache lineare Korrelationsstrukturen über relativ weite Bereiche abzubilden, eignen sich jedoch nicht um komplexe Abhängigkeiten zu modellieren. Auch können keine Abhängigkeiten auf Wortebene modelliert werden. Gute Ergebnisse werden mit DNASequenzen hinsichtlich der Transinformationsfunktion erzielt. Bei natürlichsprachigen Texten versagt das Modell. Die folgenden Ausführungen basieren vor allem auf einem Paper von Jacobs et al.[9] und einem Buch und Paper von Hütt und Dehnert et al.[2, 8]. 11.1. Einstellungsmöglichkeiten • Ordnung p des DAR-Prozesses • Autokorrelationskoeffzienten eines DAR(p)-Prozesses • Marginalverteilung der Zeichen 11.2. Theoretischer Hintergrund Informell ist ein DAR(p)-Prozess ein stochastischer Prozess, bei dem zu jedem Zeitpunkt mit Wahrscheinlichkeit ρ eines der letzten p Zeichen kopiert wird. Die Auswahl des zu kopierenden Zeichens erfolgt gemäß der Verteilung α. Wird kein Zeichen kopiert, so wird ein zufälliges Zeichen gemäß der Verteilung π erzeugt. Definition 11.1 Sei (Yt ) eine Folge unabhängiger und gleichverteilter Zufallsvariablen mit einer Verteilung π über einem Alphabet A. Ferner sei (Vt ) eine Folge Bernoulli-verteilter Zufallsvariablen mit Wertemenge {0; 1}, wobei p(Vt = 0) = ρ und p(Vt = 1) = 1 − ρ. Sei (At ) eine Folge von Zufallsvariablen über einer Indexmenge I = {1, ..., p} mit Verteilung α = (α1 , ..., αp ). Dann nennt man den stochastischen Prozess (Xt ) mit Xt = Vt · Xt−At + (1 − Vt ) · Yt (11.1) für t > p einen stationären diskreten autoregressiven Prozess der Ordnung p (DAR(p)-Prozess) mit Rückgriffwahrscheinlichkeit ρ, Parametervektor α und Marginalverteilung π. Satz 11.2 Wählt man als Anfangsverteilung π mit Xt = Yt (11.2) für 1 ≤ t ≤ p, so ist der resultierende Prozess stationär mit Marginalverteilung π. 53 11. Diskreter autoregressiver Prozess Im Rahmen dieser Arbeit ist wieder vor allem der stationäre Fall interessant. Es wird deshalb in den weiteren Ausführungen von einem stationären DAR(p)-Prozess ausgegangen. Ein DAR(p)-Prozess ist eine spezielle Markov-Kette der Ordnung p, da der Wert an einer Stelle nur von den letzten p Zeichen abhängt. Bei einer allgemeinen Markov-Kette wächst die Anzahl der Parameter in Form von Übergangswahrscheinlichkeiten exponentiell mit der Ordnung an. Dagegen ist die Anzahl der Parameter eines DAR(p)-Prozess linear in p. Er eignet sich deshalb zur Konstruktion von Markov-Ketten mit hoher Ordnung. Ein DAR(p)-Prozess erlaubt es unter gewissen Annahmen in begrenztem Maße lineare Korrelationen mit kurzer und mittellanger Reichweite zu modellieren (siehe Abschnitt zur Transinformationsfunktion). 11.3. Parameterschätzung Da es sich bei einem DAR(p)-Prozess um eine spezielle Markov-Kette handelt, reicht es, die Irreduzibilität der konstruierten stationären Kette nachzuweisen, um ein ergodisches Verhalten nachzuweisen. Für den Fall, dass ρ < 1 ist dies automatisch gegeben, da dann eine positive Wahrscheinlichkeit besteht, ein zufälliges Zeichen zu erzeugen. Damit kann auf jeden Wert direkt jeder andere Werte folgen. Die Kette ist dann sogar aperiodisch. Es wird sich herausstellen, dass durch die gewählte Schätzmethode der Fall ρ = 1 nur dann auftritt, wenn der Text nur aus der Wiederholung eines einzigen Zeichens besteht. Auch in diesem Fall ist die Markov-Kette offensichtlich irreduzibel und aperiodisch. Die Marginalverteilung eines stationären DAR(p)-Prozess lässt sich direkt mit relativen Häufigkeiten schätzen. α und ρ werden indirekt bestimmt. Die Idee besteht darin, die Autokorrelationskoeffizienten des DAR(p)-Prozess zu bestimmen und daraus α und ρ zu bestimmen. Da Autokorelationskoeffizienten nur für numerische Wertemengen definiert sind, muss man zunächst ein symbolisches Alphabet mittels einer Funktion f auf Zahlen abbilden. Man kann zeigen, dass die folgenden Ergebnisse nicht von der Wahl der Abbidlung abhängen. 11.3.1. Autokorrelationskoeffizient Definition 11.3 Die Autokorrelationskoeffizienten eines stationären Prozesses (Xt ) sind definiert als E[(Xt − E[Xt ])(Xt+k − E[Xt ])] r(k) = (11.3) V ar[Xt ] Der Autokorrelationskoeffizient r(k) ist ein Maß für die lineare Abhängigkeit zwischen zwei Zufallsvariablen des Prozesses im Abstand k. Anmerkung 11.4 Für alle Autokorrelationskoeffizienten gilt −1 ≤ r(k) ≤ 1, wobei 1 einen perfekten positiven linearen Zusammenhang und −1 einen perfekten negativen linearen Zusammenhang bedeutet. Der Autokorrelationskoeffizient kann keine nicht-linearen Abhängigkeiten feststellen. Ein Autokorrelationskoeffizient von 0 ist also, anders als bei der Transinformation, keine Garantie für Unabhängigkeit von Zufallsvariablen [10]. Anmerkung 11.5 Der Autokorrelationskoeffizient ist symmetrisch r(k) = r(−k) 54 (11.4) 11.3. Parameterschätzung 11.3.2. Yule-Walker-Gleichungen Sei (Xt0 ) ein Folge von Zufallsvariablen mit Xt0 = f (Xt ), wobei (Xt ) der stationäre DAR(p)Prozess ist. Sei µ = E[Xt0 ] der Erwartungswert. Da bei einem stationären DAR(p)-Prozess die Marginalverteilung der Startverteilung π entspricht, gilt auch µ = E[Yt ]. Für k > 0 ergibt sich damit folgende Gleichungskette, wobei r(k) die Autokorrelationskoeffizienten sind: 0 Xt0 − µ =Vt · (Xt−A − µ) + (1 − Vt ) · (Yt − µ) t (Xt0 − 0 µ)(Xt−k − µ) =Vt · 0 (Xt−A t − µ) · 0 (Xt−k − µ) + (1 − Vt ) · (Yt − µ) · (11.5) 0 (Xt−k − µ) (11.6) 0 0 0 0 E[(Xt0 − µ)(Xt−k − µ)] =E[Vt · (Xt−A − µ) · (Xt−k − µ)] + E[(1 − Vt ) · (Yt − µ) · (Xt−k − µ)] t (11.7) Da Vt unabhängig von den anderen Zufallsvariablen ist und Yt unabhängig von Xt0 gilt: 0 E[(Xt0 − µ)(Xt−k − µ)] 0 0 0 = E[Vt ] · E[(Xt−A − µ) · (Xt−k − µ)] + E[(1 − Vt )] · E[Yt − µ] · E[Xt−k − µ] t (11.8) 0 0 ρ · E[(Xt−A − µ) · (Xt−k − µ)] + (1 − ρ) · 0 · 0 t 0 0 ρ · E[(Xt−At − µ) · (Xt−k − µ)] 0 0 0 0 ρ(α1 · E[(Xt−1 − µ) · (Xt−k − µ)] + ... + αp · E[(Xt−p − µ) · (Xt−k − µ)]) 0 0 0 0 ρα1 · E[(Xt−1 − µ) · (Xt−k − µ)] + ... + ραp · E[(Xt−p − µ) · (Xt−k − µ)] (11.9) = = = = (11.10) (11.11) (11.12) 0 0 0 0 0 ραp · E[(Xt−p − µ) · (Xt−k − µ)] − µ)] ρα1 · E[(Xt−1 E[(Xt0 − µ)(Xt−k − µ) · (Xt−k − µ)] = + ... + 0 0 0 V ar[Xt ] V ar[Xt ] V ar[Xt ] (11.13) r(k) =ρα1 r(k − 1) + ... + ραp r(k − p) (11.14) Aus der letzten Gleichung kann man ein System von Gleichungen erstellen, die auch als Yule-Walker-Gleichungen eines autoregressiven Prozesses bekannt sind [6]: r(1) =ρα1 r(0) + ρα2 r(1) + ... + ραp r(p − 1) (11.15) r(2) =ρα1 r(1) + ρα2 r(0) + ... + ραp r(p − 2) (11.16) ... r(p) =ρα1 r(p − 1) + ρα2 r(p − 2) + ... + ραp r(0) (11.17) Sind die Autokorrelationskoeffzienten bekannt, wobei r(0) := 1, so kann man zusammen mit der Gleichung α1 + ... + αp = 1 (11.18) α und ρ durch Auflösen des linearen Gleichungssystems bestimmen. Anmerkung 11.6 Durch die p + 1 Gleichungen ist ρ stets eindeutig. Die αi sind nur im Fall ρ = 0 nicht eindeutig. In diesem Fall findet jedoch ohnehin nie ein Rückgriff statt und der Parametervektor α wird nicht benötigt. Der Fall ρ = 1 kann nur eintreten, wenn r(0) = ... = r(p) = 1. Beim nachfolgenden Schätzer für r(k) tritt dies nur ein, wenn der Text aus der Wiederholung eines einzigen Zeichens besteht. Der geschätzte DAR(p)-Prozess ist also immer irreduzibel, wenn man ihn als eine Markov-Kette auffasst. 55 11. Diskreter autoregressiver Prozess Anstatt die r(k) mit einem herkömmlichen Schätzer für Autokorrelationen zu bestimmen, kann eine besser auf DAR(p)-Prozesse angepasste Methode verwendet werden, die konsistentere Schätzungen liefert. Da die Resultate nicht von der Wahl der Funktion f mit Xt0 = f (Xt ) abhängen, wird im Folgenden vereinfacht nur Xt verwendet. Definition 11.7 Sei (Rt ) eine Folge von Zufallsvariablen mit (11.19) Xt = YRt Xt ist wegen der Definition des DAR(p)-Prozess stets eine Kopie einer Zufallsvariablen des Prozesses (Yt ). Wird ein zufälliges Zeichen erzeugt, so gilt Xt = Yt . Bei einem Rückgriff auf ein vergangenes Zeichen gilt Xt = Ys mit s < t. Rt gibt den gewählten Index von Yt an der Stelle t an. Satz 11.8 Der Autokorrelationskoeffizient r(k) eines DAR(p)-Prozesses entspricht der Wahrscheinlichkeit, dass in einem Abstand von k Zeichen Kopien derselben Zufallsvariablen Yt stehen, also r(k) = p(Rt = Rt+k ) (11.20) Für den Beweis betrachtet man zunächst folgende Gleichungen, die sich aus der Unabhängigkeit von Rt und Yt , sowie der Unabhängigkeit und Gleichverteilung aller Yt untereinander ergeben: E[(Xt − µ)(Xt+k − µ)] = E[(YRt − µ)(YRt+k − µ)] = = t X t+k X (11.21) E[(Ym − µ)(Yn − µ)]p(Rt = m, Rt+k = n) m=1 n=1 t X t X l=1 m=1 n=1,n6=m E[(Yl − µ)2 ]p(Rt = Rt+k = l) + t+k X (11.22) E[(Ym − µ)(Yn − µ)]p(Rt = m, Rt+k = n) (11.23) = E[(Y1 − µ)2 ]p(Rt = Rt+k ) + t X t+k X E[(Ym − µ)]E[(Yn − µ)]p(Rt = m, Rt+k = n) m=1 n=1 n6=m (11.24) = E[(Y1 − µ)2 ]p(Rt = Rt+k ) + t+k t X X 0 · 0 · (Rt = m, Rt+k = n) (11.25) m=1 n=1 n6=m = E[(Y1 − µ)2 ]p(Rt = Rt+k ) (11.26) = V ar[Y1 ] · p(Rt = Rt+k ) (11.27) Daraus folgt direkt E[(Xt − µ)(Xt+k − µ)] E[(Xt − µ)(Xt+k − µ)] = V ar[Xt ] V ar[YRt ] E[(Xt − µ)(Xt+k − µ)] = = p(Rt = Rt+k ) V ar[Y1 ] r(k) = 56 (11.28) (11.29) 11.3. Parameterschätzung Der Satz zeigt, dass in einem DAR(p)-Prozess nur eine einfache spezielle Form der linearen Korrelation vorliegt. Es ist daher sinnvoll, für die Parameterschätzung auch nur solche einfachen linearen Korrelationen im Text zu ermitteln. Anstatt also einen allgemeinen Schätzer für die Autokorrelation zu verwenden, schätzt man p(Rt = Rt+k ) unter der Annahme, dass der Text von einem DAR(p)-Prozess erzeugt wurde. Im Folgenden wird ein einfacher, aber in der Praxis guter Schätzer vorgestellt. Für n 6= m gilt wegen der Stationarität und Unabhängigkeit der Yt : (11.30) p(Xt = n, Xt+k = m) =p(YRt = n, YRt+k = m) = X p(Rt = p, Rt+k = s)p(Yp = n, Ys = m) (11.31) p(Rt = p, Rt+k = s)p(Yp = n)p(Ys = m) (11.32) p(Rt = p, Rt+k = s)π(n)π(m) (11.33) p6=s = X p6=s = X p6=s =p(Rt 6= Rt+k )π(n)π(m) (11.34) wobei π die Marginalverteilung des stationären DAR(p)-Prozess ist. Sei für einen Text der Länge l: Cl (k, n, m) :=(l − k)−1 l−k X In (Xp )Im (Xpk ) (11.35) p=1 Bl (k, m) := X (11.36) Cl (k, n, m) n6=m wobei Ia (X) eine Indikatorfunktion mit Ia (X) = 1, falls X = a und Ia (X) = 0 in allen anderen Fällen, ist. Cl (k, n, m) entspricht der relativen Häufigkeit, dass im Text der Länge l im Abstand von k Zeichen nach einem n ein m steht. Damit ergibt sich für n 6= m lim Cl (k, n, m) = lim (l − k)−1 l→∞ l→∞ l−k X In (Xp )Im (Xpk ) (11.37) p=1 = p(Xt = n, Xt+k = m) (11.38) = p(Rt 6= Rt+k ) · π(n) · π(m) (11.39) = (1 − r(k)) · π(n) · π(m) (11.40) und damit lim Bl (k, m) = l→∞ X (1 − r(k)) · π(n) · π(m) = (1 − π(m)) · π(m) · (1 − r(k)) (11.41) n6=m und lim X Bl (k, m) l→∞ m 1 − π(m) = 1 − r(k) (11.42) 57 11. Diskreter autoregressiver Prozess Daraus ergibt sich der Schätzer r̂(k) = 1 − X Bl (k, m) m 1 − π(m) (11.43) Die stationäre Marginalverteilung kann aus den relativen Häufigkeiten der Zeichen im Text geschätzt werden. 11.4. Entropie Da es sich bei einem DAR(p)-Prozess um eine Markov-Kette der Ordnung p handelt, ist die Entropierate durch die bedingte Entropie der Ordnung p gegeben. Im Normalfall ist ein DAR(p)-Prozess nicht in der Lage, den Entropieverlauf einer vorgegebenen realen Sequenz abzubilden, da die Korrelationsstruktur eines DAR(p)-Prozess sehr einfach ist. Dies belegen auch die Testergebnisse am Ende des Kapitels. 11.5. Transinformation Versuche zeigen, dass der Verlauf der Transinformationsfunktion für reale DNA-Sequenzen bis zur Ordnung p gut angenähert werden kann. Die Transinformationsfunktion des DAR(p)Prozess verläuft jedoch meist unter der der DNA-Sequenz, da in einer DNA-Sequenz komplexere Korrelationsstrukturen vorliegen. Dass überhaupt eine Annäherung möglich ist, bedeutet aber auch, dass Korrelation, die durch Kopieren eines Zeichens entstehen einen nicht unwesentlichen Beitrag innerhalb von DNA-Sequenzen leisten. Verantwortlich könnten dabei Duplikationen im Rahmen von Mutationen sein. Eventuell tragen auch Wiederholungen von DNA-Abschnitten, wie sie häufig in nicht-codierenden Bereichen vorkommen dazu bei. Natürlichsprachige Texte lassen sich nicht durch einen DAR(p)-Prozess modellieren. Die Korrelationen innerhalb einer Sprache basieren größtenteils nicht auf Kopien von Zeichen, sondern sind durch den Wortschatz und eine Grammatik gegeben. Der Abstand zwischen Wort- oder Zeichenwiederholungen lässt sich nicht durch einen DAR(p)-Prozess modellieren, da sie vom inhaltlichen Kontext abhängen. 11.6. Testergebnisse Die Testergebnisse bestätigen vorherige Überlegungen. Die Transinformationsfunktion lässt sich im Falle von DNA-Sequenzen in begrenztem Maße durch einen DAR(p)-Prozess modellieren. Bei natürlichsprachigen Texten können jedoch weder Entropie noch Transinformationsfunktion nachgebildet werden. Um die Qualität des Parameterschätzers zu prüfen wurden die DAR(p)-Prozess-Parameter der künstlich erzeugten Texte geschätzt. Die Übereinstimmung ist sehr hoch, sodass der Schätzer auch in der Praxis als konsistent angesehen werden kann. 58 11.6. Testergebnisse Abbildung 11.1.: Vergleich der Transinformationsfunktionen Abbildung 11.2.: Vergleich der Transinformationsfunktionen 59 11. Diskreter autoregressiver Prozess Abbildung 11.3.: Vergleich der Transinformationsfunktionen Abbildung 11.4.: Vergleich von bedingten Entropien abhängig von der Ordnung 60 11.6. Testergebnisse Abbildung 11.5.: Vergleich der Autokorrelationsparameter für einen DAR(p)-Prozess 11.6.1. DNA-Sequenzen Die Tests mit DNA-Sequenzen zeigen, dass die Qualität des DAR(p)-Prozess auch von der verwendeten Sequenz abhängt. Besonders gut lässt sich die Transinformationsfunktion des menschlichen Y-Chromosoms modellieren (Fig. 11.1). Doch auch für die restlichen Chromosomen ist die Übereinstimmung des Verlaufs der Transinformationsfunktion mit der des DAR(p)-Prozess im Mittel gut. Ein Beispiel dafür ist das Chromosom 22 (Fig. 11.2). Weniger gut lässt sich die Dromaster-mRNA (Fig. 11.3) modellieren. Gut sichtbar ist jedoch die Codonstruktur. Insgesamt scheinen aber größtenteils andere nicht durch den DAR(p)-Prozess modellierbare Faktoren für die starken Abhängigkeiten in Dromaster verantwortlich zu sein. Eine mögliche Erklärung für die unterschiedlichen Ergebnisse könnten evolutionäre Betrachtungen liefern. Das Y-Chromosom hat im Laufe der Evolution einen Großteil seiner Reparaturfähigkeiten verloren. Dadurch sammelten sich im Laufe der Zeit relativ viele Mutationen auf dem Chromosomen an, wodurch teilweise neue Gene entstanden. Da die Duplikation ein wichtiger Mutationsmechanismus ist, der auch durch einen DAR(p)-Prozess in begrenztem Umfang simuliert werden kann, könnte dies die guten Ergebnisse des Y-Chromosoms erklären. Da es sich bei der Dromaster-mRNA um eine codierende Sequenz handelt, sind in ihr weniger Mutationen enthalten. Der Entropieverlauf lässt sich bei allen untersuchten Sequenzen nicht mit einem DAR(p)Prozess nachbilden. Fig. 11.4 zeigt dies exemplarisch für das Chromosom 22. Dass der Fehler bei den Transinformationskurven nicht an der Schätzmethode liegt, wird dadurch unterstützt, dass die geschätzten Autokorrelationsparameter des DAR(p)-Prozesses bei realen und künstlichen Sequenzen sehr gut übereinstimmen (Fig. 11.5,11.6,11.7) und ein DAR(p)-Prozess eindeutig über diese Koeffizienten definiert ist. 11.6.2. Natürlichsprachige Texte Wie erwartet eignen sich DAR(p)-Prozesse nicht für natürlichsprachige Texte, da die Korrelationsstrukturen einer Sprache nicht durch Duplikations-Mutationen entstanden sind. Fig. 11.8 für die deutschen Texte aus dem Projekt Gutenberg zeigt, dass nur die Ansätze des Funktionsverlaufs übereinstimmen. Auffällig ist jedoch die Spitze bei k = 4. Im 61 11. Diskreter autoregressiver Prozess Abbildung 11.6.: Vergleich der Autokorrelationsparameter für einen DAR(p)-Prozess Abbildung 11.7.: Vergleich der Autokorrelationsparameter für einen DAR(p)-Prozess Abbildung 11.8.: Vergleich der Transinformationsfunktionen 62 11.6. Testergebnisse Abbildung 11.9.: Vergleich der Autokorrelationsparameter für einen DAR(p)-Prozess französischen Textsatz findet sich eine ähnliche Spitze bei k = 5. Eventuell hängt dies mit häufigen Wörtern oder Wortgruppen zusammen. Auch im Fall natürlichsprachiger Texte stimmen die geschätzten Autokorrelationen überein (Fig. 11.9). 63 11. Diskreter autoregressiver Prozess 64 12. Ähnliche Wiederholungen DNA-Sequenzen enthalten häufig mehrfache Wiederholungen von anderen DNA-Abschnitten. Diese Wiederholungen sind zum Teil für Korrelationsstrukturen innerhalb der DNA-Sequenz verantwortlich und spielen aus algorithmischer Sicht oft eine bedeutende Rolle. Für die Erkennung von exakten Wiederholungen in einem Text gibt es effiziente Datenstrukturen und Algorithmen. Durch Evolutionsprozesse kann es jedoch zu Veränderungen im Erbgut kommen. Auch Wiederholungen können von Mutationen betroffen sein. Es wäre jedoch wünschenswert, wenn man Wiederholungen dennoch erkennen kann. Innerhalb dieser Arbeit werden solche Wiederholungen approximate repeats (ähnliche Wiederholungen) genannt. Der im Folgenden vorgestellte Algorithmus führt ein Modell zur Generierung eines Textes mit ähnlichen Wiederholungen ein und schätzt die Parameter des Modells anhand eines vorliegenden Textes. Er basiert auf mehreren Veröffentlichungen[1, 17, 3, 15, 11], aber vor allem auf ‘Compression of Strings with Approximate Repeats’ von Allison et al.. 12.1. Parameter • Marginalverteilung der Zeichen • Markov-Ordnung • Übergangswahrscheinlichkeiten für das Markov-Modell • Parameter für direct repeats • Parameter für inverted repeats • Parameter für mirror repeats 12.2. Theoretischer Hintergrund Es sind diverse nahe liegende Modifikationen des Modells und Algorithmus denkbar. Nachfolgend wird hauptsächlich die im Rahmen dieser Arbeit implementierte Version vorgestellt. Die Grundidee besteht darin, einen Automaten zu definieren, der grundsätzlich gemäß einem Markov-Modell zufällig Zeichen erzeugt, aber auch eine gewisse Wahrscheinlichkeit besitzt, eine Wiederholung zu starten. Die Startposition von der kopiert wird, wird gleichverteilt ausgesucht. Die aktuelle Position, von der kopiert werden soll, wird im Folgenden Kopierposition genannt. Während sich der Automat in einer Wiederholung befindet, sind eine Reihe von Operationen möglich: 65 12. Ähnliche Wiederholungen • Kopieren des Zeichens an der aktuellen Kopierposition • Abändern des Zeichens an der Kopierposition, also Schreiben eines zufälligen neuen Zeichens; Kopierposition wird erhöht • Einfügen eines neuen zufälligen Zeichens unter Beibehaltung der Kopierposition • Überspringen der Kopierposition, also kein Zeichen wird geschrieben; Kopierposition wird erhöht Nachdem mindestens ein Zeichen kopiert, abgeändert oder eingefügt wurde, besteht nach jeder weiteren Operation eine gewisse Wahrscheinlichkeit, dass die Wiederholung endet und wieder zufällig Zeichen erzeugt werden. Durch die Bedingung, dass mindestens ein Zeichen geschrieben werden muss, sollen leere und damit nicht sichtbare Wiederholungen verhindert werden. Im Rahmen dieser Arbeit wurden drei sich ähnelnde Automaten implementiert, die zeitgleich verwendet werden können. Jeder Automat steht für einen Wiederholungstyp. Je mehr Automaten, desto mehr Parameter hat das Modell jedoch und desto schwieriger wird die Parameterschätzung. Prinzipiell ist eine beliebige Anzahl Wiederholungsautomaten denkbar. Die im Rahmen dieser Arbeit implementierten Automaten sind: direct repeats (normale Wiederholungen), mirror repeats (gespiegelte Wiederholungen) und inverted repeats (mirror repeat mit invertierten Zeichen). Ein invertiertes Zeichen ist im Falle einer DNA-Sequenz die komplementäre Base. Die drei Automaten sind ähnlich aufgebaut mit der Ausnahme, dass die beiden Rückwärtsautomaten die Kopierposition erniedrigen und nicht erhöhen. Der inverted repeats Automat vergleicht und kopiert invertierte Zeichen. Bei den Rückwärts-Wiederholungen endet die Wiederholung automatisch, wenn die Kopierposition kleiner Null wird. Im Folgenden wird das Verfahren exemplarisch für den einfachen Automaten mit direct repeats vorgestellt. Anmerkung 12.1 Hauptvariationsmöglichkeit für das Modell ist die Definition eines komplexeren Automaten zur Erzeugung von Repeats. Der vorgestellte Automat modelliert einfache EditOperationen, die unabhängig von der Vergangenheit der Wiederholungen ausgewählt werden. Ein verbesserter Automat könnte beispielsweise die Wahrscheinlichkeit eines Wiederholungsendes mit wachsender Länge der Wiederholung höher werden lassen, um eine nicht-geometrische Verteilung der Wiederholungslängen zu erreichen. Als Parameter für das Modell benötigt man • die Wahrscheinlichkeit für den Beginn einer Wiederholung • die Wahrscheinlichkeit für das Ende einer Wiederholung • die Verteilung der Operationen innerhalb einer Wiederholung • die Übergangswahrscheinlichkeiten und Startverteilung der zu Grunde liegenden Markov-Kette. 66 12.3. Parameterschätzung Die Startposition wird vereinfachend gleichverteilt aus allen Position bis zur aktuellen Schreibposition gewählt. Die Implementierung eines Generators, der nach dem vorgegeben Modell Texte erzeugt, ist damit relativ einfach und direkt. Es ist gibt nur einige Punkte, auf die man achten muss: • Die Kopierposition muss stets kleiner als die Schreibposition sein. Ist die Kopierposition nur um eins kleiner als die Schreibposition, dann darf die Kopierposition nicht übersprungen werden. Eine einfache Lösung besteht darin, die Operation auszuschließen und die Wahrscheinlichkeiten der anderen Operationen auf 1 zu normieren. • Ebenso muss man bei der Veränderungs-Operation darauf achten, dass man das Zeichen an der Kopierposition ausschließt und die Wahrscheinlichkeiten der anderen Zeichen normalisiert. • Eine Wiederholung darf erst enden, wenn mindestens ein Zeichen geschrieben wurde. Dies kann auch nach einer Einfügen-Operation geschehen, ohne das tatsächlich ein Zeichen kopiert wurde. Anmerkung 12.2 Um die Zahl der Parameter zu reduzieren, wird einer Einfüge-Operation die gleiche Wahrscheinlichkeit zugeordnet wie einer Überspringen-Operation. Dies wird durch das dem Repeat-Modell zu Grunde liegende Alignment-Modell von Yee et al.[17] gerechtfertigt. Demnach sind Einfügen und Überspringen dieselben Operationen aus verschiedenen Sichtweisen. 12.3. Parameterschätzung Ein gutes Anschauungsmittel für den Algorithmus zur Parameterschätzung ist der RepeatGraph (Fig. 12.1). Jeder Pfad im Wiederholungsgraphen ist eine Erklärung des Textes unter dem RepeatModell. Ein Pfad besteht aus einer Abfolge von Operationen, die theoretisch den Text erzeugt haben könnten. Die Wahrscheinlichkeit eines Pfades bei gegebenen Parametern ergibt sich aus dem Produkt der Wahrscheinlichkeiten der einzelnen Operationen des Pfades. Die Wahrscheinlichkeit für den gesamten Text ergibt sich aus der Summe der Pfadwahrscheinlichkeiten. Anmerkung 12.3 In der im Rahmen dieser Arbeit implementierten Version werden drei Automaten verwendet. Aus diesem Grund besitzt der Graph eigentlich drei Repeat-Bereiche. Aus einem Basiszustand führen Pfeile in alle drei Wiederholungsbereiche. Dadurch findet in etwa eine Verdreifachung der Knoten- und Kantenanzahl statt. Eine Möglichkeit für die Parameterschätzung besteht nun darin, die Wahrscheinlichkeiten der Operationen so zu wählen, dass die Wahrscheinlichkeit des Textes unter diesem Modell maximal ist. Man sucht also diejenige Parameterkombination, die den Text am wahrscheinlichsten produziert hat. Dieses Prinzip wird auch Maximum-Likelihood-Prinzip genannt. Die Anzahl der Pfade im Repeatgraphen ist jedoch quadratisch in der Länge des Textes und die Wahrscheinlichkeiten der einzelnen Pfade sind nicht bekannt, sodass man 67 12. Ähnliche Wiederholungen Abbildung 12.1.: Der Repeat-Graph in Anlehnung an Allison et al.[1] Bx: Basiszustand außerhalb einer Wiederholung, Position x im Text Sx: Startzustand einer Wiederholung (keine Ende-Kante), Kopierposition x Wx: interner Wiederholungszustand, Kopierposition x Einf(A): Einfügen eines Zeichens A Übspr: Überspringen einer Kopierposition Kopn: Kopieren des Zeichens Änd(A,B): Abändern des Zeichens A zum neuen Zeichen B Start: Wiederholungsstart Ende: Wiederholungsende 68 12.3. Parameterschätzung keine direkte Formel für die Berechnung einer optimalen Parameterkombination angeben kann. Stattdessen wird ein so genannter Expectation-Maximation-Algorithmus (EMAlgorithmus) verwendet, der iterativ eine optimale Lösung annähert. Genauer gesagt handelt es sich bei dem verwendeten Algorithmus um eine modifizierte und optimierte Variante des des Baum-Welch-Algorithmus[16]. Im Rahmen dieser Arbeit wird nicht auf die genaue Theorie der erwartungsmaximierenden Algorithmen eingegangen. Stattdessen wird das speziell für dieses Modell verwendete Verfahren vorgestellt. Das Verfahren führt im Wesentlichen in jeder Iteration folgende logische Schritte aus: • Anhand der geschätzten Parameter der letzten Iteration bzw. der Startverteilung in der ersten Iteration werden die Wahrscheinlichkeiten der Pfade bestimmt. • Für jeden Pfad wird die Wahrscheinlichkeit des Pfades durch einen Maximum-LikelihoodSchätzer für die Parameter, sprich die Kantenwahrscheinlichkeiten, maximiert. Dies entspricht den relativen Häufigkeiten der Kantenübergänge innerhalb des Pfades. • Die verschiedenen ermittelten individuell maximierten Parameter werden, gewichtet durch die anfangs berechneten Wahrscheinlichkeiten der Pfade, gemittelt. Wichtig dabei ist, dass nicht die individuell maximierten Pfadwahrscheinlichkeiten für die Gewichtung genommen werden, sondern die anfangs berechneten. Obige Beschreibung entspricht dem, was der Algorithmus berechnet, jedoch nicht wie er es berechnet. Um die Laufzeit und den Speicheraufwand gering zu halten, werden Schritt eins und drei parallel ausgeführt, wobei anstatt der Wahrscheinlichkeiten die Anzahl der Kantenübergänge gemittelt wird. Schritt zwei wird zum Schluss für die gemittelten Anzahlen der Kantenübergänge durchgeführt. Es werden mit Hilfe von dynamischer Programmierung alle Pfade des Wiederholungsgraphen gleichzeitig traversiert. Der Algorithmus arbeitet den Graphen zeilenweise ab. Dadurch müssen immer nur zwei Zeilen im Speicher gehalten werden, was den Speicheraufwand linear in der Länge des Textes macht. Für jeden Knoten einer Zeile wird neben der erwarteten Anzahl der Kanten jeden Typs über die der Knoten erreicht wurde auch die Wahrscheinlichkeit gespeichert, diesen Knoten zu erreichen. Führen mehrere Pfade in einen Knoten, so wird für jeden Kantentyp die mittlere Anzahl gewichtet nach der Wahrscheinlichkeit der Pfade genommen. Dies entspricht der erwarteten Anzahl der Übergänge, die nötig sind um den Knoten zu erreichen. In der letzten Zeile des Graphen gibt es (n + 1) Knoten, wobei n die Länge des Textes ist. Das gewichtete Mittel der Knoten in der letzten Reihe ergibt die erwartete Anzahl der Übergänge für den gesamten Text. Man erhält durch die relativen Häufigkeiten der erwarteten Anzahl der Kantenübergänge einen neuen Schätzer für die Kantenwahrscheinlichkeiten. Die neuen Kantenwahrscheinlichkeiten bewirken jedoch eine neue Verteilung für die möglichen Pfade. Der Prozess kann fortgesetzt werden bis sich die Wahrscheinlichkeiten nicht mehr wesentlich ändern oder eine maximale Anzahl Iterationen erreicht wurde. Die Theorie hinter dem BaumWelch-Algorithmus garantiert, dass sich die Gesamtwahrscheinlichkeit des Textes in jedem Schritt erhöht. Um die Anzahl der Iterationen gering zu halten, sollten die Startwerte plausibel und möglichst nahe dem tatsächlichen Wert gewählt werden. 69 12. Ähnliche Wiederholungen 12.4. Komplexität Der größte Kritikpunkt an dem vorgestellten Model ist seine Zeitkomplexität bei der Parameterschätzung. Die Zeitkomplexität ist linear in der Anzahl der Knoten. Die Anzahl der Knoten wiederum ist quadratisch in der Länge des Textes. Somit ist der Algorithmus quadratisch in der Länge des Textes. Da immer nur zwei Reihen des Graphen gespeichert werden müssen, hat der Algorithmus linearen Speicheraufwand. 12.4.1. Beschleunigung des Schätzvorgangs Bei langen Sequenzen ist ein quadratischer Algorithmus nicht effizient genug. Ein ganzes Chromosom kann mit dem Algorithmus faktisch nicht untersucht werden. Es ist jedoch möglich die Laufzeit zulasten der Genauigkeit zu verringern. Kernidee ist es, nur relevante Teile des Graphen zu traversieren. Dazu definiert man eine Mindestlänge für eine exakte Wiederholung, die nötig ist, um eine Region im Graphen zu aktivieren. Es werden nur aktive Regionen traversiert. Wird eine exakte Wiederholung mit ausreichender Länge gefunden, wird die Region innerhalb der Reihe um die Startposition der Wiederholung herum aktiviert. Die Knoten aktivieren die verbundenen Knoten der nächsten Reihe. Eine aktive Region bleibt immer über eine Mindestanzahl von Reihen aktiv, bevor sie deaktiviert werden kann. Eine Region wird deaktiviert, sobald die Knoten keine signifikante Wahrscheinlichkeit im Vergleich zum Basisknoten der Reihe haben. Der Basisknoten einer Reihe ist der einzige Knoten außerhalb des Wiederholungsautomatenteils. Der Grad der Beschleunigung hängt von der Mindestlänge der exakten Wiederholung, der Größe der aktivierten Region, dem Mindestalter einer Region und der minimalen relativen Wahrscheinlichkeit ab. Den größten Einfluss hat die Mindestlänge der exakten Wiederholung. Wird sie zu jedoch zu groß gewählt, so wird die Wahrscheinlichkeit eines Wiederholungstarts und -endes stark unterschätzt. Dies bedeutet, dass das geschätzte Modell tendenziell zu wenige, dafür aber lange Wiederholungen erzeugt. Der Performance-Gewinn steigt schnell an, jedoch auch die Ungenauigkeit. Der Grenzbereich ist relativ schmal, sodass der Wert mit Vorsicht geändert werden sollte. 12.5. Testergebnisse Das Modell wurde primär für DNA-Sequenz entwickelt und eignet sich nicht für die Analyse von natürlichsprachigen Texten. Zudem können nur relativ kurze Sequenzen mit dem vollen Algorithmus analysiert werden. Aus diesem Grund wurden nur Tests mit Dromaster durchgeführt. Für das Modell wurden zwei Tests ausgeführt. Zum einen wurde überprüft, inwieweit Transinformation und Entropieverlauf nachgebildet werden. Zum anderen wurde die Parameterschätzungsmethode auf ihre Qualität überprüft 12.5.1. Test der Parameterschätzung Die Schätzung der Parameter für das Modell ist nicht trivial und basiert nur auf einem Näherungsalgorithmus, der eine wahrscheinliche Parameterkombination bestimmt. Es ist daher sinnvoll die Parameterschätzung genau zu überprüfen. Dazu werden mit dem Modell künstlich Sequenzen erzeugt. Man erwartet, dass bei einer Anwendung der Parame- 70 12.5. Testergebnisse Anfangsverteilung Tatsächliche Verteilung Median Mittelwert Start 0,005 0,015 0,0038 0,0063 Anfangsverteilung Tatsächliche Verteilung Median Mittelwert Start 0,005 0,015 0,0099 0,0090 Anfangsverteilung Tatsächliche Verteilung Median Mittelwert Anfangsverteilung Tatsächliche Verteilung Median Mittelwert Testreihe 1 - Direct Repeat Sequenzlänge 500 Ende Kopieren Abändern 0,05 0,97 0,01 0,075 0,95 0,025 0,0588 0,9688 0,0166 0,1878 0,9613 0,0165 Sequenzlänge 1500 Ende Kopieren Abändern 0,05 0,97 0,01 0,075 0,95 0,025 0,0672 0,9643 0,0087 0,06463 0,9613 0,0126 Testreihe 1 - Inverted Repeat Sequenzlänge 500 Start Ende Kopieren Abändern 0,005 0,05 0,97 0,01 0,005 0,01 0,98 0,01 0,0032 0,0112 0,9760 0,0173 0,0032 0,2048 0,9627 0,0185 Sequenzlänge 1500 Start Ende Kopieren Abändern 0,005 0,05 0,97 0,01 0,005 0,01 0,98 0,01 0,0039 0,0114 0,9819 0,0105 0,00426 0,0115 0,9809 0,0089 Einfügen 0,01 0,0125 0,0049 0,0111 Überspringen 0,01 0,0125 0,0049 0,0111 Einfügen 0,01 0,0125 0,01046 0,0131 Überspringen 0,01 0,0125 0,0105 0,0131 Einfügen 0,01 0,005 0,0054 0,0093 Überspringen 0,01 0,005 0,0054 0,0093 Einfügen 0,01 0,005 0,0055 0,0050 Überspringen 0,01 0,005 0,0055 0,0050 terschätzung auf diese künstlichen Sequenzen Parameter ähnlich den tatsächlichen Parametern berechnet werden. Es zeigt sich jedoch, dass die geschätzten Parameter innerhalb der Menge von erzeugten Sequenzen stark schwanken. Erst durch die Betrachtung mehrerer Stichproben desselben Generators kann man über den Median und den Mittelwert der Schätzungen näherungsweise auf die tatsächlichen Parameter schließen. Testumgebung Es wurden zwei Testreihen mit unterschiedlichen Modellparametern durchgeführt. Für jede Testreihe wurden jeweils zehn Sequenzen der Länge 500 bp und zehn Sequenzen der Länge 1500 bg generiert. Die Anzahl der Iterationen wurde auf vier beschränkt. Als grundlegendes generierendes Modell wurde eine Markov-Kette vierter Ordnung verwendet. Die anfängliche Verteilung, die tatsächlichen Parameter sowie die Mediane und Mittelwerte der ermittelten Schätzungen sind in den Tabellen 12.5.1, 12.5.1, 12.5.1, 12.5.1, 12.5.1, 12.5.1 aufgeführt. Zusätzlich wurden für die erste Testreihe Diagramme erstellt (Fig. 12.2,12.3,12.4). 71 12. Ähnliche Wiederholungen Anfangsverteilung Tatsächliche Verteilung Median Mittelwert Anfangsverteilung Tatsächliche Verteilung Median Mittelwert Testreihe 1 - Mirror Repeat Sequenzlänge 500 Start Ende Kopieren Abändern 0,005 0,05 0,97 0,01 0,0001 0,01 0,9 0,05 0,0057 0,0067 0,8878 0,0535 0,0059 0,0065 0,8871 0,0580 Sequenzlänge 1500 Start Ende Kopieren Abändern 0,005 0,05 0,97 0,01 0,0001 0,01 0,9 0,05 0,0002 0,3821 0,9407 0,0201 0,0003 0,3556 0,9372 0,0192 Anfangsverteilung Tatsächliche Verteilung Median Mittelwert Start 0,005 0,005 0,0047 0,0055 Anfangsverteilung Tatsächliche Verteilung Median Mittelwert Start 0,005 0,005 0,0054 0,0050 Anfangsverteilung Tatsächliche Verteilung Median Mittelwert Anfangsverteilung Tatsächliche Verteilung Median Mittelwert 72 Testreihe 2 - Direct Repeat Sequenzlänge 500 Ende Kopieren Abändern 0,05 0,97 0,01 0,01 0,92 0,04 0,0080 0,9150 0,0425 0,0108 0,9185 0,0456 Sequenzlänge 1500 Ende Kopieren Abändern 0,05 0,97 0,01 0,01 0,92 0,04 0,0095 0,9233 0,0383 0,0108 0,9197 0,0377 Testreihe 2 - Inverted Repeat Sequenzlänge 500 Start Ende Kopieren Abändern 0,005 0,05 0,97 0,01 0,00001 0,002 0,94 0,02 0,000290 0,6068 0,9225 0,0280 0,000319 0,5390 0,9269 0,0294 Sequenzlänge 1500 Start Ende Kopieren Abändern 0,005 0,05 0,97 0,01 0,00001 0,002 0,94 0,02 0,001178 0,3937 0,9438 0,02329 0,001240 0,3695 0,9378 0,0257 Einfügen 0,01 0,025 0,0261 0,0274 Überspringen 0,01 0,025 0,0261 0,0274 Einfügen 0,01 0,025 0,0192 0,0217 Überspringen 0,01 0,025 0,0192 0,0217 Einfügen 0,01 0,02 0,01854 0,0179 Überspringen 0,01 0,02 0,01854 0,0179 Einfügen 0,01 0,02 0,0204 0,0212 Überspringen 0,01 0,02 0,0204 0,0212 Einfügen 0,01 0,02 0,0240 0,0218 Überspringen 0,01 0,02 0,0240 0,0218 Einfügen 0,01 0,02 0,0159 0,01821 Überspringen 0,01 0,02 0,0159 0,0182 12.5. Testergebnisse Anfangsverteilung Tatsächliche Verteilung Median Mittelwert Start 0,005 0,01 0,0063 0,0069 Anfangsverteilung Tatsächliche Verteilung Median Mittelwert Start 0,005 0,01 0,0081 0,0078 Testreihe 2 - Mirror Repeat Sequenzlänge 500 Ende Kopieren Abändern 0,05 0,97 0,01 0,05 0,98 0,01 0,0448 0,9997 0,00003 0,06824 0,9937 0,00475 Sequenzlänge 1500 Ende Kopieren Abändern 0,05 0,97 0,01 0,05 0,98 0,01 0,0452 0,9814 0,0126 0,0439 0,9741 0,0157 Einfügen 0,01 0,005 0,00003 0,0007 Überspringen 0,01 0,005 0,00003 0,0007 Einfügen 0,01 0,005 0,0040 0,00501 Überspringen 0,01 0,005 0,00404 0,0050 Abbildung 12.2.: Parameterschätzung für ein Approximate Repeats Modell: Wahrscheinlichkeit eines Repeat-Starts Abbildung 12.3.: Parameterschätzung für ein Approximate Repeats Modell: Wahrscheinlichkeit eines Repeat-Endes 73 12. Ähnliche Wiederholungen Abbildung 12.4.: Parameterschätzung für Kopierwahrscheinlichkeit ein Approximate Repeats Modell: Zunächst fällt auf, dass in der ersten Testreihe die Startwahrscheinlichkeit eines Direct Repeat stark unterschätzt wurde. Dies liegt daran, dass der Startwert relativ weit vom tatsächlichen Wert liegt und nur vier Iterationen ausgeführt wurden. Dies soll die verhältnismäßig langsame Konvergenz des Verfahrens verdeutlichen. Bei größeren Sequenzen kann jede Iteration sehr lange dauern. Man kann außerdem deutlich die Schwankungen in den Schätzungen sehen. Meist liefert der Median aller Stichproben eine gute Näherung, besonders bei den kurzen Sequenzen, da es dort aufgrund der sehr begrenzten Länge zu statistischen Schwankungen kommen kann. Andererseits sind Parameterschätzungen nur für kurze Sequenzen in annehmbarer Zeit durchführbar. Bereits bei 10000 bp kann der volle Algorithmus sehr lange für eine Iteration brauchen. Dass größere Sequenzen bessere Ergebnisse liefern, ist durch den Vergleich mit den Sequenzen der Länge 1500 bp sichtbar. Insgesamt wurden die Parameter gut durch den Median der Stichproben bestimmt, wenn der Startewert nicht zu weit vom tatsächlichen Wert entfernt liegt. Besonders die RepeatOperationen wurden relativ gut bestimmt, wenn die Startwahrscheinlich hoch genug war. Dies ist annehmbar, da der Repeat bei einer geringen Startwahrscheinlichkeit ohnehin nicht ins Gewicht fällt. Start- und Endwahrscheinlichkeiten sind dagegen instabiler, besonders bei kurzen Sequenzen. Genügend Zeit vorausgesetzt lassen sich die Parameter mit annehmbarer Genauigkeit bestimmen. Dennoch ist die Parameterschätzung nur bedingt praxistauglich. Selbst bei Verwendung des vollen Algorithmus ohne Beschleunigungsmethoden können die Parameter nicht zuverlässig mit einer Stichprobe geschätzt werden. In der Realität hat man meist nicht mehrere Stichproben zur Verfügung, sodass man nicht immer einen Median mehrerer Stichproben bestimmen kann. Zudem ist die Laufzeit des Algorithmus quadratisch, was ihn untauglich für größere DNA-Sequenzen macht. Er eignet sich jedoch gut, um qualitative Aussagen über das allgemeine Verhältnis zwischen Repeat-Arten und Operationen zu machen. 74 12.5. Testergebnisse Abbildung 12.5.: Vergleich von bedingten Entropien abhängig von der Ordnung 12.5.2. Test der Entropie und Transinformation Sowohl bezüglich Entropie als auch Transinformation bringt das Repeat-Modell keine signifikanten Vorteile (Fig. 12.5,12.6). Es verhält sich größtenteils wie die zu Grunde liegende Markov-Kette. Lediglich das Langzeitverhalten der Transinformationsfunktion unterscheidet sich von einer Markov-Kette. Sie geht nicht sofort gegen Null, sondern schwankt um einen niedrigen Wert, verursacht durch die Repeats. Repeats können also zu weitreichenden Korrelationen beitragen. 75 12. Ähnliche Wiederholungen Abbildung 12.6.: Vergleich der Transinformationsfunktion 76 Teil IV. Schlussteil 77 13. Schlussbemerkung Im Rahmen dieser Arbeit wurden verschiedene Eigenschaften und Modelle zur Untersuchung und Generierung von Texten analysiert. Die untersuchten Eigenschaften und Modelle sind • Entropie • Transinformationsfunktion • Häufigkeitsverteilungen • Markov-Kette • Diskreter autoregressiver Prozess • Approximate Repeats Dazu wurden Grundlagen der Wahrscheinlichkeitstheorie und stochastische Prozesse eingeführt. Als grundlegende Bedingung für die Untersuchung von stochastischen Prozessen anhand einer einzigen Stichprobe wurde die Stationarität und Ergodizität des stochastischen Prozesses genannt. Für die Eigenschaften und Modelle wurden Schätzverfahren vorgestellt und ihre Qualität diskutiert. Bedingung für alle Schätzverfahren ist eine ausreichend große Stichprobe. Jedoch sind manche Eigenschaften einfacher und genauer zu schätzen als andere. Es wurde versucht, ein Gefühl für die Beurteilung der Qualität von Schätzungen zu geben. Entropie und Transinformation wurden als zentrale informationstheoretische Größen zur Messung von statistischen Zusammenhängen eingeführt. Sie sind in der Lage verschieden Texte zu klassifizieren. Ein Beispiel ist die Unterscheidung zwischen codierenden und nicht-codierenden DNA-Sequenzen. Bei codierenden Sequenzen ist die Codonstruktur deutlich an der Transinformationsfunktion ablesbar. Dagegen können Sprachen nicht durch Korrelationsmuster unterschieden werden, wohl aber durch Häufigkeitsanalysen. Die bedingte Entropie von Sprachen fällt beinahe linear und steil ab, was auf starke Korrelationen im Nahbereich innerhalb eines Wortes schließen lässt. Entropie und Transinformation wurden als Messgrößen beim Vergleich verschiedener Generatormodelle verwendet, um die Fähigkeit Korrelationsstrukturen nachzubilden zu bewerten. Bezüglich der Generatormodelle stellte sich heraus, dass jedes der untersuchten Modelle Vor- und Nachteile hat und nur in einem begrenzten Umfang reale Texte nachbilden kann. Eine bessere Modellierung bedeutet meist auch eine höhere Komplexität und damit eine schwierigere Parameterschätzung. Ist das Modell zu komplex, können Parameter nicht mehr zuverlässig geschätzt werden. Ist es zu einfach, bildet es reale Texte nur ungenügend ab. Zudem bestehen Unterschiede in der Eignung je nach Textart. DAR(p)-Prozesse 79 13. Schlussbemerkung und das Approximate Repeats-Modell sind nur auf DNA-Sequenzen, nicht jedoch auf natürlichsprachige Texte, sinnvoll anwendbar. DAR(p)-Prozesse können die Transinformationsfunktion besonders bei nicht-codierenden DNA-Sequenzen nachbilden, da hier Mutationen und damit auch Duplikationen innerhalb der Sequenz häufiger auftreten. MarkovKetten erwiesen sich als universell einsetzbar, allerdings mit dem Nachteil, dass die Parameteranzahl exponentiell steigt. Texte, die mit dem Approximate Repeats-Modell erzeugt wurde, verhalten sich bezüglich Transinformation und Entropie ähnlich wie die zu Grunde liegende Markov-Kette. Allerdings fällt die Transinformationsfunktion nicht auf null ab, was langreichweitige Korrelationen genannt wird. Die Parameterschätzung erwies sich bei kurzen Sequenzen nur bei Verwendung des Medians mehrerer Stichproben als gut, da die geschätzten Parameter stark schwankten. Aufgrund der quadratischen Laufzeit ist das Modell auch nicht auf sehr lange Sequenzen anwendbar. In der Praxis zur zuverlässigen und umfangreichen Schätzung von Texteigenschaften eignet es sich damit nur bedingt. Zur Untersuchung der Eigenschaften und Modelle wurden Programme entwickelt, die die vorgestellten Schätzmethoden implementieren und Texte anhand der geschätzten Parameter erzeugen können. Die vorgestellten Messergebnisse wurden mit diesem Programm erstellt. Die Arbeit deckt nur einige wenige grundlegende Eigenschaften und Modelle ab. Es gibt noch eine Vielzahl anderer Ansätze und Größen zur Untersuchung von Texten. Manche verwenden wie im Rahmen dieser Arbeit stochastische Prozesse und Automaten. Andere wenden Methoden der Analysis auf Texte an. Ein Beispiel für eine gänzlich andere Art Texte zu untersuchen besteht in der Anwendung einer Fourier-Transformation. Diese wird insbesondere bei DNA-Sequenzen verwendet. Bei natürlichsprachigen Texten bieten sich Grammatiken als ein Werkzeug zur Strukturanalyse an. Eine thematisch mit der Arbeit verwandte Methode besteht in der Erweiterungen des DAR-Prozesse zu DARMAModellen. Es gibt noch eine Vielzahl anderer Arbeiten in diesem Feld, sodass diese Arbeit nur einen kleinen Einblick in grundlegende Methoden und Ansätze darstellt. Eine Eigenschaft, die aktuell im Zusammenhang mit DNA-Sequenzen untersucht wird sind Korrelationen mit langer Reichweite. In DNA-Sequenzen kann man beobachten, dass die Transinformationsfunktion tendenziell einem Potenzgesetz folgt. Es gibt verschiedene Ansätze dies zu erklären. Ein Vorschlag macht häufige Wiederholungen als Ursache weitreichender Korrelationen verantwortlich. Jedoch weiß man heute, dass eine zufällige Verteilung von Wiederholungen nicht solche Korrelationen hervorrufen kann. Sollten Wiederholungen tatsächlich die Ursache sein, so müsste es eine komplexere Struktur in der Verteilung der Wiederholungen geben[7]. Es ist offensichtlich nicht mögliche einen einzigen Generator zu erstellen, der alle gewünschten Eigenschaften besitzt und dessen Parameter in annehmbarer Zeit mit ausreichender Genauigkeit ermittelt werden können. Die Wahl des Generators sollte also von der Aufgabenstellung abhängen. Eine Sammlung verschiedener Generatoren könnte aber zukünftigen Projekten als Werkzeug zur Analyse von Texten und Sequenzen dienen. Das im Rahmen dieser Arbeit entwickelte Programm kann als ein Vorläufer für eine umfangreiche Bibliothek von Textgeneratoren und Analysemethoden dienen. 80 Anhang Abbildung 13.1.: Vergleich von bedingten Entropien abhängig von der Ordnung 81 13. Schlussbemerkung Abbildung 13.2.: Vergleich der Transinformationsfunktion aller Chromosome 82 Abbildung 13.3.: Vergleich der Transinformationsfunktion aller Chromosome ohne Skala übereinander - Die Gemeinsamkeiten sind deutlich erkennbar 83 Literaturverzeichnis [1] A LLISON, L. ; E DGOOSE, T. ; D IX, T. I.: Compression of Strings with Approximate Repeats. In: Intelligent Systems in Mol. Biol. (1998), S. 8–16 [2] D EHNERT, M. ; H ELM, W. E. ; H ÜTT, M.-Th.: A discrete autoregressive process as a model for short-range correlations in DNA sequences. In: Physica A 327 (2003), S. 535–553 [3] D IX, T. I. ; P OWELL, D. R. ; A LLISON, L. ; B ERNAL, J. ; J AEGER, S. ; S TERN, L.: Comparative analysis of long DNA sequences by per element information content using different contexts. In: BMC Bioinformatics 8 (2007) [4] D UNNING, T.: Statistical Identification of Language / New Mexico State University. 1994. – Forschungsbericht [5] E BELING, W. ; F REUND, J. ; S CHWEITZER, F.: Komplexe Strukturen: Entropie und Information. Teubner Stuttgart, 1998 [6] E SHEL, Gidon: The Yule Walker Equations for the AR Coefficients. – Retrieved on March 2010 from http://www.stat.sc.edu/∼vesselin/STAT520_YW.pdf [7] H ERZEL, H. ; E BELING, W. ; S CHMITT, A. O.: Entropies of biosequences: The role of repeats. In: Physical Review E 50 (1994), Nr. 6, S. 5061–5071 [8] H ÜTT, M.-Th. ; D EHNERT, M.: Methoden der Bioinformatik: Eine Einführung. 1. Springer, 2006 [9] J ACOBS, P. A. ; L EWIS, P. A. W.: Stationary Discrete Autoregressive-Moving Average Time Series Generated By Mixtures. In: Journal of Time Series Analysis 4 (1983), Nr. 1, S. 19–36 [10] L I, W.: Mutual Information Function Versus Correlation Function. In: Journal of Statistical Physics 60 (1990), Nr. 5-6, S. 823–837 [11] P OWELL, David: Approximate Repeats Model implementation. ftp://ftp.csse. monash.edu.au/software/DNAcompression/. Version: 2005 [12] S CHICKINGER, T. ; S TEGER, A.: Diskrete Strukturen - Band 2. Springer Verlag, 2001 [13] S CHÜRMANN, T. ; G RASSBERGER, P.: Entropy estimation of symbol sequences. In: CHAOS 6 (1996), Nr. 3, S. 414–427 [14] S HANNON, C. E. ; P ETIGARA, N. ; S ESHASAI, S.: A mathematical theory of communication. In: Communication, Bell System Technical Journal 27 (1948), S. 379–423 85 Literaturverzeichnis [15] S TERN, L. ; A LLISON, L. ; C OPPEL, R. L. ; D IX, T. I.: Discovering patterns in Plasmodium falciparum genomic DNA. In: Molecular and Biochemical Parasitology 118 (2001), S. 175–186 [16] W ELCH, Lloyd R.: Hidden Markov Models and the Baum-Welch Algorithm. 2003 [17] Y EE, C. N. ; A LLISON, L.: Reconstruction of strings past. In: CABIOS 8 (1993), Nr. 1, S. 1–7 86