FAKULTÄT FÜR INFORMATIK Analyse der

Werbung
FAKULTÄT FÜR INFORMATIK
DER TECHNISCHEN UNIVERSITÄT MÜNCHEN
Bachelorarbeit in Informatik
Analyse der Struktur und statistischer
Eigenschaften von Texten und Erzeugung
zufälliger Texte
Andre Hong Lam Dau
FAKULTÄT FÜR INFORMATIK
DER TECHNISCHEN UNIVERSITÄT MÜNCHEN
Bachelorarbeit in Informatik
Analysis of the structure and statistical properties of
texts and generation of random texts
Analyse der Struktur und statistischer Eigenschaften
von Texten und Erzeugung zufälliger Texte
Autor:
Aufgabensteller:
Betreuer:
Datum:
Andre Hong Lam Dau
Prof. Dr. Ernst Mayr
Dipl.-Inform. Johannes Krugel
April 30, 2010
Ich versichere, dass ich diese Bachelorarbeit selbständig verfasst und nur die angegebenen
Quellen und Hilfsmittel verwendet habe.
München, den 30. April 2010
Andre Hong Lam Dau
Danksagung
An dieser Stelle möchte ich Professor Ernst W. Mayr und Johannes Krugel danken, die
meine Bachelorarbeit betreut und damit erst möglich gemacht haben.
Zudem bedanke ich mich von ganzem Herzen bei meiner Familie, insbesondere meinen
Eltern und Schwestern, die mich so gut kennen und mich mein Leben lang begleitet und
unterstützt haben.
Außerdem danke ich natürlich all meinen einzigartigen Freunden, mit denen ich bisher
eine wirklich schöne Zeit verbracht habe. Sowohl die Zeit in Stuttgart als auch in München wird unvergesslich bleiben. Ein besonderer Dank gilt jenen, die immer ein offenes
Ohr und viel Geduld für mich hatten.
Schließlich möchte ich allen anderen meinen Dank aussprechen, die mich unterstützt haben.
vii
Abstract
Methods to analyze texts and text generating models are presented. Entropy estimation
methods as well as the concept of mutual information are explained. Markov processes,
discrete autoregressive processes and a model for approximate repeats are reviewed together with parameter estimation algorithms. All model and estimation methods have been implemented. The models are evaluated on a theoretical basis as well as by comparing
generated texts to the original training data. Advantages and disadvantages of the models
are discussed.
Entropy and mutual information are both suited for revealing correlation structures. For
example they allow to distinguish between coding and non-coding DNA regions. The mutual information function I(k) of natural languages decreases exponentially for small k.
Markov chains are good models for both DNA sequences as well as natural language. The
main problem is the exponential increase of parameters. Discrete autoregressive processes
can just model to some extent the mutual information function of non-coding DNA sequences. The model for approximate repeats yields good results when using sufficiently
long DNA sequences and initial parameters not too far away from the actual parameters.
The main disadvantage is the quadratic runtime which makes it not feasible to use it on
whole genomes. For short sequences the estimated parameters vary greatly. However the
median seems to be a good approximation for the actual parameters.
ix
Zusammenfassung
Die Arbeit stellt Konzepte zur statistischen Untersuchung von Texten und der Parameterschätzung für generierende Modelle anhand von Testdatensätzen vor. Konkret werden
Methoden zur Schätzung der Entropie und Transinformationsfunktion untersucht. Zudem
werden Parameterschätzungsverfahren für Markov-Ketten, diskrete autoregressive Prozesse und ein Modell für ähnliche Wiederholungen evaluiert. Die generierten Texte der
Modelle werden sowohl mit theoretischen Methoden als auch anhand von Versuchen mit
dem ursprünglichen Text verglichen. Es werden Vor- und Nachteile der Modelle erläutert und praktische Probleme bei der Implementierung angesprochen. Alle vorgestellten
Schätzverfahren wurden implementiert und zur Generierung der Versuchsdaten verwendet.
Sowohl die Entropie als auch die Transinformationsfunktion eignen sich um Korrelationsstrukturen innerhalb eines Textes zu erfassen. Durch die Entropie und Transinformationsfunktion ist es möglich, codierende von nicht-codierenden Bereichen zu unterscheiden.
Natürlichsprachige Texte weisen im Nahbereich einen exponentiellen Abfall der Transinformationsfunktion auf.
Bei den Modellen erweist sich das Markov-Modell als geeignet für DNA-Sequenzen und
natürlichsprachige Texte. Korrelationen bis zur Markov-Ordnung werden sehr gut wiedergegeben. Nachteil ist die exponentiell wachsende Anzahl an Parametern mit steigender Ordnung. Diskrete autoregressive Prozesse (DAR(p)) können nur sehr einfache lineare Korrelationen simulieren. Sie eignen sich nur zur Modellierung der Transinformationsfunktion nicht-codierender DNA-Sequenzen. Das Modell für ähnliche Wiederholungen ist aufgrund der quadratischen Laufzeit der Parameterschätzung bedingt zur umfangreichen Textanalyse und -generierung geeignet. Die Parameter können gut aus einer DNA-Sequenz geschätzt werden, wenn die Anfangswerte nicht zu weit entfernt liegen und die Sequenz lang genug ist. Bei kurzen Sequenzen kommt es zu Schwankungen
zwischen Stichproben. Der Median liefert dann eine Näherung an die tatsächlichen Parameter. Entropie und Transinformation entsprechen weitestgehend der zu Grunde liegenden Markov-Kette. Die Transinformationsfunktion geht durch die Wiederholungen im
Text nicht sofort gegen null.
xi
xii
Inhaltsverzeichnis
Danksagung
vii
Abstract
ix
I.
1
Einleitung und theoretische Grundlagen
1. Einleitung
1.1. Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1. Verwendete Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2. Testbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Elementare Grundlagen der diskreten Wahrscheinlichkeitstheorie
2.1. Zufallsexperiment . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Diskreter Wahrscheinlichkeitsraum . . . . . . . . . . . . . . . . .
2.2.1. Komplementäres Ereignis . . . . . . . . . . . . . . . . . .
2.3. Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . .
2.3.1. Multiplikationssatz . . . . . . . . . . . . . . . . . . . . . .
2.3.2. Gesetz der totalen Wahrscheinlichkeit . . . . . . . . . . .
2.4. Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5. Satz von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6. Diskrete Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . .
2.6.1. Dichtefunktion . . . . . . . . . . . . . . . . . . . . . . . .
2.6.2. Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . .
2.6.3. Erwartungswert . . . . . . . . . . . . . . . . . . . . . . .
2.6.4. Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.5. Standardabweichung . . . . . . . . . . . . . . . . . . . . .
2.6.6. Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . .
2.6.7. Rechenregeln . . . . . . . . . . . . . . . . . . . . . . . . .
2.7. Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . .
2.7.1. Starkes Gesetz der großen Zahlen . . . . . . . . . . . . .
3
3
4
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
7
8
8
8
8
9
9
10
10
10
10
11
11
11
11
11
12
3. Modelle für die Untersuchung von Texten
3.1. Stochastischer Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1. Stationarität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2. Ergodizität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
14
15
15
II. Analyse von Texten
17
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
xiii
Inhaltsverzeichnis
4. Einleitung
4.1. Aufbau des Analysetools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Allgemeine Einstellungsmöglichkeiten . . . . . . . . . . . . . . . . . . . . . .
4.3. Bemerkung zur Speicherung von N -Grammen . . . . . . . . . . . . . . . . .
19
19
20
20
5. Häufigkeitsverteilungen
5.1. Untersuchte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. Einstellungsmöglichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
21
21
6. Entropie
6.1. Gemessene Größen . . . . . . . . . . . . . . . . . . . . . .
6.2. Einstellungsmöglichkeiten . . . . . . . . . . . . . . . . . .
6.3. Theoretischer Hintergrund . . . . . . . . . . . . . . . . . .
6.3.1. Gemeinsame Entropie mehrerer Zufallsvariablen
6.3.2. Bedingte Entropie . . . . . . . . . . . . . . . . . . .
6.3.3. Blockentropie . . . . . . . . . . . . . . . . . . . . .
6.3.4. Entropierate . . . . . . . . . . . . . . . . . . . . . .
6.4. Entropieschätzung . . . . . . . . . . . . . . . . . . . . . .
6.5. Testergebnisse . . . . . . . . . . . . . . . . . . . . . . . . .
6.5.1. Testergebnisse für DNA-Sequenzen . . . . . . . .
6.5.2. Natürlichsprachige Texte . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
23
23
25
26
26
27
27
28
28
29
7. Transinformation
7.1. Gemessene Größen . . . . . . . . . . . .
7.2. Einstellungsmöglichkeiten . . . . . . . .
7.3. Theoretischer Hintergrund . . . . . . . .
7.4. Schätzen der Transinformationsfunktion
7.5. Testergebnisse . . . . . . . . . . . . . . .
7.5.1. DNA-Sequenzen . . . . . . . . .
7.5.2. Natürlichsprachige Texte . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
31
31
31
31
32
33
33
33
8. Ausgaben für die Parameterschätzung
8.1. Relative Zeichenhäufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . .
8.2. Bedingte relative Zeichenhäufigkeiten . . . . . . . . . . . . . . . . . . . .
8.3. Autokorrelationskoeffizienten eines diskreten autoregressiven Prozesses
8.4. Parameter für das Approximate Repeats-Modell . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
37
37
37
37
37
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
III. Generierung von Texten
39
9. Einleitung
9.1. Einstellungsmöglichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2. Bemerkung zu den Versuchsreihen . . . . . . . . . . . . . . . . . . . . . . . .
41
41
41
10. Markov-Kette
10.1. Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.2. Theoretischer Hintergrund . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
43
43
xiv
Inhaltsverzeichnis
10.3. Parameterschätzung . . . . . . .
10.3.1. Rückkehrzeit . . . . . . .
10.3.2. Reduzibilität . . . . . . . .
10.4. Entropie . . . . . . . . . . . . . .
10.5. Transinformation . . . . . . . . .
10.6. Testergebnisse . . . . . . . . . . .
10.6.1. DNA-Sequenzen . . . . .
10.6.2. Natürlichsprachige Texte
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
45
45
45
46
47
48
48
50
11. Diskreter autoregressiver Prozess
11.1. Einstellungsmöglichkeiten . . . . .
11.2. Theoretischer Hintergrund . . . . .
11.3. Parameterschätzung . . . . . . . .
11.3.1. Autokorrelationskoeffizient
11.3.2. Yule-Walker-Gleichungen .
11.4. Entropie . . . . . . . . . . . . . . .
11.5. Transinformation . . . . . . . . . .
11.6. Testergebnisse . . . . . . . . . . . .
11.6.1. DNA-Sequenzen . . . . . .
11.6.2. Natürlichsprachige Texte .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
53
53
53
54
54
55
58
58
58
61
61
12. Ähnliche Wiederholungen
12.1. Parameter . . . . . . . . . . . . . . . . . . . . .
12.2. Theoretischer Hintergrund . . . . . . . . . . . .
12.3. Parameterschätzung . . . . . . . . . . . . . . .
12.4. Komplexität . . . . . . . . . . . . . . . . . . . .
12.4.1. Beschleunigung des Schätzvorgangs . .
12.5. Testergebnisse . . . . . . . . . . . . . . . . . . .
12.5.1. Test der Parameterschätzung . . . . . .
12.5.2. Test der Entropie und Transinformation
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
65
65
65
67
69
70
70
70
74
IV. Schlussteil
77
13. Schlussbemerkung
79
Anhang
81
Literaturverzeichnis
85
xv
Teil I.
Einleitung und theoretische
Grundlagen
1
1. Einleitung
1.1. Überblick
Ziel dieser Arbeit ist es, verschiedene Modelle zur Generierung von Texten mit vorgegebenen statistischen Eigenschaften zu untersuchen. Die Generatoren sollten Einstellungsmöglichkeiten für Parameter der generierten Texte besitzen und auch in der Lage sein
wirklichkeitsnahe Daten zu erzeugen. Dazu soll parallel ein Analysetool entwickelt werden, das vorhandene Daten auf Eigenschaften hin untersuchen kann und dabei Parameter
für die Generatoren erzeugt. Mit der Kombination aus Analysetool und Generator sollte
es langfristig möglich sein, wirklichkeitsnahe Daten mit kontrollierbaren Eigenschaften zu
erzeugen. Diese könnten beispielsweise dazu verwendet werden, Textalgorithmen unter
vorgegebenen Bedingungen zu testen und diese zu bewerten.
Die Zahl an Modellen und untersuchten Texteigenschaften ist sehr groß. Dabei sind mit
Texten nicht nur natürlichsprachige Texte, sondern beispielsweise auch DNA-Sequenzen
gemeint. Prinzipiell gibt es bereits viele Methoden und Modelle. Diese Arbeit leistet einen
Beitrag zur Realisierung des angesprochenen Generators, indem ausgewählte Messgrößen und Modelle zur Untersuchung und Generierung von Texten auf ihre Tauglichkeit
hin überprüft werden. Ein umfassender Überblick über dieses umfassende Themengebiet
geht jedoch über den Rahmen dieser Arbeit hinaus. Als Teil dieser Arbeit wurden zwei
Programme entwickelt, die die untersuchten Konzepte implementieren, eines zur Analyse
von Daten und eines zur Generierung von Daten. Alle in dieser Arbeit aufgeführten Diagramme verwenden Daten, die mit diesen Programmen erstellt wurden.
Die erste wichtige Entscheidung für das Projekt war die Auswahl der zu untersuchenden
Eigenschaften und Modelle. Im Rahmen dieser Arbeit wurde tendenziell ein informationsund wahrscheinlichkeitheoretischer Ansatz für den Zugang zu den Texten gewählt.
Die Arbeit ist in drei Teile gegliedert. Der erste Teil führt die allgemeinen mathematischen
Grundlagen ein, die für ein Verständnis der Arbeit notwendig sind. Da ein Großteil dieser
Arbeit diskrete Zufallsvariablen und stochastische Prozesse als zentrale Hilfsmittel benötigt, werden zuerst elementare Begriffe und Definitionen der diskreten Wahrscheinlichkeitstheorie eingeführt. Im Anschluss folgt eine kurze Einführung in Modelle allgemein
und stochastische Prozesse im Speziellen.
Der zweite Teil beschäftigt sich mit der Analyse grundlegender Eigenschaften von realen
Texten, unabhängig von einem Generatormodell. Allgemein geben solche Eigenschaften
Hinweise auf Strukturen innerhalb des Textes. Ein gutes Generatormodell sollte in der
Lage sein, diese Strukturen nachzubilden. Die Übereinstimmung der gemessenen Eigenschaften in künstlicher und ursprünglicher Sequenz sind ein Maß für die Güte eines Generators hinsichtlich dieser Eigenschaft. Die in dieser Arbeit untersuchten Eigenschaften
sind:
3
1. Einleitung
• Häufigkeitsverteilungen
• Blockentropie und bedingte Entropie
• Transinformationsfunktion
Die meisten der vorgestellten Analysemethoden wurden implementiert. Am Anfang jedes Kapitels steht eine kurze Einleitung, gefolgt von einer Auflistung aller implementierten Konzepte und die dazugehörigen Einstellungsmöglichkeiten. Danach wird der theoretische Hintergrund erläutert und in diesem Zusammenhang die Bedeutung der Eigenschaften erklärt. Im Rahmen des theoretischen Teils wird schließlich eine Methode zur
Schätzung der Eigenschaften aus einem Testdatensatz vorgestellt. Abschließend werden
am Ende jeden Kapitels die theoretischen Überlegungen mit durchgeführten Tests verglichen, bewertet und interpretiert.
Der dritte Teil untersucht verschiedene Generatormodelle und inwieweit sie in der Lage
sind, Strukturen in Texten nachzubilden. Die untersuchten Modelle sind:
• Markov-Ketten
• Diskreter autoregressiver Prozess (DAR(p))
• Approximate Repeats - Modell (Modellierung von ähnlichen Wiederholungen in
Texten)
Es wird wieder eine kurze Einführung und ein theoretische Hintergrund zu den Modellen gegeben. Insbesondere werden die Modelle auch auf ihre Fähigkeit hin überprüft, die
Entropie und Transinformationsfunktion nachzubilden. Es werden Vor- und Nachteile der
Modelle diskutiert und unter welchen Bedingungen man sie einsetzen kann. Zentraler Abschnitt jeden Kapitels ist die Parameterschätzung, die anhand eines Textes gute Parameter
für das Modell finden soll. Am Ende jeden Kapitels werden die Modelle durch die Auswertung von Tests mit realen Daten auf ihre praktische Tauglichkeit hin untersucht und
evaluiert.
1.1.1. Verwendete Datensätze
Ursprünglich sollten die Analysemethoden und Generatoren möglichst allgemein gehalten werden, damit sie prinzipiell auf alle Texte anwendbar sind. Praktisch wird es mit zunehmender Komplexität und Genauigkeit schwieriger gute allgemeine Modelle zu finden.
Meist sind die Modelle auf bestimmte Anwendungsgebiete zugeschnitten, die sie natürlicherweise tauglicher für eine gewisse Klasse von Texten machen. Der Fokus dieser Arbeit
liegt auf der Analyse von DNA-Sequenzen, wobei auch natürlichsprachige Texte mit den
Modellen untersucht wurden. Zum Teil lieferten die Modelle jedoch für natürlichsprachige Texte unbefriedigende Ergebnisse. Auch zwischen DNA-Sequenzen gibt es große
Unterschiede, insbesondere bei statistischen Analysemethoden. So unterscheiden sich beispielsweise codierende und nicht-codierende Bereiche von DNA-Strängen teils erheblich
bezüglich ihrer Eigenschaften.
Für die Tests wurden folgende Daten verwendet:
4
1.1. Überblick
• Alle Chromosomen des menschlichen Genoms mit X und Y Chromosom: Ein Chromosom enthält große Teile nicht codierender Bereiche, die aus statistischer Sicht besonders interessant sind, da sie beispielsweise viele große repetitive Regionen enthalten. Alle Chromosomen-Sequenzen bestehen zusammen aus mehr als drei Milliarden Basenpaaren.
• D. melanogoster neurogenic locus mastermind mRNA: Da aus der mRNA alle Introns entfernt wurden, enthält die DNA-Sequenz keine großen nicht-codierenden Bereiche. Man erwartet deshalb ein anderes statistisches Verhalten als bei den menschlichen Chromosomen. Die mRNA hat ungefähr eine Länge von 6500 bp.
• Deutsche Texte aus dem Projekt Gutenberg: Für die Analyse natürlichsprachiger
Texte dient unter anderem eine Konkatenation aller deutschen Texte aus dem Projekt
Gutenberg (ca. 275 MB).
• Französische Texte aus dem Projekt Gutenberg: Ebenso wird eine Konkatenation
aller fanzösischen Texte des Projekts Gutenberg verwendet (ca. 800 MB).
Bis auf das Approximate Repeats-Modell wurden alle Verfahren auf alle genannten Datensätze angewendet. Die Testergebnisse sind zu umfangreich, um sie dieser Arbeit beizufügen. Deshalb werden in den einzelnen Kapiteln nur einige Chromosomen des Menschen
zur Illustration der Testergebnisse verwendet. Weitere Testergebnisse und Diagramme finden sich im Anhang.
1.1.2. Testbedingungen
Bei der Untersuchung von DNA-Sequenzen wurde das Alphabet auf A,C,G und T eingeschränkt. Sequenzen im FASTA-Format enthalten häufig große Bereiche, die nur aus dem
Buchstaben N bestehen. Sie stehen für nicht entschlüsselte Bereiche. Um die statistischen
Eigenschaften nicht zu verfälschen, werden diese Bereiche vor der Berechnung entfernt.
Für die Analyse von natürlichsprachigen Texten muss eine Regel für die Behandlung von
Sonderzeichen, Steuerzeichen und Leerzeichen festgelegt werden. Im Rahmen der Tests
wurden diese Zeichen nicht ignoriert und wie normale Buchstaben behandelt. Zudem
wurde zwischen Groß- und Kleinschreibung unterschieden.Daraus ergeben sich Alphabetgrößen von bis zu 230 Zeichen. Interessanterweise erhält man meist auch mit auf druckbare Zeichen reduziertem Alphabet ähnliche statistische Ergebnisse.
5
1. Einleitung
6
2. Elementare Grundlagen der diskreten
Wahrscheinlichkeitstheorie
Dieses Kapitel dient als Wiederholung und Kurzüberblick über elementare Begriffe und
Sätze der diskreten Wahrscheinlichkeitstheorie, die zum Verständnis der folgenden Kapitel benötigt werden. Diese Einführung wurde vor allem unter Zuhilfenahme des Buches
‘Diskrete Strukturen 2’ von Schickinger et al. [12] erstellt.
2.1. Zufallsexperiment
Definition 2.1 Ein Zufallsexperiment wird im Folgenden als ein (möglicherweise gedankliches)
Experiment verstanden, das
• unter vorgegebenen und reproduzierbaren Bedingungen durchgeführt wird,
• dessen mögliche Ergebnisse vor der Durchführung bekannt sind,
• und bei dem den einzelnen Ergebnissen Wahrscheinlichkeiten zugeordnet werden können.
2.2. Diskreter Wahrscheinlichkeitsraum
Definition 2.2 Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, A, p).
Ω ist die Menge der möglichen Elementarereignisse und repräsentiert damit alle möglichen Ausgänge eines Zufallsexperimentes.
A ⊆ P (Ω) ist die Menge der möglichen Ereignisse. Ein Ereignis ist eine Menge von Elementarereignissen. Ein Ereignis tritt ein, wenn das Ergebnis eines Zufallsexperimentes im Ereignis
enthalten ist. Formal muss die Menge der Ereignisse die Eigenschaften einer σ-Algebra 1 über Ω
erfüllen. Wird die Menge der Ereignisse nicht explizit angegeben, wird im Folgenden als Ereignismenge die triviale σ-Algebra A = P (Ω) angenommen.
p : A → [0; 1] ist ein Wahrscheinlichkeitsmaß über der Menge der Ereignisse mit
(2.1)
p(Ω) = 1
und p ist σ-additiv, was bedeutet, dass für jede abzählbare Menge M von disjunkten Ereignissen
E1 , E2 , ... gilt
p(
]
Ei ∈M
1
Ei ) =
X
p(Ei )
(2.2)
Ei ∈M
Für ein Verständnis der weiteren Konzepte sind Kenntnisse über σ-Algebren nicht notwendig
7
2. Elementare Grundlagen der diskreten Wahrscheinlichkeitstheorie
2.2.1. Komplementäres Ereignis
Definition 2.3 Das komplementäre Ereignis zu E bezeichnet man als E und ist definiert als
E = Ω\E
(2.3)
p(E) + p(E) = p(Ω) = 1
(2.4)
Anmerkung 2.4 Es gilt
2.3. Bedingte Wahrscheinlichkeit
Definition 2.5 Die bedingte Wahrscheinlichkeit eines Ereignisses A unter der Bedingung B bezeichnet die Wahrscheinlichkeit von A, falls bekannt ist, dass zugleich das Ereignis B eingetreten
ist. Man schreibt dafür p(A|B) und definiert für p(B) > 0:
p(A|B) =
p(A ∩ B)
p(B)
(2.5)
Anmerkung 2.6 Sei E ein Ereignis.
p(E|E) = 1
(2.6)
p(E|Ω) = p(E)
(2.7)
Satz 2.7 Die bedingte Wahrscheinlichkeit p(·|B) bei gegebener Bedingung B, mit p(B) > 0 ist
ein neues gültiges Wahrscheinlichkeitsmaß auf dem ursprünglichen Wahrscheinlichkeitsraum.
2.3.1. Multiplikationssatz
Durch Umformung erhält man
p(A ∩ B) = p(A|B)p(B)
(2.8)
Daraus ergibt sich der Multiplikationssatz:
Satz 2.8 Seien A1 , ..., An Ereignisse mit p(A1 ∩ ... ∩ An ) > 0, dann gilt:
p(A1 ∩ ... ∩ An ) = p(A1 ) · p(A2 |A1 ) · p(A3 |A1 ∩ A2 ) · ... · p(An |A1 ∩ ... ∩ An−1 )
(2.9)
2.3.2. Gesetz der totalen Wahrscheinlichkeit
Satz 2.9 Sei M = {E0 , E1 , ...} eine Menge von disjunkten Ereignissen, sodass
A⊆
]
En
(2.10)
n
Die Vereinigung aller Ereignisse in M enthält dann alle Elementarereignisse aus A. Falls A eintritt,
so tritt genau eines der Ereignisse aus M ein.
Es gilt dann
X
P (A) =
P (A|E)
(2.11)
E∈M
8
2.4. Unabhängigkeit
2.4. Unabhängigkeit
Definition 2.10 Zwei Ereignisse A und B sind unabhängig, wenn das Wissen über das Eintreffen des Ereignisses B keinen Einfluss auf die Wahrscheinlichkeit des Eintreffens von A hat. Man
definiert zwei Ereignisse als unabhängig, genau dann wenn
p(A ∩ B) = p(A) · p(B)
(2.12)
Für p(B) > 0 ergibt sich damit die der intuitiven Definition entsprechende Gleichung
p(A|B) =
p(A ∩ B)
= p(A)
p(B)
(2.13)
Definition 2.11 Eine abzählbare Menge M von Ereignissen heißt unabhängig, wenn für alle beliebigen Teilmengen T ⊆ M gilt:
p(
\
Y
t) =
t∈T
p(t)
(2.14)
t∈T
Satz 2.12 Sind A und B unabhängig, so sind auch A und B unabhängig.
Es gilt
B = B ∩ Ω = B ∩ (A ] A) = (B ∩ A) ] (B ∩ A)
(2.15)
Daraus ergibt sich für unabhängige Ereignisse A und B
p(A ∩ B) = p(B) − p(A ∩ B) = p(B) − p(A)p(B) = p(B)(1 − p(A)) = p(B)p(A)
(2.16)
2.5. Satz von Bayes
Satz 2.13 Sei M eine abzählbare Menge von paarweise disjunkten Ereignissen und A ein Ereignis,
sodass
∀E ∈ M.p(E) > 0 und p(A) > 0
(2.17)
sowie
A⊆
]
E
(2.18)
E∈M
Dann gilt gemäß dem Satz der totalen Wahrscheinlichkeit
p(A) =
X
p(A|E)
(2.19)
E∈M
Daraus folgt die Bayesformel für alle E ∈ M :
p(E|A) =
p(E ∩ A)
p(A|E)p(E)
p(A|E)p(E)
=
=P
p(A)
p(A)
F ∈M p(A|F )p(F )
(2.20)
9
2. Elementare Grundlagen der diskreten Wahrscheinlichkeitstheorie
2.6. Diskrete Zufallsvariable
Definition 2.14 Eine diskrete Zufallsvariable (im Folgenden kurz Zufallsvariable genannt) über
der Ergebnismenge Ω eines diskreten Wahrscheinlichkeitsraumes ist eine Funktion
X : Ω → WX
(2.21)
mit diskretem Wertebereich WX .
Eine Zufallsvariable kann informell als ein Aspekt oder eine Eigenschaft eines Zufallsereignisses aufgefasst werden.
Notation 2.15 Die Wahrscheinlichkeit, dass eine Zufallsvariable X über dem Wahrscheinlichkeitsraum Ω den Wert a annimmt, wird mit
p(X = a) := p({ω ∈ Ω|X(ω) = a})
(2.22)
bezeichnet.
Analoges gilt für alle anderen Vergleichsoperatoren.
2.6.1. Dichtefunktion
Definition 2.16 Die Dichtefunktion fX : WX → [0; 1] einer Zufallsvariablen X ist definiert als
fX : x 7→ p(X = x)
(2.23)
Die Dichtefunktion einer diskreten Zufallsvariablen beschreibt die Wahrscheinlichkeit, dass
diese einen bestimmten Wert annimmt.
Definition 2.17 Die gemeinsame Dichtefunktion mehrerer Zufallsvariablen X1 , ..., Xn ist definiert als
fX1 ,...,Xn (x1 , ..., xn ) = p(X1 = x1 , ..., Xn = xn )
(2.24)
2.6.2. Verteilungsfunktion
Definition 2.18 Die Verteilungsfunktion FX : WX → [0; 1] einer Zufallsvariablen X ist definiert
als
FX : x 7→ p(X ≤ x)
(2.25)
Definition 2.19 Die gemeinsame Verteilungsfunktion mehrerer Zufallsvariablen X1 , ..., Xn ist
definiert als
FX1 ,...,Xn (x1 , ..., xn ) = p(X1 ≤ x1 , ..., Xn ≤ xn )
(2.26)
2.6.3. Erwartungswert
Intuitiv ist der Erwartungswert einer Zufallsvariablen X der erwartete Mittelwert von X
nach eine großen Anzahl von unabhängigen Zufallsexperimenten.
Definition 2.20 Der Erwartungswert einer Zufallsvariablen X mit Wertebereich WX und Dichtefunktion fX ist definiert als
X
E(X) =
(x · fX (x))
(2.27)
x∈WX
falls
10
P
x∈WX (x
· fX (x)) konvergiert. Ansonsten ist der Erwartungswert nicht definiert.
2.7. Gesetz der großen Zahlen
2.6.4. Varianz
Definition 2.21 Die Varianz ist ein Maß für die Streuung einer Zufallsvariablen um den Mittelpunkt herum. Formal ist sie als die erwartete quadratische Abweichung vom Erwartungswert
definiert.
V ar[X] = E[(X − E[X])2 ]
(2.28)
2.6.5. Standardabweichung
Definition 2.22 Die Standardabweichung einer Zufallsvariablen ist
σ=
»
V ar[X]
(2.29)
2.6.6. Unabhängigkeit
Definition 2.23 Die Zufallsvariablen X1 , ..., Xn mit Wertebereich WX1 , ..., WXn heißen unabhängig, wenn
∀(x1 , ..., xn ) ∈ (WX1 × ... × WXn ).(p(X1 = x1 , ..., Xn = xn ) = p(X1 = x1 ) · ... · p(Xn = xn ))
(2.30)
2.6.7. Rechenregeln
Satz 2.24 Linearität des Erwartungswertes
E[a · X + b] = a · E[X] + b
(2.31)
E[a1 · X1 + ... + an · Xn ] = a1 · E[X1 ] + ... + an · E[Xn ]
(2.32)
Satz 2.25 Für eine beliebige Zufallsvariable X gilt
V ar[X] = E[X 2 ] − E[X]2
(2.33)
V ar[a · X + b] = a2 · V ar[X]
(2.34)
Satz 2.26
Satz 2.27 Für unabhängige Zufallsvariablen X1 , ..., Xn gilt:
E[X1 · ... · Xn ] = E[X1 ] · ... · E[Xn ]
(2.35)
Satz 2.28 Für unabhängige Zufallsvariablen X1 , ..., Xn gilt:
V ar[X1 + ... + Xn ] = V ar[X1 ] + ... + V ar[Xn ]
(2.36)
2.7. Gesetz der großen Zahlen
Ein wichtiges Werkzeug der induktiven Statistik sind Zufallsvariablen. Häufig werden
komplexe Systeme durch Zufallsvariablen beschrieben. Das Verhalten einer Zufallsvariablen wird durch ihre Wahrscheinlichkeitsverteilung beschrieben. Eine wichtige Aufgabe
der induktiven Statistik besteht deshalb in der Schätzung der Verteilung einer Zufallsvariablen. Das bekannteste Prinzip zur Schätzung der Verteilung wird durch das Gesetz der
großen Zahlen beschrieben.
11
2. Elementare Grundlagen der diskreten Wahrscheinlichkeitstheorie
Schwaches Gesetz der großen Zahlen
Satz 2.29 Sei X eine Zufallsvariable und X1 , X2 , ... eine Folge von unabhängigen Zufallsvariablen mit derselben Verteilung wie X. Dann gilt für
Xk =
X1 + ... + Xk
k
lim p(|X n − E[X]| < ) = 1
n→∞
(2.37)
(2.38)
2.7.1. Starkes Gesetz der großen Zahlen
Satz 2.30 Sei X eine Zufallsvariable und X1 , X2 , ... eine Folge von unabhängigen Zufallsvariablen mit derselben Verteilung wie X. Dann gilt für
Xk =
p
X1 + ... + Xk
k
lim X n = E[X] = 1
n→∞
(2.39)
(2.40)
Das starke Gesetz impliziert das schwache Gesetz.
Das schwache Gesetz besagt, dass die Werte von X n für große n mit großer Wahrscheinlichkeit nahe am Erwartungswert liegen. Es bleibt aber die Wahrscheinlichkeit bestehen,
dass unendlich viele Werte von X n Ausreißer sind. Das starke Gesetz besagt, dass das fast
sicher nicht eintreten wird und die Folge der X n fast sicher echt konvergiert.
Das Gesetz erlaubt es eine Schätzung des Erwartungswertes einer Zufallsvariablen aus
vielen unabhängigen Zufallsexperimente unter gleichen Bedingungen zu gewinnen. Die
Ausgänge dieser einzelnen Experimente nennt man Stichproben, die unabhängigen Zufallsvariablen nennt man Stichprobenvariablen. Das arithmetische Mittel der Stichproben
konvergiert mit wachsender Zahl der Stichproben fast sicher gegen den Erwartungswert
der Zufallsvariablen.
Auf diese Weise kann man auch die Verteilung einer diskreten Zufallsvariablen X mit endlicher Wertemenge bestimmen.
Dazu definiert man für alle möglichen Werte a die Indikatorfunktion IX=a : Ω → {0; 1}
mit
(
1, falls X(ω) = a
IX=a (ω) =
0, sonst
Da E[IX=a ] = p(X = a) kann man mit Hilfe des Gesetzes der großen Zahlen die Verteilung
von X annähernd durch die relativen Häufigkeiten der Werte innerhalb der Versuchsreihe
bestimmen.
12
3. Modelle für die Untersuchung von Texten
Bei der Untersuchung von Texten kann man grundsätzlich zwischen Eigenschaften des
Textes und Eigenschaften eines dem Text zu Grunde gelegten Modells unterscheiden. Texteigenschaften lassen sich direkt aus dem Text ermitteln und sind spezifisch für diesen
Text. Beispiele hierfür sind die Textlänge, oder relative Wort- und Zeichenhäufigkeiten.
Wahrscheinlichkeiten dagegen sind keine Texteigenschaften, sondern erfordern die Definition eines Wahrscheinlichkeitsraumes. Zur Untersuchung vieler in der Praxis interessanter Eigenschaften von Texten benötigt man Annahmen über ein Modell, das dem Text zu
Grunde gelegt wird. Im Folgenden Abschnitt wird der Begriff des Modells im Kontext der
Untersuchung von Texten näher betrachtet.
Ein Textmodell beschreibt eine Klasse von Texten mit bestimmten Eigenschaften und bestimmten Strukturen. Der zu untersuchende Text wird dann als eine spezielle Realisierung
des Modells aufgefasst. Es wird dann nicht mehr der eigentliche Text, sondern das Modell untersucht. Anstatt Aussagen über einen einzigen Text werden Aussagen über eine
Klasse von Texten mit ähnlichen Eigenschaften gemacht. Durch die mathematisch präzise Formulierung des Modells kann man Methoden und Erkenntnisse aus der Mathematik verwenden, um begründete Schlüsse über das Verhalten des Modells zu ziehen. Das
Modell kann jedoch nicht einfach beliebig gewählt werden, sondern sollte möglichst viele Vorkenntnisse über den Text und den Kontext beinhalten. Für jede Anwendung muss
das passende Modell ausgesucht werden. Jedes Modell stellt gewisse Annahmen an den
Text und unterstellt eine fest vorgegeben Textstruktur. Ein schlecht gewähltes Modell kann
zu falschen Schlussfolgerungen führen, obwohl mathematisch alles korrekt formuliert ist.
Beispielsweise ist es mathematisch durchaus möglich ein Modell für die Weltbevölkerung
zu entwickeln, in dem das Gewicht und die Größe einer Person als unabhängig angenommen werden. Die Schlussfolgerungen des Modells würden dann aber nicht der Realität
entsprechen, weil Gewicht und Größe in der Realität offensichtlich zusammenhängen.
Die Analyse eines Modells ist im Allgemeinen aufwendig und erfordert fundierte mathematische Kenntnisse. Aus diesem Grund werden häufig bereits bekannte Grundmodelle
wiederverwendet und gegebenenfalls angepasst. Die Grundmodelle besitzen meist freie
Parameter und definieren damit eine Familie von Modellen. Aufgabe der Parameterschätzung ist es, die Parameter des Grundmodells anhand des Textes so zu bestimmen, dass
das resultierende Modell den vorliegenden Text optimal beschreibt. Dazu muss zunächst
geklärt werden, wie die Qualität von Parametern bewertet wird. Ein anderes wichtiges
Kriterium ist die Effizienz mit der Parameter gefunden werden können.
Modelle vereinfachen immer reale Gegebenheiten. Je komplexer ein Modell ist, desto genauer kann die Realität nachgebildet werden und umso wahrscheinlicher ist es, zutreffende Aussagen zu einem Text zu machen. Mit steigender Komplexität wird es jedoch
13
3. Modelle für die Untersuchung von Texten
auch gleichzeitig schwieriger ein Modell mathematisch zu analysieren. Ein Modell mit vielen Parametern erlaubt eine bessere Anpassung eines Grundmodells an einen gegebenen
Text. Gleichzeitig wird es jedoch auch schwieriger optimale Parameter zu bestimmen. Je
nach Anwendungsgebiet muss man also immer einen Kompromiss zwischen Genauigkeit und Handhabbarkeit eines Modells eingehen. Beispielsweise ist es nicht möglich, alle
Mechanismen der Evolution, die zur Veränderung des Erbguts beitragen, zu modellieren.
Stattdessen beschränkt man sich auf einige vereinfachte Mechanismen, wie zum Beispiel
punktweise Mutation einzelner Basenpaare einer DNA-Sequenz, wohlwissend, dass reale
DNA-Sequenzen nicht durch ein solch simples Modell genau beschrieben werden können.
Auch wenn ein Modell die Realität nicht perfekt beschreibt, lässt es doch in begrenztem
Maße Aussagen über die Eigenschaften und Struktur eines Textes zu. Eine wichtige Aufgabe besteht nun darin, die Qualität der aus einem Modell gewonnen Erkenntnisse zu
bewerten, um falsche Schlussfolgerungen von echten Eigenschaften zu unterscheiden.
3.1. Stochastischer Prozess
Eine wichtige Modellklasse zur Untersuchung von Texten sind stochastische Prozesse. Die
meisten in dieser Arbeit untersuchten Eigenschaften und Modelle basieren auf dem Konzept der stochastischen Prozesse.
Definition 3.1 Sei W ein Wahrscheinlichkeitsraum und T eine Indexmenge. Ein stochastischer
Prozess (Xt )t∈T ist eine Familie von Zufallsvariablen Xt : Ω → WX , t ∈ T mit Wertemenge WX .
Ist WX diskret, nennt man den Prozess wertediskret. Ist T diskret (im Normalfall N oder N0 ), so
ist der Prozess zeitdiskret.
Ein stochastischer Prozess lässt sich damit als die zeitliche Entwicklung einer Zufallsvariablen auffassen. Ein Elementarereignis ω ∈ Ω kann man sich als eine Realisierung des
Prozesses vorstellen. Die Zufallsvariablen Xt liefern dann den Zustand der Realisierung ω
zum Zeitpunkt t.
Bei der Untersuchung von Texten werden in der Regel zeit- und wertediskrete Prozesse
betrachtet. Die Zeit entspricht dann meist der Position im Text. Man kann aber auch umgekehrt einen Text als Ergebnis eines dynamischen Systems auffassen. Anschaulich wird
angenommen, dass ein Generator schrittweise eine (möglicherweise unendlich lange) Zeichensequenz erzeugt. Der Text wird dann als ein Ausschnitt der erzeugten Sequenz aufgefasst. Durch die Untersuchung des Textes versucht man dann, die Parameter des Prozesses oder Generators zu bestimmen, um anschließend den stochastischen Prozess auf
Eigenschaften hin zu untersuchen.
Gemäß dem Gesetz der großen Zahlen kann man mit vielen unabhängigen Realisierungen eines Prozesses die Verteilung dieses Prozesses schätzen. Bei der Untersuchung eines
einzelnen Textes hat man jedoch nur eine Realisierung des Prozesses zu Verfügung. Um
dennoch Aussagen über den zu Grunde liegenden Prozess machen zu können, werden in
der Regel Annahmen über die Stationarität und Ergodizität eines Prozesses gemacht. Im
Folgenden soll eine Intuition für diese Begriffe gegeben werden. Die Ergodizität wird nicht
formal definiert, da für die Definition des Begriffs wie er hier verwendet wird, umfangreichere Grundkenntnisse in der Mess- und Ergodentheorie notwendig sind. Stattdessen
wird eine informelle Definition gegeben.
14
3.1. Stochastischer Prozess
3.1.1. Stationarität
Im weitesten Sinne ist ein Prozess (Xt ) stationär, wenn gewisse Eigenschaften des Systems
bzw. der Zufallsvariablen unabhängig vom Zeitpunkt t sind. Stationarität kann sich also
auch nur auf einzelne Eigenschaften beziehen. Beispielsweise ist ein Prozess mittelwertsstationär, wenn alle Xt denselben Erwartungswert besitzen. Spricht man allgemein von
einem stationären Prozess, so ist meistens ein stark stationärer Prozess gemeint.
Definition 3.2 Ein stochastischer Prozess (Xt ) mit Indexmenge T über einem Wahrscheinlichkeitsraum W mit Ergebnismenge Ω heißt stark stationär, wenn die Gesamtverteilung des zeitverschobenen Prozesses (Xτ +t ), τ ∈ T , nicht von τ abhängt und gleich der Verteilung von (Xt ) ist.
Formal bedeutet dies:
∀k ∈ N, τ ∈ T, (t1 , ..., tk ) ∈ T k , (x1 , ..., xk ) ∈ Ωk :
FXt1 ,...,Xtk (x1 , ..., xk ) = FXt1 +τ ,...,Xtk +τ (x1 , ..., xk )
(3.1)
wobei FXt1 ,...,Xtk die gemeinsame Verteilungsfunktion der Zufallsvariablen zu den Zeitpunkten
t1 , ..., tk ist.
Die Definition besagt, dass die gemeinsame Verteilung endlich vieler Zufallsvariablen eines stark stationären Prozesses nur von den Zeitabständen zwischen den Zufallsvariablen
abhängt und nicht vom absoluten Zeitpunkt. Das wiederum bedeutet, dass sich ein Teilprozess {Xt |t ≥ s} ab einem beliebigen Index s ∈ T genauso verhält wie der gesamte
Prozess. Anders gesagt kann ein Beobachter Stichproben des Teilprozesses statistisch nicht
von Stichproben des Gesamtprozesses unterscheiden.
3.1.2. Ergodizität
Normalerweise benötigt man zur zuverlässigen Schätzung der Verteilung der Zufallsvariablen eines stochastischen Prozesses viele unabhängige und unter gleichen Bedingungen
gewonnene Stichproben des Prozesses. In der Realität liegen jedoch oft nur einzelne große
Stichproben vor. In der Praxis wird das Problem oft durch die Annahme der Ergodizität
eines Prozesses umgangen.
Im weitesten Sinne ist ein Prozess ergodisch bezüglich einer stationären Größe, wenn man
diese Größe anhand eines ausreichend langen Ausschnittes einer konkreten Realisierung
des Prozesses annähernd bestimmen kann. Im Rahmen dieser Arbeit ist mit einem ergodischen Prozess im Allgemeinen ein stationärer Prozess gemeint, dessen Verteilung sich
annähernd in den relativen Häufigkeiten innerhalb einer Realisierung des Prozesses widerspiegelt.
Mit den genauen Bedingungen, unter denen ein System ergodisch ist und welche Konsequenzen dies hat, beschäftigt sich die Ergodentheorie.
Meist ist es jedoch nicht oder nur sehr schwer möglich, bei einer gegebenen Sequenz die
Ergodizität oder Stationarität des zu Grunde liegenden Prozesses nachzuweisen. Sie wird
in diesem Fall oft einfach unterstellt.
15
3. Modelle für die Untersuchung von Texten
16
Teil II.
Analyse von Texten
17
4. Einleitung
Dieser Teil der Arbeit beschäftigt sich mit der Analyse von Texteigenschaften. Dabei werden die wahrscheinlichkeitstheoretischen Konzepte des vorangegangenen Kapitels angewendet. Zentrales Ergebnis dieser Untersuchungen ist ein Analysetool, dass für die Generierung der in dieser Arbeit benutzten Daten verwendet wurde. Aus diesem Grund
handelt der erste Teil dieses Kapitels vom Analysetool. In den folgenden Kapiteln werden die einzelnen untersuchten Eigenschaften vorgestellt. Zu Beginn jedes Kapitels wird
der Bezug zum Analysetool hergestellt, indem die konkret vom Tool untersuchten Eigenschaften mitsamt Einstellungsmöglichkeiten aufgelistet werden. Danach folgt ein Teil über
die Theorie, die hinter den gemessenen Eigenschaft steht, gefolgt von der Vorstellung einer Schätzmethode für die Eigenschaften. Am Schluss jede Kapitels werden Testergebnisse
zur untersuchten Größe evaluiert.
Das Analysetool hat zwei Hauptaufgaben. Es soll einerseits Eigenschaften und Strukturen eines Textes untersuchen, um ihn mit anderen Texten vergleichen zu können. Zudem
soll es Informationen aus dem Text extrahieren, die für die Parameterschätzung von Textgeneratoren notwendig sind. Die implementierten Textgeneratoren werden ausführlich im
nächsten Teil der Arbeit behandelt.
4.1. Aufbau des Analysetools
Es gibt eine Vielzahl von Eigenschaften, auf die man einen Text hin untersuchen kann. Bisher sind nur einige Methoden implementiert. Damit das Analyse-Programm um weitere
Methoden erweitert werden kann, ist das Design des Programms modular gehalten.
Methoden zur Untersuchung des Textes werden in Modulen implementiert. Ein einzelnes
Modul sollte themenverwandte, Ressourcen-teilende oder voneinander abhängige Untersuchungsmethoden enthalten. Das Framework ruft jedes Modul in einem eigenen Thread
mit den passenden Parametern auf. Man kann sowohl die Ausführungsreihenfolge der
Module einstellen, als auch welche Module parallel ausgeführt werden können. Dadurch
soll es möglich sein, die Rechenressourcen gut zu nutzen und auszulasten.
Die Einstellungen der Module werden in einer vom Benutzer erstellten Konfigurationsdatei angegeben. Neben allgemeinen Einstellungen, die für alle Module gelten, kann jedes
Modul spezielle Einstellungsmöglichkeiten besitzen.
19
4. Einleitung
4.2. Allgemeine Einstellungsmöglichkeiten
• Überspringen der ersten Zeile (z.B. nützlich bei FASTA-Headern)
• Ersetzen aller Whitespaces durch ein Leerzeichen, um einen einzigen WhitespaceTyp zu erhalten.
• Konvertieren des Textes in Großbuchstaben vor der Analyse
• Angabe von zu ignorierenden Zeichen (in Form eines regulären Ausdruckes)
• Angabe aller gültigen Zeichen. Alle anderen werden ignoriert. Wird ein Zeichen sowohl als gültig als auch als zu ignorieren markiert, wird es ignoriert.
• Überspringen aller nicht druckbaren Zeichen
4.3. Bemerkung zur Speicherung von N -Grammen
Ein N -Gramm ist eine Zeichenfolge aus N Zeichen. Ein häufiges Teilproblem besteht darin, die Häufigkeiten der N -Gramme zu bestimmen. Ein direkter Ansatz besteht darin, die
Häufigkeiten in einer N -dimensionalen Matrix zu speichern. Die Anzahl der Worte wächst
jedoch mit N exponentiell an, was besonders bei einem großen Alphabet bereits bei kleinen Werten von N zu Speicherproblemen führen kann.
Normalerweise werden deshalb Hash-Tabellen oder Tries verwendet, um Wörter zu speichern. Für das Tool wurde eine Hash-Tabelle verwendet. Jedoch wird nicht das gesamte
Wort, sondern nur die erste Position des Wortes im Text in Form eines Pointers als Repräsentant gespeichert. Dadurch werden effektiv Überlappungen der Worte zur Speicherung
ausgenutzt.
Im Rahmen dieser Arbeit ist mit einem Wort im Normalfall ein N -Gramm gemeint.
20
5. Häufigkeitsverteilungen
Eine einfache aber wichtige Form der Analyse ist das Erstellen von Häufigkeitsverteilungen. Bei ausreichend großen Texten lassen sie Rückschlüsse auf Gesetzmäßigkeiten und
Wahrscheinlichkeitsverteilungen des untersuchten Textes zu.
Ein konkretes Anwendungsgebiet, bei dem Häufigkeitsverteilungen eine zentrale Rolle
spielen, ist die Bestimmung der Sprache eines natürlichsprachigen Textes mit stochastischen Methoden [4]. Bigrammhäufigkeiten in DNA-Sequenzen können zudem zur Identifikation von sogenannten CpG-Inseln verwendet werden. Normalerweise ist der CpGGehalt im Genom von Eukaryoten relativ niedrig. Es gibt jedoch bestimme Bereiche mit
biologischer Bedeutung, bei denen der CpG-Gehalt höher ist (Fig. 5.1). CpG-Inseln finden
sich meist direkt in der Nähe von Genen.
5.1. Untersuchte Verteilungen
• Worthäufigkeiten
• Unigrammhäufigkeiten
• Bigrammhäufigkeiten
5.2. Einstellungsmöglichkeiten
• Trennzeichen für Wörter (einzelne Zeichen, Angabe über regulären Ausdruck)
• Deaktivierung des Teilmoduls Worthäufigkeiten
• Deaktivierung des Teilmoduls Unigrammhäufigkeiten
• Deaktivierung des Teilmoduls Bigrammhäufigkeiten
21
5. Häufigkeitsverteilungen
Abbildung 5.1.: Unterschiedlicher CpG Gehalt in der mRNA des D. melanogoster neurogenic locus mastermind und eines Chromosoms des Menschen
22
6. Entropie
Es gibt viele spezifische Möglichkeiten der statistischen Analyse. Einige sind speziell für
einige Textarten mit besonderen Eigenschaften konzipiert. Ein relativ allgemeines Mittel
zur ersten Analyse eines Textes ist die Entropieschätzung. Die Entropie ist ein Maß für die
Zufälligkeit eines Textes und kann Hinweise auf Korrelationen für weitergehende Analysen bieten. Der Begriff der Entropie wie er hier verwendet wird stammt aus der Informationstheorie und wird dort auch als ein Maß für den allgemeinen Informationsgehalt
eines Textes verwendet. Der Informationsbegriff unterscheidet sich jedoch gänzlich von
der umgangssprachlichen Information. Der Informationsgehalt ist hier nicht mit einer semantischen Bedeutung verknüpft, sondern wird über Wahrscheinlichkeiten definiert.
6.1. Gemessene Größen
• Blockentropien der Ordnungen 1 bis n
• Bedingte Entropien der Ordnungen 0 bis n − 1 als Annäherung an die Entropierate
6.2. Einstellungsmöglichkeiten
• Maximale Ordnung n für die Entropieschätzung
6.3. Theoretischer Hintergrund
In der Informationstheorie ist die Entropie ein Maß für die Ungewissheit bezüglich einer
Zufallsvariablen. Je höher die Ungewissheit, desto schwieriger ist es, den Wert einer Zufallsvariablen zu erraten. Es gibt mittlerweile verschiedene Definitionen von Entropie. Die
bekannteste ist die Shannon-Entropie, die Gegenstand dieses Kapitels ist.
Vor der formalen Definition der Entropie soll neben einem kurzen Überblick über die Entstehung des Begriffs auch eine erste Intuition gegeben werden.
Die Definition der Shannon-Entropie geht auf Claude E. Shannon im Jahre 1948 zurück[14].
Shannon wollte ursprünglich die minimale Bandbreite eines Übertragungskanals bestimmen, die für eine zuverlässige Übertragung von Nachrichten einer stationären gedächtnislosen Nachrichtenquelle benötigt werden. Die Nachrichtenquelle erzeugt gemäß einer stationären Verteilung und unabhängig von der Vergangenheit Nachrichten, die übertragen
werden sollen. Zur Übertragung werden die Nachrichten mit Hilfe eines festen Alphabetes codiert. Um die minimal benötigte Bandbreite zu finden, sollte die erwartete mittlere
Länge der erzeugten Codewörter möglichst kurz sein. Dazu muss das Codewort seltener
23
6. Entropie
Nachrichten länger gewählt werden als das Codewort für wahrscheinlichere Nachrichten. In diesem Zusammenhang wird der Informationsgehalt einer Nachricht als die Länge
ihres optimalen Codewortes definiert. Mit Information ist nicht die semantische Bedeutung oder Wichtigkeit einer Nachricht im umgangssprachlichen Sinne gemeint, sondern
die mittlere Menge an Information, die benötigt wird, um den Wert einer Zufallsvariablen
mit bekannter Verteilung genau zu bestimmen. Seltenere Ereignisse sind nach dieser Definition informationsreicher. Intuitiv bedeutet dies, dass man mehr Informationen an den
Empfänger senden muss, um ihn über ein unerwartetes Ereignis zu unterrichten, als wenn
man ihn nur über Routineereignisse informiert.
Die Entropie ist als der mittlere Informationsgehalt einer Zufallsvariablen definiert. Übertragen auf das Modell der Wortcodierung ist die Entropie die erwartete Länge eines Codewortes bei Verwendung eines optimalen Codes. Die Entropie liefert damit eine untere
Schranke für die Bandbreite eines Kanals, wenn man Nachrichten dauerhaft zuverlässig
übertragen will.
Die Idee der Entropie wurde jedoch mittlerweile fortgeführt und Entropie wird mittlerweile allgemein als ein Maß für den mittleren Informationsgehalt und die mittlere Ungewissheit einer Zufallsvariablen betrachtet. Information und Ungewissheit werden in diesem
Zusammenhang äquivalent verwendet. Anschaulich bedeutet dies, dass eine Nachricht
per Definition informationsreicher ist, je mehr Ungewissheit sie beseitigt.
Betrachtet man Entropie als mittlere Ungewissheit, so entspricht der Informationsgehalt
eines Ereignisses seinem Überraschungswert. Je niedriger die Wahrscheinlichkeit eines Ereignisses, so überraschender ist es, wenn es eintritt. Diese Sichtweise ist konsistent mit der
Definition der Entropie als Informationsgehalt, bei dem Nachrichten mit niedriger Wahrscheinlichkeit ein langes Codewort und damit einen hohen Informationsgehalt haben. Je
höher die Entropie, also die Unsicherheit einer Zufallsvariablen, desto schwieriger ist es,
das Verhalten der Zufallsvariablen vorauszusagen. Je größer die Ungewissheit über den
Wert einer Zufallsvariablen, desto größer ist die Information die man durch die Kenntnis
der Zufallsvariablen erhält, da durch das Wissen Ungewissheit beseitigt wurde.
Im Folgenden wird die Entropie vor allem als Maß für die Ungewissheit angesehen und
als Indikator für statistische Gesetzmäßigkeiten und Zusammenhänge verwendet.
Definition 6.1 Der Informationsgehalt oder Überraschungswert eines möglichen Ergebnisses w
einer Zufallsvariablen X mit Wertebereich WX ist durch die Funktion IX : WX → R mit
Ç
IX (w) = log
1
p(X = w)
å
= − log(p(X = w))
(6.1)
gegeben.
Definition 6.2 Die Shannon-Entropie einer diskreten Zufallsvariablen X mit endlicher Wertemenge WX ist definiert als der mittlere Informationsgehalt von X
H(X) = −
X
p(X = w) · IX (w)
(6.2)
w∈WX
Betrachtet man die Entropie genauer, so hat sie einige besondere Eigenschaften, die auch
die Wahl des negativen Logarithmus als Informationsgehalt erklären.
24
6.3. Theoretischer Hintergrund
Maximum
Die Entropie ist maximal, wenn die Zufallsvariable gleichverteilt ist. Dies folgt aus Jensens
Ungleichung:
ñ
Ç
åô
Ç ñ
ôå
1
1
H(X) = E log
≤ log E
(6.3)
p(X)
p(X)
é
Ñ
= log
X
w∈WX
1
p(X = w) ·
p(X = w)
Ç
X
= log (|WX |) =
w∈WX
Ç
1
· − log
|WX |
Ç
1
|WX |
ååå
(6.4)
Gleichverteilung entspricht auch der Intuition maximaler Unsicherheit. Möchte man das
nächste Ereignis erraten, so wird man stets das wahrscheinlichste Ereignis wählen. Sind
jedoch alle Ereignisse gleich wahrscheinlich, ist die Wahrscheinlichkeit falsch zu liegen
maximal. Also liegt eine maximale Ungewissheit vor.
Wachstum
Liegt eine Gleichverteilung vor, so wird es mit steigender Anzahl möglicher Werte schwieriger das nächste Ereignis vorauszusagen. Man erwartet also, dass die Entropie mit steigender Anzahl möglicher Werte wächst. Dies ist gegeben, da für die Entropie einer gleichverteilten Zufallsvariable mit n möglichen Werten gilt:
H(X) =
X Å1 Å
w∈WX
n
· − log
Å ããã
1
n
(6.5)
= log(n)
Da der Logarithmus streng monoton wächst, wächst auch die Entropie einer gleichverteilten Variable mit wachsendem n.
Kontinuierlichkeit
Die Entropie ist kontinuierlich bezüglich der Verteilung. Kleine Veränderungen in den Verteilungen bewirken stets nur kleine Änderungen der Entropie.
Nullwahrscheinlichkeiten
Da limp→0 (p · log(p)) = 0 verändert sich die Entropie nicht, wenn man die Wertemenge um
Werte mit Wahrscheinlichkeit 0 erweitert.
6.3.1. Gemeinsame Entropie mehrerer Zufallsvariablen
Der Begriff der Entropie lässt sich auch auf die gemeinsame Verteilung mehrerer Zufallsvariablen ausweiten.
Definition 6.3 Die gemeinsame Entropie von Zufallsvariablen X1 , ..., Xn ist definiert als
H(X1 , ..., Xn ) =
X
(w1 ,...,wn )∈W =WX1 ×...×WXn
Ç
p(X1 = w1 , ..., Xn = wn ) log
1
p(X1 = w1 , ..., Xn = wn )
å
(6.6)
25
6. Entropie
Durch die Definition des Informationsgehaltes über den Logarithmus ergibt sich die gemeinsame Entropie unabhängiger Zufallsvariablen als die Summe der Einzelentropien.
Seien X1 , ..., Xn unabhängige Zufallsvariablen, dann gilt
H(X1 , ..., Xn ) = H(X1 ) + ... + H(Xn )
(6.7)
Intuitiv bedeutet dies, dass die gemeinsame Unsicherheit mehrerer Zufallsvariablen die
Summe der Ungewissheiten ist, falls keine Zufallsvariable Informationen über andere Zufallsvariablen enthält.
6.3.2. Bedingte Entropie
Definition 6.4 Die bedingte Entropie H(X|A) ist ein Maß für die Restungewissheit einer Zufallsvariablen X mit Wertemenge WX ,unter der Bedingung, dass bekannt ist, dass ein Ereignis A
eingetreten ist. Formal ist sie definiert als
X
H(X|A) = −
p(X = w|A) log(p(X = w|A))
(6.8)
w∈WX
Definition 6.5 Die bedingte Entropie H(X|Y ) einer Zufallsvariablen X unter Kenntnis des Wertes der Zufallsvariablen Y mit Wertemenge WY ist definiert als
H(X|Y ) =
X
p(Y = w) · H(X|Y = w)
(6.9)
w∈WY
Satz 6.6 Zwischen der bedingten Entropie und der gemeinsamen Entropie zweier Zufallsvariablen
X und Y besteht folgender als Kettenregel bekannter Zusammenhang:
H(X, Y ) = H(Y ) + H(X|Y ) = H(X) + H(Y |X)
(6.10)
Dies entspricht der Intuition, dass die Unsicherheit zweier Zufallsvariablen die Summe
aus der Unsicherheit einer Variablen und der verbleibenden Unsicherheit der anderen Variablen ist.
6.3.3. Blockentropie
Bisher wurde die Entropie nur für einzelne Zufallsvariablen definiert. Bei der Untersuchung von Texten betrachtet man jedoch meist stochastische Prozesse, die aus einer Folge
von Zufallsvariablen bestehen. Der erste Schritt zur Definition der Entropie eines stochastischen Prozesses geht über die Blockentropien.
Definition 6.7 Mit der Blockentropie der Ordnung n eines stochastischen Prozesses (Xt ) meint
man die Größe
Hn (X) = H(X1 , ..., Xn )
26
(6.11)
6.4. Entropieschätzung
6.3.4. Entropierate
Zur Charakterisierung der Zufälligkeit eines stochastischen Prozesses definiert man die
Entropierate. Sie ist die mittlere Unsicherheit der einzelnen Zufallsvariablen eines stochastischen Prozesses und gibt damit den durchschnittlichen Informationsgehalt einer Zufallsvariablen an.
Definition 6.8 Sei X ein stochastischer Prozess. Die Entropierate von X ist definiert als
h(X) = lim
n→∞
1
Hn (X)
n
(6.12)
falls der Grenzwert existiert.
Man kann zeigen, dass der Grenzwert für stationäre Prozesse immer existiert und es dann
sogar eine alternative Berechnungsmethode gibt, die im Normalfall schneller konvergiert.
h(X) = lim
n→∞
1
Hn = lim H(Xn |Xn−1 , ..., X1 )
n→∞
n
(6.13)
6.4. Entropieschätzung
Die implementierte Methode zur Entropieschätzung setzt einen stationären ergodischen
Prozess voraus, damit die Verteilungen der Zeichen und Wörter durch relative Häufigkeiten geschätzt werden können. Eine Annäherung an einen solchen Prozess kann direkt aus
dem Text in Form eines Markov-Modells geschätzt werden (siehe Kapitel 10).
Unter der Voraussetzung der Ergodizität werden zur Berechnung der Blockentropie der
Ordnung n die relativen Häufigkeiten der Wörter der Länge n bestimmt und als Schätzung
für die Blockwahrscheinlichkeiten verwendet. Mit den geschätzten Wahrscheinlichkeiten
lässt sich dann die Blockentropie der Ordnung n bestimmen.
Die bedingte Entropie H(Xn |Xn−1 , ..., X1 ) kann gemäß der Kettenregel durch die Differenz der ermittelten Blockentropien geschätzt werden:
H(Xn |Xn−1 , ..., X1 ) = H(Xn , Xn−1 , ..., X1 ) − H(Xn−1 , ..., X1 )
(6.14)
Man kann zeigen, dass der vorgestellte Schätzer für die Entropie nicht erwartungstreu
ist, was bedeutet, dass der Erwartungswert der berechneten Blockentropie unter Berücksichtigung der tatsächlichen Verteilung nicht der tatsächlichen Blockentropie entspricht.
Führt man also eine Entropieschätzung für viele unabhängige Realisierungen des stochastischen Prozesses durch, so erhält man im Mittel nicht die tatsächliche Entropie. Aufgrund
der Endlichkeit der Stichprobe wird die Entropie stattdessen stets unterschätzt.
Ein Lösungsansatz versucht durch Korrekturterme den Fehler zu verkleinern. Ein häufiger Ansatz zur Berechnung von Korrekturtermen sind Taylor-Reihen-Entwicklungen. Ein
solcher Korrekturterm wurde von Miller verwendet[13]. Er benötigt keine zusätzlichen
27
6. Entropie
Abbildung 6.1.: Vergleich von bedingten Entropien abhängig von der Ordnung
Annahmen über die Verteilung des Prozesses und ist einfach zu implementieren. Der korrigierte Term für die Schätzung der Blockentropie der Ordnung k unter Annahme eines
stationären ergodischen Prozesses X, wie er auch im Analysetool implementiert ist, hat
dann die Form
Ĥk (X) = −
X
k
w∈WX
nw
nw
#verschiedener k-Gramme
log(
)+
N −k+1
N −k+1
2 · (N − k + 1)
(6.15)
wobei nw die absolute Worthäufigkeit, N die Textlänge und k die betrachtete Wortlänge
ist.
6.5. Testergebnisse
Um das Verhalten des Entropieschätzers und die Aussagekräftigkeit der Entropie im Allgemeinen besser bewerten zu können, wurden sowohl natürlichsprachige Texte als auch
DNA-Sequenzen untersucht.
6.5.1. Testergebnisse für DNA-Sequenzen
Es wurden sowohl die Chromosomen 1–22 als auch das X und Y Chromosom des Menschen untersucht. Zudem wurde als Vergleich die mRNA des Drosophila melangostar neurogenic locus mastermind (Dromaster) analysiert. Die vollständigen Testergebnisse finden
sich im Anhang. Im Folgenden wurden einige Sequenzen ausgewählt (Fig. 6.1). Die untersuchten Sequenzen lagen im FASTA-Format vor. Als Alphabet wurde nur A, C, G, T zugelassen. Unbekannte Bereiche (gekennzeichnet mit N ) wurden bei der Berechnung ignoriert. Für die Untersuchung wurde in Anlehnung an Ebeling et al.[5] die bedingte Entropie
H(Xn+1 |X1 , ..., Xn ) = Hn+1 − Hn als Funktion von der Ordnung n dargestellt.
Die menschlichen Chromosomen zeigen einen ähnlichen bedingten Entropieverlauf, wohingegen die Entropie von Dromaster deutlich niedriger ist. Der scharfe Knick bei 4 ist
28
6.5. Testergebnisse
Abbildung 6.2.: Vergleich von bedingten Entropien abhängig von der Ordnung
höchstwahrscheinlich eine Folge der relativ kurzen Sequenz (etwa 6500 bp), die zu einer
unrealistischen Unterschätzung der Entropie führt. Man sieht jedoch deutlich, dass die
Entropie tendenziell stärker sinkt. Eine Begründung für diese Tatsache könnte sein, dass
die mRNA von Dromaster aus codierenden Bereichen besteht. Die Codonfolge folgt einem
genauen Schema, das wenig Raum für Zufälligkeit lässt. Da Entropie aber auch ein Maß
für Zufälligkeit ist, ist die Entropie von Dromaster entsprechend geringer. Auch wenn die
menschlichen Chromosomen eine höhere Entropie haben, ist klar erkennbar, dass DNASequenzen nicht eine Folge von zufälligen Basenpaaren sind, sondern gewisse Korrelationen zwischen Bereichen vorliegen. Auffällig bei allen Sequenzen ist, dass die Steigung
der Entropieabnahme nicht flacher, sondern tendenziell steiler wird. Da die menschlichen
Chromosomen alle eine Größe von (teilweise weit) über 50 Millionen bp haben, kann der
Effekt nicht allein durch eine Unterschätzung der Entropie hervorgerufen werden. Eine
mögliche Ursache könnten kurze repetitive Regionen in der DNA sein, wie sie sehr häufig
in nicht codierenden Bereichen auftreten.
6.5.2. Natürlichsprachige Texte
Das Alphabet einer natürlichen Sprache ist relativ groß, wenn man alle Steuerzeichen,
Sonderzeichen und Leerzeichen berücksichtigt (ca. 230 Zeichen). Für die folgende Messung wurden alle Zeichen einbezogen und Groß- und Kleinschreibung beachtet. Aufgrund
des großen Alphabetes muss der Testdatensatz groß sein, um eine Unterschätzung der
Entropie zu vermeiden. Untersucht wurden alle deutschen (etwa 275 MB) und alle französischen Texte (etwa 800 MB) des Gutenberg-Projektes (Fig. 6.2). Zunächst fällt auf, dass
beide Sprachen nahezu identische Entropien haben. Dies könnte an der gemeinsamen Abstammung der Sprache liegen. Es wurde noch ein Versuch durchgeführt, bei dem Sonderzeichen ignoriert und alle verschiedenen Leerzeichenarten wie ein Zeichen behandelt
wurden. Die Entropie veränderte sich nicht entscheidendm obwohl im Französischen Sonderzeichen Bestandteil vieler Wörter sind. Weiterhin fällt auf, dass die Entropie von natürlichsprachigen Texten anfangs schneller abnimmt. Dies ist auch plausibel, da bei einer
natürlichen Sprache der Zusammenhang mit direkten Nachbarn innerhalb von Wörtern
29
6. Entropie
besonders stark ist. Dies folgt allein schon aus der Zusammenstellung eines Wortes aus
Silben, bzw. Vokalen und Konsonanten.
Wie an den Beispielen deutlich wird, können bereits Blockentropien geringer Ordnung eine relativ große Aussagekraft über Texte haben. Man kann nicht erkennen welcher Art die
Korrelation ist, aber man kann deutlich erkennen, dass Korrelation in einem bestimmten
Bereich vorliegen, die die Zufälligkeit von Zeichenkombinationen reduziert. Eine daran
anschließende Methode, die Korrelationen über weite Teile eines Textes hin untersuchen
kann, ist die Transinformationsfunktion, die im folgenden Kapitel vorgestellt wird.
30
7. Transinformation
Eine zur Entropie verwandte Größe ist die Transinformation. Im Gegensatz zur Entropie
misst sie die gemeinsame Information von Zufallsvariablen und nicht die Unsicherheit.
Sie ist ein direktes allgemeines Maß für statistische Zusammenhänge. Im Gegensatz zur
Kovarianz untersucht sie allgemeine statistische Abhängigkeiten und nicht nur lineare
und eignet sich damit besonders gut, wenn die genauen Mechanismen und Strukturen
innerhalb eines Textes unbekannt sind. Die Transinformationsfunktion misst die Transinformation zwischen verschiedenen Stellen im Text und kann damit auch Aufschlüsse über
periodische Strukturen liefern.
7.1. Gemessene Größen
• Transinformationsfunktion I(k) in einem gewählten Intervall I
7.2. Einstellungsmöglichkeiten
• Untere Grenze des Berechnungsintervalls I
• Obere Grenze des Berechnungsintervalls I
• Schrittweite zwischen zwei Berechnungswerten (sinnvoll zur Darstellung der Transinformationsfunktion über große Bereiche)
7.3. Theoretischer Hintergrund
Die Transinformation ist ein Maß für den statistischen Zusammenhang zwischen zwei Zufallsvariablen. Sie ist eng verwandt mit der Entropie und kann über diese definiert werden.
Definition 7.1 Die Transinformation zweier Zufallsvariablen X und Y ist definieren als
I(X; Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X)
(7.1)
H(X) ist die Entropie von X und damit ein Maß für die Unsicherheit über den Wert
von X. H(X|Y ) ist die Unsicherheit, die verbleibt, wenn man den Wert von Y kennt.
H(X) − H(X|Y ) ist damit die Unsicherheit, die durch die Kenntnis von Y beseitigt wurde
oder anders ausgedrückt, die Information, die Y über X enthält.
Die Transinformation misst den allgemeinen statistischen Zusammenhang, im Gegensatz
31
7. Transinformation
zur Kovarianz, bzw. Korrelation zweier Zufallsvariablen, die vor allem lineare Zusammenhänge zwischen Zufallsvariablen erfasst. Setzt man die Definition der Entropie und
der bedingten Entropie im diskreten Fall ein, so erhält man die explizite Formel
Ç
I(X; Y ) =
X
(x,y)
p(x, y) log
p(x, y)
p(x)p(y)
å
(7.2)
p(x,y)
Der Term p(x)p(y)
stellt die tatsächliche gemeinsame Wahrscheinlichkeit in ein Verhältnis
zur gemeinsamen Wahrscheinlichkeit, wenn X und Y unabhängig wären. Die Transinformation ist dann der mittlere Logarithmus dieses Verhältnisses.
p(x)p(y)
Wegen log( p(x)p(y)
) = log(1) = 0 ist die Transinformation Null, wenn die Zufallsvariablen
unabhängig sind. X enthält dann keine Information über Y und umgekehrt. In allen anderen Fällen ist die Transinformation wegen H(X) ≥ H(X|Y ) größer Null. Sie ist maximal,
wenn H(X|Y ) = 0, was bedeutet, dass X deterministisch aus Y berechenbar ist. Gleiches
gilt für den umgekehrten Fall. Dies bedeutet aber auch, dass I(X, X) = H(X) ≥ I(X, Y )
für alle Zufallsvariablen Y . Keine Zufallsvariable kann mehr Informationen über X enthalten, als X selbst.
Betrachtet man einen stochastischen Prozess, so kann man die Transinformation zwischen
verschiedenen Zeitpunkten des Prozesses betrachten. Bei einem stationären Prozess hängt
die Transinformation nur vom Abstand der Zufallsvariablen, nicht jedoch vom genauen
Zeitpunkt ab.
Definition 7.2 Die Transinformationsfunktion eines stationären stochastischen Prozesses mit Indexmenge T und Wertebereich WX ist gegeben durch
I(k) = I(Xt , Xt+k )
(7.3)
mit k ∈ T für alle t ∈ T .
Der Verlauf der Transinformationsfunktion eines Prozesses kann Aufschluss über die Entwicklung eines Prozesses geben und Regelmäßigkeiten im statistischen Zusammenhang
aufdecken. Im Normalfall nimmt die Transinformationsfunktion im Mittel ab. Geht die
Transinformationsfunktion für große k nicht gegen Null, so spricht man von langreichweitiger Korrelation.
7.4. Schätzen der Transinformationsfunktion
Schätzt man die Wahrscheinlichkeiten p(xi , xj ) mit relativen Häufigkeiten ab, so lässt sich
die Transinformationsfunktion berechnen. Vorraussetzung ist, dass der Prozess bezüglich
der gemeinsamen Verteilung zweier Zufallsvariablen stationär und ergodisch ist. Dies ist
eine schwächere Forderung als starke Stationarität, bei der gefordert ist, dass alle Verteilungen aller Zufallszahlenkombinationen stationär sind.
Da der einfache Schätzer für die Entropie im Allgemeinen nicht erwartungstreu ist und
die Transinformation über die Entropie definiert ist, ist auch der oben beschriebene Schätzer nicht erwartungstreu. Allerdings wächst die Anzahl möglicher Zeichenkombinationen
32
7.5. Testergebnisse
nicht mit wachsendem Abstand, sondern ist konstant quadratisch in der Größe des Alphabets. Lediglich die Anzahl der Stichproben sinkt mit wachsendem k linear. Dennoch kann
man bereits bei mittlerer Länge des Textes die Transinformation auch für große k gut schätzen.
7.5. Testergebnisse
Es wurden sowohl natürlichsprachige Texte als auch DNA-Sequenzen untersucht. Dabei
ergaben sich gänzlich verschiedene Verläufe der Transinformationsfunktion.
7.5.1. DNA-Sequenzen
Es gelten die gleichen Versuchsbedingungen wie bei der Entropieschätzung:
Es wurden sowohl die Chromosomen 1–22 als auch das X und Y Chromosom des Menschen untersucht. Zudem wurde als Vergleich die mRNA des Drosophila melangostar
neurogenic locus mastermind (Dromaster) analysiert. Im Folgenden wurden einige Sequenzen ausgewählt (Fig. 7.1). Die untersuchten Sequenzen lagen im FASTA-Format vor.
Als Alphabet wurde nur A, C, G, T zugelassen. Unbekannte Bereiche (gekennzeichnet mit
N ) wurden bei der Berechnung ignoriert. Am auffälligsten ist der Verlauf der Funktion
für Dromaster. Im Vergleich zu menschlichen Chromosomen besteht ein starker statistischer Zusammenhang über große Bereiche. Besonders gut sichtbar ist die Codonstruktur
(drei Basenpaare bilden eine Einheit), da mRNA ein codierender DNA-Strang ist. Bei den
menschlichen Chromosomen ist die Codonstruktur kaum oder gar nicht sichtbar, weil sie
durch die großen nicht codierenden Bereiche überdeckt wird. Alle menschlichen Chromosomen haben einen ähnlichen Verlauf. Tatsächlich kann man in begrenztem Umfang
anhand von Korrelationsstrukturen DNA-Sequenzen Arten zuordnen wie von Hütt et al.
beschrieben wird[8].
Es fällt auf, dass die Funktion nicht gegen Null zu streben scheint. Tatsächlich liegen in
DNA-Sequenzen langreichweitige Korrelationen vor. Die Erklärung und Untersuchung
dieser Strukturen ist immer noch Thema aktueller Forschungen.
7.5.2. Natürlichsprachige Texte
Auch hier werden alle Sonderzeichen und Leerzeichen berücksichtigt und zwischen Großund Kleinschreibung unterschieden. Fig. 7.2 zeigt die Ergebnisse. Bis k = 6 entspricht der
Verlauf einer Exponentialfunktion (Fig. 7.3). Danach nähert sich die Transinformationsfunktion immer mehr einer Konstanten an. Wie die DNA-Sequenz wird die Transinformationsfunktion nicht Null. Dies könnte sowohl mit der Satzstruktur und Grammatik,
als auch der Verwendung eines bestimmten Themenwortschatzes zusammenhängen. Die
Transinformationsfunktion zeigt besonders deutlich große Abhängigkeiten im nahen Bereich. Dieser Bereich entspricht ungefähr der Länge eines Wortes. Im mittleren Bereich sind
sich die Funktionen sehr ähnlich. Selbst kleine Unebenheiten im Graphen stimmen bis zu
einer Ordnung von etwa k = 40 überein. Dies deutet darauf hin, dass diese Unebenheiten
nicht zufällig entstanden sein könnten.
33
7. Transinformation
34
Abbildung 7.1.: Transinformationsfunktion I(k) in Abhängigkeit von k
7.5. Testergebnisse
Abbildung 7.2.: Transinformationsfunktion I(k) in Abhängigkeit von k
Abbildung 7.3.: Transinformationsfunktion I(k) in Abhängigkeit von k
35
7. Transinformation
36
8. Ausgaben für die Parameterschätzung
Die folgenden Ausgaben dienen primär als Parameter für Generatoren. Aus diesem Grund
werden sie an dieser Stelle nur kurz aufgelistet. Ihre genaue Funktion und Bedeutung wird
im entsprechenden Kapiteln des dazugehörigen Generators behandelt.
8.1. Relative Zeichenhäufigkeiten
Wird von allen Generatoren zur Schätzung der Marginalwahrscheinlichkeit der einzelnen
Zeichen an einer beliebigen Position benötigt.
8.2. Bedingte relative Zeichenhäufigkeiten
Berechnet bedingte relative Häufigkeiten der Ordnung n. Bei einem gegebenen Wort w
der Länge n ist mit der bedingten relativen Häufigkeit der Ordnung n eines Zeichens a
der Quotient
#Vorkommen von wa
(8.1)
#Vorkommen von w
gemeint. Die Häufigkeiten werden zum Schätzen der Parameter einer Markov-Kette benötigt (siehe Kapitel 10).
Ein Problem bei der Speicherung der bedingten Häufigkeiten sind die großen Datenmengen bei höheren Ordnungen. Die Dateien können sehr groß werden.
8.3. Autokorrelationskoeffizienten eines diskreten
autoregressiven Prozesses
Schätzt die Autokorrelationskoeffizienten bis zu einer Ordnung k unter der Annahme,
dass dem Text ein diskreter autoregressiver (DAR) Prozess zu Grunde liegt. Diese werden
zur Parameterschätzung eines DAR-Prozesses benötigt. (siehe Kapitel 11).
8.4. Parameter für das Approximate Repeats-Modell
Schätzt die Parameter für ein Modell mit ähnlichen Wiederholungen. (siehe Kapitel 12)
37
8. Ausgaben für die Parameterschätzung
38
Teil III.
Generierung von Texten
39
9. Einleitung
Dieser Teil beschäftigt sich mit den generierenden Modellen, die im Rahmen dieser Arbeit implementiert wurden. Ein Generator erzeugt gemäß einem Modell einen künstlichen
Text. Die Parameter für das Modell werden vorher aus realen Sequenzen geschätzt und
dem Generator als Parameterdateien übergeben. Der künstlich erzeugte Text kann dann
beispielsweise mit dem ursprünglichen Text verglichen werden, um das Modell zu untersuchen. Ähnlich dem Analysetool ist es modular gehalten. Es gibt jedoch keine gemeinsame Einstellungsdatei. Stattdessen definiert jedes Modul einen eigenen Satz von benötigten
Parameterdateien.
Nach der Einführung folgen Kapitel zu den untersuchten Modellen. Jedes Kapitel beginnt
mit einer Einführung, gefolgt von einem theoretischen Teil, der auch die Parameterschätzung behandelt. Am Schluss jedes Kapitels werden die Modelle anhand von Testdaten
untersucht.
9.1. Einstellungsmöglichkeiten
• Länge der erzeugten Sequenz
• Auswahl des zu verwendenden Generators
9.2. Bemerkung zu den Versuchsreihen
Eine einfache und gute Möglichkeit, um ein Parameterschäzungsverfahren für ein Modell
zu testen, ist, künstlich Texte mit festgelegten Parametern zu generieren und anschließend
eine Parameterschätzung auf den Daten durchzuführen. Ein guter Schätzer sollte in etwa
die ursprünglichen Modellparameter extrahieren können. Natürlich garantiert eine erfolgreiche Parameterückgewinnung kein gutes Modell, ist aber ein Indikator für einen konsistenten Parameterschätzer.
Bis auf das Approximate Repeats-Modell wurden alle Testdaten (Chromosomen des Menschen, Dromaster, deutsche und französische Texte) analysiert. Pro analysierter Datei wurde für jedes Modell eine entsprechende künstliche Sequenz erzeugt, untersucht und mit
der Originalsequenz verglichen. Die Länge der erzeugten Sequenzen war im Fall der Chromosomen 20 Millionen bp. Um die Sequenzen vergleichbar zu machen, wurde für das
kurze Dromaster-DNA-Stück auch nur eine kurze Sequenz von 6500 bp erzeugt. Für die
natürlichsprachigen Texte wurde jeweils ein Text mit einer Länge von 200 MB erzeugt.
41
9. Einleitung
42
10. Markov-Kette
Markov-Ketten sind ein weit verbreitetes Werkzeug zur Modellierung von Texten. Man
kann sie relativ einfach trainieren und anwenden. Markov-Ketten beruhen auf dem Prinzip der bedingten Wahrscheinlichkeiten. Viele Abhängigkeiten können bis zu einem gewissen Grad ohne Kenntnis der Textmechanismen durch eine Markov-Kette modelliert
werden. Der Nachteil von Markov-Ketten ist die exponentiell wachsende Parameterzahl
bei steigender Ordnung. Mit einer hohen Ordnung lassen sich Korrelationen über größere Bereiche modellieren. Jedoch ist bereits eine Ordnung von zehn für natürlichsprachige
Texte problematisch. Markov-Ketten eignen sich deshalb, um Strukturen und Korrelationen mit sehr kurzer Reichweite relativ genau zu modellieren.
10.1. Parameter
• Markov-Ordnung
• Übergangswahrscheinlichkeiten
• Marginalverteilung der Zeichen
10.2. Theoretischer Hintergrund
Eine häufig verwendete Klasse stochastischer Prozesse zur Modellierung eines Textes sind
Markov-Ketten.
Definition 10.1 Ein diskreter stochastischer Prozess (Xt ) besitzt die Markov-Eigenschaft, falls
für alle n ∈ T gilt:
p(Xn+1 |X1 , ..., Xn ) = p(Xn+1 |Xn )
(10.1)
(Xt ) ist dann eine Markov-Kette der Ordnung 1.
Die Markov-Eigenschaft wird auch Gedächtnislosigkeit gennant. Die Wahrscheinlichkeit
eines Zustandes hängt nur vom direkten Vorgängerzustand ab. Der Begriff lässt sich auch
auf die letzten n Zustände erweitern.
Definition 10.2 Eine diskrete Markov-Kette der Ordnung n ist ein diskreter stochastischer Prozess (Xt ) mit Wertemenge WX mit der Eigenschaft
p(Xk+1 |X1 , ..., Xk ) = p(Xk+1 |Xk−n+1 , ..., Xk )
(10.2)
Falls p(Xk+1 |Xk−n+1 , ..., Xk ) nicht von k abhängt, nennt man die Markov-Kette zeithomogen. In
diesem Fall spricht man von der Übergangswahrscheinlichkeit pij , wobei i, j ∈ WX .
43
10. Markov-Kette
Anmerkung 10.3 Mit der Markov-Eigenschaft ist meist nur die erste Definition gemeint. Jedoch
lässt sich zu jeder Markov-Kette der Ordnung n eine äquivalente Markov-Kette erster Ordnung
definieren:
Yt = (Xt , ..., Xt+n−1 )
(10.3)
Der Prozess (Yt ) besitzt die Markov-Eigenschaft, falls (Xt ) eine Markov-Kette der Ordnung n ist.
Alle Sätze für Markov-Ketten erster Ordnung lassen sich deshalb auch auf Markov-Ketten höherer
Ordnung übertragen.
Im Folgenden werden ausschließlich zeithomogene diskrete Markov-Ketten mit endlichem Wertevorrat betrachtet.
Anmerkung 10.4 Durch die Angabe der Übergangswahrscheinlichkeiten und einer Startverteilung µ = (p1 , ..., p|WX | ) für X1 ist eine zeithomogene Markov-Kette mit endlicher Wertemenge
WX vollständig bestimmt. Alle anderen gemeinsamen Verteilungen der Zufallsvariablen lassen
sich daraus berechnen. Beispielsweise gilt für die Blockwahrscheinlichkeiten zum Zeitpunkt t = 1:
p(X1 , ..., Xn ) = p(X1 )p(X2 |X1 )...p(Xn |X1 , ..., Xn − 1) = p(X1 )p(X2 |X1 )p(X3 |X2 )...p(Xn |Xn−1 )
(10.4)
Die anderen Verteilungen ergeben sich als Marginalverteilungen der Blockverteilungen.
Definition 10.5 Eine Startverteilung µ für eine zeithomogenen Markov-Kette ist stationär, wenn
µ(j) =
X
µ(i)pij
(10.5)
i∈WX
Dies bedeutet insbesondere, dass die Marginalverteilungen der einzelnen Werte zu jedem Zeitpunkt
gleich ist, wenn eine zeithomogene Markov-Kette eine stationäre Startverteilung besitzt.
Anmerkung 10.6 Sei (Xt ) eine zeithomogene Markov-Kette mit stationärer Startverteilung. Dann
ist (Xt ) ein stationärer Prozess. Da die Verteilung einer zeithomogenen Markov-Kette vollständig
durch ihre Startverteilung und Übergangswahrscheinlichkeiten gegeben ist, und die Marginalverteilung zu jedem Zeitpunkt gleich ist, ist auch die Gesamtverteilung zu jedem Zeitpunkt gleich.
Markov-Ketten sind also Prozesse, die sich die letzten Zeichen merken und mit diesem
begrenzten Wissen raten, welches Zeichen wohl am wahrscheinlichsten kommen würde,
wenn es vom wahren dem Text zu Grunde liegenden Modell erzeugt werden würde. Sie
benötigen also kein Wissen über das wahre Modell, sondern bestimmen das nächste Zeichen rein auf statistischer Basis. Aus diesem Grund lassen sie sich für eine Vielzahl von
Texten verwenden. Da DNA-Sequenzen nur ein Alphabet der Größe vier haben, bieten sie
sich in DNA-Sequenzen auch zur Modellierung von Korrelation mit niedriger bis mittlerer Reichweite an. Insgesamt sind Markov-Ketten sehr gute flexibel einsetzbare Prozesse,
deren einziges Problem die Speicherung der Übergangswahrscheinlichkeiten bei hohen
Ordnungen ist.
44
10.3. Parameterschätzung
10.3. Parameterschätzung
Um die Übergangswahrscheinlichkeiten einer dem Text unterstellten Markov-Kette aus
den relativen Übergangshäufigkeiten zu schätzen, muss diese nur zeithomogen, aber nicht
stationär sein. Allerdings wäre dies wünschenswert, damit man die Analyseverfahren aus
dem vorherigen Teil der Arbeit auch auf künstlich erzeugte Sequenzen der Markov-Kette
anwenden kann. Besitzt die Markov-Kette zudem eine eindeutige stationäre Startverteilung, so kann man zeigen, dass diese annähernd durch die relativen Häufigkeiten innerhalb einer von der Kette erzeugten Sequenz gegeben ist.
Ziel ist es also, eine stationäre zeithomogene Markov-Kette zu konstruieren, deren Übergangswahrscheinlichkeiten in etwa den relativen Übergangshäufigkeiten im Text entsprechen und die eine eindeutige stationäre Startverteilung besitzt. Die stationäre Verteilung
sollte dann in etwa den relativen Häufigkeiten im Text entsprechen. Die von der MarkovKette erzeugten Sequenzen hätten dann bis zur Ordnung der Markov-Kette in etwa die
selbe Entropie und Transinformation wie der ursprüngliche Text.
Nachfolgend werden hinreichende Bedingungen für die Stationarität zeithomogener MarkovKetten mit eindeutiger stationärer Verteilung aufgeführt und untersucht, inwieweit diese
für einen realen Text angewendet werden können.
10.3.1. Rückkehrzeit
Definition 10.7 Die Rückkehrzeit eines Wertes i ist eine Zufallsvariable
Ti = min{n ≥ 1|X1+n = i, falls X1 = i}
(10.6)
Die Rückkehrzeit ist also der Abstand bis zum nächsten i, fallsX1 = i. Wenn die MarkovKette zeithomogen ist, so ist die Rückkehrzeit unabhängig vom Zeitindex.
10.3.2. Reduzibilität
(n)
Definition 10.8 Sei pij = p(Xt = i, Xt+n = j).
Eine Markov-Kette heißt irreduzibel, wenn man von jedem Zustand jeden Zustand mit positiver
Wahrscheinlichkeit erreichen kann, also
(n)
∀i, j∃n.(pij > 0)
(10.7)
Anmerkung 10.9 Irreduzibilität ist eine Eigenschaft der Übergangswahrscheinlichkeiten und ist
unabhängig von der Startverteilung.
Satz 10.10 Für eine irreduzible zeithomogene Markov-Kette existiert eine eindeutige stationäre
Verteilung µ mit
1
µ(i) =
(10.8)
E[Ti ]
wobei Ti die Rückkehrzeit von i ist.
Der Erwartungswert der Rückkehrzeit lässt sich im Falle einer zeithomogenen MarkovKette durch den mittleren Abstand zwischen zwei Vorkommen von i innerhalb des Textes
45
10. Markov-Kette
annähern. Addiert man den Abstand bis zum ersten Vorkommen von i mit der Länge
des Restes nach dem letzten Vorkommen und fasst die Summe als einen weiteren Abstand zwischen zwei Vorkommen von i auf, dann entspricht die mittlere Rückkehrzeit
Länge des Textes
Anzahl der Vorkommen von i . Dies wiederum bedeutet, dass die relative Häufigkeit von i ungefähr der Wahrscheinlichkeit von i innerhalb der stationären Verteilung entspricht. Im Falle
einer Markov-Kette höherer Ordnung betrachtet man Worthäufigkeiten und Übergänge
zwischen Wörtern.
Wenn man sicherstellen kann, dass die Markov-Kette der Ordnung n mit den geschätzten Übergangswahrscheinlichkeiten irreduzibel ist, dann besitzt sie eine stationäre Verteilung, die in etwa mit den relativen Häufigkeiten der Wörter bis zur Länge n im Text
übereinstimmen. Um die Irreduzibilität einer Markov-Kette der Ordnung n nachzuweisen, reicht es sicherzustellen, dass es Übergänge von jedem Wort der Länge n, das im Text
vorkommt, zu jedem anderen Wort gibt. Da die Übergangswahrscheinlichkeiten direkt aus
den relativen Übergangshäufigkeiten geschätzt werden, sind offensichtlich alle Worte vom
Startwort erreichbar. Ebenso ist das letzte Wort von jedem anderen Wort erreichbar. Wenn
das Startwort vom letzten Wort aus erreichbar ist, dann ist die Markov-Kette also in jedem Fall irreduzibel. Bei realen Sequenzen mit ausreichender Länge ist dies meist der Fall.
Wenn man sichergehen möchte, dass es einen Übergang gibt, kann man bei langen Texten
einfach das Startwort am Schluss des Textes anhängen, bevor man die Übergangswahrscheinlichkeiten schätzt. Ist der Text im Vergleich zur Menge aller theoretisch möglichen
Worte der Länge n groß, so ändert das Anhängen des Startwortes die Übergangswahrscheinlichkeiten und die resultierende stationäre Verteilung nicht entscheidend, sodass die
Markov-Kette immer noch als ein Modell für den Text genommen werden kann.
10.4. Entropie
Die stationäre Verteilung der n − Gramme einer geschätzten Markov-Kette der Ordnung n
entspricht aufgrund der Konstruktionsweise den relativen Häufigkeiten im Text. Dadurch
entspricht auch die Verteilung aller kürzeren Worte den relativen Häufigkeiten. Da die
Übergangswahrscheinlichkeiten zwischen n − Grammen zudem direkt aus den relativen
Übergangshäufigkeiten geschätzt werden, entspricht auch die Verteilung der (n + 1) −
Gramme den relativen Häufigkeiten im Text.
Da die konstruierte Markov-Kette irreduzibel ist, kann man deshalb davon ausgehen, dass
die relativen Häufigkeiten der Worte bis zur Länge n + 1 in einem künstlich erzeugten
Text in etwa den relativen Häufigkeiten im Originaltext entsprechen. Aus diesem Grund
werden beide Texte bis zur Ordnung n + 1 nahezu identische geschätzte Blockentropien
besitzen. Dies bedeutet, dass auch die bedingten Entropien bis zur Ordnung n nahezu
identisch sind.
Die bedingten Entropien H(Xk |X1 , ..., Xk−1 ) einer Markov-Kette der Ordnung n sind ab
k >= n konstant und entsprechen damit der Entropierate der Markov-Kette.
Für k > n ergibt sich nämlich im Falle einer stationären und zeithomogenen Kette folgende
46
10.5. Transinformation
Rechnung:
H(Xk |X1 , ..., Xk−1 )
(10.9)
=
X
(p(X1 = x1 , ..., Xk = xk ) log(p(Xk = xk |X1 = x1 , ..., Xk−1 = xk−1 ))))
(10.10)
=
X
(p(X1 = x1 , ..., Xk = xk ) log(p(Xk = xk |Xk−n = xk−n , ..., Xk−1 = xk−1 ))))
(10.11)
=
X
(p(Xk−n = xk−n , ..., Xk = xk ) log(p(Xk = xk |Xk−n = xk−n , ..., Xk−1 = xk−1 ))))
(10.12)
=
X
(p(X1 = x1 , ..., Xn+1 = xn+1 ) log(p(Xn+1 = xn+1 |X1 = x1 , ..., Xn = xn ))))
=H(Xn+1 |X1 , ..., Xn )
(10.13)
(10.14)
Die erste Umformung folgt aus der Gedächtnislosigkeit, die zweite aus einer Marginalisierung der Blockwahrscheinlichkeiten und die letzte aus der Stationarität und Zeithomogenität.
10.5. Transinformation
Wegen der Übereinstimmung der relativen Worthäufigkeiten bis zur Ordnung n+1, wobei
n die Ordnung der Markov-Kette ist, stimmt auch die Transinformationsfunktion bis n + 1
überein. Falls die Markov-Kette die Eigenschaft der Aperiodizität besitzt, dann geht die
Transinformation danach relativ schnell gegen Null. Diese Eigenschaft ist bei langen realen
Texten meist gegeben.
Definition 10.11 Die Periode eines Wertes ist das größte k, sodass die Rückkehrzeit stets ein Vielfaches von k ist. Hat ein Wert eine Periode von 1, so ist er aperiodisch. Eine Markov-Kette ist
aperiodisch, wenn alle ihre Zustände aperiodisch sind.
Anmerkung 10.12 Da innerhalb einer irreduziblen Markov-Kette alle Werte voneinander erreichbar sind, sind alle Werte aperiodisch, sobald ein Wert aperiodisch ist.
Satz 10.13 Für eine irreduzible und aperiodische Markov-Kette mit Übergangswahrscheinlichkeiten pij und stationärer Verteilung µ gilt
(n)
lim p
n→∞ ij
= µ(j)
(10.15)
47
10. Markov-Kette
Eine direkte Folge des Satzes ist die Konvergenz der Transinformationsfunktion gegen
Null bei einer irreduziblen und aperiodischen Markov-Kette:
Ç
lim I(k) =
k→∞
=
lim
k→∞
lim
k→∞
X
p(X1 = x, X1+k = y) log
x,y∈WX
X
Ç
p(X1 = x, X1+k = y) log
x,y∈WX
p(X1 = x, X1+k = y)
p(p(X1 = x)p(X1+k = y)
å
(10.16)
p(X1 = x)p(X1+k = y|X1 = x)
µ(x)µ(y)
å
(10.17)
=
=
=
=
lim
k→∞
lim
k→∞
lim
k→∞
X
p(X1 = x, X1+k = y) log
x,y∈WX
X
x,y∈WX
X
(k)
µ(x)pxy
(10.18)
µ(x)µ(y)
Ç
p(X1 = x, X1+k = y) log
!
µ(x)µ(y)
µ(x)µ(y)
p(X1 = x, X1+k = y) log(1)
å
(10.19)
(10.20)
x,y∈WX
0
(10.21)
10.6. Testergebnisse
Um das Verhalten einer Markov-Ketten der Ordnung n zu testen, wurden zunächst aus
den Testdaten die Häufigkeiten aller n-Gramme ermittelt. Die Häufigkeiten werden als
Startverteilung der Markov-Kette verwendet und dienen der Berechnung der Übergangswahrscheinlichkeiten. Aufgrund der unterschiedlichen Alphabetgrößen, wurden für DNASequenzen und natürlichsprachige Texte verschiedene Markov-Ordnungen verwendet.
Mit den trainierten Markov-Ketten wurden dann künstliche Texte erzeugt und untersucht.
Die Ergebnisse für reale und künstliche Texte wurden anschließend hinsichtlich Entropie
und Transinformation untersucht. Die Testergebnisse zeigen, dass Markov-Ketten sowohl
für DNA-Sequenzen als auch für natürlichsprachige Texte geeignet sind. Dies entspricht
auch der Intention Abhängigkeiten ohne Kenntnisse der zu Grunde liegenden Mechanismen zu modellieren.
10.6.1. DNA-Sequenzen
Es wurden alle Chromosomen des Menschen und Dromaster einzeln untersucht. Für die
Chromosomen wurden künstliche Sequenzen mit 20 Millionen bp erstellt. Um vergleichbare Versuchsergebnisse zu halten (mitsamt einer Unterschätzung der Entropie für höhere
Ordnungen) wurde für Dromaster nur eine Sequenz der Länge 6500 bp erstellt. Es wurden Markov-Ketten siebter Ordnung erstellt. Fig. 10.1,10.2,??,?? zeigen die Ergebnisse der
Versuche für einige Chromosomen und Dromaster. Die restlichen Ergebnisse finden sich
in Form von Schaubildern im Anhang. Die genauen Testergebnisse sind zu umfangreich
um sie anzuhängen.
Für die Chromosomen liegt eine nahezu perfekte Übereinstimmung von Entropie und
Transinformation bis zur Markov-Ordnung vor. Danach fällt die Transinformation der
48
10.6. Testergebnisse
Abbildung 10.1.: Vergleich von bedingten Entropien abhängig von der Ordnung
Abbildung 10.2.: Vergleich von bedingten Entropien abhängig von der Ordnung
Abbildung 10.3.: Vergleich der Transinformationsfunktion
49
10. Markov-Kette
Abbildung 10.4.: Vergleich der Transinformationsfunktion
Markov-Kette schnell gegen Null, was auf eine irreduzible und aperiodische MarkovKette hindeutet. Die Entropie bleibt konstant bis auf einen leichten Abfall aufgrund einer
Unterschätzung der Entropie. Die Markov-Kette verhält sich also wie theoretisch erwartet. Einzig für Dromaster ist die Übereinstimmung nicht perfekt. Dies könnte an der relativ
kurzen künstlich erzeugten Sequenz liegen. Je kleiner die erzeugte Sequenz, desto größer
ist die Wahrscheinlichkeit von Fluktuationen zwischen verschiedenen künstlich erzeugten
Sequenzen. Dies ist besonders der Fall, wenn die trainierte Markov-Kette Werte mit hoher
Rückkehrzeit enthält, da dann bei zu kurzen Sequenzen die mittlere Rückkehrzeit nicht
dem Erwartungswert der Rückkehrzeit entspricht.
10.6.2. Natürlichsprachige Texte
Ähnliches wie bei de DNA-Sequenzen gilt auch für natürlichsprachige Texte. Der größte Nachteil der Markov-Ketten wiegt hier jedoch besonders schwer: Da die Anzahl der
möglichen n-Gramme exponentiell mit n wächst, ist es schwierig Markov-Ketten höherer
Ordnung zu konstruieren, wenn das Alphabet groß ist. Aus diesem Grund wurden für die
Test nur Markov-Ketten zweiter Ordnung verwendet. Fig. 10.5,10.6 zeigen die Ergebnisse für alle deutschen Texte aus dem Projekt Gutenberg. Für französische Texte sehen die
Diagramme jedoch identisch aus.
50
10.6. Testergebnisse
Abbildung 10.5.: Vergleich von bedingten Entropien abhängig von der Ordnung
Abbildung 10.6.: Vergleich der Transinformationsfunktion
51
10. Markov-Kette
52
11. Diskreter autoregressiver Prozess
Ein diskreter autoregressiver Prozess ist eine spezielle Markov-Kette mit einer einfachen
Struktur. Die Parameter eines DAR(p)-Prozesses lassen sich effizient schätzen und darstellen im Gegensatz zu den Parametern eines allgemeinen Markov-Modells. Sie sind in
der Lage einfache lineare Korrelationsstrukturen über relativ weite Bereiche abzubilden,
eignen sich jedoch nicht um komplexe Abhängigkeiten zu modellieren. Auch können keine Abhängigkeiten auf Wortebene modelliert werden. Gute Ergebnisse werden mit DNASequenzen hinsichtlich der Transinformationsfunktion erzielt. Bei natürlichsprachigen Texten versagt das Modell. Die folgenden Ausführungen basieren vor allem auf einem Paper
von Jacobs et al.[9] und einem Buch und Paper von Hütt und Dehnert et al.[2, 8].
11.1. Einstellungsmöglichkeiten
• Ordnung p des DAR-Prozesses
• Autokorrelationskoeffzienten eines DAR(p)-Prozesses
• Marginalverteilung der Zeichen
11.2. Theoretischer Hintergrund
Informell ist ein DAR(p)-Prozess ein stochastischer Prozess, bei dem zu jedem Zeitpunkt
mit Wahrscheinlichkeit ρ eines der letzten p Zeichen kopiert wird. Die Auswahl des zu
kopierenden Zeichens erfolgt gemäß der Verteilung α. Wird kein Zeichen kopiert, so wird
ein zufälliges Zeichen gemäß der Verteilung π erzeugt.
Definition 11.1 Sei (Yt ) eine Folge unabhängiger und gleichverteilter Zufallsvariablen mit einer
Verteilung π über einem Alphabet A. Ferner sei (Vt ) eine Folge Bernoulli-verteilter Zufallsvariablen mit Wertemenge {0; 1}, wobei p(Vt = 0) = ρ und p(Vt = 1) = 1 − ρ. Sei (At ) eine Folge
von Zufallsvariablen über einer Indexmenge I = {1, ..., p} mit Verteilung α = (α1 , ..., αp ). Dann
nennt man den stochastischen Prozess (Xt ) mit
Xt = Vt · Xt−At + (1 − Vt ) · Yt
(11.1)
für t > p einen stationären diskreten autoregressiven Prozess der Ordnung p (DAR(p)-Prozess)
mit Rückgriffwahrscheinlichkeit ρ, Parametervektor α und Marginalverteilung π.
Satz 11.2 Wählt man als Anfangsverteilung π mit
Xt = Yt
(11.2)
für 1 ≤ t ≤ p, so ist der resultierende Prozess stationär mit Marginalverteilung π.
53
11. Diskreter autoregressiver Prozess
Im Rahmen dieser Arbeit ist wieder vor allem der stationäre Fall interessant. Es wird deshalb in den weiteren Ausführungen von einem stationären DAR(p)-Prozess ausgegangen.
Ein DAR(p)-Prozess ist eine spezielle Markov-Kette der Ordnung p, da der Wert an einer
Stelle nur von den letzten p Zeichen abhängt. Bei einer allgemeinen Markov-Kette wächst
die Anzahl der Parameter in Form von Übergangswahrscheinlichkeiten exponentiell mit
der Ordnung an. Dagegen ist die Anzahl der Parameter eines DAR(p)-Prozess linear in p.
Er eignet sich deshalb zur Konstruktion von Markov-Ketten mit hoher Ordnung.
Ein DAR(p)-Prozess erlaubt es unter gewissen Annahmen in begrenztem Maße lineare
Korrelationen mit kurzer und mittellanger Reichweite zu modellieren (siehe Abschnitt zur
Transinformationsfunktion).
11.3. Parameterschätzung
Da es sich bei einem DAR(p)-Prozess um eine spezielle Markov-Kette handelt, reicht es,
die Irreduzibilität der konstruierten stationären Kette nachzuweisen, um ein ergodisches
Verhalten nachzuweisen. Für den Fall, dass ρ < 1 ist dies automatisch gegeben, da dann
eine positive Wahrscheinlichkeit besteht, ein zufälliges Zeichen zu erzeugen. Damit kann
auf jeden Wert direkt jeder andere Werte folgen. Die Kette ist dann sogar aperiodisch. Es
wird sich herausstellen, dass durch die gewählte Schätzmethode der Fall ρ = 1 nur dann
auftritt, wenn der Text nur aus der Wiederholung eines einzigen Zeichens besteht. Auch
in diesem Fall ist die Markov-Kette offensichtlich irreduzibel und aperiodisch.
Die Marginalverteilung eines stationären DAR(p)-Prozess lässt sich direkt mit relativen
Häufigkeiten schätzen. α und ρ werden indirekt bestimmt. Die Idee besteht darin, die
Autokorrelationskoeffizienten des DAR(p)-Prozess zu bestimmen und daraus α und ρ zu
bestimmen. Da Autokorelationskoeffizienten nur für numerische Wertemengen definiert
sind, muss man zunächst ein symbolisches Alphabet mittels einer Funktion f auf Zahlen
abbilden. Man kann zeigen, dass die folgenden Ergebnisse nicht von der Wahl der Abbidlung abhängen.
11.3.1. Autokorrelationskoeffizient
Definition 11.3 Die Autokorrelationskoeffizienten eines stationären Prozesses (Xt ) sind definiert
als
E[(Xt − E[Xt ])(Xt+k − E[Xt ])]
r(k) =
(11.3)
V ar[Xt ]
Der Autokorrelationskoeffizient r(k) ist ein Maß für die lineare Abhängigkeit zwischen zwei Zufallsvariablen des Prozesses im Abstand k.
Anmerkung 11.4 Für alle Autokorrelationskoeffizienten gilt −1 ≤ r(k) ≤ 1, wobei 1 einen
perfekten positiven linearen Zusammenhang und −1 einen perfekten negativen linearen Zusammenhang bedeutet. Der Autokorrelationskoeffizient kann keine nicht-linearen Abhängigkeiten feststellen. Ein Autokorrelationskoeffizient von 0 ist also, anders als bei der Transinformation, keine
Garantie für Unabhängigkeit von Zufallsvariablen [10].
Anmerkung 11.5 Der Autokorrelationskoeffizient ist symmetrisch
r(k) = r(−k)
54
(11.4)
11.3. Parameterschätzung
11.3.2. Yule-Walker-Gleichungen
Sei (Xt0 ) ein Folge von Zufallsvariablen mit Xt0 = f (Xt ), wobei (Xt ) der stationäre DAR(p)Prozess ist. Sei µ = E[Xt0 ] der Erwartungswert. Da bei einem stationären DAR(p)-Prozess
die Marginalverteilung der Startverteilung π entspricht, gilt auch µ = E[Yt ]. Für k > 0
ergibt sich damit folgende Gleichungskette, wobei r(k) die Autokorrelationskoeffizienten
sind:
0
Xt0 − µ =Vt · (Xt−A
− µ) + (1 − Vt ) · (Yt − µ)
t
(Xt0
−
0
µ)(Xt−k
− µ) =Vt ·
0
(Xt−A
t
− µ) ·
0
(Xt−k
− µ) + (1 − Vt ) · (Yt − µ) ·
(11.5)
0
(Xt−k
− µ)
(11.6)
0
0
0
0
E[(Xt0 − µ)(Xt−k
− µ)] =E[Vt · (Xt−A
− µ) · (Xt−k
− µ)] + E[(1 − Vt ) · (Yt − µ) · (Xt−k
− µ)]
t
(11.7)
Da Vt unabhängig von den anderen Zufallsvariablen ist und Yt unabhängig von Xt0 gilt:
0
E[(Xt0 − µ)(Xt−k
− µ)]
0
0
0
= E[Vt ] · E[(Xt−A
− µ) · (Xt−k
− µ)] + E[(1 − Vt )] · E[Yt − µ] · E[Xt−k
− µ]
t
(11.8)
0
0
ρ · E[(Xt−A
− µ) · (Xt−k
− µ)] + (1 − ρ) · 0 · 0
t
0
0
ρ · E[(Xt−At − µ) · (Xt−k − µ)]
0
0
0
0
ρ(α1 · E[(Xt−1
− µ) · (Xt−k
− µ)] + ... + αp · E[(Xt−p
− µ) · (Xt−k
− µ)])
0
0
0
0
ρα1 · E[(Xt−1 − µ) · (Xt−k − µ)] + ... + ραp · E[(Xt−p − µ) · (Xt−k − µ)]
(11.9)
=
=
=
=
(11.10)
(11.11)
(11.12)
0
0
0
0
0
ραp · E[(Xt−p
− µ) · (Xt−k
− µ)]
− µ)] ρα1 · E[(Xt−1
E[(Xt0 − µ)(Xt−k
− µ) · (Xt−k
− µ)]
=
+
...
+
0
0
0
V ar[Xt ]
V ar[Xt ]
V ar[Xt ]
(11.13)
r(k) =ρα1 r(k − 1) + ... + ραp r(k − p)
(11.14)
Aus der letzten Gleichung kann man ein System von Gleichungen erstellen, die auch als
Yule-Walker-Gleichungen eines autoregressiven Prozesses bekannt sind [6]:
r(1) =ρα1 r(0) + ρα2 r(1) + ... + ραp r(p − 1)
(11.15)
r(2) =ρα1 r(1) + ρα2 r(0) + ... + ραp r(p − 2)
(11.16)
...
r(p) =ρα1 r(p − 1) + ρα2 r(p − 2) + ... + ραp r(0)
(11.17)
Sind die Autokorrelationskoeffzienten bekannt, wobei r(0) := 1, so kann man zusammen
mit der Gleichung
α1 + ... + αp = 1
(11.18)
α und ρ durch Auflösen des linearen Gleichungssystems bestimmen.
Anmerkung 11.6 Durch die p + 1 Gleichungen ist ρ stets eindeutig. Die αi sind nur im Fall
ρ = 0 nicht eindeutig. In diesem Fall findet jedoch ohnehin nie ein Rückgriff statt und der Parametervektor α wird nicht benötigt. Der Fall ρ = 1 kann nur eintreten, wenn r(0) = ... = r(p) = 1.
Beim nachfolgenden Schätzer für r(k) tritt dies nur ein, wenn der Text aus der Wiederholung eines
einzigen Zeichens besteht. Der geschätzte DAR(p)-Prozess ist also immer irreduzibel, wenn man
ihn als eine Markov-Kette auffasst.
55
11. Diskreter autoregressiver Prozess
Anstatt die r(k) mit einem herkömmlichen Schätzer für Autokorrelationen zu bestimmen,
kann eine besser auf DAR(p)-Prozesse angepasste Methode verwendet werden, die konsistentere Schätzungen liefert. Da die Resultate nicht von der Wahl der Funktion f mit
Xt0 = f (Xt ) abhängen, wird im Folgenden vereinfacht nur Xt verwendet.
Definition 11.7 Sei (Rt ) eine Folge von Zufallsvariablen mit
(11.19)
Xt = YRt
Xt ist wegen der Definition des DAR(p)-Prozess stets eine Kopie einer Zufallsvariablen des Prozesses (Yt ). Wird ein zufälliges Zeichen erzeugt, so gilt Xt = Yt . Bei einem Rückgriff auf ein
vergangenes Zeichen gilt Xt = Ys mit s < t. Rt gibt den gewählten Index von Yt an der Stelle t
an.
Satz 11.8 Der Autokorrelationskoeffizient r(k) eines DAR(p)-Prozesses entspricht der Wahrscheinlichkeit, dass in einem Abstand von k Zeichen Kopien derselben Zufallsvariablen Yt stehen, also
r(k) = p(Rt = Rt+k )
(11.20)
Für den Beweis betrachtet man zunächst folgende Gleichungen, die sich aus der Unabhängigkeit von Rt und Yt , sowie der Unabhängigkeit und Gleichverteilung aller Yt untereinander ergeben:
E[(Xt − µ)(Xt+k − µ)]
= E[(YRt − µ)(YRt+k − µ)]
=
=
t X
t+k
X
(11.21)
E[(Ym − µ)(Yn − µ)]p(Rt = m, Rt+k = n)
m=1 n=1
t
X
t
X
l=1
m=1 n=1,n6=m
E[(Yl − µ)2 ]p(Rt = Rt+k = l) +
t+k
X
(11.22)
E[(Ym − µ)(Yn − µ)]p(Rt = m, Rt+k = n)
(11.23)
= E[(Y1 − µ)2 ]p(Rt = Rt+k ) +
t X
t+k
X
E[(Ym − µ)]E[(Yn − µ)]p(Rt = m, Rt+k = n)
m=1 n=1
n6=m
(11.24)
= E[(Y1 − µ)2 ]p(Rt = Rt+k ) +
t+k
t X
X
0 · 0 · (Rt = m, Rt+k = n)
(11.25)
m=1 n=1
n6=m
= E[(Y1 − µ)2 ]p(Rt = Rt+k )
(11.26)
= V ar[Y1 ] · p(Rt = Rt+k )
(11.27)
Daraus folgt direkt
E[(Xt − µ)(Xt+k − µ)]
E[(Xt − µ)(Xt+k − µ)]
=
V ar[Xt ]
V ar[YRt ]
E[(Xt − µ)(Xt+k − µ)]
=
= p(Rt = Rt+k )
V ar[Y1 ]
r(k) =
56
(11.28)
(11.29)
11.3. Parameterschätzung
Der Satz zeigt, dass in einem DAR(p)-Prozess nur eine einfache spezielle Form der linearen Korrelation vorliegt. Es ist daher sinnvoll, für die Parameterschätzung auch nur solche einfachen linearen Korrelationen im Text zu ermitteln. Anstatt also einen allgemeinen
Schätzer für die Autokorrelation zu verwenden, schätzt man p(Rt = Rt+k ) unter der Annahme, dass der Text von einem DAR(p)-Prozess erzeugt wurde.
Im Folgenden wird ein einfacher, aber in der Praxis guter Schätzer vorgestellt.
Für n 6= m gilt wegen der Stationarität und Unabhängigkeit der Yt :
(11.30)
p(Xt = n, Xt+k = m) =p(YRt = n, YRt+k = m)
=
X
p(Rt = p, Rt+k = s)p(Yp = n, Ys = m)
(11.31)
p(Rt = p, Rt+k = s)p(Yp = n)p(Ys = m)
(11.32)
p(Rt = p, Rt+k = s)π(n)π(m)
(11.33)
p6=s
=
X
p6=s
=
X
p6=s
=p(Rt 6= Rt+k )π(n)π(m)
(11.34)
wobei π die Marginalverteilung des stationären DAR(p)-Prozess ist.
Sei für einen Text der Länge l:
Cl (k, n, m) :=(l − k)−1
l−k
X
In (Xp )Im (Xpk )
(11.35)
p=1
Bl (k, m) :=
X
(11.36)
Cl (k, n, m)
n6=m
wobei Ia (X) eine Indikatorfunktion mit Ia (X) = 1, falls X = a und Ia (X) = 0 in allen
anderen Fällen, ist.
Cl (k, n, m) entspricht der relativen Häufigkeit, dass im Text der Länge l im Abstand von k
Zeichen nach einem n ein m steht. Damit ergibt sich für n 6= m
lim Cl (k, n, m) = lim (l − k)−1
l→∞
l→∞
l−k
X
In (Xp )Im (Xpk )
(11.37)
p=1
= p(Xt = n, Xt+k = m)
(11.38)
= p(Rt 6= Rt+k ) · π(n) · π(m)
(11.39)
= (1 − r(k)) · π(n) · π(m)
(11.40)
und damit
lim Bl (k, m) =
l→∞
X
(1 − r(k)) · π(n) · π(m) = (1 − π(m)) · π(m) · (1 − r(k))
(11.41)
n6=m
und
lim
X Bl (k, m)
l→∞ m
1 − π(m)
= 1 − r(k)
(11.42)
57
11. Diskreter autoregressiver Prozess
Daraus ergibt sich der Schätzer
r̂(k) = 1 −
X Bl (k, m)
m
1 − π(m)
(11.43)
Die stationäre Marginalverteilung kann aus den relativen Häufigkeiten der Zeichen im
Text geschätzt werden.
11.4. Entropie
Da es sich bei einem DAR(p)-Prozess um eine Markov-Kette der Ordnung p handelt, ist
die Entropierate durch die bedingte Entropie der Ordnung p gegeben. Im Normalfall ist
ein DAR(p)-Prozess nicht in der Lage, den Entropieverlauf einer vorgegebenen realen Sequenz abzubilden, da die Korrelationsstruktur eines DAR(p)-Prozess sehr einfach ist. Dies
belegen auch die Testergebnisse am Ende des Kapitels.
11.5. Transinformation
Versuche zeigen, dass der Verlauf der Transinformationsfunktion für reale DNA-Sequenzen
bis zur Ordnung p gut angenähert werden kann. Die Transinformationsfunktion des DAR(p)Prozess verläuft jedoch meist unter der der DNA-Sequenz, da in einer DNA-Sequenz
komplexere Korrelationsstrukturen vorliegen. Dass überhaupt eine Annäherung möglich
ist, bedeutet aber auch, dass Korrelation, die durch Kopieren eines Zeichens entstehen
einen nicht unwesentlichen Beitrag innerhalb von DNA-Sequenzen leisten. Verantwortlich könnten dabei Duplikationen im Rahmen von Mutationen sein. Eventuell tragen auch
Wiederholungen von DNA-Abschnitten, wie sie häufig in nicht-codierenden Bereichen
vorkommen dazu bei.
Natürlichsprachige Texte lassen sich nicht durch einen DAR(p)-Prozess modellieren. Die
Korrelationen innerhalb einer Sprache basieren größtenteils nicht auf Kopien von Zeichen,
sondern sind durch den Wortschatz und eine Grammatik gegeben. Der Abstand zwischen
Wort- oder Zeichenwiederholungen lässt sich nicht durch einen DAR(p)-Prozess modellieren, da sie vom inhaltlichen Kontext abhängen.
11.6. Testergebnisse
Die Testergebnisse bestätigen vorherige Überlegungen. Die Transinformationsfunktion lässt
sich im Falle von DNA-Sequenzen in begrenztem Maße durch einen DAR(p)-Prozess modellieren. Bei natürlichsprachigen Texten können jedoch weder Entropie noch Transinformationsfunktion nachgebildet werden. Um die Qualität des Parameterschätzers zu prüfen
wurden die DAR(p)-Prozess-Parameter der künstlich erzeugten Texte geschätzt. Die Übereinstimmung ist sehr hoch, sodass der Schätzer auch in der Praxis als konsistent angesehen
werden kann.
58
11.6. Testergebnisse
Abbildung 11.1.: Vergleich der Transinformationsfunktionen
Abbildung 11.2.: Vergleich der Transinformationsfunktionen
59
11. Diskreter autoregressiver Prozess
Abbildung 11.3.: Vergleich der Transinformationsfunktionen
Abbildung 11.4.: Vergleich von bedingten Entropien abhängig von der Ordnung
60
11.6. Testergebnisse
Abbildung 11.5.: Vergleich der Autokorrelationsparameter für einen DAR(p)-Prozess
11.6.1. DNA-Sequenzen
Die Tests mit DNA-Sequenzen zeigen, dass die Qualität des DAR(p)-Prozess auch von
der verwendeten Sequenz abhängt. Besonders gut lässt sich die Transinformationsfunktion des menschlichen Y-Chromosoms modellieren (Fig. 11.1). Doch auch für die restlichen Chromosomen ist die Übereinstimmung des Verlaufs der Transinformationsfunktion mit der des DAR(p)-Prozess im Mittel gut. Ein Beispiel dafür ist das Chromosom 22
(Fig. 11.2). Weniger gut lässt sich die Dromaster-mRNA (Fig. 11.3) modellieren. Gut sichtbar ist jedoch die Codonstruktur. Insgesamt scheinen aber größtenteils andere nicht durch
den DAR(p)-Prozess modellierbare Faktoren für die starken Abhängigkeiten in Dromaster verantwortlich zu sein. Eine mögliche Erklärung für die unterschiedlichen Ergebnisse
könnten evolutionäre Betrachtungen liefern. Das Y-Chromosom hat im Laufe der Evolution einen Großteil seiner Reparaturfähigkeiten verloren. Dadurch sammelten sich im Laufe
der Zeit relativ viele Mutationen auf dem Chromosomen an, wodurch teilweise neue Gene
entstanden. Da die Duplikation ein wichtiger Mutationsmechanismus ist, der auch durch
einen DAR(p)-Prozess in begrenztem Umfang simuliert werden kann, könnte dies die guten Ergebnisse des Y-Chromosoms erklären. Da es sich bei der Dromaster-mRNA um eine
codierende Sequenz handelt, sind in ihr weniger Mutationen enthalten.
Der Entropieverlauf lässt sich bei allen untersuchten Sequenzen nicht mit einem DAR(p)Prozess nachbilden. Fig. 11.4 zeigt dies exemplarisch für das Chromosom 22.
Dass der Fehler bei den Transinformationskurven nicht an der Schätzmethode liegt, wird
dadurch unterstützt, dass die geschätzten Autokorrelationsparameter des DAR(p)-Prozesses
bei realen und künstlichen Sequenzen sehr gut übereinstimmen (Fig. 11.5,11.6,11.7) und
ein DAR(p)-Prozess eindeutig über diese Koeffizienten definiert ist.
11.6.2. Natürlichsprachige Texte
Wie erwartet eignen sich DAR(p)-Prozesse nicht für natürlichsprachige Texte, da die Korrelationsstrukturen einer Sprache nicht durch Duplikations-Mutationen entstanden sind.
Fig. 11.8 für die deutschen Texte aus dem Projekt Gutenberg zeigt, dass nur die Ansätze des Funktionsverlaufs übereinstimmen. Auffällig ist jedoch die Spitze bei k = 4. Im
61
11. Diskreter autoregressiver Prozess
Abbildung 11.6.: Vergleich der Autokorrelationsparameter für einen DAR(p)-Prozess
Abbildung 11.7.: Vergleich der Autokorrelationsparameter für einen DAR(p)-Prozess
Abbildung 11.8.: Vergleich der Transinformationsfunktionen
62
11.6. Testergebnisse
Abbildung 11.9.: Vergleich der Autokorrelationsparameter für einen DAR(p)-Prozess
französischen Textsatz findet sich eine ähnliche Spitze bei k = 5. Eventuell hängt dies mit
häufigen Wörtern oder Wortgruppen zusammen.
Auch im Fall natürlichsprachiger Texte stimmen die geschätzten Autokorrelationen überein (Fig. 11.9).
63
11. Diskreter autoregressiver Prozess
64
12. Ähnliche Wiederholungen
DNA-Sequenzen enthalten häufig mehrfache Wiederholungen von anderen DNA-Abschnitten.
Diese Wiederholungen sind zum Teil für Korrelationsstrukturen innerhalb der DNA-Sequenz
verantwortlich und spielen aus algorithmischer Sicht oft eine bedeutende Rolle. Für die
Erkennung von exakten Wiederholungen in einem Text gibt es effiziente Datenstrukturen
und Algorithmen. Durch Evolutionsprozesse kann es jedoch zu Veränderungen im Erbgut
kommen. Auch Wiederholungen können von Mutationen betroffen sein. Es wäre jedoch
wünschenswert, wenn man Wiederholungen dennoch erkennen kann. Innerhalb dieser
Arbeit werden solche Wiederholungen approximate repeats (ähnliche Wiederholungen)
genannt. Der im Folgenden vorgestellte Algorithmus führt ein Modell zur Generierung
eines Textes mit ähnlichen Wiederholungen ein und schätzt die Parameter des Modells
anhand eines vorliegenden Textes. Er basiert auf mehreren Veröffentlichungen[1, 17, 3, 15,
11], aber vor allem auf ‘Compression of Strings with Approximate Repeats’ von Allison et
al..
12.1. Parameter
• Marginalverteilung der Zeichen
• Markov-Ordnung
• Übergangswahrscheinlichkeiten für das Markov-Modell
• Parameter für direct repeats
• Parameter für inverted repeats
• Parameter für mirror repeats
12.2. Theoretischer Hintergrund
Es sind diverse nahe liegende Modifikationen des Modells und Algorithmus denkbar.
Nachfolgend wird hauptsächlich die im Rahmen dieser Arbeit implementierte Version
vorgestellt.
Die Grundidee besteht darin, einen Automaten zu definieren, der grundsätzlich gemäß einem Markov-Modell zufällig Zeichen erzeugt, aber auch eine gewisse Wahrscheinlichkeit
besitzt, eine Wiederholung zu starten. Die Startposition von der kopiert wird, wird gleichverteilt ausgesucht. Die aktuelle Position, von der kopiert werden soll, wird im Folgenden
Kopierposition genannt. Während sich der Automat in einer Wiederholung befindet, sind
eine Reihe von Operationen möglich:
65
12. Ähnliche Wiederholungen
• Kopieren des Zeichens an der aktuellen Kopierposition
• Abändern des Zeichens an der Kopierposition, also Schreiben eines zufälligen neuen
Zeichens; Kopierposition wird erhöht
• Einfügen eines neuen zufälligen Zeichens unter Beibehaltung der Kopierposition
• Überspringen der Kopierposition, also kein Zeichen wird geschrieben; Kopierposition wird erhöht
Nachdem mindestens ein Zeichen kopiert, abgeändert oder eingefügt wurde, besteht nach
jeder weiteren Operation eine gewisse Wahrscheinlichkeit, dass die Wiederholung endet
und wieder zufällig Zeichen erzeugt werden. Durch die Bedingung, dass mindestens ein
Zeichen geschrieben werden muss, sollen leere und damit nicht sichtbare Wiederholungen
verhindert werden.
Im Rahmen dieser Arbeit wurden drei sich ähnelnde Automaten implementiert, die zeitgleich verwendet werden können. Jeder Automat steht für einen Wiederholungstyp. Je
mehr Automaten, desto mehr Parameter hat das Modell jedoch und desto schwieriger
wird die Parameterschätzung. Prinzipiell ist eine beliebige Anzahl Wiederholungsautomaten denkbar. Die im Rahmen dieser Arbeit implementierten Automaten sind: direct
repeats (normale Wiederholungen), mirror repeats (gespiegelte Wiederholungen) und inverted repeats (mirror repeat mit invertierten Zeichen). Ein invertiertes Zeichen ist im Falle
einer DNA-Sequenz die komplementäre Base.
Die drei Automaten sind ähnlich aufgebaut mit der Ausnahme, dass die beiden Rückwärtsautomaten die Kopierposition erniedrigen und nicht erhöhen. Der inverted repeats
Automat vergleicht und kopiert invertierte Zeichen. Bei den Rückwärts-Wiederholungen
endet die Wiederholung automatisch, wenn die Kopierposition kleiner Null wird.
Im Folgenden wird das Verfahren exemplarisch für den einfachen Automaten mit direct
repeats vorgestellt.
Anmerkung 12.1 Hauptvariationsmöglichkeit für das Modell ist die Definition eines komplexeren Automaten zur Erzeugung von Repeats. Der vorgestellte Automat modelliert einfache EditOperationen, die unabhängig von der Vergangenheit der Wiederholungen ausgewählt werden. Ein
verbesserter Automat könnte beispielsweise die Wahrscheinlichkeit eines Wiederholungsendes mit
wachsender Länge der Wiederholung höher werden lassen, um eine nicht-geometrische Verteilung
der Wiederholungslängen zu erreichen.
Als Parameter für das Modell benötigt man
• die Wahrscheinlichkeit für den Beginn einer Wiederholung
• die Wahrscheinlichkeit für das Ende einer Wiederholung
• die Verteilung der Operationen innerhalb einer Wiederholung
• die Übergangswahrscheinlichkeiten und Startverteilung der zu Grunde liegenden
Markov-Kette.
66
12.3. Parameterschätzung
Die Startposition wird vereinfachend gleichverteilt aus allen Position bis zur aktuellen
Schreibposition gewählt.
Die Implementierung eines Generators, der nach dem vorgegeben Modell Texte erzeugt,
ist damit relativ einfach und direkt. Es ist gibt nur einige Punkte, auf die man achten muss:
• Die Kopierposition muss stets kleiner als die Schreibposition sein. Ist die Kopierposition nur um eins kleiner als die Schreibposition, dann darf die Kopierposition
nicht übersprungen werden. Eine einfache Lösung besteht darin, die Operation auszuschließen und die Wahrscheinlichkeiten der anderen Operationen auf 1 zu normieren.
• Ebenso muss man bei der Veränderungs-Operation darauf achten, dass man das Zeichen an der Kopierposition ausschließt und die Wahrscheinlichkeiten der anderen
Zeichen normalisiert.
• Eine Wiederholung darf erst enden, wenn mindestens ein Zeichen geschrieben wurde. Dies kann auch nach einer Einfügen-Operation geschehen, ohne das tatsächlich
ein Zeichen kopiert wurde.
Anmerkung 12.2 Um die Zahl der Parameter zu reduzieren, wird einer Einfüge-Operation die
gleiche Wahrscheinlichkeit zugeordnet wie einer Überspringen-Operation. Dies wird durch das dem
Repeat-Modell zu Grunde liegende Alignment-Modell von Yee et al.[17] gerechtfertigt. Demnach
sind Einfügen und Überspringen dieselben Operationen aus verschiedenen Sichtweisen.
12.3. Parameterschätzung
Ein gutes Anschauungsmittel für den Algorithmus zur Parameterschätzung ist der RepeatGraph (Fig. 12.1).
Jeder Pfad im Wiederholungsgraphen ist eine Erklärung des Textes unter dem RepeatModell. Ein Pfad besteht aus einer Abfolge von Operationen, die theoretisch den Text
erzeugt haben könnten. Die Wahrscheinlichkeit eines Pfades bei gegebenen Parametern
ergibt sich aus dem Produkt der Wahrscheinlichkeiten der einzelnen Operationen des Pfades. Die Wahrscheinlichkeit für den gesamten Text ergibt sich aus der Summe der Pfadwahrscheinlichkeiten.
Anmerkung 12.3 In der im Rahmen dieser Arbeit implementierten Version werden drei Automaten verwendet. Aus diesem Grund besitzt der Graph eigentlich drei Repeat-Bereiche. Aus einem
Basiszustand führen Pfeile in alle drei Wiederholungsbereiche. Dadurch findet in etwa eine Verdreifachung der Knoten- und Kantenanzahl statt.
Eine Möglichkeit für die Parameterschätzung besteht nun darin, die Wahrscheinlichkeiten
der Operationen so zu wählen, dass die Wahrscheinlichkeit des Textes unter diesem Modell maximal ist. Man sucht also diejenige Parameterkombination, die den Text am wahrscheinlichsten produziert hat. Dieses Prinzip wird auch Maximum-Likelihood-Prinzip genannt. Die Anzahl der Pfade im Repeatgraphen ist jedoch quadratisch in der Länge des
Textes und die Wahrscheinlichkeiten der einzelnen Pfade sind nicht bekannt, sodass man
67
12. Ähnliche Wiederholungen
Abbildung 12.1.: Der Repeat-Graph in Anlehnung an Allison et al.[1]
Bx: Basiszustand außerhalb einer Wiederholung, Position x im Text
Sx: Startzustand einer Wiederholung (keine Ende-Kante), Kopierposition x
Wx: interner Wiederholungszustand, Kopierposition x
Einf(A): Einfügen eines Zeichens A
Übspr: Überspringen einer Kopierposition
Kopn: Kopieren des Zeichens
Änd(A,B): Abändern des Zeichens A zum neuen Zeichen B
Start: Wiederholungsstart
Ende: Wiederholungsende
68
12.3. Parameterschätzung
keine direkte Formel für die Berechnung einer optimalen Parameterkombination angeben kann. Stattdessen wird ein so genannter Expectation-Maximation-Algorithmus (EMAlgorithmus) verwendet, der iterativ eine optimale Lösung annähert. Genauer gesagt handelt es sich bei dem verwendeten Algorithmus um eine modifizierte und optimierte Variante des des Baum-Welch-Algorithmus[16]. Im Rahmen dieser Arbeit wird nicht auf
die genaue Theorie der erwartungsmaximierenden Algorithmen eingegangen. Stattdessen wird das speziell für dieses Modell verwendete Verfahren vorgestellt.
Das Verfahren führt im Wesentlichen in jeder Iteration folgende logische Schritte aus:
• Anhand der geschätzten Parameter der letzten Iteration bzw. der Startverteilung in
der ersten Iteration werden die Wahrscheinlichkeiten der Pfade bestimmt.
• Für jeden Pfad wird die Wahrscheinlichkeit des Pfades durch einen Maximum-LikelihoodSchätzer für die Parameter, sprich die Kantenwahrscheinlichkeiten, maximiert. Dies
entspricht den relativen Häufigkeiten der Kantenübergänge innerhalb des Pfades.
• Die verschiedenen ermittelten individuell maximierten Parameter werden, gewichtet durch die anfangs berechneten Wahrscheinlichkeiten der Pfade, gemittelt. Wichtig dabei ist, dass nicht die individuell maximierten Pfadwahrscheinlichkeiten für
die Gewichtung genommen werden, sondern die anfangs berechneten.
Obige Beschreibung entspricht dem, was der Algorithmus berechnet, jedoch nicht wie er
es berechnet. Um die Laufzeit und den Speicheraufwand gering zu halten, werden Schritt
eins und drei parallel ausgeführt, wobei anstatt der Wahrscheinlichkeiten die Anzahl der
Kantenübergänge gemittelt wird. Schritt zwei wird zum Schluss für die gemittelten Anzahlen der Kantenübergänge durchgeführt.
Es werden mit Hilfe von dynamischer Programmierung alle Pfade des Wiederholungsgraphen gleichzeitig traversiert. Der Algorithmus arbeitet den Graphen zeilenweise ab.
Dadurch müssen immer nur zwei Zeilen im Speicher gehalten werden, was den Speicheraufwand linear in der Länge des Textes macht. Für jeden Knoten einer Zeile wird neben
der erwarteten Anzahl der Kanten jeden Typs über die der Knoten erreicht wurde auch
die Wahrscheinlichkeit gespeichert, diesen Knoten zu erreichen. Führen mehrere Pfade in
einen Knoten, so wird für jeden Kantentyp die mittlere Anzahl gewichtet nach der Wahrscheinlichkeit der Pfade genommen. Dies entspricht der erwarteten Anzahl der Übergänge, die nötig sind um den Knoten zu erreichen. In der letzten Zeile des Graphen gibt es
(n + 1) Knoten, wobei n die Länge des Textes ist. Das gewichtete Mittel der Knoten in der
letzten Reihe ergibt die erwartete Anzahl der Übergänge für den gesamten Text.
Man erhält durch die relativen Häufigkeiten der erwarteten Anzahl der Kantenübergänge
einen neuen Schätzer für die Kantenwahrscheinlichkeiten. Die neuen Kantenwahrscheinlichkeiten bewirken jedoch eine neue Verteilung für die möglichen Pfade. Der Prozess
kann fortgesetzt werden bis sich die Wahrscheinlichkeiten nicht mehr wesentlich ändern
oder eine maximale Anzahl Iterationen erreicht wurde. Die Theorie hinter dem BaumWelch-Algorithmus garantiert, dass sich die Gesamtwahrscheinlichkeit des Textes in jedem Schritt erhöht. Um die Anzahl der Iterationen gering zu halten, sollten die Startwerte
plausibel und möglichst nahe dem tatsächlichen Wert gewählt werden.
69
12. Ähnliche Wiederholungen
12.4. Komplexität
Der größte Kritikpunkt an dem vorgestellten Model ist seine Zeitkomplexität bei der Parameterschätzung. Die Zeitkomplexität ist linear in der Anzahl der Knoten. Die Anzahl
der Knoten wiederum ist quadratisch in der Länge des Textes. Somit ist der Algorithmus
quadratisch in der Länge des Textes. Da immer nur zwei Reihen des Graphen gespeichert
werden müssen, hat der Algorithmus linearen Speicheraufwand.
12.4.1. Beschleunigung des Schätzvorgangs
Bei langen Sequenzen ist ein quadratischer Algorithmus nicht effizient genug. Ein ganzes
Chromosom kann mit dem Algorithmus faktisch nicht untersucht werden. Es ist jedoch
möglich die Laufzeit zulasten der Genauigkeit zu verringern. Kernidee ist es, nur relevante Teile des Graphen zu traversieren. Dazu definiert man eine Mindestlänge für eine
exakte Wiederholung, die nötig ist, um eine Region im Graphen zu aktivieren. Es werden
nur aktive Regionen traversiert. Wird eine exakte Wiederholung mit ausreichender Länge
gefunden, wird die Region innerhalb der Reihe um die Startposition der Wiederholung
herum aktiviert. Die Knoten aktivieren die verbundenen Knoten der nächsten Reihe. Eine
aktive Region bleibt immer über eine Mindestanzahl von Reihen aktiv, bevor sie deaktiviert werden kann. Eine Region wird deaktiviert, sobald die Knoten keine signifikante
Wahrscheinlichkeit im Vergleich zum Basisknoten der Reihe haben. Der Basisknoten einer
Reihe ist der einzige Knoten außerhalb des Wiederholungsautomatenteils.
Der Grad der Beschleunigung hängt von der Mindestlänge der exakten Wiederholung, der
Größe der aktivierten Region, dem Mindestalter einer Region und der minimalen relativen
Wahrscheinlichkeit ab. Den größten Einfluss hat die Mindestlänge der exakten Wiederholung. Wird sie zu jedoch zu groß gewählt, so wird die Wahrscheinlichkeit eines Wiederholungstarts und -endes stark unterschätzt. Dies bedeutet, dass das geschätzte Modell tendenziell zu wenige, dafür aber lange Wiederholungen erzeugt. Der Performance-Gewinn
steigt schnell an, jedoch auch die Ungenauigkeit. Der Grenzbereich ist relativ schmal, sodass der Wert mit Vorsicht geändert werden sollte.
12.5. Testergebnisse
Das Modell wurde primär für DNA-Sequenz entwickelt und eignet sich nicht für die Analyse von natürlichsprachigen Texten. Zudem können nur relativ kurze Sequenzen mit dem
vollen Algorithmus analysiert werden. Aus diesem Grund wurden nur Tests mit Dromaster durchgeführt. Für das Modell wurden zwei Tests ausgeführt. Zum einen wurde überprüft, inwieweit Transinformation und Entropieverlauf nachgebildet werden. Zum anderen wurde die Parameterschätzungsmethode auf ihre Qualität überprüft
12.5.1. Test der Parameterschätzung
Die Schätzung der Parameter für das Modell ist nicht trivial und basiert nur auf einem
Näherungsalgorithmus, der eine wahrscheinliche Parameterkombination bestimmt. Es ist
daher sinnvoll die Parameterschätzung genau zu überprüfen. Dazu werden mit dem Modell künstlich Sequenzen erzeugt. Man erwartet, dass bei einer Anwendung der Parame-
70
12.5. Testergebnisse
Anfangsverteilung
Tatsächliche Verteilung
Median
Mittelwert
Start
0,005
0,015
0,0038
0,0063
Anfangsverteilung
Tatsächliche Verteilung
Median
Mittelwert
Start
0,005
0,015
0,0099
0,0090
Anfangsverteilung
Tatsächliche Verteilung
Median
Mittelwert
Anfangsverteilung
Tatsächliche Verteilung
Median
Mittelwert
Testreihe 1 - Direct Repeat
Sequenzlänge 500
Ende
Kopieren Abändern
0,05
0,97
0,01
0,075
0,95
0,025
0,0588
0,9688
0,0166
0,1878
0,9613
0,0165
Sequenzlänge 1500
Ende
Kopieren Abändern
0,05
0,97
0,01
0,075
0,95
0,025
0,0672
0,9643
0,0087
0,06463 0,9613
0,0126
Testreihe 1 - Inverted Repeat
Sequenzlänge 500
Start
Ende
Kopieren Abändern
0,005
0,05
0,97
0,01
0,005
0,01
0,98
0,01
0,0032
0,0112 0,9760
0,0173
0,0032
0,2048 0,9627
0,0185
Sequenzlänge 1500
Start
Ende
Kopieren Abändern
0,005
0,05
0,97
0,01
0,005
0,01
0,98
0,01
0,0039
0,0114 0,9819
0,0105
0,00426 0,0115 0,9809
0,0089
Einfügen
0,01
0,0125
0,0049
0,0111
Überspringen
0,01
0,0125
0,0049
0,0111
Einfügen
0,01
0,0125
0,01046
0,0131
Überspringen
0,01
0,0125
0,0105
0,0131
Einfügen
0,01
0,005
0,0054
0,0093
Überspringen
0,01
0,005
0,0054
0,0093
Einfügen
0,01
0,005
0,0055
0,0050
Überspringen
0,01
0,005
0,0055
0,0050
terschätzung auf diese künstlichen Sequenzen Parameter ähnlich den tatsächlichen Parametern berechnet werden. Es zeigt sich jedoch, dass die geschätzten Parameter innerhalb
der Menge von erzeugten Sequenzen stark schwanken. Erst durch die Betrachtung mehrerer Stichproben desselben Generators kann man über den Median und den Mittelwert der
Schätzungen näherungsweise auf die tatsächlichen Parameter schließen.
Testumgebung
Es wurden zwei Testreihen mit unterschiedlichen Modellparametern durchgeführt. Für jede Testreihe wurden jeweils zehn Sequenzen der Länge 500 bp und zehn Sequenzen der
Länge 1500 bg generiert. Die Anzahl der Iterationen wurde auf vier beschränkt. Als grundlegendes generierendes Modell wurde eine Markov-Kette vierter Ordnung verwendet.
Die anfängliche Verteilung, die tatsächlichen Parameter sowie die Mediane und Mittelwerte der ermittelten Schätzungen sind in den Tabellen 12.5.1, 12.5.1, 12.5.1, 12.5.1, 12.5.1,
12.5.1 aufgeführt. Zusätzlich wurden für die erste Testreihe Diagramme erstellt (Fig. 12.2,12.3,12.4).
71
12. Ähnliche Wiederholungen
Anfangsverteilung
Tatsächliche Verteilung
Median
Mittelwert
Anfangsverteilung
Tatsächliche Verteilung
Median
Mittelwert
Testreihe 1 - Mirror Repeat
Sequenzlänge 500
Start
Ende
Kopieren Abändern
0,005
0,05
0,97
0,01
0,0001 0,01
0,9
0,05
0,0057 0,0067 0,8878
0,0535
0,0059 0,0065 0,8871
0,0580
Sequenzlänge 1500
Start
Ende
Kopieren Abändern
0,005
0,05
0,97
0,01
0,0001 0,01
0,9
0,05
0,0002 0,3821 0,9407
0,0201
0,0003 0,3556 0,9372
0,0192
Anfangsverteilung
Tatsächliche Verteilung
Median
Mittelwert
Start
0,005
0,005
0,0047
0,0055
Anfangsverteilung
Tatsächliche Verteilung
Median
Mittelwert
Start
0,005
0,005
0,0054
0,0050
Anfangsverteilung
Tatsächliche Verteilung
Median
Mittelwert
Anfangsverteilung
Tatsächliche Verteilung
Median
Mittelwert
72
Testreihe 2 - Direct Repeat
Sequenzlänge 500
Ende
Kopieren Abändern
0,05
0,97
0,01
0,01
0,92
0,04
0,0080 0,9150
0,0425
0,0108 0,9185
0,0456
Sequenzlänge 1500
Ende
Kopieren Abändern
0,05
0,97
0,01
0,01
0,92
0,04
0,0095 0,9233
0,0383
0,0108 0,9197
0,0377
Testreihe 2 - Inverted Repeat
Sequenzlänge 500
Start
Ende
Kopieren Abändern
0,005
0,05
0,97
0,01
0,00001
0,002
0,94
0,02
0,000290 0,6068 0,9225
0,0280
0,000319 0,5390 0,9269
0,0294
Sequenzlänge 1500
Start
Ende
Kopieren Abändern
0,005
0,05
0,97
0,01
0,00001
0,002
0,94
0,02
0,001178 0,3937 0,9438
0,02329
0,001240 0,3695 0,9378
0,0257
Einfügen
0,01
0,025
0,0261
0,0274
Überspringen
0,01
0,025
0,0261
0,0274
Einfügen
0,01
0,025
0,0192
0,0217
Überspringen
0,01
0,025
0,0192
0,0217
Einfügen
0,01
0,02
0,01854
0,0179
Überspringen
0,01
0,02
0,01854
0,0179
Einfügen
0,01
0,02
0,0204
0,0212
Überspringen
0,01
0,02
0,0204
0,0212
Einfügen
0,01
0,02
0,0240
0,0218
Überspringen
0,01
0,02
0,0240
0,0218
Einfügen
0,01
0,02
0,0159
0,01821
Überspringen
0,01
0,02
0,0159
0,0182
12.5. Testergebnisse
Anfangsverteilung
Tatsächliche Verteilung
Median
Mittelwert
Start
0,005
0,01
0,0063
0,0069
Anfangsverteilung
Tatsächliche Verteilung
Median
Mittelwert
Start
0,005
0,01
0,0081
0,0078
Testreihe 2 - Mirror Repeat
Sequenzlänge 500
Ende
Kopieren Abändern
0,05
0,97
0,01
0,05
0,98
0,01
0,0448
0,9997
0,00003
0,06824 0,9937
0,00475
Sequenzlänge 1500
Ende
Kopieren Abändern
0,05
0,97
0,01
0,05
0,98
0,01
0,0452
0,9814
0,0126
0,0439
0,9741
0,0157
Einfügen
0,01
0,005
0,00003
0,0007
Überspringen
0,01
0,005
0,00003
0,0007
Einfügen
0,01
0,005
0,0040
0,00501
Überspringen
0,01
0,005
0,00404
0,0050
Abbildung 12.2.: Parameterschätzung für ein Approximate Repeats Modell: Wahrscheinlichkeit eines Repeat-Starts
Abbildung 12.3.: Parameterschätzung für ein Approximate Repeats Modell: Wahrscheinlichkeit eines Repeat-Endes
73
12. Ähnliche Wiederholungen
Abbildung 12.4.: Parameterschätzung für
Kopierwahrscheinlichkeit
ein
Approximate
Repeats
Modell:
Zunächst fällt auf, dass in der ersten Testreihe die Startwahrscheinlichkeit eines Direct
Repeat stark unterschätzt wurde. Dies liegt daran, dass der Startwert relativ weit vom tatsächlichen Wert liegt und nur vier Iterationen ausgeführt wurden. Dies soll die verhältnismäßig langsame Konvergenz des Verfahrens verdeutlichen. Bei größeren Sequenzen kann
jede Iteration sehr lange dauern.
Man kann außerdem deutlich die Schwankungen in den Schätzungen sehen. Meist liefert
der Median aller Stichproben eine gute Näherung, besonders bei den kurzen Sequenzen,
da es dort aufgrund der sehr begrenzten Länge zu statistischen Schwankungen kommen
kann. Andererseits sind Parameterschätzungen nur für kurze Sequenzen in annehmbarer
Zeit durchführbar. Bereits bei 10000 bp kann der volle Algorithmus sehr lange für eine
Iteration brauchen. Dass größere Sequenzen bessere Ergebnisse liefern, ist durch den Vergleich mit den Sequenzen der Länge 1500 bp sichtbar.
Insgesamt wurden die Parameter gut durch den Median der Stichproben bestimmt, wenn
der Startewert nicht zu weit vom tatsächlichen Wert entfernt liegt. Besonders die RepeatOperationen wurden relativ gut bestimmt, wenn die Startwahrscheinlich hoch genug war.
Dies ist annehmbar, da der Repeat bei einer geringen Startwahrscheinlichkeit ohnehin
nicht ins Gewicht fällt. Start- und Endwahrscheinlichkeiten sind dagegen instabiler, besonders bei kurzen Sequenzen. Genügend Zeit vorausgesetzt lassen sich die Parameter mit
annehmbarer Genauigkeit bestimmen. Dennoch ist die Parameterschätzung nur bedingt
praxistauglich. Selbst bei Verwendung des vollen Algorithmus ohne Beschleunigungsmethoden können die Parameter nicht zuverlässig mit einer Stichprobe geschätzt werden. In
der Realität hat man meist nicht mehrere Stichproben zur Verfügung, sodass man nicht
immer einen Median mehrerer Stichproben bestimmen kann. Zudem ist die Laufzeit des
Algorithmus quadratisch, was ihn untauglich für größere DNA-Sequenzen macht. Er eignet sich jedoch gut, um qualitative Aussagen über das allgemeine Verhältnis zwischen
Repeat-Arten und Operationen zu machen.
74
12.5. Testergebnisse
Abbildung 12.5.: Vergleich von bedingten Entropien abhängig von der Ordnung
12.5.2. Test der Entropie und Transinformation
Sowohl bezüglich Entropie als auch Transinformation bringt das Repeat-Modell keine signifikanten Vorteile (Fig. 12.5,12.6). Es verhält sich größtenteils wie die zu Grunde liegende Markov-Kette. Lediglich das Langzeitverhalten der Transinformationsfunktion unterscheidet sich von einer Markov-Kette. Sie geht nicht sofort gegen Null, sondern schwankt
um einen niedrigen Wert, verursacht durch die Repeats. Repeats können also zu weitreichenden Korrelationen beitragen.
75
12. Ähnliche Wiederholungen
Abbildung 12.6.: Vergleich der Transinformationsfunktion
76
Teil IV.
Schlussteil
77
13. Schlussbemerkung
Im Rahmen dieser Arbeit wurden verschiedene Eigenschaften und Modelle zur Untersuchung und Generierung von Texten analysiert.
Die untersuchten Eigenschaften und Modelle sind
• Entropie
• Transinformationsfunktion
• Häufigkeitsverteilungen
• Markov-Kette
• Diskreter autoregressiver Prozess
• Approximate Repeats
Dazu wurden Grundlagen der Wahrscheinlichkeitstheorie und stochastische Prozesse eingeführt. Als grundlegende Bedingung für die Untersuchung von stochastischen Prozessen
anhand einer einzigen Stichprobe wurde die Stationarität und Ergodizität des stochastischen Prozesses genannt. Für die Eigenschaften und Modelle wurden Schätzverfahren
vorgestellt und ihre Qualität diskutiert. Bedingung für alle Schätzverfahren ist eine ausreichend große Stichprobe. Jedoch sind manche Eigenschaften einfacher und genauer zu
schätzen als andere. Es wurde versucht, ein Gefühl für die Beurteilung der Qualität von
Schätzungen zu geben.
Entropie und Transinformation wurden als zentrale informationstheoretische Größen zur
Messung von statistischen Zusammenhängen eingeführt. Sie sind in der Lage verschieden Texte zu klassifizieren. Ein Beispiel ist die Unterscheidung zwischen codierenden
und nicht-codierenden DNA-Sequenzen. Bei codierenden Sequenzen ist die Codonstruktur deutlich an der Transinformationsfunktion ablesbar. Dagegen können Sprachen nicht
durch Korrelationsmuster unterschieden werden, wohl aber durch Häufigkeitsanalysen.
Die bedingte Entropie von Sprachen fällt beinahe linear und steil ab, was auf starke Korrelationen im Nahbereich innerhalb eines Wortes schließen lässt. Entropie und Transinformation wurden als Messgrößen beim Vergleich verschiedener Generatormodelle verwendet, um die Fähigkeit Korrelationsstrukturen nachzubilden zu bewerten.
Bezüglich der Generatormodelle stellte sich heraus, dass jedes der untersuchten Modelle
Vor- und Nachteile hat und nur in einem begrenzten Umfang reale Texte nachbilden kann.
Eine bessere Modellierung bedeutet meist auch eine höhere Komplexität und damit eine schwierigere Parameterschätzung. Ist das Modell zu komplex, können Parameter nicht
mehr zuverlässig geschätzt werden. Ist es zu einfach, bildet es reale Texte nur ungenügend ab. Zudem bestehen Unterschiede in der Eignung je nach Textart. DAR(p)-Prozesse
79
13. Schlussbemerkung
und das Approximate Repeats-Modell sind nur auf DNA-Sequenzen, nicht jedoch auf natürlichsprachige Texte, sinnvoll anwendbar. DAR(p)-Prozesse können die Transinformationsfunktion besonders bei nicht-codierenden DNA-Sequenzen nachbilden, da hier Mutationen und damit auch Duplikationen innerhalb der Sequenz häufiger auftreten. MarkovKetten erwiesen sich als universell einsetzbar, allerdings mit dem Nachteil, dass die Parameteranzahl exponentiell steigt. Texte, die mit dem Approximate Repeats-Modell erzeugt
wurde, verhalten sich bezüglich Transinformation und Entropie ähnlich wie die zu Grunde
liegende Markov-Kette. Allerdings fällt die Transinformationsfunktion nicht auf null ab,
was langreichweitige Korrelationen genannt wird. Die Parameterschätzung erwies sich
bei kurzen Sequenzen nur bei Verwendung des Medians mehrerer Stichproben als gut, da
die geschätzten Parameter stark schwankten. Aufgrund der quadratischen Laufzeit ist das
Modell auch nicht auf sehr lange Sequenzen anwendbar. In der Praxis zur zuverlässigen
und umfangreichen Schätzung von Texteigenschaften eignet es sich damit nur bedingt.
Zur Untersuchung der Eigenschaften und Modelle wurden Programme entwickelt, die die
vorgestellten Schätzmethoden implementieren und Texte anhand der geschätzten Parameter erzeugen können. Die vorgestellten Messergebnisse wurden mit diesem Programm
erstellt.
Die Arbeit deckt nur einige wenige grundlegende Eigenschaften und Modelle ab. Es gibt
noch eine Vielzahl anderer Ansätze und Größen zur Untersuchung von Texten. Manche
verwenden wie im Rahmen dieser Arbeit stochastische Prozesse und Automaten. Andere wenden Methoden der Analysis auf Texte an. Ein Beispiel für eine gänzlich andere
Art Texte zu untersuchen besteht in der Anwendung einer Fourier-Transformation. Diese wird insbesondere bei DNA-Sequenzen verwendet. Bei natürlichsprachigen Texten bieten sich Grammatiken als ein Werkzeug zur Strukturanalyse an. Eine thematisch mit der
Arbeit verwandte Methode besteht in der Erweiterungen des DAR-Prozesse zu DARMAModellen. Es gibt noch eine Vielzahl anderer Arbeiten in diesem Feld, sodass diese Arbeit
nur einen kleinen Einblick in grundlegende Methoden und Ansätze darstellt.
Eine Eigenschaft, die aktuell im Zusammenhang mit DNA-Sequenzen untersucht wird
sind Korrelationen mit langer Reichweite. In DNA-Sequenzen kann man beobachten, dass
die Transinformationsfunktion tendenziell einem Potenzgesetz folgt. Es gibt verschiedene Ansätze dies zu erklären. Ein Vorschlag macht häufige Wiederholungen als Ursache
weitreichender Korrelationen verantwortlich. Jedoch weiß man heute, dass eine zufällige Verteilung von Wiederholungen nicht solche Korrelationen hervorrufen kann. Sollten
Wiederholungen tatsächlich die Ursache sein, so müsste es eine komplexere Struktur in
der Verteilung der Wiederholungen geben[7].
Es ist offensichtlich nicht mögliche einen einzigen Generator zu erstellen, der alle gewünschten Eigenschaften besitzt und dessen Parameter in annehmbarer Zeit mit ausreichender Genauigkeit ermittelt werden können. Die Wahl des Generators sollte also von
der Aufgabenstellung abhängen. Eine Sammlung verschiedener Generatoren könnte aber
zukünftigen Projekten als Werkzeug zur Analyse von Texten und Sequenzen dienen. Das
im Rahmen dieser Arbeit entwickelte Programm kann als ein Vorläufer für eine umfangreiche Bibliothek von Textgeneratoren und Analysemethoden dienen.
80
Anhang
Abbildung 13.1.: Vergleich von bedingten Entropien abhängig von der Ordnung
81
13. Schlussbemerkung
Abbildung 13.2.: Vergleich der Transinformationsfunktion aller Chromosome
82
Abbildung 13.3.: Vergleich der Transinformationsfunktion aller Chromosome ohne Skala
übereinander - Die Gemeinsamkeiten sind deutlich erkennbar
83
Literaturverzeichnis
[1] A LLISON, L. ; E DGOOSE, T. ; D IX, T. I.: Compression of Strings with Approximate
Repeats. In: Intelligent Systems in Mol. Biol. (1998), S. 8–16
[2] D EHNERT, M. ; H ELM, W. E. ; H ÜTT, M.-Th.: A discrete autoregressive process as
a model for short-range correlations in DNA sequences. In: Physica A 327 (2003), S.
535–553
[3] D IX, T. I. ; P OWELL, D. R. ; A LLISON, L. ; B ERNAL, J. ; J AEGER, S. ; S TERN, L.: Comparative analysis of long DNA sequences by per element information content using
different contexts. In: BMC Bioinformatics 8 (2007)
[4] D UNNING, T.: Statistical Identification of Language / New Mexico State University.
1994. – Forschungsbericht
[5] E BELING, W. ; F REUND, J. ; S CHWEITZER, F.: Komplexe Strukturen: Entropie und Information. Teubner Stuttgart, 1998
[6] E SHEL, Gidon: The Yule Walker Equations for the AR Coefficients. – Retrieved on March
2010 from http://www.stat.sc.edu/∼vesselin/STAT520_YW.pdf
[7] H ERZEL, H. ; E BELING, W. ; S CHMITT, A. O.: Entropies of biosequences: The role of
repeats. In: Physical Review E 50 (1994), Nr. 6, S. 5061–5071
[8] H ÜTT, M.-Th. ; D EHNERT, M.: Methoden der Bioinformatik: Eine Einführung. 1. Springer,
2006
[9] J ACOBS, P. A. ; L EWIS, P. A. W.: Stationary Discrete Autoregressive-Moving Average
Time Series Generated By Mixtures. In: Journal of Time Series Analysis 4 (1983), Nr. 1,
S. 19–36
[10] L I, W.: Mutual Information Function Versus Correlation Function. In: Journal of Statistical Physics 60 (1990), Nr. 5-6, S. 823–837
[11] P OWELL, David: Approximate Repeats Model implementation. ftp://ftp.csse.
monash.edu.au/software/DNAcompression/. Version: 2005
[12] S CHICKINGER, T. ; S TEGER, A.: Diskrete Strukturen - Band 2. Springer Verlag, 2001
[13] S CHÜRMANN, T. ; G RASSBERGER, P.: Entropy estimation of symbol sequences. In:
CHAOS 6 (1996), Nr. 3, S. 414–427
[14] S HANNON, C. E. ; P ETIGARA, N. ; S ESHASAI, S.: A mathematical theory of communication. In: Communication, Bell System Technical Journal 27 (1948), S. 379–423
85
Literaturverzeichnis
[15] S TERN, L. ; A LLISON, L. ; C OPPEL, R. L. ; D IX, T. I.: Discovering patterns in Plasmodium falciparum genomic DNA. In: Molecular and Biochemical Parasitology 118 (2001), S.
175–186
[16] W ELCH, Lloyd R.: Hidden Markov Models and the Baum-Welch Algorithm. 2003
[17] Y EE, C. N. ; A LLISON, L.: Reconstruction of strings past. In: CABIOS 8 (1993), Nr. 1,
S. 1–7
86
Herunterladen