Formale Sprachen

Werbung
Formale Sprachen
Script, Kapitel 4
• Grammatiken
– erzeugen Sprachen
– eingeführt von Chomsky zur Beschreibung natürlicher Sprachen
– bedeutend für die Syntaxdefinition von Programmiersprachen
(Compilerbau)
• Automaten
– akzeptieren Sprachen
– enge Beziehungen zu Grammatiken
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
117
Beispiel für eine Grammatik
<Satz> → <Subjekt><Prädikat><Objekt>
<Subjekt> → <Artikel><Attribut><Substantiv>
<Prädikat> → jagt
<Objekt> → <Artikel><Attribut><Substantiv>
<Artikel> → ε | der | die | das
<Attribut> → ε | <Adjektiv> | <Adjektiv><Attribut>
<Adjektiv> → kleine | bissige | große
<Substantiv> → Hund | Katze
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
118
Syntaxbaum für den Satz
der kleine bissige Hund jagt die große Katze
!"
#$! %
&! '()
0.."1-.!%
&.. '+(#
*+(, -..
0
(2
/+.(,
/3
&!&.3
4 '
3!56
7 *
"'
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
119
Definition Grammatik
Eine Grammatik ist ein 4-Tupel G = (V, Σ, P, S), wobei
• V ein Alphabet ist (Nichtterminalalphabet oder Alphabet der Variablen),
• Σ ein Alphabet ist (Terminalalphabet),
• V ∩ Σ = ∅ gilt,
• P eine endliche Teilmenge von ((V ∪ Σ)∗ \ Σ∗) × (V ∪ Σ)∗ ist
(Menge der Regeln),
• S ∈ V ist (die Startvariable oder Axiom).
Zur besseren Lesbarkeit werden wir u → v ∈ P für (u, v) ∈ P schreiben.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
120
Definitionen direkte Ableitung einer Grammatik
Sei G = (V, Σ, P, S) eine Grammatik und u, v ∈ (V ∪ Σ)∗ Wörter. Dann
gilt u =⇒G v (in Worten: u erzeugt bezüglich G direkt v) genau dann,
wenn
(i) u = γ1αγ2 mit γ1, γ2 ∈ (V ∪ Σ)∗,
(ii) v = γ1βγ2 und
(iii) α → β ∈ P ist.
Wenn keine Verwechslungsgefahr besteht, schreiben wir statt “=⇒G” einfach “=⇒”.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
121
Definitionen Ableitung und erzeugte Sprache
Sei G = (V, Σ, P, S) eine Grammatik und u, v ∈ (V ∪ Σ)∗ Wörter. Dann gilt
∗
u =⇒G v (in Worten: u erzeugt bezüglich G in endlich vielen Schritten v)
genau dann, wenn u = v gilt oder es ein n ∈ N und Wörter w0, w1, . . . , wn
gibt, so dass
u = w0 =⇒G w1 =⇒G w2 =⇒G · · · =⇒G wn = v
gilt.
Sei G = (V, Σ, P, S) eine Grammatik. Die von G erzeugte Sprache L(G)
wird definiert als
∗
L(G) = {w ∈ Σ∗ | S =⇒G w}.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
122
Beispiel einer Grammatik
Es sei
G = ({S}, {a, b}, {S → aSb, S → ab}, S)
eine Grammatik, dann gilt
L(G) = {anbn | n ≥ 1}.
Eine Ableitung für das Wort a4b4 sieht dann so aus:
S =⇒ aSb =⇒ aaSbb =⇒ aaaSbbb =⇒ aaaabbbb.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
123
Weiteres Beispiel einer Grammatik
Es sei
G = ({S}, {a}, {S → aaS, S → a}, S)
eine Grammatik, dann gilt
L(G) = {a2n+1 | n ≥ 0}.
Eine Ableitung für das Wort a7 sieht dann so aus:
S =⇒ aaS =⇒ aaaaS =⇒ aaaaaaS =⇒ aaaaaaa.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
124
Weiteres Beispiel einer Grammatik
Es sei
G = ({S}, {a, b}, {S → aS, S → bS, S → a, S → b}, S)
eine Grammatik, dann gilt
L(G) = {a, b}+ = {w ∈ {a, b}∗ | w 6= ε}.
Eine Ableitung für das Wort aaba sieht dann so aus:
S =⇒ aS =⇒ aaS =⇒ aabS =⇒ aaba.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
125
Komplexeres Beispiel einer Grammatik
Es sei die Grammatik G = ({S, B, C}, {a, b, c}, P, S) mit
P = {S → aSBC, S → aBC, CB → BC, aB → ab,
bB → bb, bC → bc, cC → cc}
gegeben. Wir können zum Beispiel die Ableitung
S =⇒ aSBC =⇒ aaSBCBC =⇒ aaaBCBCBC
=⇒ aaaBBCCBC =⇒ aaaBBCBCC =⇒ aaaBBBCCC
=⇒ aaabBBCCC =⇒ aaabbBCCC =⇒ aaabbbCCC
=⇒ aaabbbcCC =⇒ aaabbbccC =⇒ aaabbbccc
aufstellen, also gehört das Wort aaabbbccc = a3b3c3 zur erzeugten Sprache
L(G), es gilt also a3b3c3 ∈ L(G).
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
126
Komplexeres Beispiel einer Grammatik – Erzeugte Sprache Teil 1
Vermutung: L(G) = {anbncn | n ≥ 1}.
Zunächst wird L(G) ⊇ {anbncn | n ≥ 1} gezeigt,
∗
d.h. S =⇒ anbncn für jedes n ≥ 1.
• Wende (n − 1)-mal Regel S → aSBC und dann einmal S → aBC an,
∗
d.h.: S =⇒ an(BC)n.
• Solange wie möglich wende CB → BC an,
∗
d.h.: an(BC)n =⇒ anB nC n.
• Wende einmal aB → ab und (n − 1)-mal bB → bb an,
∗
d.h.: anB nC n =⇒ anbnC n.
• Wende einmal bC → bc und (n − 1)-mal cC → cc an,
∗
d.h.: anbnC n =⇒ anbncn.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
127
Komplexeres Beispiel einer Grammatik – Erzeugte Sprache Teil 2
Schwieriger zu zeigen ist die Behauptung L(G) ⊆ {anbncn | n ≥ 1}.
• Für jedes erzeugbare Wort α gilt: |α|a = |α|b + |α|B = |α|c + |α|C .
• In jedem erzeugbaren Wort stehen die a’s am Anfang.
• Ein Symbol B kann nur dann in ein b umgewandelt werden, wenn
unmittelbar links vor ihm ein a oder ein b steht, d.h. kein c steht vor
einem b.
• Mathematisch exakter Beweis erfolgt durch vollständige Induktion.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
128
Chomsky-Hierarchie
Definition: Eine Grammatik G = (V, Σ, P, S) heißt vom
• Typ 0, wenn sie keinen Beschränkungen unterliegt,
• Typ 1 oder kontextabhängig, falls für jede Regel α → β gilt: |α| ≤ |β|,
mit der Ausnahme S → ε, falls S nicht auf der rechten Seite einer Regel
vorkommt.
• Typ 2 oder kontextfrei, wenn jede Regel von der Form A → β mit A ∈ V
und β ∈ (V ∪ Σ)∗ ist.
• Typ 3 oder regulär, wenn jede Regel von der Form A → wB oder A → w
mit A, B ∈ V und w ∈ Σ∗ ist.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
129
Chomsky-Hierarchie – Fortsetzung
Definition: Eine Sprache L ⊆ Σ∗ heißt vom Typ 0 (Typ 1, Typ 2, Typ 3),
falls es eine Grammatik G = (V, Σ, P, S) vom Typ 0 (Typ 1, Typ 2, Typ 3)
gibt, so dass L = L(G) gilt.
Notation: Typ i: Familie der Sprachen vom Typ i ∈ {0, 1, 2, 3}
Satz (Chomsky-Hierarchie). Es gilt:
Typ 3 ( Typ 2 ( Typ 1 ( Typ 0.
Der Beweis des Satzes wird in den folgenden Kapiteln erbracht.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
130
Typ-0-Grammatiken und Turingmaschinen
Satz
Eine Sprache ist genau dann eine Typ-0-Sprache,
wenn sie von einer NTM akzeptiert werden kann,
d.h. wenn sie rekursiv aufzählbar ist.
Beweisidee
• Ableitung einer Grammatik wird in umgekehrter Reihenfolge durch eine
NTM simuliert.
• Konfigurationenfolge eines akzeptierenden Laufs einer NTM wird in
umgekehrter Reihenfolge durch eine Grammatik erzeugt.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
131
Simulation einer Grammatik durch eine NTM
• gegeben: Grammatik G = (V, Σ, P, S)
• Konstruiere NTM M = (Z, Σ, V ∪ Σ ∪ {}, δ, z0, , {q})
• Arbeitsweise von M in einer Phase:
Rate eine Regel α → β und ersetze ein Vorkommen von β durch α,
d.h. Konfigurationsänderung: z0w1βw2 `∗ z0w1αw2
• M akzeptiert, wenn nur noch S auf dem Band steht.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
132
Linear beschränkte Automaten
Definition Eine nichtdeterministische Turingmaschine M heißt linear beschränkter Automat (LBA), wenn bei jedem Lauf von M nur die Speicherzellen der Eingabe benutzt werden.
Offenes Problem (LBA-Problem):
Sind deterministische LBA so mächtig wie nichtdeterministische LBA?
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
133
Typ-1-Grammatiken und LBA
Satz
Eine Sprache ist genau dann eine Typ-1-Sprache,
wenn sie von einem linear beschränkten Automaten
akzeptiert werden kann.
Beweisidee
• Gleiche Konstruktionen wie für Typ-0-Grammatiken und NTM.
• Nichtverkürzende Regeln erlauben den beschränkten Platzbedarf.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
134
Das Wortproblem
Definition (Wortproblem)
Gegeben: Grammatik G = (V, Σ, P, S) vom Typ i, i ∈ {0, 1, 2, 3},
und Wort w ∈ Σ∗,
Frage: Gilt w ∈ L(G)?
Folgerung Das Wortproblem für Typ-0-Grammatiken ist semi-entscheidbar,
aber nicht entscheidbar.
Satz Das Wortproblem für Typ-1-Grammatiken ist entscheidbar.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
135
Weitere Entscheidungsprobleme
Leerheitsproblem:
Gegeben: Grammatik G.
Frage: Gilt L(G) = ∅?
Schnittproblem:
Gegeben: Zwei Grammatiken G1, G2.
Frage: Gilt L(G1) ∩ L(G2) = ∅?
Endlichkeitsproblem:
Gegeben: Grammatik G.
Frage: Ist L(G) endlich?
Äquivalenzproblem:
Gegeben: Zwei Grammatiken G1, G2.
Frage: Gilt L(G1) = L(G2)?
Satz: Das Leerheitsproblem, das Endlichkeitsproblem, das Äquivalenzproblem und das Schnittproblem sind unentscheidbar für Typ-1-Grammatiken.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
136
Reguläre Sprachen
• Reguläre Sprachen (Typ-3-Sprachen)
– haben große Bedeutung in Textverarbeitung und Programmierung
(z.B. lexikalische Analyse)
– besitzen für viele Entscheidungsprobleme effiziente Algorithmen
• Äquivalenz zu endlichen Automaten
• Äquivalenz zu regulären Ausdrücken
• Grenzen der regulären Sprachen (Pumping-Lemma)
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
137
Endliche Automaten
Definition
Ein deterministischer endlicher Automat (DEA) A ist ein 5-Tupel
A = (Z, Σ, δ, z0, E). Dabei sind
• Z das Zustandsalphabet,
• Σ das Eingabealphabet mit Z ∩ Σ = ∅,
• δ : Z × Σ → Z die Zustandsüberführungsfunktion,
• z0 ∈ Z der Anfangszustand und
• E ⊆ Z die Menge der Endzustände.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
138
Interpretation der Arbeitsweise des Endlichen Automaten
.................................................................................................................................................................................................................................................................................................................................................................................
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
.............................................................................................................................................................................................................................................................................................................................................................................
...........
.....
...
...
...
....
..
...
...
...
.............................................
...
..
...
...
...
...
...
...
...
...
...
...
...
..
..........................................
a1
a2
...
ai ai+1
z
...
an
.................................................................................................................................................................................................................................................................................................................................................................................
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
............................................................................................................................................................................................................................................................................................................................................................................
...........
.....
...
...
....
..
...
...
...
...
.............................................
...
..
...
...
...
...
...
...
...
...
...
...
...
..
..........................................
a1
=⇒
für δ(z, ai ) = z 0
a2
...
ai ai+1
...
an
z0
“Turingmaschine, die die Eingabe einmal von links nach rechts liest”
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
139
Akzeptierte Sprache des Endlichen Automaten
Definition
Sei A ein deterministischer endlicher Automat A = (Z, Σ, δ, z0, E); die
erweiterte Zustandsüberführungsfunktion δ̂ : Z × Σ∗ → Z wird definiert
durch
(i) δ̂(z, ε) = z
für alle z ∈ Z,
(ii) δ̂(z, wa) = δ(δ̂(z, w), a)
für alle z ∈ Z, a ∈ Σ, w ∈ Σ∗.
Definition
Für einen DEA A = (Z, Σ, δ, z0, E) ist die von ihm akzeptierte Sprache
T (A) definiert durch
T (A) = {w ∈ Σ∗ | δ̂(z0, w) ∈ E}.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
140
Überführungsgraphen
!
" $#"% &' )(*+-,./0
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
1
/
141
Endliche Automaten – Beispiel
Es sei A der deterministische endliche Automat
A = ({z0, z1, z2, z3}, {0, 1}, δ, z0, {z2, z3}),
mit der Überführungsfunktion δ, gegeben durch folgende Tabelle.
δ z0 z1 z2 z3
0 z0 z3 z3 z0
1 z1 z2 z2 z1
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
142
DEA – Beispiel (Fortsetzung)
Der dazugehörige Graph lautet
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
143
Nichtdeterministische endliche Automaten
Definition
Ein nichtdeterministischer endlicher Automat (NEA) A ist ein 5-Tupel
A = (Z, Σ, δ, z0, E). Dabei sind
• Z das Zustandsalphabet,
• Σ das Eingabealphabet mit Z ∩ Σ = ∅,
• δ : Z × Σ → 2Z die Zustandsüberführungsfunktion,
• z0 ∈ Z der Anfangszustand und
• E ⊆ Z die Menge der Endzustände.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
144
Akzeptierte Sprache eines NEA
Definition Sei A ein NEA mit A = (Z, Σ, δ, z0, E); die erweiterte Zustandsfunktion δ̂ : Z × Σ∗ → 2Z wird definiert durch
(i) δ̂(z, ε) = {z}
(ii) δ̂(z, wa) =
für alle z ∈ Z,
S
δ(z 0, a)
das heißt
z 0 ∈δ̂(z,w)
00
= {z ∈ Z | ∃z 0 ∈ Z mit z 0 ∈ δ̂(z, w) und z 00 ∈ δ(z 0, a)}
für z ∈ Z, a ∈ Σ, w ∈ Σ∗.
Definition Für einen NEA A = (Z, Σ, δ, z0, E) sei die von ihm akzeptierte
Sprache T (A) definiert durch
T (A) = {w ∈ Σ∗ | δ̂(z0, w) ∩ E 6= ∅}.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
145
Beispiel eines NEA
Beispiel Sei A = ({z0, z1, z2}, {0, 1}, δ, z0, {z2}) ein NEA, wobei δ durch
die folgende Tabelle gegeben ist:
δ
z0
z 1 z2
0 {z0} {z2} ∅
1 {z0, z1} {z2} ∅
Der dazugehörige Graph ist:
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
146
Beispiel eines NEA – Fortsetzung
δ̂(z0, 0)
δ̂(z0, 1)
δ̂(z0, 01)
δ̂(z0, 11)
δ̂(z0, 001)
δ̂(z0, 010)
=
=
=
=
=
=
{z0}
{z0, z1}
{z0, z1}
{z0, z1, z2}
{z0, z1}
{z0, z2}
⇒
⇒
⇒
⇒
⇒
⇒
0∈
/ T (A)
1∈
/ T (A)
01 ∈
/ T (A)
11 ∈ T (A)
001 ∈
/ T (A)
010 ∈ T (A)
Die akzeptierte Sprache T (A) ist die Menge aller Wörter über {0, 1}, deren
vorletztes Symbol eine 1 ist, d. h.
T (A) = {w ∈ {0, 1}∗ | w = u1x mit u ∈ {0, 1}∗, x ∈ {0, 1}}.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
147
Äquivalenz von NEA und DEA
Satz
Jede von einem NEA akzeptierte Sprache ist auch von einem DEA akzeptierbar.
Beweis (Potenzmengen-Konstruktion)
Aus NEA A = (Z, Σ, δ, z0, E) konstruiere DEA A0 = (Z 0, Σ, δ 0, z00 , E 0):
Z0
z00
E0
δ 0(z 0, a)
= 2Z ,
= {z0},
= {z 0 ∈ Z 0 | z 0 ∩ E 6= ∅},
S
δ(z, a) für alle z 0 ∈ Z 0 und a ∈ Σ.
=
z∈z 0
Dann gilt
δˆ0({z0}, w) = δ̂(z0, w) für alle w ∈ Σ∗, d.h. T (A) = T (A0).
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
148
Beispiel NEA −→ DEA
Wir betrachten den NEA von Folie 146.
Wir konstruieren den äquivalenten DEA A0 = (Z 0, {0, 1}, δ 0, {z0}, E 0).
Bemerkung: Man braucht nur die Teilmengen von Z zu betrachten, die
von {z0} erreichbar sind (sparsame Potenzmengenkonstruktion).
δ0
{z0}
{z0, z1} {z0, z2} {z0, z1, z2}
0
{z0}
{z0, z2}
{z0}
{z0, z2}
1 {z0, z1} {z0, z1, z2} {z0, z1} {z0, z1, z2}
Z 0 = {{z0}, {z0, z1}, {z0, z2}, {z0, z1, z2}}
E 0 = {{z0, z2}, {z0, z1, z2}}
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
149
Beispiel NEA −→ DEA – Fortsetzung
Zur besseren Lesbarkeit bezeichnen wir die Zustände um:
{z0} =: q0, {z0, z1} =: q1, {z0, z2} =: q2 und {z0, z1, z2} =: q3.
A0 = ({q0, q1, q2, q3}, {0, 1}, δ 0, q0, {q2, q3})
mit
δ 0 q0 q1 q2 q3
0 q0 q2 q0 q2
1 q1 q3 q1 q3
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
150
Endliche Automaten und reguläre Grammatiken
Satz
Sei A ein NEA. Dann ist die von A akzeptierte Sprache T (A) regulär.
Beweis.
Aus NEA A = (Z, Σ, δ, z0, E) konstruiere Typ-3-Grammatik G =
(V, Σ, P, S)
mit V = Z, S = z0 und
P = {z1 → az2 | z2 ∈ δ(z1, a))} ∪ {z1 → ε | z1 ∈ E}.
∗
Es gilt z1 =⇒G wz2 genau dann, wenn z2 ∈ δ̂(z1, w).
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
151
NEA → Grammatik – Beispiel
Sei A = ({z0, z1, z2, z3}, {a, b}, δ, z0, {z3}) der DEA mit der Überführungsfunktion δ:
δ z 0 z1 z2 z3
a z 1 z1 z3 z3
b z 0 z2 z0 z3
Wir konstruieren jetzt die äquivalente Typ-3-Grammatik G = (V, Σ, P, S):
V
Σ
S
P
=
=
=
=
{z0, z1, z2, z3},
{a, b},
z0 ,
{z0 → az1, z0 → bz0, z1 → az1, z1 → bz2}
∪ {z2 → az3, z2 → bz0, z3 → az3, z3 → bz3}
∪ {z3 → ε}.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
152
Eine Normalform für reguläre Grammatiken
Lemma
Für jede reguläre Sprache L gibt es eine Typ-3-Grammatik G = (V, Σ, P, S)
mit L(G) = L, deren Regeln der folgenden Form sind:
A → aB, A, B ∈ V, a ∈ Σ oder A → ε, A ∈ V
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
153
Reguläre Grammatik −→ NEA
Satz
Sei G eine reguläre Grammatik; dann existiert ein NEA A mit T (A) = L(G).
Beweis
Für eine reguläre Grammatik G = (V, Σ, P, S) in Normalform konstruieren
wir den NEA A = (Z, Σ, δ, z0, E) wie folgt:
Z = V,
z0 = S,
E = {A ∈ V | A → ε ∈ P }
δ(A, a) = {B ∈ V | A → aB ∈ P } für A ∈ V und a ∈ Σ.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
154
Reguläre Ausdrücke
Definition (Reguläre Ausdrücke)
Sei Σ ein Alphabet, dann gilt:
(i) ∅ ist ein regulärer Ausdruck über Σ.
(ii) ε ist ein regulärer Ausdruck über Σ.
(iii) Für jedes a ∈ Σ ist a ein regulärer Ausdruck über Σ.
(iv) Wenn α und β reguläre Ausdrücke über Σ sind, so sind auch αβ, (α | β)
und (α)∗ reguläre Ausdrücke über Σ.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
155
Sprache eines regulären Ausdrucks
Definition (Sprache eines regulären Ausdrucks)
Sei Σ ein Alphabet und γ ein regulärer Ausdruck über Σ, dann wird die von
γ beschriebene Sprache L(γ) ⊆ Σ∗ wie folgt definiert.
(i) Für γ = ∅ gilt L(γ) = ∅.
(ii) Für γ = ε gilt L(γ) = {ε}.
(iii) Für γ = a mit a ∈ Σ gilt L(γ) = {a}.
(iv) Für γ = αβ gilt L(γ) = L(α) · L(β).
(v) Für γ = (α | β) gilt L(γ) = L(α) ∪ L(β).
(vi) Für γ = (α)∗ gilt L(γ) = (L(α))∗.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
156
Beispiel eines regulären Ausdrucks
L((0 | (0 | 1)∗00)) = L(0) ∪ L((0 | 1)∗00))
= L(0) ∪ (L((0 | 1)∗0)) · L(0))
= L(0) ∪ ((L((0 | 1)∗)) · L(0)) · L(0))
= L(0) ∪ (((L((0 | 1)))∗ · L(0)) · L(0))
= L(0) ∪ (((L(0) ∪ L(1))∗ · L(0)) · L(0))
= {0} ∪ ((({0} ∪ {1})∗ · {0}) · {0})
= {0} ∪ (({0, 1}∗ · {0}) · {0})
= {0} ∪ ({0, 1}∗ · {00}),
Das heißt, die vom Ausdruck (0 | (0 | 1)∗00) beschriebene Sprache ist die
Menge aller Wörter über dem Alphabet {0, 1}, die gleich 0 sind oder auf 00
enden.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
157
Äquivalenz regulärer Ausdrücke
Definition
Zwei reguläre Ausdrücke β und γ heißen äquivalent, in Zeichen β ≡ γ,
wenn L(β) = L(γ) gilt.
Beispiel:
((a | b))∗ ≡ ((a | b)(a | b))∗((a | b) | ε)
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
158
Rechenregeln für reguläre Ausdrücke
(A | (B | C)) ≡ ((A | B) | C)
A(B | C) ≡ (AB | AC)
(B | C)A ≡ (BA | CA)
(A | B) ≡ (B | A)
(A | A) ≡ A
(A | ∅) ≡ (∅ | A) ≡ A
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
A∅ ≡ ∅A ≡ ∅
Aε ≡ εA ≡ A
((A)∗)∗ ≡ (A)∗
(∅)∗ ≡ ε
((A | ε))∗ ≡ (A)∗
(A)∗ ≡ (ε | A)A∗ ≡ ((ε | A))∗A
159
Bemerkung zu regulären Ausdrücken
1. Wir vereinbaren, dass wir Klammern, die nicht notwendigerweise gebraucht werden, weglassen können. Zum Beispiel können wir statt
(α | (β | γ)) auch (α | β | γ) schreiben. Wir schreiben auch L(α | β)
statt L((α | β)) sowie a∗ statt (a)∗ für a ∈ Σ.
2. Wir benutzen die abkürzende Schreibweise αn für αα
. . . α}.
| {z
n-mal
3. Wir benutzen die abkürzende Schreibweise α+ für α∗α.
4. In der Literatur findet man oft auch abweichende Schreibweisen der
regulären Ausdrücke. Zum Beispiel findet man für (α | β) auch (α + β)
oder auch (α ∪ β). Auch wird natürlich oft α · β für αβ zugelassen.
5. Oft wird in der Literatur zwischen regulärem Ausdruck und beschriebener
Sprache nicht unterschieden, das heißt, man identifiziert einen regulären
Ausdruck mit der beschriebenen Sprache.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
160
Weitere Beispiele regulärer Ausdrücke
(a | b)∗ beschreibt die Menge aller Wörter über dem Alphabet {a, b}.
(a | b)+ beschreibt die Menge aller Wörter über dem Alphabet {a, b}, die
nicht dem leeren Wort entsprechen.
(a | b)∗aba(a | b)∗ beschreibt die Menge aller Wörter über dem Alphabet
{a, b}, die das Teilwort aba haben.
(a | b)∗a(a | b)2 beschreibt die Menge aller Wörter über dem Alphabet
{a, b}, deren drittletztes Symbol ein a ist.
((a | b)(a | b))∗ beschreibt die Menge aller Wörter über dem Alphabet
{a, b}, deren Länge gerade ist.
(b | ε)(ab)∗(a | ε) beschreibt die Menge aller Wörter über dem Alphabet
{a, b}, die nicht das Teilwort aa und nicht das Teilwort bb enthalten.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
161
Satz von Kleene
Satz (Kleene)
Die Menge der durch reguläre Ausdrücke beschreibbaren Sprachen
ist genau die Menge der regulären Sprachen.
Beweis (Konstruktionen)
• regulärer Ausdruck → NEA: Induktion über Aufbau der Ausdrücke
• NEA → regulärer Ausdruck: Lösung von Gleichungssystemen
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
162
Regulärer Ausdruck → NEA
1. Automaten für die Ausdrücke ∅, ε und a:
2. Seien Aα bzw. Aβ NEA mit T (Aα) = L(α) bzw. T (Aβ ) = L(β)
Konstruiere NEA für αβ, (α | β) und α∗
(formale Konstruktion: siehe Skript)
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
163
Regulärer Ausdruck → NEA – Fortsetzung
(a) Automat für αβ:
• Verschmelze Endzustände von Aα mit Startzustand von Aβ . (“Reihenschaltung”)
• neuer Startzustand: Startzustand von Aα
• neue Endzustände: Endzustände von Aβ
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
164
Regulärer Ausdruck → NEA – Fortsetzung
(b) Automat für (α | β):
• Neuer Startzustand mit Kanten zu den Nachfolgern der Startzustände
von Aα und Aβ (“Parallelschaltung”).
• neue Endzustände: Endzustände von Aα und Aβ
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
165
Regulärer Ausdruck → NEA – Fortsetzung
(c) Automat für (α)∗:
• Füge für jede Kante zu einem Endzustand eine gleiche Kante zum
Startzustand ein.
• neuer Endzustand: Startzustand von Aα
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
166
NEA → Regulärer Ausdruck
• Aufstellen eines “linearen Gleichungssystems” für einen NEA
• Auflösen des linearen Gleichungssystems → regulärer Ausdruck
• (Wegen der besseren Lesbarkeit geben wir nicht die Ausdrücke, sondern
ihre Sprachen an.)
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
167
Gleichungssystem zu einem NEA
NEA A = (Z, Σ, δ, z0, E)
Für z ∈ Z sei Az = (Z, Σ, δ, z, E) und Lz = T (Az ).
Für alle z ∈ Z gilt:
Lz =
[
[
a · Lz0 ∪ Ez
z 0 ∈Z a:z 0 ∈δ(z,a)
(
∅,
mit Ez =
{ε},
falls z ∈
/E
sonst
Lineares Gleichungssystem mit den Variablen Lz , z ∈ Z.
Falls eine eindeutige Lösung existiert, so ist durch Lz0 der gesuchte reguläre
Ausdruck bekannt.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
168
Gleichungssystem zu einem NEA-Beispiel
Lz0 = {a} · Lz0 ∪ {b} · Lz1 ∪ {ε}
Lz1 = {b} · Lz1 ∪ {a} · Lz2 ∪ {ε}
Lz2 = {a} · Lz0 ∪ {b} · Lz3 ∪ {ε}
Lz3 = {a, b} · Lz3
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
169
Auflösen linearer Gleichungssysteme
Lemma. Für B, C ⊆ Σ∗ mit ε 6∈ B gilt:
Die Gleichung L = B · L ∪ C besitzt die einzige Lösung L = B ∗ · C.
Auflösung von Gleichungssytemen durch sukzessive Eliminierung der Variablen Lz unter Nutzung des Lemmas
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
170
Auflösen linearer Gleichungssysteme - Beispiel
Für das Gleichungssystem auf Folie 169 ergibt sich
Lz3 = {a, b} · Lz3 → Lz3 = {a, b}∗ · ∅ = ∅
Lz2 = {a} · Lz0 ∪ {b} · Lz3 ∪ {ε} → Lz2 = {a} · Lz0 ∪ {ε}
Lz1 = {b} · Lz1 ∪ {a} · Lz2 ∪ {ε} = {b} · Lz1 ∪ {aa} · Lz0 ∪ {a, ε}
→ Lz1 = {b}∗{aa} · Lz0 ∪ {b}∗{a, ε}
Lz0 = {a}·Lz0 ∪{b}·Lz1 ∪{ε} = {a}·Lz0 ∪{b}+{aa}·Lz0 ∪{b}+{a, ε}∪{ε}
→ Lz0 = ({a} ∪ {b}+{aa})∗ · ({b}+{a, ε} ∪ {ε})
Regulärer Ausdruck: (a | b+aa)∗(b+(a | ε) | ε)
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
171
Das Pumping Lemma
Satz (Pumping Lemma)
Sei L eine reguläre Sprache.
Dann gibt es eine Konstante k ∈ N, so dass
für alle Wörter z ∈ L mit |z| ≥ k
eine Zerlegung z = uvw existiert, so dass gilt:
(i) |uv| ≤ k und |v| ≥ 1,
(ii) für alle i ∈ N gilt uv iw ∈ L.
Bedeutung:
Wichtiges Hilfsmittel um zu beweisen, dass eine Sprache nicht regulär ist
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
172
Pumping Lemma – Beweis
• Reguläre Sprache L werde durch DEA A = (Z, Σ, δ, z0, E) mit k
Zuständen akzeptiert.
• Betrachte Wort x ∈ L mit |x| ≥ k. Es gilt δ̂(z0, x) = q für ein q ∈ E.
• Nach Einlesen der ersten k Buchstaben von x wurden k + 1 Zustände
angenommen.
Nach dem Schubfachprinzip müssen 2 dieser Zustände gleich sein, d.h.
es gibt eine Zerlegung x = uvw mit |uv| ≤ k, |v| > 0, δ̂(z0, u) =
δ̂(z0, uv) = zu, δ̂(z0, uvw) = q.
• Nach Definition von δ̂ gilt:
δ̂(zu, v) = zu, d.h. δ̂(zu, v i) = zu für alle i ≥ 0
• Es folgt δ̂(z0, uv iw) = δ̂(δ̂(z0, uv i), w) = δ̂(zu, w) = q, d.h. uv iw ∈ L.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
173
Anwendung des Pumping Lemmas
Erfüllt eine Sprache nicht die Folgerung des Pumping-Lemmas, so kann sie
auch nicht regulär sein.
Um zu beweisen, dass eine Sprache L nicht die Folgerung des PumpingLemmas erfüllt, muss man Folgendes zeigen:
Für jede natürliche Zahl k
existiert ein Wort z mit |z| ≥ k,
so dass für jede Zerlegung z = uvw mit |uv| ≤ k und |v| ≥ 1
ein i ∈ N existiert, so dass uv iw ∈
/ L gilt.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
174
Anwendungen des Pumping Lemmas - Beispiel
Satz: Die Menge PAL der Palindrome über {a, b} ist nicht regulär.
Beweis
Wir zeigen, dass PAL nicht die Behauptung des Pumping-Lemmas erfüllt.
• Sei k eine beliebige natürliche Zahl.
• Wähle z = ak bak . (Offensichtlich gilt |z| ≥ k und z ∈ PAL).
• Für jede Zerlegung z = uvw mit |uv| ≤ k und |v| ≥ 1 gilt:
u = ar , v = as, w = ak−r−sbak mit r + s ≤ k und s ≥ 1.
• Wähle i = 2. Es gilt uv 2w = ar a2sak−r−sbak = ak+sbak ∈
/ PAL.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
175
Anwendungen des Pumping Lemmas
Mit Hilfe des Pumping Lemmas kann man auch die Nichtregularität der
Sprachen
n2
L = {a
2n
L = {a
| n ≥ 1},
| n ≥ 1},
L = {ap | p Primzahl},
L = {anbn | n ≥ 1},
L = {ww | w ∈ {a, b}∗},
L = Menge der regulären Ausdrücke über Σ
und vieler anderer zeigen.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
176
Abschlusseigenschaften regulärer Sprachen
Satz Sind A und B reguläre Sprachen über Σ, dann sind auch
(i) A ∪ B,
(ii) A ∩ B,
(iii) A · B,
(iv) Σ∗ \ A und
(v) A∗
reguläre Sprachen.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
177
Wortproblem und andere Entscheidungsprobleme
Satz Das Wortproblem für ein Wort der Länge n und einen DEA ist mit
einem Zeitaufwand von O(n) entscheidbar.
Satz Das Wortproblem für ein Wort der Länge n und einen NEA mit k
Transitionen ist mit einem Zeitaufwand von O(n · k) entscheidbar.
Satz Das Leerheitsproblem, das Endlichkeitsproblem, das Schnittproblem
für NEA sind in linearer Zeit (Leerheit, Endlichkeit) bzw. in quadratischer
Zeit (Schnitt) entscheidbar.
Satz Das Äquivalenzproblem für DEA ist in quadratischer Zeit entscheidbar.
Satz Das Äquivalenzproblem für NEA ist in exponentieller Zeit entscheidbar
(und NP-hart, genauer: PSPACE-vollständig).
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
178
Kontextfreie Sprachen
• Bedeutung: Programmiersprachen (Compilerbau)
• Syntaxbäume
• Chomsky-Normalform
• effiziente Lösung des Wortproblems (CYK-Algorithmus)
• Grenzen kontextfreier Sprachen (Pumping Lemma)
• Charakterisierung durch Kellerautomaten
• Deterministisch kontextfreie Sprachen
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
179
Beispiel für eine kontextfreie Grammatik
G = ({S, X, C}, {x, c, 0, +, −, ; , :=, 6=, LOOP, WHILE, DO, END}, P, S)
mit folgenden Regeln in der Regelmenge P :
S → S; S
S → LOOP X DO S END
S → WHILE X 6= 0 DO S END
S → X := X + C
S → X := X − C
X→x
C→c
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
180
Weiteres Beispiel für eine kontextfreie Grammatik
G = ({S}, {a1, a2, b1, b2}, P, S)
mit der Regelmenge P = {S → SS, S → a1Sb1, S → a2Sb2, S → ε}.
G erzeugt die Sprache D2, die sogenannte Dyck-Sprache über zwei Klammerpaaren. Induktive Definition von D2:
1. ε ∈ D2.
2. Aus w1 ∈ D2, w2 ∈ D2 folgt w1w2 ∈ D2.
3. Aus w ∈ D2 folgt a1wb1 ∈ D2 und a2wb2 ∈ D2.
4. D2 enthält keine weiteren Wörter.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
181
Syntaxbäume
Jeder Ableitung eines Wortes w in einer kontextfreien Grammatik kann
eindeutig ein Syntaxbaum zugeordnet werden.
Sei w ∈ L(G) und S = w0 =⇒ w1 =⇒ w2 =⇒ · · · =⇒ wn = w eine
Ableitung für w. Dann wird der Syntaxbaum folgendermaßen konstruiert:
• Die Wurzel hat die Beschriftung S.
• Nach dem i-ten Schritt ergeben die Beschriftungen der Blätter von links
nach rechts gelesen das Wort wi, 0 ≤ i ≤ n.
• Wird bei der Ableitung eine Regel A → α angewendet, so erhält das
zugehörige Blatt (mit der Beschriftung A) |α| Söhne, deren Beschriftung
von links nach rechts das Wort α ergibt.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
182
Linksableitungen
Definition. Eine Ableitung in einer kontextfreien Grammatik heißt
Linksableitung, wenn in jedem Schritt das am weitesten links stehende
Nichtterminalsymbol ersetzt wird.
Jedem Syntaxbaum zu einer Ableitung kann eindeutig eine Linksableitung
zugeordnet werden, d.h.:
Satz
Die von einer kontextfreien Grammatik G erzeugte Sprache ist die Menge der
durch Linksableitungen in G erzeugbaren Wörter.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
183
Chomsky Normalform
Definition
Eine kontextfreie Grammatik G = (V, Σ, P, S) ist in Chomsky Normalform,
falls jede Regel in P in einer der Formen (i)-(iii) ist:
(i) A → BC mit A, B, C ∈ V ,
(ii) A → a mit A ∈ V und a ∈ Σ,
(iii) S → ε, wobei S auf keiner rechten Seite einer Regel vorkommt.
Satz
Zu jeder kontextfreien Grammatik G kann man eine kontextfreie Grammatik
G0 in Chomsky Normalform konstruieren mit L(G) = L(G0).
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
184
Der Algorithmus von Cocke, Younger und Kasami
Eingabe:
Ausgabe:
kontextfreie Grammatik G = (V, Σ, P, S) in Chomsky NF,
Wort w ∈ Σ∗
ja, falls w ∈ L(G); nein, sonst.
Grundidee des CYK-Algorithmus
• w[s, t] sei das Teilwort von w von der Stelle s bis zur Stelle t, wobei
1 ≤ s ≤ t ≤ n = |w|.
• Bestimme für 1 ≤ j ≤ n und 1 ≤ i ≤ n − j + 1 die Mengen
∗
T [i, j] = {A ∈ V | A =⇒ w[i, i + j − 1]}.
• Es gilt w ∈ L(G) genau dann, wenn S ∈ T [1, n].
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
185
CYK-Algorithmus – Fortsetzung
Induktive Bestimmung der Mengen T [i, j]:
• Für j = 1: T [i, 1] = {A ∈ V | A → w[i, i] ∈ P }
• Für j > 1:
T [i, j] = {A ∈ V | es gibt B, C ∈ V und 1 ≤ k < j mit
A → BC ∈ P, B ∈ T [i, k], C ∈ T [i + k, j − k]}
• CYK-Algorithmus ist Beispiel für Dynamische Programmierung.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
186
Beispiel für CYK-Algorithmus
Die Sprache L = {anbncm | m, n ≥ 1} ist kontextfrei und wird von der
Grammatik G = (V, Σ, P, S) mit den Regeln
S → AB,
A → aAb | ab,
B → cB | c
erzeugt. Eine äquivalente Grammatik in Chomsky Normalform für L hat
folgende Menge von Regeln:
S → AB,
A → CD | CF,
B → EB | c,
F → AD,
C → a,
D → b,
E → c.
Sei x = aaabbbcc. Dann erzeugt der Algorithmus folgende Tabelle.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
187
Beispiel für CYK-Algorithmus – Tabelle
a
a
i
a
C
C
C
......................................................................................................................................
...
..
...............
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
........
.
j
b
b
b
D
D
D
c
c
..
..
..
..
..
..
..
..
...

...
...
...
...
...
...
..
...
...
.
.
.
.
.
.
.
.
.
.
...
.
.
.
.
...
....
....
....
....
...
....
....
....
....
...
...
.
.
.
.
.
.
.
.
.
.
...
.
.
.
.
...
.
..
..
..
..
..
..
..
.
.
.
...
.
.
.
.
...
.
..
..
..
..
..
..
..
..
.
.
.
...
.
.
.
.
...
.
.
..
..
..
..
..
...
.
....
.
.
.
.
...
....
.
....
.........
.
..
..
..
..
.
.
.
...
.
.
.
.
...
...
.
...
...
.
...
.
.
.
.
...
....
....
....
.
..
...
....
...
...
....
...
.............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
...
..
.. ........
...
...
...
...
...
...
...
...........
...
...
...
...
...
...
...
...
...
....
...
...
...
...
...
...
..... ..
...
...
...
...
...
...
...
...
..... ....
......
...
...
...
...
...
...
...
...
..
.....
.
.
.
...
...
.
...
...
...
...
...
...
...
......
...
...
...
...
...
...
...
...
...
.....
.
.
...
..
..
..
..
..
.
.
...
.
.
...
.
.
.
.
...
...
...........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
...
... ........
...
...
...
...
...
...
...
...........
...
...
...
...
...
...
.
...
...
...
...
...
...
...
.......
...
...
...
...
...
...... ..
...
...
...... ....
...
...
...
...
...
...
...
.....
.
.
.
.
.
.
...
...
...
...
.
...
...
...
...
....
...
...
...
...
...
...
...
......
.....
...
..
..
...
..
..
..
..
.....
............................................................................................................................................................................................................................................................................................................................................................................................................................
...
...
...
...
... ........
...
...
...
...
...
...
...........
...
...
...
...
...
...
...
...
...
.......
...
...
...
...
...
...
..... ..
...... ....
...
...
...
...
...
...
......
.
.
.
...
...
...
...
...
...
...
.
..
...
...
...
...
...
...
...
......
.....
..
..
...
...
...
...
...
.....
.........................................................................................................................................................................................................................................................................................................................................................
...
... .......
...
...
...
...
..
...
... ........
...
...
...
....
...
...
...
...
...
.......
....
...
...
...
...
..... ..
...... ....
...
...
...
...
...
.....
.
.
.
...
...
...
...
...
.
...
..
...
...
......
...
...
...
...
.....
...
...
..
..
...
..
.....
............................................................................................................................................................................................................................................................................................
.
.
..
.
...
..
...
..
...
...
...
...
...
... ..........
. ...
...
...
...
...
......
...
....
...
...
.......
...... ..
...
...
...
...
..... ....
.
.
.
...
...
...
.
...
.....
...
...
...
....
...
.....
...
...
...
...
......
...
.....
..
...
..
..
..
......
..................................................................................................................................................................................................................
...
...
...
... ........
...
...
...
..........
.
...
...
....
.......
...
...
...
...... ...
...... ...
..
...
...
.....
.
.
.
.
...
... ........
.
....
....
...
...
...
....
......
.
...
...
.......................................................................................................................................
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
...
....................................................................
A
=x
E, B E, B
B
F
A
F
A
S
S
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
188
Beispiel für CYK-Algorithmus – Erklärung
In der Tabelle stellt jedes Feld eine Menge T [i, j] von Nichtterminalen dar.
Die Koordinatenachsen für i und j sind eingezeichnet.
Der Algorithmus besteht aus drei Teilen. Im ersten Teil wird die oberste
Zeile (T [i, 1]) berechnet.
Im zweiten Teil werden zeilenweise die weiteren Mengen T [i, j] berechnet,
indem immer die zugehörige Spalte von oben und die nach rechts oben
führende Diagonale betrachtet werden.
Im dritten Teil des Algorithmus schließlich wird die Menge T [1, n] betrachtet,
hier T [1, 8]. Ausgabe “ja” genau dann, wenn S ∈ T [1, n].
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
189
Fortsetzung CYK-Algorithmus
Noch eine Bemerkung: aus der aufgestellten Tabelle kann man auch die
Ableitung für das Wort x ablesen, indem wir rückwärts die Regeln anwenden,
die auf S in T [1, n] geführt haben. Hier sieht die Ableitung für aaabbbc
dann folgendermaßen aus (die Nonterminale, die ersetzt werden, sind jeweils
unterstrichen).
S =⇒ AB =⇒ CF B =⇒ CADB =⇒ CCF DB =⇒ CCADDB
=⇒ CCCDDDB =⇒ aCCDDDB =⇒ aaCDDDB =⇒ aaaDDDB
=⇒ aaabDDB =⇒ aaabbDB =⇒ aaabbbB =⇒ aaabbbc
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
190
Pumping Lemma für kontextfreie Sprachen
Sei L eine kontextfreie Sprache. Dann gibt es eine Konstante k ∈ N, so
dass für alle Wörter z ∈ L mit |z| ≥ k eine Zerlegung z = uvwxy existiert,
so dass gilt:
(i) |vwx| ≤ k und |vx| ≥ 1,
(ii) für alle i ∈ N gilt uv iwxiy ∈ L.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
191
Pumping Lemma – Anwendung
Mit Hilfe des Pumping Lemmas kann man zeigen, dass folgende Sprachen
nicht kontextfrei sind:
• {anbncn | n ≥ 1},
• {ww | w ∈ {a, b}∗},
• {ambnambn | m, n ≥ 1},
2n
• {a
| n ≥ 0},
• {ambn | 0 ≤ m, 1 ≤ n ≤ 2m}.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
192
Abschlusseigenschaften
Satz
Die Menge der kontextfreien Sprachen ist unter den Operationen
(i) Vereinigung,
(ii) Produkt (Konkatenation) und
(iii) Kleene-Stern
abgeschlossen. Sie ist unter den Operationen
(iv) Durchschnitt und
(v) Komplement
nicht abgeschlossen.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
193
Weitere Entscheidungsprobleme
Satz
Das Leerheitsproblem und das Endlichkeitsproblem für kontextfreie Grammatiken sind entscheidbar.
Satz
Das Schnittproblem und das Äquivalenzproblem für kontextfreie Grammatiken sind unentscheidbar.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
194
Kellerautomaten
• endliche Automaten besitzen nur begrenzten Speicherplatz (ihre
Zustände).
• Turingmaschinen besitzen unbegrenzten Speicherplatz mit im Prinzip
wahlfreiem Zugriff.
• Kellerautomaten besitzen unbegrenzten Speicherplatz in Form eines Kellerspeichers (Stack).
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
195
Definition Kellerautomat
Definition Ein (nichtdeterministischer) Kellerautomat (kurz PDA von pushdown automaton) M ist ein 6-Tupel M = (Z, Σ, Γ, δ, z0, #). Dabei ist
• Z das Zustandsalphabet,
• Σ das Eingabealphabet,
• Γ das Kelleralphabet,
• z0 ∈ Z der Anfangszustand,
Z×Γ∗
2E
• δ : Z × (Σ ∪ {ε}) × Γ →
die Zustandsüberführungsfunktion
(2X
E bedeutet dabei die Menge der endlichen Teilmengen von X),
• # ∈ Γ das Kelleranfangssymbol.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
196
Arbeitsweise von Kellerautomaten
• Der PDA startet im Zustand z0 und mit dem Kellerinhalt #.
• Bei (z 0, B1B2 . . . Bk ) ∈ δ(z, a, A) mit a ∈ Σ befindet sich der PDA
im Zustand z, liest auf dem Eingabeband ein a und im Keller ein A
(das oberste Symbol). Er entfernt dieses A aus dem Keller, geht in
den Zustand z 0 über, bewegt den Lesekopf auf dem Eingabeband einen
Schritt nach rechts und schreibt auf den Keller das Wort B1B2 . . . Bk
derart, dass B1 das neue oberste Symbol des Kellers ist.
• Bei (z 0, B1B2 . . . Bk ) ∈ δ(z, ε, A) liest er im Gegensatz zur obigen Aktion
auf dem Eingabeband nichts ein und bewegt den Lesekopf auf dem
Eingabeband nicht.
• Der PDA akzeptiert die Eingabe, wenn er sie vollständig eingelesen hat
und der Keller leer ist (auch # steht nicht mehr im Keller).
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
197
Kellerautomat: Arbeitsweise für
(z 0, B1B2 · · · Bk ) ∈ δ(z, ai, A1)
....................................................................................................................................................................................................................................................................................................................................................................................................
....
..
..
..
..
..
..
..
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
.................................................................................................................................................................................................................................................................................................................................................................................................
............
...
...
...
...
...
...
...
...
..
.................................................
..
...
...
...
....
...
...
..........................................................................
...
...
...
...
...
..
...
............................................
..
..
.
...
........
...
........
....
..
..................................................
...
...
...
...
...
...
...
...
...
...
...
..
...............................................
....
...
...
...
...
...
...
...
...
...
...
...
...
...
...............................................
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
...............................................
...
..
...
...
...
...
...
...
...
...
...
...
...
...
...............................................
...
...
...
...
...
...
...
...
...
...
...
..
...............................................
a1
a2
...
ai ai+1
...
an
z
A1
A2
..
.
Ar
#
`
....................................................................................................................................................................................................................................................................................................................................................................................................
....
..
..
..
..
..
..
..
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
.................................................................................................................................................................................................................................................................................................................................................................................................
............
...
...
...
...
...
...
...
...
..
.................................................
..
...
...
...
....
...
...
..........................................................................
...
...
...
...
...
..
...
............................................
..
..
.
...
........
...
........
....
..
..................................................
...
...
...
...
...
...
...
...
...
...
...
..
...............................................
...
..
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
...............................................
....
...
...
...
...
...
...
...
...
...
...
..
...............................................
....
...
...
...
...
...
...
...
...
...
...
...
...
...
...............................................
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
...............................................
...
..
...
...
...
...
...
...
...
...
...
...
...
...
...............................................
...
...
...
...
...
...
...
...
...
...
...
..
...............................................
a1
a2
...
ai ai+1
...
an
z0
B1
..
.
Bk
A2
..
.
Ar
#
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
198
Kellerautomat: Arbeitsweise für
(z 0, B1B2 · · · Bk ) ∈ δ(z, ε, A1)
....................................................................................................................................................................................................................................................................................................................................................................................................
....
..
..
..
..
..
..
..
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
.................................................................................................................................................................................................................................................................................................................................................................................................
............
...
...
...
...
...
...
...
...
..
.................................................
..
...
...
...
....
...
...
..........................................................................
...
...
...
...
...
..
...
............................................
..
..
.
...
........
...
........
....
..
..................................................
...
...
...
...
...
...
...
...
...
...
...
..
...............................................
....
...
...
...
...
...
...
...
...
...
...
...
...
...
...............................................
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
...............................................
...
..
...
...
...
...
...
...
...
...
...
...
...
...
...............................................
...
...
...
...
...
...
...
...
...
...
...
..
...............................................
a1
a2
...
ai ai+1
...
an
z
A1
A2
..
.
Ar
#
`
....................................................................................................................................................................................................................................................................................................................................................................................................
....
..
..
..
..
..
..
..
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
.................................................................................................................................................................................................................................................................................................................................................................................................
............
...
...
...
...
...
...
...
...
..
.................................................
..
...
...
...
....
...
...
..............................................................................................................
...
...
...
...
...
..
...
............................................
..
..
.
...
........
...
........
....
..
..................................................
...
...
...
...
...
...
...
...
...
...
...
..
...............................................
...
..
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
...............................................
....
...
...
...
...
...
...
...
...
...
...
..
...............................................
....
...
...
...
...
...
...
...
...
...
...
...
...
...
...............................................
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
...............................................
...
..
...
...
...
...
...
...
...
...
...
...
...
...
...............................................
...
...
...
...
...
...
...
...
...
...
...
..
...............................................
a1
a2
...
ai ai+1
...
an
z0
B1
..
.
Bk
A2
..
.
Ar
#
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
199
Konfiguration von Kellerautomaten
Definition Sei M = (Z, Σ, Γ, δ, z0, #) ein Kellerautomat. Eine Konfiguration von M ist ein Tripel k ∈ Z × Σ∗ × Γ∗.
Anschaulich beschreibt eine Konfiguration k = (z, v, γ) folgende augenblickliche Situation des PDA:
• er befindet sich im Zustand z,
• v ist die noch nicht verarbeitete Eingabe auf dem Eingabeband und
• im Keller steht das Wort γ, wobei das erste Symbol von γ das oberste
Kellersymbol sein soll.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
200
PDA – Konfigurationsübergänge und akzeptierte Sprache
k1 ` k2 bedeutet, dass der Kellerautomat die Konfiguration k1 in genau
einem Schritt in die Konfiguration k2 überführt.
k1 `∗ k2 bedeutet, dass der Kellerautomat k1 in endlich vielen Schritten
(auch null) in k2 überführt.
Definition
Für einen PDA M = (Z, Σ, Γ, δ, z0, #) sei die von ihm akzeptierte Sprache
T (M ) definiert durch
T (M ) = {w ∈ Σ∗ | (z0, w, #) `∗ (z, ε, ε) für ein z ∈ Z}.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
201
Beispiel eines PDA
Es sei M = ({z0, z1}, {a, b}, {A, B, #}, δ, z0, #) ein Kellerautomat, mit
δ(z0, a, X) = {(z0, AX)}
für X ∈ {B, #},
δ(z0, a, A) = {(z0, AA), (z1, ε)},
δ(z0, b, X) = {(z0, BX)}
für X ∈ {A, #},
δ(z0, b, B) = {(z0, BB), (z1, ε)},
δ(z0, ε, #) = {(z1, ε)},
δ(z1, a, A) = {(z1, ε)},
δ(z1, b, B) = {(z1, ε)},
δ(z1, ε, #) = {(z1, ε)}.
Dann gilt T (M ) = {wwR | w ∈ {a, b}∗}.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
202
Kellerautomaten und kontextfreie Sprachen
Satz
Eine Sprache L ist kontextfrei genau dann, wenn ein (nichtdeterministischer)
Kellerautomat M mit T (M ) = L existiert.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
203
Deterministisch kontextfreie Sprachen
Definition. Ein Kellerautomat M = (Z, Σ, Γ, δ, z0, #) heißt deterministisch,
wenn:
|δ(z, a, A)| + |δ(z, ε, A)| ≤ 1 für alle z ∈ Z, a ∈ Σ, A ∈ Γ.
Definition. Eine Sprache L ⊆ Σ∗ heißt deterministisch kontextfrei, wenn
L$ von einem deterministischen Kellerautomaten akzeptiert wird, wobei
$∈
/ Σ ein Sondersymbol ist.
Satz
Die Menge der deterministisch kontextfreien Sprachen ist eine echte Teilmenge
der Menge der kontextfreien Sprachen.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
204
Beispiel eines deterministischen PDA
M = ({z0}, {a1, a2, b1, b2, $}, {A1, A2, #}, δ, z0, #) ein Kellerautomat mit
δ(z0, a1, X) = {(z0, A1X)}
δ(z0, a2, X) = {(z0, A2X)}
δ(z0, b1, A1) = {(z0, ε)},
δ(z0, b2, A2) = {(z0, ε)},
δ(z0, $, #) = {(z0, ε)}.
für X ∈ {A1, A2, #},
für X ∈ {A1, A2, #},
T (M ) = {w$ | w ∈ D2}, d.h.
die Dyck-Sprache D2 ist deterministisch kontextfrei.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
205
Weiteres Beispiel eines deterministischen PDA
Sei M = ({z0, z1}, {a, b, c, $}, {A, B, #}, δ, z0, #) ein Kellerautomat mit
δ(z0, a, X) = {(z0, AX)}
δ(z0, b, X) = {(z0, BX)}
δ(z0, c, X) = {(z1, X)}
δ(z1, a, A) = {(z1, ε)},
δ(z1, b, B) = {(z1, ε)},
δ(z1, $, #) = {(z1, ε)}.
für X ∈ {A, B, #},
für X ∈ {A, B, #},
für X ∈ {A, B, #},
Dann gilt T (M ) = {wcwR$ | w ∈ {a, b}∗}.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
206
Bedeutung der deterministisch kontextfreien Sprachen
• Wortproblem entscheidbar in linearer Zeit
(gegenüber kubischer Laufzeit des CYK-Algorithmus)
• Ausdruckskraft hinreichend für syntaktische Analyse im Compilerbau
• Bei realen Programmiersprachen kommen LR(k)-Grammatiken und deren Varianten zum Einsatz.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
207
Formale Sprachen – Übersichten
Chomsky-Hierarchie: Typ 3 ( Typ 2 ( Typ 1 ( Typ 0.
Beispiele für die Echtheit der Inklusionen.
• {anbn | n ≥ 1} ∈ Typ 2 \ Typ 3,
• {anbncn | n ≥ 1} ∈ Typ 1 \ Typ 2,
• K ∈ Typ 0 \ Typ 1,
wobei K ⊆ {0, 1}∗ das spezielle Halteproblem ist.
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
208
Charakterisierungen der Sprachfamilien der Chomsky Hierarchie
Sprache
Grammatik
Automat
Andere
Regulär
Typ 3
Endlicher Automat (EA)
Regulärer
Ausdruck
Deterministisch
kontextfrei
Kontextfrei
LR(k)
Kontextabhängig
Typ 1
Rekursiv
aufzählbar
Typ 0
Deterministischer
Kellerautomat (DPDA)
(Nichtdeterministischer)
Kellerautomat (PDA)
(Nichtdeterministischer) Linear
beschränkter Automat (LBA)
Turingmaschine (TM)
Typ 2
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
209
Determinismus vs. Nichtdeterminismus
Nichtdeterminismus
Determinismus
Äquivalenz
NEA
PDA
LBA
NTM
DEA
DPDA
DLBA
DTM
ja
nein
?
ja
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
210
Abschlusseigenschaften
Vereinigung
Durchschnitt
Komplement
Konkatenation
Kleene-Stern
Typ 3
Det. kf.
Typ 2
Typ 1
Typ 0
ja
ja
ja
ja
ja
nein
nein
ja
nein
nein
ja
nein
nein
ja
ja
ja
ja
ja
ja
ja
ja
ja
nein
ja
ja
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
211
Entscheidbarkeitsprobleme
Wortproblem
Leerheitsproblem
Schnittproblem
Äquivalenzproblem
Typ 3
Det. kf.
Typ 2
Typ 1
Typ 0
ja
ja
ja
ja
ja
ja
nein
ja
ja
ja
nein
nein
ja
nein
nein
nein
nein
nein
nein
nein
B. Reichel, R. Stiebe: Theoretische Informatik für Lehrer
212
Herunterladen