Powerpoint

Werbung
Slide 1

Basisinformationstechnologie
HK-Medien
Teil 1, 13. Sitzung
WS 02/03

BIT – Schaßan – WS 02/03


Slide 2

Beschreibung von PSS
Bei der Schaffung einer PS sollte diese in
klarer und präziser Weise definiert werden.
Begriffe und Konzepte müssen beschrieben
und ihre Bedeutung erläutert werden. Alle
Details müssen in einem Dokument erklärt
werden, welches als Referenz fungiert.
Genauigkeit, Präzision und Formalität sind
dazu notwendig.
BIT – Schaßan – WS 02/03


Slide 3

Beschreibung von PSS (2)
mögliche Probleme sind:
verschiedene Sichtweisen auf die PS erfordern
unterschiedliche Schwerpunktsetzungen;
verschiedene Methoden der Beschreibung
können zu unterschiedlichen Interpretationen
führen

mögliche Lösung ist die Abstraktion des zu
Beschreibenden in formalisierter Weise unter
Anwendung grammatikalischer Theorien
BIT – Schaßan – WS 02/03


Slide 4

Semi-Thue-Systeme
Semi-Thue-Systeme können als einfache und
allgemeine Form von Algorithmen betrachtet
werden:
Σ

endlicher Zeichenvorrat
x
Wörter ( Länge: |x | = n )
x = x0⋯xn-1 von Zeichen xi aus Σ
Überführen der Wörter in andere Wörter durch
Ersetzen von xi⋯xi+k-1 durch yj⋯yj+k-1
Es gilt: k, l ≥ 0, i+k ≤ n;
für k, l = 0 wird das leere Wort ε ersetzt
BIT – Schaßan – WS 02/03


Slide 5

Semi-Thue-Systeme (2)
Ersetzungsregel:
a⋯b →
c⋯d
schematisch:
p

q
Eine Regel heißt auf ein Wort x anwendbar, wenn x
das Teilwort a⋯b enthält.

Beispiel: Addition natürlicher Zahlen
Σ = { |, +}
Regeln:

Wort:

Umformung:
|||+||


+|
+
|||+||




||||+| ⇒

|+
ε

|||||+ ⇒

BIT – Schaßan – WS 02/03

|||||.


Slide 6

Ableitung
Der Übergang l → r beschreibt die
Transformation, die durch Anwendung einer
Regel p → q auf einen Teil der linken Seite
l entsteht.
r heißt aus l abgeleitet.
Die Transformation heißt eine direkte
Ableitung.
BIT – Schaßan – WS 02/03


Slide 7

Ableitung (2)
l⇒r

wenn r aus l durch fortgesetzte Ableitung gewonnen
werden kann
+
l ⇒* r
entweder l ⇒
r oder l = r
Umgekehrt kann r auf l reduziert werden,
*
wenn l ⇒
r
+

BIT – Schaßan – WS 02/03


Slide 8

Metaregeln
Metaregeln legen die Anwendung der
Regeln fest.
Wenn a⋯b → c⋯d anwendbar ist, ersetze das
Teilwort a⋯b von x durch c⋯d ;
wenn a⋯b mehrfach vorkommt oder mehrere
Regeln anwendbar sind, so wähle das Teilwort
bzw. die Regel beliebig;
wiederhole die Anwendung beliebig oft.
BIT – Schaßan – WS 02/03


Slide 9

Semi-Thue-System (3)
Eine Menge T = { p → q } von Regeln
zusammen mit den Metaregeln heißt ein
Semi-Thue- oder Textersetzungssystem.
Die Menge aller r , die aus l abgeleitet
werden, heißt die formale Sprache
Ll = L(T,l ) von l bei vorgegebenem SemiThue-System T.
BIT – Schaßan – WS 02/03


Slide 10

Thue-Systeme
T = { p → q } ist ein Semi-Thue-System;
Menge T -1 = { q → p } mit umgekehrter
Pfeilrichtung ist ebenfalls ein Semi-Thue-System
Das inverse System heißt Reduktionssystem.
Thue-Systeme sind symmetrische Semi-ThueSysteme T = T ∪ T -1, bei dem zu jeder
ableitenden Regel p → q auch die reduzierende
Regel q → p zu T gehört.
BIT – Schaßan – WS 02/03


Slide 11

Determination
Sind zu einem Text x mehrere anwendbare
Regeln gegeben oder kann eine Regel auf
mehrere Teilwörter von x angewendet werden, heißt ein Algorithmus indeterministisch.
Ist in jedem Schritt die anzuwendende
Operation eindeutig bestimmt, so heißt der
Algorithmus deterministisch.
BIT – Schaßan – WS 02/03


Slide 12

Normalform
Überführt ein Semi-Thue-System T ein
Wort x in y = T (x ), x ⇒* y, und hält dann an,
so heißt y eine Normalform von x.

BIT – Schaßan – WS 02/03


Slide 13

Markov-Algorithmen
Unabhängig von Thue erfand Markov ein
System zur Beschreibung von Textersetzungen.
Ein Markov-Algorithmus (normaler Algorithmus) ist ein deterministisches SemiThue-System mit endlich vielen Regeln und
zwei verschiedenen Endbedingungen.
BIT – Schaßan – WS 02/03


Slide 14

Markov-Algorithmen (2)
Die Endbedingungen:
Wähle in jedem Schritt die erste anwendbare
Regel. Falls sie auf mehrere Teilwörter anwendbar ist, wende sie auf das am weitesten links
stehende Teilwort an.
Wende Regeln so lange an, bis eine haltende
Regel angewandt wurde, oder bis keine Regel
mehr anwendbar ist.
BIT – Schaßan – WS 02/03


Slide 15

Markov-Algorithmen (3)
haltende Regeln:
x →. y
erste anwendbare Regel:
bezogen auf die Reihenfolge, in der die Regeln
aufgeschrieben wurden;
falls eine Regel ε → r angegeben ist, wird r am
Anfang des Wortes eingesetzt, da das am
weitesten links stehende Wort ersetzt wird;

BIT – Schaßan – WS 02/03


Slide 16

Markov-Algorithmen (4)
Erlaubt man zusätzliche Zeichen α,β,γ,…,
so genannte Schiffchen, die weder im
Eingabetext noch im Ergebnis vorkommen,
so kann man mit diesen gesteuerten
Markov-Algorithmen, wie im übrigen auch
mit allgemeinen Semi-Thue-Systemen, jede
beliebige Berechnung beschreiben, die
algorithmisch formulierbar ist.
BIT – Schaßan – WS 02/03


Slide 17

Beispiel-MA
Σ = { O, L } mit den Schiffchen α, β
Regeln:
αL
α

ε

→ Lα
→ β
→. L
→ α

,
,
,

αO → Oα
Lβ → βO
β →. L

Eingabe: LOLL
Umformung:

,
,
,

LOLL ⇒ αLOLL ⇒ LαOLL ⇒ LOαLL ⇒ LOLαL ⇒ LOLLα ⇒ LOLLβ ⇒
LOLβO ⇒ LOβOO ⇒ LLOO
BIT – Schaßan – WS 02/03


Slide 18

Anwendung in der Linguistik
Semi-Thue-Systeme können benutzt
werden, um die Struktur von Sätzen in
natürlichen Sprachen als Ableitungsbaum
darzustellen.
Die Übertragung bzw. Anwendung von
solchen Systemen geschah in den 50er
Jahren v.a. durch Chomsky und andere
Linguisten.
BIT – Schaßan – WS 02/03


Slide 19

Grammatiken
Chomsky nannte diese Semi-ThueSysteme Grammatiken und ihre Regeln
Produktionen.
Beispiel: ein Satz als Normalform für eine
Zeichenreihe

BIT – Schaßan – WS 02/03


Slide 20

Ableitungsbaum
Satz

Subjekt
Artikel
Ein

Prädikat

Substantiv
Fisch
BIT – Schaßan – WS 02/03

Verbum
schwimmt


Slide 21

Regeln des Beispiels
Regeln:

Satz
Subjekt
Prädikat
Artikel
Substantiv
Verbum

→ Subjekt Prädikat
→ Artikel Substantiv
→ Verbum
→ ein
→ Fisch
→ schwimmt

BIT – Schaßan – WS 02/03


Slide 22

Grammatiken (2): Σ, N
In einer Grammatik unterscheidet man
syntaktische Begriffe wie Satz, Verbum etc. von
den Wörtern der zu beschreibenden Sprache.
Die Wörter werden als Einzelzeichen eines
Zeichenvorrats Σ ohne weitere innere Struktur
betrachtet und als terminale Zeichen oder kurz
Terminale bezeichnet.
Die syntaktischen Begriffe bilden einen Zeichenvorrat N der syntaktischen Variablen, nichtterminalen Zeichen oder Nichtterminale.
BIT – Schaßan – WS 02/03


Slide 23

Grammatiken (3): G, Z
Mit der Angabe einer Grammatik G sollen
die terminalen Zeichenreihen x, x ∈ T *
beschrieben werden, die einem ausgezeichneten syntaktischen Begriff Z , dem
Startsymbol, Axiom oder Ziel der
Grammatik G entsprechen.

BIT – Schaßan – WS 02/03


Slide 24

Grammatiken (4): L(G)
Die Menge L(G ) dieser Zeichenreihen heißt der
Sprachschatz der Grammatik G .
Im Semi-Thue-System war die Menge aller, also nicht
nur der terminalen, aus Z ableitbaren Zeichenreihen
als formale Sprache LZ = L(G, Z ) bezeichnet worden.

Das Ziel Z wird im Unterschied zum Semi-ThueSystem nicht mehr explizit erwähnt, da es durch
die Grammatik eindeutig gegeben ist.

BIT – Schaßan – WS 02/03


Slide 25

Grammatiken (5): V
Die Vereinigung V = N ∪ Σ heißt das Vokabular
der Grammatik bzw. formalen Sprache.
Wenn auch die leere Zeichenreihe ε zulässig ist,
wird die Menge aller Zeichenreihen über den
Zeichenvorräten V bzw. Σ mit V * bzw. Σ*
bezeichnet.
Eine Zeichenreihe x aus V *, die durch endlich
viele Anwendungen von Produktionen aus dem
*
Ziel Z abgeleitet werden kann (Z ⇒ x ) heißt
Satzform oder Phrase.
BIT – Schaßan – WS 02/03


Slide 26

Phrasenstrukturen
Phrasenstrukturen können sichtbar
gemacht werden, indem alle Produktionen
l → r durch l → 〈r 〉 ersetzt werden.
Die Produktionsmengen
P = {Z → z, Z → zZz } und
P ' = {Z → z, Z → Zzz } strukturieren Wörter wie
zzzzz unterschiedlich:
〈z 〈z 〈z 〉 z 〉 z 〉
bzw.
〈〈〈z 〉 zz 〉 zz 〉
BIT – Schaßan – WS 02/03


Slide 27

Zerteilung
Um herauszufinden, ob eine Zeichenreihe x
eine Phrase ist, muss ihre syntaktische
Struktur festgestellt werden.
Dieser Vorgang heißt Zerteilung (engl.
parsing) von x .
Durch Umkehrung aller Pfeile erhält man
aus dem Ableitungssystem A ein
Reduktions- oder Zerteilungssystem R .
BIT – Schaßan – WS 02/03


Slide 28

Chomsky-Grammatik
Eine Grammatik G = { Σ, N , P , Z }, in dem
Σ, N und Z die vorher erläuterte Bedeutung
haben und P eine endliche Menge von
Produktionen l → r ist, heißt eine ChomskyGrammatik.
Da die Grammatik G in Satzform bzw. aus
Phrasen bestehen, werden die
Grammatiken nach Chomsky oft
Phrasenstrukturgrammatiken genannt.
BIT – Schaßan – WS 02/03


Slide 29

Begriffsübersicht
G
V
Σ

Grammatik
Vokabular der Grammatik G
Zeichenvorrat an Terminalen

N

Zeichenvorrat an Nichtterminalen

Z
L(G )
P

auch als VT bezeichnet

auch als VN bezeichnet

Ziel, Axiom der Grammatik G
auch als S bezeichnet

Sprachschatz der Grammatik G
Produktionsmengen
BIT – Schaßan – WS 02/03


Slide 30

Beschreibung von PSS (3)
Mit Grammatiken soll beschrieben werden,
welche Texte syntaktisch korrekt aufgebaut
sind. (Die Unterscheidung von sinnvollen
und sinnlosen Texten ist nicht vonnöten.)
Die Menge der syntaktisch korrekten
Programme, also der Sprache, wird topdown beschrieben.
BIT – Schaßan – WS 02/03


Slide 31

Chomsky-Hierarchien
Chomsky-Grammatiken lassen sich nach der
Form ihrer Produktionen l → r weiter
klassifizieren:
Chomsky-Typ 0 (kurz CH-0-Grammatik)
heißt allgemeine Grammatik
Chomsky-Typ 1 (kurz CH-1-Grammatik)
heißt kontextsensitive Grammatik
Chomsky-Typ 2 (kurz CH-2-Grammatik)
heißt kontextfreie Grammatik
Chomsky-Typ 3 (kurz CH-3-Grammatik)
heißt reguläre Grammatik
BIT – Schaßan – WS 02/03


Slide 32

CH-0
Eine Grammatik ist allgemein oder eine CH-0Grammatik, wenn ihre Produktionen keinen Einschränkungen unterliegen.
Insbesondere sind Produktionen ε → r erlaubt.
Der Vergleich mit Markov-Algorithmen (die
Schiffchen entsprechen in etwa den Nichtterminalen) zeigt, dass man jede berechenbare Menge
als Sprache L(G ) einer CH-0-Grammatik erhalten
kann.
BIT – Schaßan – WS 02/03


Slide 33

CH-1
Eine Grammatik ist kontextsensitiv oder
eine CH-1-Grammatik, wenn ihre Produktionen beschränkt oder kontextsensitiv sind.
Da in einer Ableitung Z ⇒
* x ⇒ y stets
|x | ≤ |y | gilt, kann man in endlich vielen
Schritten bestimmen, ob ein Wort y vorgegebener Länge zu L(G ) gehört.
Eine Sprache L(G ) einer kontextsensitiven
Grammatik muss daher entscheidbar sein.
BIT – Schaßan – WS 02/03


Slide 34

CH-2
Eine Grammatik ist kontextfrei oder eine CH2-Grammatik, wenn ihre Produktionen
kontextfrei sind.
Die linke Seite jeder Ableitungsregel darf nur
aus einer Variablen bestehen, wie die
Variable A aber abgeleitet wird, darf nicht
vom Kontext, in dem A steht, abhängen.
Eine kontextfreie Grammatik heißt ε-frei,
wenn sie keine ε-Produktion enthält.
BIT – Schaßan – WS 02/03


Slide 35

CH-3
Eine Grammatik ist regulär oder eine CH-3Grammatik, wenn sie neben terminierenden und ε-Produktionen entweder nur linksoder nur rechtslineare Produktionen enthält.

BIT – Schaßan – WS 02/03


Slide 36

Chomsky-Hierarchien-Übersicht
Produktion Produktionstyp

l→r
l→ε
l→r
uAv → urv
A→r
A → Bx
A → xB
A→x

allgemein
ε-Produktion
beschränkt

kontextsensitiv
kontextfrei
linkslinear

Eigenschaften

Gr.-typ

l, r ∈ V * beliebig
l ∈ V *, r = ε
l, r ∈ V *, l ≤ |l | ≤ |r |
A ∈ N , u,v,r ∈ V * , r ≠ ε
A∈N,r ∈V*
A, B ∈ N , x ∈ Σ

CH-0

rechtslinear
terminierend

CH-1

CH-1
CH-2
CH-3
CH-3

A∈N, x ∈Σ

BIT – Schaßan – WS 02/03


Herunterladen