Computerlinguistische Textanalyse

Werbung
Computerlinguistische Textanalyse
13. Sitzung – 27.01.2014
Informationsextraktion aus Texten
Franz Matthies
Lehrstuhl für Computerlinguistik
Institut für Germanistische Sprachwissenschaft
Friedrich-Schiller Universität Jena
www.julielab.de
Übersicht
Ein bisschen mehr Python: “Klassen”
●
Chunking (not stopping now)
●
Organisatorisches
●
Übungsaufgaben
●
Übersicht
2/14
Objektorientiertes Programmieren
Warm­up: Was sind Objekte?
●
Ein bisschen mehr Python (1/2)
3/14
Objektorientiertes Programmieren
Warm­up: Was sind Objekte?
●
Objekte sind spezifische Instanzen von Klassen
●
Objekte haben Attribute und Methoden
●
nltk.RegexpParser ist eine Klasse
●
vp_parser = nltk.RegexpParser(r“VP: {<VB.*>}”)
np_parser = nltk.RegexpParser(r“NP: {<N.*>}”)
vp_parser und np_parser sind Objekte
●
Ein bisschen mehr Python (1/2)
4/14
Beispiel: Analysis­Klasse
Ein bisschen mehr Python (2/2)
5/14
Daten, Grammatik, Parser
Development Set benutzt!?
●
RegexpParser (again...) (1/3)
6/14
Error Analysis
Wie seid ihr auf die Grammatikregeln gekommen?
●
RegexpParser (again...) (2/3)
7/14
Error Analysis
RegexpParser (again...) (3/3)
8/14
Was für einen anderen Ansatz gäbe es?
? ? ?
Chunking: besserer Ansatz (1/4)
9/14
Daten­orientiert
Grammatiken schreiben ist “mühsam”
●
Selbstgeschriebene Grammatiken bilden nur unsere Ansicht/Intuition über den Datensatz ab
●
Wenn wir aus den vorhandenen Daten lernen
lassen, werden die “wirklichen” Strukturen erfasst
●
Anmerkung: natürlich wirken die von uns ge­
wählten Features noch immer eine Schablone un­
serer Vorstellungen
●
Chunking: besserer Ansatz (2/4)
10/14
Chunker­Klassen
Chunking: besserer Ansatz (3/4)
11/14
Auswertung
Chunking: besserer Ansatz (4/4)
12/14
Organisatorisches
Nächste Woche letztes Referat
●
Am 10.02. letzte Sitzung
●
→ diese will ich zum Auswerten gebrauchen
→ wir werden nur etwa eine Stunde nutzen
→ wär schön wenn trotz letzter Sitzung alle
kommen
Organisatorisches (1/1)
13/14
Übungsaufgaben
Informatiker: siehe Notebook auf der Homepage
(abzugeben diesmal erst in zwei Wochen, also am
10.02. – der letzten Sitzung) Ich erwarte aber dem­
nach auch eine ausführliche Lösung ;)
●
Nicht­Informatiker: Ihr bekommt eure Aufgaben
für diese Woche von Johannes vor Ort; für die
nächste schauen wir, was sich diesmal ergibt
●
Übungsaufgaben (1/1)
14/14
Herunterladen