Computerlinguistische Textanalyse 13. Sitzung – 27.01.2014 Informationsextraktion aus Texten Franz Matthies Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller Universität Jena www.julielab.de Übersicht Ein bisschen mehr Python: “Klassen” ● Chunking (not stopping now) ● Organisatorisches ● Übungsaufgaben ● Übersicht 2/14 Objektorientiertes Programmieren Warm­up: Was sind Objekte? ● Ein bisschen mehr Python (1/2) 3/14 Objektorientiertes Programmieren Warm­up: Was sind Objekte? ● Objekte sind spezifische Instanzen von Klassen ● Objekte haben Attribute und Methoden ● nltk.RegexpParser ist eine Klasse ● vp_parser = nltk.RegexpParser(r“VP: {<VB.*>}”) np_parser = nltk.RegexpParser(r“NP: {<N.*>}”) vp_parser und np_parser sind Objekte ● Ein bisschen mehr Python (1/2) 4/14 Beispiel: Analysis­Klasse Ein bisschen mehr Python (2/2) 5/14 Daten, Grammatik, Parser Development Set benutzt!? ● RegexpParser (again...) (1/3) 6/14 Error Analysis Wie seid ihr auf die Grammatikregeln gekommen? ● RegexpParser (again...) (2/3) 7/14 Error Analysis RegexpParser (again...) (3/3) 8/14 Was für einen anderen Ansatz gäbe es? ? ? ? Chunking: besserer Ansatz (1/4) 9/14 Daten­orientiert Grammatiken schreiben ist “mühsam” ● Selbstgeschriebene Grammatiken bilden nur unsere Ansicht/Intuition über den Datensatz ab ● Wenn wir aus den vorhandenen Daten lernen lassen, werden die “wirklichen” Strukturen erfasst ● Anmerkung: natürlich wirken die von uns ge­ wählten Features noch immer eine Schablone un­ serer Vorstellungen ● Chunking: besserer Ansatz (2/4) 10/14 Chunker­Klassen Chunking: besserer Ansatz (3/4) 11/14 Auswertung Chunking: besserer Ansatz (4/4) 12/14 Organisatorisches Nächste Woche letztes Referat ● Am 10.02. letzte Sitzung ● → diese will ich zum Auswerten gebrauchen → wir werden nur etwa eine Stunde nutzen → wär schön wenn trotz letzter Sitzung alle kommen Organisatorisches (1/1) 13/14 Übungsaufgaben Informatiker: siehe Notebook auf der Homepage (abzugeben diesmal erst in zwei Wochen, also am 10.02. – der letzten Sitzung) Ich erwarte aber dem­ nach auch eine ausführliche Lösung ;) ● Nicht­Informatiker: Ihr bekommt eure Aufgaben für diese Woche von Johannes vor Ort; für die nächste schauen wir, was sich diesmal ergibt ● Übungsaufgaben (1/1) 14/14