Computerlinguistische Textanalyse 3. Sitzung – 04.11.2014 Verarbeitung von Rohtext II Franz Matthies Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller Universität Jena www.julielab.de Übersicht Termin: betreute Übungen (*) ● Projekt (*) ● Referate, die zweite … ● Ein bisschen mehr Python: Funktionen, Skripts, Notebook ● Hausaufgabe :) ● Übersicht 2/10 Referatsthemen Wortkategorisierung & Tagging ● (Tagsets,) Tagging­Methoden, Stemmer, Lemmatisierer Klassifizierung von Texten ● Typen von Klassifizierern Informationsextraktion aus Texten ● Chunking, Named Entity Recognition, Relation Extraction Referate, die zweite … (1/2) 3/10 Referatstermine Wortkategorisierung & Tagging ● 2 Termine: 02.12. & 09.12. Klassifizierung von Texten ● 1 Termin: 13.01. Informationsextraktion aus Texten ● 2 Termine: 20.01. & 27.01. Referate, die zweite … (2/2) 4/10 Funktionen Mathematik: einem Element einer Menge wird ein Element einer anderen Menge zugeordnet ● z.B.: cos(0) = 1 Python: eine Eingabe wird nach bestimmten Vor­ gaben verarbeitet (und ein “Wert” zurückgegeben) ● tokens = word_tokenize(raw) Ein bisschen mehr Python (1/4) 5/10 Skripte Zusammenfassung aufeinanderfolgender Befehle ● iPython mit einem Skript starten ● … :~$ ipython3 ­i /Pfad/zum/Skript.py Definition von Funktionen, Klassen etc. ● Ein bisschen mehr Python (2/4) 6/10 Übungen NLTK­Buch: Kapitel 3.12 ● Strings: Übung 1, 2 & 11 Regular Expressions: Übung 6 & 7 ● Skripte: Schreib ein Skript, das die Bücher aus “nltk.book” importiert (NLTK Kapitel 1.2) und eine Konkordanz­Ansicht eines beliebigen Wortes eines beliebigen Textes zeigt. Ein bisschen mehr Python (3/4) 7/10 iPython Notebook Eine noch “bessere” Python­Oberfläche ● Besonders gut um Arbeiten zu dokumentieren und zu teilen ● Speichern der Arbeitsergebnisse ● Start mit: … :~$ ipython3 notebook ● Wenn unter Windows “Anaconda” oder “WinPython” installiert wurde, sollte es ein entsprechendes Programm geben ● Ein bisschen mehr Python (4/4) 8/10 “Hausaufgaben” Gedanken zum Projekt machen: ­ wie könnte eine Pipeline dafür aussehen ­ kleinteilige Schritte ● Codecadamy: ­ Conditionals & Control Flow ­ Functions ● NLTK: ­ Kapitel 3.1: ab “Reading Local Files” ­ Kapitel 3.9 ● Hausaufgabe 9/10 Links http://ipython.org/ipython­doc/1/interactive/notebook.html ● (iPython­Notebook Einführung) http://markdowntutorial.com/ ● (Markdown Einführung – für Notebook Kommentare) Link zum Skript & Text ● Last but not least … 10/10