Computerlinguistische Textanalyse

Werbung
Computerlinguistische Textanalyse
3. Sitzung – 04.11.2014
Verarbeitung von Rohtext II
Franz Matthies
Lehrstuhl für Computerlinguistik
Institut für Germanistische Sprachwissenschaft
Friedrich-Schiller Universität Jena
www.julielab.de
Übersicht
Termin: betreute Übungen (*)
●
Projekt (*)
●
Referate, die zweite …
●
Ein bisschen mehr Python: Funktionen, Skripts, Notebook
●
Hausaufgabe :)
●
Übersicht
2/10
Referatsthemen
Wortkategorisierung & Tagging
●
(Tagsets,) Tagging­Methoden, Stemmer, Lemmatisierer
Klassifizierung von Texten
●
Typen von Klassifizierern
Informationsextraktion aus Texten
●
Chunking, Named Entity Recognition, Relation Extraction
Referate, die zweite … (1/2) 3/10
Referatstermine
Wortkategorisierung & Tagging
●
2 Termine: 02.12. & 09.12.
Klassifizierung von Texten
●
1 Termin: 13.01.
Informationsextraktion aus Texten
●
2 Termine: 20.01. & 27.01.
Referate, die zweite … (2/2)
4/10
Funktionen
Mathematik: einem Element einer Menge wird
ein Element einer anderen Menge zugeordnet
●
z.B.: cos(0) = 1
Python: eine Eingabe wird nach bestimmten Vor­
gaben verarbeitet (und ein “Wert” zurückgegeben)
●
tokens = word_tokenize(raw)
Ein bisschen mehr Python (1/4)
5/10
Skripte
Zusammenfassung aufeinanderfolgender Befehle
●
iPython mit einem Skript starten
●
… :~$ ipython3 ­i /Pfad/zum/Skript.py
Definition von Funktionen, Klassen etc.
●
Ein bisschen mehr Python (2/4)
6/10
Übungen
NLTK­Buch: Kapitel 3.12
●
Strings: Übung 1, 2 & 11
Regular Expressions: Übung 6 & 7
● Skripte: Schreib ein Skript, das die Bücher aus
“nltk.book” importiert (NLTK Kapitel 1.2) und eine
Konkordanz­Ansicht eines beliebigen Wortes eines
beliebigen Textes zeigt.
Ein bisschen mehr Python (3/4)
7/10
iPython Notebook
Eine noch “bessere” Python­Oberfläche
●
Besonders gut um Arbeiten zu dokumentieren
und zu teilen
●
Speichern der Arbeitsergebnisse
●
Start mit: … :~$ ipython3 notebook
●
Wenn unter Windows “Anaconda” oder “WinPython”
installiert wurde, sollte es ein entsprechendes
Programm geben
●
Ein bisschen mehr Python (4/4)
8/10
“Hausaufgaben”
Gedanken zum Projekt machen:
­ wie könnte eine Pipeline dafür aussehen
­ kleinteilige Schritte
●
Codecadamy:
­ Conditionals & Control Flow
­ Functions
●
NLTK:
­ Kapitel 3.1: ab “Reading Local Files”
­ Kapitel 3.9
●
Hausaufgabe
9/10
Links
http://ipython.org/ipython­doc/1/interactive/notebook.html
●
(iPython­Notebook Einführung)
http://markdowntutorial.com/
●
(Markdown Einführung – für Notebook Kommentare)
Link zum Skript & Text
●
Last but not least …
10/10
Herunterladen