Computerlinguistische Textanalyse

Werbung
Computerlinguistische Textanalyse
2. Sitzung – 28.10.2014
Verarbeitung von “Rohtext” I
Franz Matthies
Lehrstuhl für Computerlinguistik
Institut für Germanistische Sprachwissenschaft
Friedrich-Schiller Universität Jena
www.julielab.de
Übersicht
Seminarplan & Referatstermine [1]
●
Grundlegende Python­Typen: String, List
●
Unicode
●
Warm­Up: NLTK
●
Zum nächsten Mal … ●
Übersicht
2/9
Was ist ein “String”?
Sequenz von Buchstaben
●
Markiert durch Anführungszeichen (“ oder ')
●
my_string = “EinWort”
my_string2 = '... oder auch mehr'
String­Operationen:
●
string1 + string2
string * Zahl
Grundlegende Python­Typen (1/2)
3/9
Was ist eine “List”?
Sequenz von beliebigen Objekten
●
Markiert durch eckige Klammern; kommagetrennt
●
my_list = [“EinWort”, 5, “1”]
Zugriff durch “Slicing” (Index startet bei 0):
●
my_list[0]
→
EinWort
my_list[1:]
→
[5, “1”]
Operationen wie bei Strings (beides Sequenzen!)
●
Grundlegende Python­Typen (2/2)
4/9
Python & Unicode
Jeder String in Python 3 wird standardmäßig
im utf­8 Format gespeichert
●
Variablen­Namen können also auch Unicode­
Buchstaben haben
●
Standard Python­Bibliothek zum Lesen kodierter
Dateien:
●
import codecs
codecs.open(Dateipfad, encoding=Code)
Unicode
5/9
Los geht's …
Vertraut werden:
http://www.nltk.org/book/ch03.html
(nur den Absatz: 3.1 Electronic Books)
Ausprobieren:
http://www.nltk.org/book/ch01.html
(Absatz: 1.3 & 1.4 & 3.1)
Warm­Up: NLTK (1/2)
6/9
Gutenberg Bücher
The Divine Comedy ●
http://www.gutenberg.org/files/8800/8800.txt
Crime and Punishment
●
http://www.gutenberg.org/files/2554/2554.txt
Frankenstein
●
http://www.gutenberg.org/files/84/84.txt
The Picture of Dorian Grey
●
http://www.gutenberg.org/files/174/174.txt
Dracula
●
http://www.gutenberg.org/files/345/345.txt
Warm­Up: NLTK (2/2)
7/9
Zum (Nach)lesen
String (NLTK: Ch.3 – Abs. 3.2)
●
List (NLTK: Ch.1 – Abs. 2.1 & 2.2)
●
Regular Expressions (NLTK: Ch.3 – Abs. 3.4 & 3.5)
●
Unicode (NLTK: Ch.3 – Abs. 3.3
●
Zum nächsten Mal … 8/9
Literatur
[NLTK]
– http://www.nltk.org/book/
[LPHW] – http://learnpythonthehardway.org/book/
[TP]
Literatur
– http://greenteapress.com/thinkpython/thinkpython.pdf
9/9
Herunterladen