Computerlinguistische Textanalyse 2. Sitzung – 28.10.2014 Verarbeitung von “Rohtext” I Franz Matthies Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller Universität Jena www.julielab.de Übersicht Seminarplan & Referatstermine [1] ● Grundlegende Python­Typen: String, List ● Unicode ● Warm­Up: NLTK ● Zum nächsten Mal … ● Übersicht 2/9 Was ist ein “String”? Sequenz von Buchstaben ● Markiert durch Anführungszeichen (“ oder ') ● my_string = “EinWort” my_string2 = '... oder auch mehr' String­Operationen: ● string1 + string2 string * Zahl Grundlegende Python­Typen (1/2) 3/9 Was ist eine “List”? Sequenz von beliebigen Objekten ● Markiert durch eckige Klammern; kommagetrennt ● my_list = [“EinWort”, 5, “1”] Zugriff durch “Slicing” (Index startet bei 0): ● my_list[0] → EinWort my_list[1:] → [5, “1”] Operationen wie bei Strings (beides Sequenzen!) ● Grundlegende Python­Typen (2/2) 4/9 Python & Unicode Jeder String in Python 3 wird standardmäßig im utf­8 Format gespeichert ● Variablen­Namen können also auch Unicode­ Buchstaben haben ● Standard Python­Bibliothek zum Lesen kodierter Dateien: ● import codecs codecs.open(Dateipfad, encoding=Code) Unicode 5/9 Los geht's … Vertraut werden: http://www.nltk.org/book/ch03.html (nur den Absatz: 3.1 Electronic Books) Ausprobieren: http://www.nltk.org/book/ch01.html (Absatz: 1.3 & 1.4 & 3.1) Warm­Up: NLTK (1/2) 6/9 Gutenberg Bücher The Divine Comedy ● http://www.gutenberg.org/files/8800/8800.txt Crime and Punishment ● http://www.gutenberg.org/files/2554/2554.txt Frankenstein ● http://www.gutenberg.org/files/84/84.txt The Picture of Dorian Grey ● http://www.gutenberg.org/files/174/174.txt Dracula ● http://www.gutenberg.org/files/345/345.txt Warm­Up: NLTK (2/2) 7/9 Zum (Nach)lesen String (NLTK: Ch.3 – Abs. 3.2) ● List (NLTK: Ch.1 – Abs. 2.1 & 2.2) ● Regular Expressions (NLTK: Ch.3 – Abs. 3.4 & 3.5) ● Unicode (NLTK: Ch.3 – Abs. 3.3 ● Zum nächsten Mal … 8/9 Literatur [NLTK] – http://www.nltk.org/book/ [LPHW] – http://learnpythonthehardway.org/book/ [TP] Literatur – http://greenteapress.com/thinkpython/thinkpython.pdf 9/9