NLTK Natural Language Toolkit A. Adler und C. Zyweck Anlass Rechnerisch Linguistisches Studium an der University of Pennsylvania (2001) Pädagogische Eckpunkte 2 Aufgabe Demonstration Projekte NLTK - A. Adler, C. Zyweck 15.11.2012 Entwicklung Zusammenstellung von Python Modulen NLP-Forschung NLP-Entwicklung Entwickler Administratoren 3 Steven Bird Edward Loper Ewan Klein Viele weitere Beiträge von Studenten und Forschern NLTK - A. Adler, C. Zyweck 15.11.2012 Einsatz Lehrstuhl Forschung Industrie Apache Lizenz frei Open source Platformunabhängig (durch Python) 4 NLTK - A. Adler, C. Zyweck 15.11.2012 Dokumentation Community Umfangreiche und ausführliche Dokumentation Referenzen Tutorien Demos (z. B. Parser, Chunker, Chatbots) (Online-) Buch Doc-Strings 5 NLTK - A. Adler, C. Zyweck 15.11.2012 Funktionsweise Bibliothek in Python Module Korpora 6 Tokenizer Textklassifikation Entity Recognition Part-of-Speech Tagging … Enthält bereits 50 bekannte Korpora Korpus-Readers für interne und externe Korpora Grunddatentyp: Tokens NLTK - A. Adler, C. Zyweck 15.11.2012 Verwendung >>> import nltk >>> nltk.download() >>> from nltk.book import * >>> text2. … 7 NLTK - A. Adler, C. Zyweck 15.11.2012 Beispiele Beispielkorpora (Text1-9) text1: Moby Dick by Herman Melville 1851 text2: Sense and Sensibility by Jane Austen 1811 text3: The Book of Genesis text4: Inaugural Address Corpus text5: Chat Corpus text6: Monty Python and the Holy Grail text7: Wall Street Journal text8: Personals Corpus text9: The Man Who Was Thursday by G . K . Chesterton 1908 Wörter: ca. 820.000 8 NLTK - A. Adler, C. Zyweck 15.11.2012 Beispiele (2) 9 NLTK - A. Adler, C. Zyweck 15.11.2012 Beispiele (3) 10 NLTK - A. Adler, C. Zyweck 15.11.2012 Beispiele (4) 11 NLTK - A. Adler, C. Zyweck 15.11.2012 Beispiele (5) … 12 NLTK - A. Adler, C. Zyweck 15.11.2012 Beispiele (test_08n0147.xml) the erscheint 1590260 -mal of erscheint 1447530 -mal , erscheint 797125 -mal in erscheint 783905 -mal and erscheint 768375 -mal a erscheint 420505 -mal . erscheint 419495 -mal to erscheint 405790 -mal with erscheint 292485 -mal ) erscheint 277825 -mal ( erscheint 271840 -mal was erscheint 240015 -mal by erscheint 204450 -mal were erscheint 188125 -mal is erscheint 187835 -mal for erscheint 177445 -mal on erscheint 143295 -mal that erscheint 135530 -mal from erscheint 129020 -mal ] erscheint 112895 -mal 13 NLTK - A. Adler, C. Zyweck 15.11.2012 Fazit “A wonderful tool for teaching, and working in, computational linguistics using Python.” “An amazing library to play with natural language.” 14 NLTK - A. Adler, C. Zyweck 15.11.2012 Literatur Onlinebuch: http://nltk.org/book/ NLTK: The Natural Language Toolkit. S. Bird, E. Loper. Association for Computational Linguistics, 2002/4. Python Text Processing with NLTK 2.0. Cookbook J. Perkins Quick answers to common problems 2010/11. … Demos: http://text-processing.com/ 15 NLTK - A. Adler, C. Zyweck 15.11.2012