NLTK

Werbung
NLTK
Natural Language Toolkit
A. Adler und C. Zyweck
Anlass

Rechnerisch Linguistisches Studium an der
University of Pennsylvania (2001)

Pädagogische Eckpunkte



2
Aufgabe
Demonstration
Projekte
NLTK - A. Adler, C. Zyweck
15.11.2012
Entwicklung
Zusammenstellung von Python Modulen



NLP-Forschung
NLP-Entwicklung
Entwickler


Administratoren





3
Steven Bird
Edward Loper
Ewan Klein
Viele weitere
Beiträge von Studenten und Forschern
NLTK - A. Adler, C. Zyweck
15.11.2012
Einsatz

Lehrstuhl
Forschung
Industrie

Apache Lizenz




frei
Open source
Platformunabhängig (durch Python)

4
NLTK - A. Adler, C. Zyweck
15.11.2012
Dokumentation
Community
Umfangreiche und ausführliche Dokumentation
Referenzen
Tutorien
Demos (z. B. Parser, Chunker, Chatbots)
(Online-) Buch
Doc-Strings







5
NLTK - A. Adler, C. Zyweck
15.11.2012
Funktionsweise
Bibliothek in Python


Module






Korpora



6
Tokenizer
Textklassifikation
Entity Recognition
Part-of-Speech Tagging
…
Enthält bereits 50 bekannte Korpora
Korpus-Readers für interne und externe Korpora
Grunddatentyp: Tokens
NLTK - A. Adler, C. Zyweck
15.11.2012
Verwendung
>>> import nltk
>>> nltk.download()
>>> from nltk.book import *
>>> text2. …
7
NLTK - A. Adler, C. Zyweck
15.11.2012
Beispiele
Beispielkorpora (Text1-9)










text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908
Wörter: ca. 820.000

8
NLTK - A. Adler, C. Zyweck
15.11.2012
Beispiele (2)
9
NLTK - A. Adler, C. Zyweck
15.11.2012
Beispiele (3)
10
NLTK - A. Adler, C. Zyweck
15.11.2012
Beispiele (4)
11
NLTK - A. Adler, C. Zyweck
15.11.2012
Beispiele (5)
…
12
NLTK - A. Adler, C. Zyweck
15.11.2012
Beispiele (test_08n0147.xml)

the erscheint 1590260 -mal

of erscheint 1447530 -mal

, erscheint 797125 -mal

in erscheint 783905 -mal

and erscheint 768375 -mal

a erscheint 420505 -mal

. erscheint 419495 -mal

to erscheint 405790 -mal

with erscheint 292485 -mal

) erscheint 277825 -mal

( erscheint 271840 -mal

was erscheint 240015 -mal

by erscheint 204450 -mal

were erscheint 188125 -mal

is erscheint 187835 -mal

for erscheint 177445 -mal

on erscheint 143295 -mal

that erscheint 135530 -mal

from erscheint 129020 -mal

] erscheint 112895 -mal
13
NLTK - A. Adler, C. Zyweck
15.11.2012
Fazit
“A wonderful tool for teaching, and working in,
computational linguistics using Python.”
“An amazing library to play with natural language.”
14
NLTK - A. Adler, C. Zyweck
15.11.2012
Literatur





Onlinebuch: http://nltk.org/book/
NLTK: The Natural Language Toolkit. S. Bird, E.
Loper. Association for Computational Linguistics,
2002/4.
Python Text Processing with NLTK 2.0. Cookbook
J. Perkins Quick answers to common problems
2010/11.
…
Demos: http://text-processing.com/
15
NLTK - A. Adler, C. Zyweck
15.11.2012
Herunterladen