Black and White

Werbung
Text- und Datamining
Verwaltungtechnisches
und
Themenübersicht
Jan Schrader, Morgan Harvey, Martin Hacker
<Vorname>.<Name>@cs.fau.de
11-10-13
Organisatorisches
●
Folien eine Woche vor Präsentation abgeben
(per Email)
●
Anwesenheitspflicht
●
Quellenverzeichnis (auch bei Bildern!)
●
Softwaredemonstration erwünscht
●
Nach Möglichkeit eigenständige
Literaturrecherche
11-10-13
Themenübersicht – Moderne IR
●
Language Models
●
Topic Models
●
P(d|q) Ranking
●
Jellinek-Mercer
●
(Dirichlet) Smoothing
●
Lemur Toolkit (Indri)
11-10-13
Tehmenübersicht – Klassische IR
●
Vektorraummodell
●
Boolsches Retrieval
●
TF-IDF
●
Skalarprodukt/Cosinusmaß/Dice/Jaccard/...
●
Okapi (BM25)
●
Terrier & Bose-Einstein Statistik
11-10-13
Themenübersicht Vorverarbeitung
●
Bag of Words / Tokenisierung
●
N-Gramme
●
Stopwortentfernung
●
Stemming (Porter/Krovez)
●
Zipfs / Heaps Law
11-10-13
Themenübersicht – Auswertung
von Rangfolgen
●
Precision/Recall
●
F-Maß
●
(N)DCG
●
Cranfield Modell
●
Pooling
●
TREC Test Sammlungen
11-10-13
Themenübersicht – Anfrage
Erweiterung
●
Vocabulary Mismatch Problem
●
Thesauri basiert (Dornseiff/WordNet)
●
Automatische Erstellung von Thesauri
●
Kookurenzen basiert
●
Head Modifier basiert
●
(Pseudo) Relevanz Feedback (Rocchio)
11-10-13
Themenübersicht - Clustern
●
Top Down / Bottom Up
●
EM (Expectation Maximization)
●
K-Nächste Nachtbarn
●
K-Means
●
DBScan, FarthestFirst, Voronoi, ...
●
Yippy, WEKA
11-10-13
Themenübersicht - Klassifikation
●
Naive Bayes Klassifikator
●
Logistische Regression
●
Neuronale Netze
●
Schutz vor Email Spam
●
WEKA
11-10-13
Themenübersicht - Pagerank
●
Hubs / Authorities
●
HITS / Google Pagerank
●
Suchmaschinenoptimierung
●
Schutz vor Text / Link Spamming
11-10-13
Themenübersicht – Soziale
Netzwerke
●
Tagging und Tagclouds
●
Graph mining
●
First Story Detection
●
Online Communities
●
Facebook, Twitter & Co
11-10-13
Themenübersicht Empfehlungssysteme
●
●
Content/Rating basierte Empfelungen
Modell/Memory/Knowledge basierte
Empfehlungssysteme
●
Hybride Empfehlungssysteme
●
Context aware Empfehlungssysteme
●
Collaborative Filtering
●
Amazon, MovieLens, Jester (Eigentaste),
11-10-13 LastFM, ...
Themenübersicht Dimensionsreduktion
●
Fluch der Dimensionalität
●
Anwendung von Zips Gesetz
●
LSI/LSA (Latent Semantic Indexing/Analysis)
●
pLSI (Probabilistic LSI)
●
LDA (Latent Dirichlet Allocation)
●
gibbslda
11-10-13
Themenübersicht – Teilstrukturierte Daten
●
Meta Daten & Data Mining
●
RDF
●
XML
●
OIL / OWL
●
Ontologien / Erlangen CRM / Protege
11-10-13
Themenübersicht – Question
Answering Systeme
●
Word Sense Disambiguation
●
Question Answering
●
Semantisches Verstehen
●
WolframAlpha
●
Apple Siri
11-10-13
Themenübersicht - PIM
●
Persönliches Infomations Management
●
Re-finding Tasks
●
Desktop Suche
●
Nutzerstudien (Diary/Pilot studies)
●
Grounded Theory
●
Apple Spotlight
●
Gnome Zeitgeist
11-10-13
Themenübersicht – Information
Extraction
●
Satzgrenzenerkennung
●
Eigennamen Erkennung
●
Template Filling
●
Coreferenz Resolution
●
LingPipe, GATE
11-10-13
Themenübersicht - automatische
Textzusammenfassungen
●
Keyphrase Extraction
●
Generische Zusammenfassungen
●
Anfrage Relevante Zusammenfassungen
●
Mehr-Dokument-Zusammenfassungen
●
ROUGE
11-10-13
Themenübersicht – Spelling
Correction
●
Tolerance Searching (Wildcards)
●
T9
●
Soundex / Kölner Phonetik
●
Edit (Levenstein) Distanz
●
Modern spelling correction (tablets)
11-10-13
Themenübersicht –
Semantisches Verstehen
●
Semantisches Verstehen
●
Grammatikalische Analyse
●
Part-of-Speech Tagging
●
Sentiment Analysis / Opinion Mining
11-10-13
Themenübersicht – Cross
Language IR
●
Sprachenerkennung
●
Automatische Übersetzungen
●
–
Google Translate
–
Probleme mit automatischen Übersetzungen
Parallele Korpora
→ Weitere Themen auf Anfrage
11-10-13
Themenübersicht - Überblick
1. Probability theory and application to data mining, Language Models
2. "Classic" IR models; vector-space, distance measures, boolean ranking
3. Processing data for text mining; tokenisation, bag of words, n-grams, stopword-removal, stemming, Zipf's law
4. Evaluation; precision, recall, f-measure, Cranfield model, TREC, test collections
5. Query expansion; relevance feedback, thesauri based co-occurence based
6. Clustering; discriminative vs generative, k-means, expectation maximization
7. Classification; Naive Bayes classifier, logistic regression, neuronal networks
8. Google PageRank; hubs, authorities and link spamming protection
9. Socially-generated data; tagging, social networks, graph mining, first story detection
10. Recommender systems; content-based recommenders, collaborative filtering, hybrid systems
11. Dimensionality reduction; topic models, Latent Dirichlet Allocation, Singular Value Decomposition
12. Semi-structured data and ontologies; structured data, directories, bottom-up, top-down, XML
13. Question Answering systems, semantics, word sense disambiguation
14. Personal Information Management; desktop search, user studies, re-finding
15. Information Extraction; Named Entity recognition, sentence splitting, template filling, Coreference Resolution
16. Text summarisation; generic summaries, query relevant summaries, multi-document summarisation
11-10-13
17. Spelling correction for tolerance searching; wildcard, soundex, t9, edit distance
18. Semantic understanding; grammatical analysis, Parts-of-Speech tagging, sentiment analysis
19. Cross-language Information Retrieval; automatic translation, parallel corpora
Zugehörige Unterlagen
Herunterladen