Text- und Datamining Verwaltungtechnisches und Themenübersicht Jan Schrader, Morgan Harvey, Martin Hacker <Vorname>.<Name>@cs.fau.de 11-10-13 Organisatorisches ● Folien eine Woche vor Präsentation abgeben (per Email) ● Anwesenheitspflicht ● Quellenverzeichnis (auch bei Bildern!) ● Softwaredemonstration erwünscht ● Nach Möglichkeit eigenständige Literaturrecherche 11-10-13 Themenübersicht – Moderne IR ● Language Models ● Topic Models ● P(d|q) Ranking ● Jellinek-Mercer ● (Dirichlet) Smoothing ● Lemur Toolkit (Indri) 11-10-13 Tehmenübersicht – Klassische IR ● Vektorraummodell ● Boolsches Retrieval ● TF-IDF ● Skalarprodukt/Cosinusmaß/Dice/Jaccard/... ● Okapi (BM25) ● Terrier & Bose-Einstein Statistik 11-10-13 Themenübersicht Vorverarbeitung ● Bag of Words / Tokenisierung ● N-Gramme ● Stopwortentfernung ● Stemming (Porter/Krovez) ● Zipfs / Heaps Law 11-10-13 Themenübersicht – Auswertung von Rangfolgen ● Precision/Recall ● F-Maß ● (N)DCG ● Cranfield Modell ● Pooling ● TREC Test Sammlungen 11-10-13 Themenübersicht – Anfrage Erweiterung ● Vocabulary Mismatch Problem ● Thesauri basiert (Dornseiff/WordNet) ● Automatische Erstellung von Thesauri ● Kookurenzen basiert ● Head Modifier basiert ● (Pseudo) Relevanz Feedback (Rocchio) 11-10-13 Themenübersicht - Clustern ● Top Down / Bottom Up ● EM (Expectation Maximization) ● K-Nächste Nachtbarn ● K-Means ● DBScan, FarthestFirst, Voronoi, ... ● Yippy, WEKA 11-10-13 Themenübersicht - Klassifikation ● Naive Bayes Klassifikator ● Logistische Regression ● Neuronale Netze ● Schutz vor Email Spam ● WEKA 11-10-13 Themenübersicht - Pagerank ● Hubs / Authorities ● HITS / Google Pagerank ● Suchmaschinenoptimierung ● Schutz vor Text / Link Spamming 11-10-13 Themenübersicht – Soziale Netzwerke ● Tagging und Tagclouds ● Graph mining ● First Story Detection ● Online Communities ● Facebook, Twitter & Co 11-10-13 Themenübersicht Empfehlungssysteme ● ● Content/Rating basierte Empfelungen Modell/Memory/Knowledge basierte Empfehlungssysteme ● Hybride Empfehlungssysteme ● Context aware Empfehlungssysteme ● Collaborative Filtering ● Amazon, MovieLens, Jester (Eigentaste), 11-10-13 LastFM, ... Themenübersicht Dimensionsreduktion ● Fluch der Dimensionalität ● Anwendung von Zips Gesetz ● LSI/LSA (Latent Semantic Indexing/Analysis) ● pLSI (Probabilistic LSI) ● LDA (Latent Dirichlet Allocation) ● gibbslda 11-10-13 Themenübersicht – Teilstrukturierte Daten ● Meta Daten & Data Mining ● RDF ● XML ● OIL / OWL ● Ontologien / Erlangen CRM / Protege 11-10-13 Themenübersicht – Question Answering Systeme ● Word Sense Disambiguation ● Question Answering ● Semantisches Verstehen ● WolframAlpha ● Apple Siri 11-10-13 Themenübersicht - PIM ● Persönliches Infomations Management ● Re-finding Tasks ● Desktop Suche ● Nutzerstudien (Diary/Pilot studies) ● Grounded Theory ● Apple Spotlight ● Gnome Zeitgeist 11-10-13 Themenübersicht – Information Extraction ● Satzgrenzenerkennung ● Eigennamen Erkennung ● Template Filling ● Coreferenz Resolution ● LingPipe, GATE 11-10-13 Themenübersicht - automatische Textzusammenfassungen ● Keyphrase Extraction ● Generische Zusammenfassungen ● Anfrage Relevante Zusammenfassungen ● Mehr-Dokument-Zusammenfassungen ● ROUGE 11-10-13 Themenübersicht – Spelling Correction ● Tolerance Searching (Wildcards) ● T9 ● Soundex / Kölner Phonetik ● Edit (Levenstein) Distanz ● Modern spelling correction (tablets) 11-10-13 Themenübersicht – Semantisches Verstehen ● Semantisches Verstehen ● Grammatikalische Analyse ● Part-of-Speech Tagging ● Sentiment Analysis / Opinion Mining 11-10-13 Themenübersicht – Cross Language IR ● Sprachenerkennung ● Automatische Übersetzungen ● – Google Translate – Probleme mit automatischen Übersetzungen Parallele Korpora → Weitere Themen auf Anfrage 11-10-13 Themenübersicht - Überblick 1. Probability theory and application to data mining, Language Models 2. "Classic" IR models; vector-space, distance measures, boolean ranking 3. Processing data for text mining; tokenisation, bag of words, n-grams, stopword-removal, stemming, Zipf's law 4. Evaluation; precision, recall, f-measure, Cranfield model, TREC, test collections 5. Query expansion; relevance feedback, thesauri based co-occurence based 6. Clustering; discriminative vs generative, k-means, expectation maximization 7. Classification; Naive Bayes classifier, logistic regression, neuronal networks 8. Google PageRank; hubs, authorities and link spamming protection 9. Socially-generated data; tagging, social networks, graph mining, first story detection 10. Recommender systems; content-based recommenders, collaborative filtering, hybrid systems 11. Dimensionality reduction; topic models, Latent Dirichlet Allocation, Singular Value Decomposition 12. Semi-structured data and ontologies; structured data, directories, bottom-up, top-down, XML 13. Question Answering systems, semantics, word sense disambiguation 14. Personal Information Management; desktop search, user studies, re-finding 15. Information Extraction; Named Entity recognition, sentence splitting, template filling, Coreference Resolution 16. Text summarisation; generic summaries, query relevant summaries, multi-document summarisation 11-10-13 17. Spelling correction for tolerance searching; wildcard, soundex, t9, edit distance 18. Semantic understanding; grammatical analysis, Parts-of-Speech tagging, sentiment analysis 19. Cross-language Information Retrieval; automatic translation, parallel corpora