Data Mining und Text Mining Einführung S1 Überblick Data Mining Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 [email protected] Was ist Data Mining / Text Mininig • Data Mining — Auswertung von großen, strukturierten Datenbeständen — Cluster, Assoziationsregeln, Klassifkatoren • Text Mining — Unstrukturierte Daten (Text) anreichern mit Strukturinformation: — Metadaten: Klassen oder Exzerpte • Strukturierte + Unstrukturierte = alle Daten ! • Daten aller Art werden aufgezeichnet und ausgewertet — Globale Datenerfassung und Auswertung — Ablauschen / Monitoring aller Kommunikationskanäle im Unternehmen (und sonstwo). © H. Weber 2003. [email protected] Page 2, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis Beispiel von Data Mining Anwendungen 1 • Marketing und Sales — Zielgruppen für Produkte und Dienstleistungen finden — Zusammenhänge zwischen Kundeneigenschaften finden — Mailings und Werbung zielrichten. — Abwanderungskandidaten isolieren. • Bankwesen — Kreditvergabekriterien finden — Regeln für Wertpapierkurse finden • Medizin — Entdecken von Zusammenhängen zwischen Krankheitsverläufen und anderen Faktoren. © H. Weber 2003. [email protected] Page 3, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis Beispiel von Data Mining Anwendungen 2 • Chemische Verfahrenstechnik — Datenfusion von Sensordaten — Finden von Regeln für das Auftreten von Störfällen — Optimieren von Wartungszyklen • Energiewirtschaft — Planung / Vorhersage von Stromversorgung / Bedarf • Versicherungen — Risikoeinschätzungen — Vertriebssteuerung © H. Weber 2003. [email protected] Page 4, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis Beispielpräsentation Versicherung • Was sagt der Vertrieb einem Nutzer von Data Mining Technolgie ? • Beispielpräsentation aus einer echten Vertriebssituation • Fa. Averity, Hamburg, 14 Seiten © H. Weber 2003. [email protected] Page 5, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis 'HUJOlVHUQH.XQGH )52QOLQHYRP2NWREHU $XV]JH 7HLO $XFK5HJLHUXQJHQXQWHU GHQHLIULJVWHQ 'DWHQNUDNHQ 'DWHQVFKW]HUZDUQHQGDYRUGDVV+DQGHOVNRQ]HUQH GDV(LQNDXIVYHUKDOWHQLKUHU .XQGHQHUIDVVHQ XQGVLHEHLPQlFKVWHQ(LQNDXIPLWJH]LHOWHQ:HUEHERWVFKDIWHQ PDQLSXOLHUHQ6LH]HLFKQHWHQGDKHU GHQ0HWUR.RQ]HUQGHU GLHGDIUHUIRUGHUOLFKH 7HFKQLNWHVWHWPLWGHP %LJ %LJ%URWKHU$ZDUGJHKW DQGHQ+DQGHOVNRQ]HUQ 0HWUR %URWKHU$ZDUGDXV=X GHQSUHLVJHNU|QWHQ 'DWHQNUDNHQ]lKOHQDXFK GLH*(=GLH 3RVWXQGGLYHUVH5HJLHUXQJHQ Bielefeld · 26. Okt ober · Negat iv- Preise nim m t niem and gerne ent gegen. Das gilt auch für den Big- Brot her- Aw ard. Zwar waren Vert ret er von vielen Bürgerrecht s- und Dat enschut zOrganisat ionen gek om m en - die Preist räger glänzt en am Fr eit ag in Bielefeld j edoch kom plet t durch Abw esenheit . ....... I n der Kat egorie Verbraucherschut z bekam die Met ro den Preis für ihr Proj ekt " Fut ure St ore" . Der Handelskonzern hat einen Superm arkt in Rheinsberg bei Duisburg m it der neust en Technik ausgest at t et , um den Kunden das Einkaufserlebnis von m orgen zu verm it t eln. Doch die vielen " Eink aufshilfen" sind für Dat enschüt zer ein Albt raum . Besonders die RFI D- Technik, die die St richcodes auf den Verpack ungen durch Chips erset zt , weckt böse Ahnungen: Mit dieser Technik lassen sich I nform at ionen über das Einkaufsverhalt en von Kunden speichern und beim nächst en Besuch gezielt zu Werbezwecken einset zen. Die Jury fürcht et eine neue Qualit ät von " Konsum t error" . Die Laudat oren Rena Tangens und Frank Rosengart ent warfen eine Vision, die nur wenig m it den Werbeversprechen gem ein hat . Wenn sich die Technik einm al durchgeset zt habe, könne sie ebenso gut zur Überwachung von Beschäft igt en dienen oder auch zu höheren Preisen führen. © H. Weber 2003. [email protected] Page 6, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis 'HUJOlVHUQH.XQGH )52QOLQHYRP2NWREHU $XV]JH 7HLO Mit der US- Regierung erhielt zum erst en Mal eine ausländische I nst it ut ion den deut schen BigBrot her- Awar d. Grund ist der erzwungene Dat ent ransfer von europäischen Fluglinien an die US- Behörden. Wenn eine Fluglinie den Zugriff auf Passagierdat en verweigert , bekom m t sie in den USA keine Landeerlaubnis m ehr. Die Jury bezeichnet dieses Vorgehen als " Nöt igung" und Eingriff in die st aat liche Souveränit ät . Mit den Arbeit svert rägen einer Tocht ergesellschaft hat sich die Deut sche Post als Dat enkrake qualifiziert . Geringfügig Beschäft igt e m usst en sich darin verpflicht en, ihren Arzt von der ärzt lichen Schweigepflicht zu ent binden. Die Dat enschüt zer halt en das für " unverschäm t und unangem essen" . Das Ex - Schwest erunt ernehm en T- Online bekam auch sein Fet t weg: Die Jury bem ängelt e, dass dort ent gegen der gelt enden Geset ze säm t liche Kundendat en über 80 Tage gespeichert werden. Spont anen Applaus gab es, als die Rundfunkgebühren- Einzugszent rale GEZ für " ihr Lebenswerk" ausgezeichnet w urde: den " unerm üdlichen Einsat z bei der bedingungslosen Erm it t lung von Schwarzseherinnen und Schwarzhörern" , wie Thilo Weichert von der Deut schen Vereinigung für Dat enschut z ausführt e. Die GEZ beziehe Dat en von fragw ürdigen Quellen und spiegele den Bürgern falsche Tat sachen vor, um an ihre Dat en zu kom m en. Besonders übel st ieß dem Dat enschüt zer auf, dass sich die GEZ über das Medienprivileg einer um fassenden Kont rolle ent zieht . Doch das Dat ensam m eln habe rein gar nicht s m it freier Bericht erst at t ung zu t un, so Weichert . © H. Weber 2003. [email protected] Page 7, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis Data Mining Methodik (grob) • (Jahrelanges / Permanentes) Sammeln von strukturierten Daten — Unüberschaubar viele Daten • Bereinigen und Normalisieren der strukturierten Daten — DM Daten sind immer „Real World Data“ — Viele Fehler und Inkonsistenzen • Automatisches Finden von Regelmäßigkeiten mit standardisierten Methoden © H. Weber 2003. [email protected] Page 8, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis Eingaben und Ausgaben von DM Aktivitäten • Eingaben — normalisierte Daten Data Mining Algorithmen • Ausgaben - strukturelle Beschreibungen - Erklärungen für die Regularitäten in den Daten - Klassifikatoren / Cluster / ... © H. Weber 2003. [email protected] Page 9, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis Kontaktlinsen-Beispiel Daten © H. Weber 2003. [email protected] Page 10, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis Kontaktlinsen-Beispiel Einfache Regeln If then tear procution rate = reduced recommendation = none Otherwise, if then age = young and astigmatic = no recommendation = soft • • • Abdeckung (Coverage) ? Korrektheit ? Generalisierung ? • Was fordern wir von einer strukturellen Beschreibung ? © H. Weber 2003. [email protected] Page 11, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis Kontaktlinsen-Beispiel Regeln vollständig © H. Weber 2003. [email protected] Page 12, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis Kontaklinsen-Beispiel Entscheidungsbaum unvollständig © H. Weber 2003. [email protected] Page 13, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis Wetter-Sport Beispiel © H. Weber 2003. [email protected] Page 14, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis Wetter-Sport Beispiel Numerisch © H. Weber 2003. [email protected] Page 15, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis Strukturelle Beschreibungen • • • • • Daten sind — Attribute — und deren Werte Wertebereiche von Attributen sind — nominal — oder metrisch Datensammlungen — sind vollständig zufällig oder .. — haben zugrundeliegende Regularitäten DM sucht „strukturelle Beschreibungen“ der Daten Strukturelle Beschreibungen sollten — Regularitäten der Daten explizit machen — Vorhersagen über Daten ermöglichen © H. Weber 2003. [email protected] Page 16, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis Vier Grundverfahren des Data Mining • Klassifikation — Ein Attribut des Datensatzes wird klassifiziert aufgrund aller anderen (oder ausgewählter) Attribute. • Numerische Prädiktion — Vorhersage eines numerischen Attribut-Wertes aufgrund aller anderen (oder ausgewählter) Attrribute. • Assoziationsregeln — Finden von Regelhaftigkeiten zwischen allen möglichen Attributen • Clustering — Gruppierung von Datensätzen © H. Weber 2003. [email protected] Page 17, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis Globale Eigenschaften der Verfahren • • Klassifikation und Prädiktion sind überprüfbar Clustering und das Finden von Assoziationsregeln sind nicht überprüfbar • Für alle vier Verfahren gibt es sowohl — Einfache Basisalgorithmen — Komplexe und hochspezialisierte algorithmische Lösungen • Aber auch immer mehrere Ansätze — Symbolisch / Logisch — Stochastisch — Neuronale Netze © H. Weber 2003. [email protected] Page 18, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis