Data Mining und Text Mining Einführung S1 Überblick Data Mining

Werbung
Data Mining und Text Mining
Einführung
S1 Überblick Data Mining
Hans Hermann Weber
Univ. Erlangen, Informatik 8
Wintersemester 2003
[email protected]
Was ist Data Mining / Text Mininig
• Data Mining
— Auswertung von großen, strukturierten Datenbeständen
— Cluster, Assoziationsregeln, Klassifkatoren
• Text Mining
— Unstrukturierte Daten (Text) anreichern mit
Strukturinformation:
— Metadaten: Klassen oder Exzerpte
• Strukturierte + Unstrukturierte = alle Daten !
• Daten aller Art werden aufgezeichnet und ausgewertet
— Globale Datenerfassung und Auswertung
— Ablauschen / Monitoring aller Kommunikationskanäle im
Unternehmen (und sonstwo).
© H. Weber 2003. [email protected]
Page 2, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Beispiel von Data Mining Anwendungen 1
•
Marketing und Sales
— Zielgruppen für Produkte und Dienstleistungen finden
— Zusammenhänge zwischen Kundeneigenschaften finden
— Mailings und Werbung zielrichten.
— Abwanderungskandidaten isolieren.
•
Bankwesen
— Kreditvergabekriterien finden
— Regeln für Wertpapierkurse finden
•
Medizin
— Entdecken von Zusammenhängen zwischen
Krankheitsverläufen und anderen Faktoren.
© H. Weber 2003. [email protected]
Page 3, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Beispiel von Data Mining Anwendungen 2
•
Chemische Verfahrenstechnik
— Datenfusion von Sensordaten
— Finden von Regeln für das Auftreten von Störfällen
— Optimieren von Wartungszyklen
•
Energiewirtschaft
— Planung / Vorhersage von Stromversorgung / Bedarf
•
Versicherungen
— Risikoeinschätzungen
— Vertriebssteuerung
© H. Weber 2003. [email protected]
Page 4, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Beispielpräsentation Versicherung
•
Was sagt der Vertrieb einem Nutzer von Data Mining
Technolgie ?
•
Beispielpräsentation aus einer echten Vertriebssituation
•
Fa. Averity, Hamburg, 14 Seiten
© H. Weber 2003. [email protected]
Page 5, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
'HUJOlVHUQH.XQGH )52QOLQHYRP2NWREHU
$XV]JH
7HLO
$XFK5HJLHUXQJHQXQWHU GHQHLIULJVWHQ 'DWHQNUDNHQ
'DWHQVFKW]HUZDUQHQGDYRUGDVV+DQGHOVNRQ]HUQH GDV(LQNDXIVYHUKDOWHQLKUHU
.XQGHQHUIDVVHQ XQGVLHEHLPQlFKVWHQ(LQNDXIPLWJH]LHOWHQ:HUEHERWVFKDIWHQ
PDQLSXOLHUHQ6LH]HLFKQHWHQGDKHU GHQ0HWUR.RQ]HUQGHU GLHGDIUHUIRUGHUOLFKH
7HFKQLNWHVWHWPLWGHP %LJ %LJ%URWKHU$ZDUGJHKW DQGHQ+DQGHOVNRQ]HUQ 0HWUR
%URWKHU$ZDUGDXV=X GHQSUHLVJHNU|QWHQ 'DWHQNUDNHQ]lKOHQDXFK GLH*(=GLH
3RVWXQGGLYHUVH5HJLHUXQJHQ
Bielefeld · 26. Okt ober · Negat iv- Preise nim m t niem and gerne ent gegen. Das gilt auch für den
Big- Brot her- Aw ard. Zwar waren Vert ret er von vielen Bürgerrecht s- und Dat enschut zOrganisat ionen gek om m en - die Preist räger glänzt en am Fr eit ag in Bielefeld j edoch
kom plet t durch Abw esenheit .
.......
I n der Kat egorie Verbraucherschut z bekam die Met ro den Preis für ihr Proj ekt " Fut ure
St ore" . Der Handelskonzern hat einen Superm arkt in Rheinsberg bei Duisburg m it der
neust en Technik ausgest at t et , um den Kunden das Einkaufserlebnis von m orgen zu
verm it t eln. Doch die vielen " Eink aufshilfen" sind für Dat enschüt zer ein Albt raum . Besonders
die RFI D- Technik, die die St richcodes auf den Verpack ungen durch Chips erset zt , weckt
böse Ahnungen: Mit dieser Technik lassen sich I nform at ionen über das Einkaufsverhalt en
von Kunden speichern und beim nächst en Besuch gezielt zu Werbezwecken einset zen. Die
Jury fürcht et eine neue Qualit ät von " Konsum t error" . Die Laudat oren Rena Tangens und
Frank Rosengart ent warfen eine Vision, die nur wenig m it den Werbeversprechen gem ein
hat . Wenn sich die Technik einm al durchgeset zt habe, könne sie ebenso gut zur
Überwachung von Beschäft igt en dienen oder auch zu höheren Preisen führen.
© H. Weber 2003. [email protected]
Page 6, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
'HUJOlVHUQH.XQGH )52QOLQHYRP2NWREHU
$XV]JH
7HLO
Mit der US- Regierung erhielt zum erst en Mal eine ausländische I nst it ut ion den deut schen BigBrot her- Awar d. Grund ist der erzwungene Dat ent ransfer von europäischen Fluglinien an die
US- Behörden. Wenn eine Fluglinie den Zugriff auf Passagierdat en verweigert , bekom m t sie
in den USA keine Landeerlaubnis m ehr. Die Jury bezeichnet dieses Vorgehen als " Nöt igung"
und Eingriff in die st aat liche Souveränit ät .
Mit den Arbeit svert rägen einer Tocht ergesellschaft hat sich die Deut sche Post als
Dat enkrake qualifiziert . Geringfügig Beschäft igt e m usst en sich darin verpflicht en, ihren Arzt
von der ärzt lichen Schweigepflicht zu ent binden. Die Dat enschüt zer halt en das für
" unverschäm t und unangem essen" . Das Ex - Schwest erunt ernehm en T- Online bekam auch
sein Fet t weg: Die Jury bem ängelt e, dass dort ent gegen der gelt enden Geset ze säm t liche
Kundendat en über 80 Tage gespeichert werden.
Spont anen Applaus gab es, als die Rundfunkgebühren- Einzugszent rale GEZ für " ihr
Lebenswerk" ausgezeichnet w urde: den " unerm üdlichen Einsat z bei der bedingungslosen
Erm it t lung von Schwarzseherinnen und Schwarzhörern" , wie Thilo Weichert von der
Deut schen Vereinigung für Dat enschut z ausführt e.
Die GEZ beziehe Dat en von fragw ürdigen Quellen und spiegele den Bürgern falsche
Tat sachen vor, um an ihre Dat en zu kom m en. Besonders übel st ieß dem Dat enschüt zer auf,
dass sich die GEZ über das Medienprivileg einer um fassenden Kont rolle ent zieht . Doch das
Dat ensam m eln habe rein gar nicht s m it freier Bericht erst at t ung zu t un, so Weichert .
© H. Weber 2003. [email protected]
Page 7, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Data Mining Methodik (grob)
•
(Jahrelanges / Permanentes) Sammeln von strukturierten
Daten
— Unüberschaubar viele Daten
•
Bereinigen und Normalisieren der strukturierten Daten
— DM Daten sind immer „Real World Data“
— Viele Fehler und Inkonsistenzen
•
Automatisches Finden von Regelmäßigkeiten mit
standardisierten Methoden
© H. Weber 2003. [email protected]
Page 8, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Eingaben und Ausgaben von DM Aktivitäten
•
Eingaben
— normalisierte Daten
Data Mining Algorithmen
•
Ausgaben
- strukturelle Beschreibungen
- Erklärungen für die Regularitäten in den Daten
- Klassifikatoren / Cluster / ...
© H. Weber 2003. [email protected]
Page 9, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Kontaktlinsen-Beispiel Daten
© H. Weber 2003. [email protected]
Page 10, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Kontaktlinsen-Beispiel
Einfache Regeln
If
then
tear procution rate = reduced
recommendation = none
Otherwise, if
then
age = young and astigmatic = no
recommendation = soft
•
•
•
Abdeckung (Coverage) ?
Korrektheit ?
Generalisierung ?
•
Was fordern wir von einer strukturellen Beschreibung ?
© H. Weber 2003. [email protected]
Page 11, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Kontaktlinsen-Beispiel Regeln vollständig
© H. Weber 2003. [email protected]
Page 12, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Kontaklinsen-Beispiel Entscheidungsbaum
unvollständig
© H. Weber 2003. [email protected]
Page 13, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Wetter-Sport Beispiel
© H. Weber 2003. [email protected]
Page 14, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Wetter-Sport Beispiel Numerisch
© H. Weber 2003. [email protected]
Page 15, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Strukturelle Beschreibungen
•
•
•
•
•
Daten sind
— Attribute
— und deren Werte
Wertebereiche von Attributen sind
— nominal
— oder metrisch
Datensammlungen
— sind vollständig zufällig oder ..
— haben zugrundeliegende Regularitäten
DM sucht „strukturelle Beschreibungen“ der Daten
Strukturelle Beschreibungen sollten
— Regularitäten der Daten explizit machen
— Vorhersagen über Daten ermöglichen
© H. Weber 2003. [email protected]
Page 16, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Vier Grundverfahren des Data Mining
•
Klassifikation
— Ein Attribut des Datensatzes wird klassifiziert aufgrund aller
anderen (oder ausgewählter) Attribute.
•
Numerische Prädiktion
— Vorhersage eines numerischen Attribut-Wertes aufgrund
aller anderen (oder ausgewählter) Attrribute.
•
Assoziationsregeln
— Finden von Regelhaftigkeiten zwischen allen möglichen
Attributen
•
Clustering
— Gruppierung von Datensätzen
© H. Weber 2003. [email protected]
Page 17, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Globale Eigenschaften der Verfahren
•
•
Klassifikation und Prädiktion sind überprüfbar
Clustering und das Finden von Assoziationsregeln sind nicht
überprüfbar
•
Für alle vier Verfahren gibt es sowohl
— Einfache Basisalgorithmen
— Komplexe und hochspezialisierte algorithmische Lösungen
•
Aber auch immer mehrere Ansätze
— Symbolisch / Logisch
— Stochastisch
— Neuronale Netze
© H. Weber 2003. [email protected]
Page 18, Data Mining & Text Mining Einführung, Abschnitt 0, Inhaltsverzeichnis
Herunterladen