Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenbanken Unit 10: Ranking und Data Mining Ronald Ortner 30. V. 2017 Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Organisatorisches Nächste Woche entfällt VO, UE findet normal statt Aktuelle ÜBeispiele nächste Woche Noch zwei Wissensüberprüfungen morgen und nächste Woche am 7.6. UE-Abschlusstest am 14. Juni (Gruppe 1: 14:45–16:00, Gruppe 2: 16:00–17:15 ) Am 21. Juni finden beide Übungsgruppen gleichzeitig statt (16–17:30 Uhr im RWZ HS). Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz SQL Heute: Ergänzungen zu COUNT und JOIN Ronald Ortner Normalisierung: Weiteres Beispiel Organisatorisches Ranking und Data Mining Ranking Outline 1 Organisatorisches 2 Ranking und Data Mining Ranking Klassifikation Assoziationsregeln Clustering 3 Datenschutz 4 Normalisierung: Weiteres Beispiel Ronald Ortner Datenschutz Normalisierung: Weiteres Beispiel Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Ranking Ranking Aufgabe: haben mehrere Listen derselben Objekte, gereiht nach verschiedenen Kriterien aggregieren die verschiedenen Kriterien zu einem Wert (einfachster Fall: Summe) hätten gerne die besten k Objekte Naive Lösung: Berechnen Wert für alle Objekte und sortieren Bessere Lösung: Threshold Algorithmus No Random Access Algorithmus (für Details siehe Folien von Alois Kemper) Ronald Ortner Organisatorisches Ranking und Data Mining Klassifikation Outline 1 Organisatorisches 2 Ranking und Data Mining Ranking Klassifikation Assoziationsregeln Clustering 3 Datenschutz 4 Normalisierung: Weiteres Beispiel Ronald Ortner Datenschutz Normalisierung: Weiteres Beispiel Organisatorisches Ranking und Data Mining Klassifikation Data Mining Idee: haben viele Daten suchen nach speziellen Mustern Ronald Ortner Datenschutz Normalisierung: Weiteres Beispiel Organisatorisches Ranking und Data Mining Klassifikation Data Mining Idee: haben viele Daten suchen nach speziellen Mustern Wir unterscheiden dabei: Klassifikation Assoziationsregeln Clustering Ronald Ortner Datenschutz Normalisierung: Weiteres Beispiel Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Klassifikation Klassifikation Setting: interessieren uns für bestimmte Eigenschaft schauen uns vergangene Daten an und generieren Hypothese Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Klassifikation Klassifikation Setting: interessieren uns für bestimmte Eigenschaft schauen uns vergangene Daten an und generieren Hypothese Beispiele: Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Klassifikation Klassifikation Setting: interessieren uns für bestimmte Eigenschaft schauen uns vergangene Daten an und generieren Hypothese Beispiele: Risiko für Versicherungsfall (gegeben: Geschlecht, Alter etc.) Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Klassifikation Klassifikation Setting: interessieren uns für bestimmte Eigenschaft schauen uns vergangene Daten an und generieren Hypothese Beispiele: Risiko für Versicherungsfall (gegeben: Geschlecht, Alter etc.) Risiko, dass Kredit nicht zurückgezahlt wird (gegeben: Geschlecht, Alter, Familienstand, Arbeitsverhältnis, etc.) Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Klassifikation Klassifikation Setting: interessieren uns für bestimmte Eigenschaft schauen uns vergangene Daten an und generieren Hypothese Beispiele: Risiko für Versicherungsfall (gegeben: Geschlecht, Alter etc.) Risiko, dass Kredit nicht zurückgezahlt wird (gegeben: Geschlecht, Alter, Familienstand, Arbeitsverhältnis, etc.) Aussicht, dass medizinische Behandlung erfolgreich Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Klassifikation Klassifikation Setting: interessieren uns für bestimmte Eigenschaft schauen uns vergangene Daten an und generieren Hypothese Beispiele: Risiko für Versicherungsfall (gegeben: Geschlecht, Alter etc.) Risiko, dass Kredit nicht zurückgezahlt wird (gegeben: Geschlecht, Alter, Familienstand, Arbeitsverhältnis, etc.) Aussicht, dass medizinische Behandlung erfolgreich Ist E-Mail Spam? Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Klassifikation Klassifikation Setting: interessieren uns für bestimmte Eigenschaft schauen uns vergangene Daten an und generieren Hypothese Beispiele: Risiko für Versicherungsfall (gegeben: Geschlecht, Alter etc.) Risiko, dass Kredit nicht zurückgezahlt wird (gegeben: Geschlecht, Alter, Familienstand, Arbeitsverhältnis, etc.) Aussicht, dass medizinische Behandlung erfolgreich Ist E-Mail Spam? Enthält dieses Bild eine Katze? Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Klassifikation Klassifikation Setting: interessieren uns für bestimmte Eigenschaft schauen uns vergangene Daten an und generieren Hypothese Beispiele: Risiko für Versicherungsfall (gegeben: Geschlecht, Alter etc.) Risiko, dass Kredit nicht zurückgezahlt wird (gegeben: Geschlecht, Alter, Familienstand, Arbeitsverhältnis, etc.) Aussicht, dass medizinische Behandlung erfolgreich Ist E-Mail Spam? Enthält dieses Bild eine Katze? Ist diese Website über Datenbanknormalisierung? Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Klassifikation Maschinelles Lernen Es gibt viele verschiedene Methoden, um aus Daten zu ‘lernen’: Neuronale Netze Entscheidungsbäume Support Vector Machines .. . → Lehrveranstaltung “Maschinelles Lernen” (Auer) Ronald Ortner Organisatorisches Ranking und Data Mining Assoziationsregeln Outline 1 Organisatorisches 2 Ranking und Data Mining Ranking Klassifikation Assoziationsregeln Clustering 3 Datenschutz 4 Normalisierung: Weiteres Beispiel Ronald Ortner Datenschutz Normalisierung: Weiteres Beispiel Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Assoziationsregeln Assoziationsregeln (für Details zu diesem Thema siehe Folien von Alois Kemper) Setting: möchten aus großer Datenmenge bestimmte Regeln ableiten Beispiel: Wenn jemand einen PC kauft, dann auch einen Drucker. Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Assoziationsregeln Assoziationsregeln (für Details zu diesem Thema siehe Folien von Alois Kemper) Setting: möchten aus großer Datenmenge bestimmte Regeln ableiten Beispiel: Wenn jemand einen PC kauft, dann auch einen Drucker. Diese Assoziationsregeln gelten i.a. nicht immer: Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Assoziationsregeln Assoziationsregeln (für Details zu diesem Thema siehe Folien von Alois Kemper) Setting: möchten aus großer Datenmenge bestimmte Regeln ableiten Beispiel: Wenn jemand einen PC kauft, dann auch einen Drucker. Diese Assoziationsregeln gelten i.a. nicht immer: Konfidenz: In wievielen % der Fälle stimmt die Regel? (Wieviele PC Käufer haben auch einen Drucker gekauft?) Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Assoziationsregeln Assoziationsregeln (für Details zu diesem Thema siehe Folien von Alois Kemper) Setting: möchten aus großer Datenmenge bestimmte Regeln ableiten Beispiel: Wenn jemand einen PC kauft, dann auch einen Drucker. Diese Assoziationsregeln gelten i.a. nicht immer: Konfidenz: In wievielen % der Fälle stimmt die Regel? (Wieviele PC Käufer haben auch einen Drucker gekauft?) Support: Aus wievielen Daten wurde die Regel abgeleitet? (In wievielen % der Einkäufe wurden ein PC und ein Drucker zusammen gekauft?) Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Assoziationsregeln Der A Priori Algorithmus → möchten alle Assoziationsregeln mit Support≥ smin und Konfidenz≥ cmin . frequent itemset := Menge von Items mit Support ≥ smin Algorithmus für das Finden von frequent itemsets: Überprüfe für jeden Item i, ob {i} ein frequent itemset ist. Wiederhole: Für jedes gefundene frequent itemset F und jeden Item i ∈ /F überprüfe ob F ∪ {i} ein frequent itemset ist. Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Assoziationsregeln Ableiten von Regeln aus Frequent Itemsets Sind frequent itemsets bekannt, so lassen sich leicht Assoziationsregeln daraus ableiten: Wenn F ein frequent itemset und F = L ∪ R mit L ∩ R = ∅, dann ist L ⇒ R Assoziationsregel mit Konfidenz(L ⇒ R) = Support(F ) Support(L) Überprüfe, ob Regel Konfidenz≥ cmin hat. Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Assoziationsregeln Ableiten von Regeln aus Frequent Itemsets Wenn F ein frequent itemset und F = L ∪ R mit L ∩ R = ∅, dann ist L ⇒ R Assoziationsregel mit Konfidenz(L ⇒ R) = Support(F ) Support(L) Überprüfe, ob Regel Konfidenz≥ cmin hat. Beispiel: Wenn {Drucker, Papier, Toner} ein frequent itemset, dann haben wir die Assoziationsregel Drucker ⇒ Papier, Toner mit Konfidenz Support({Drucker, Papier, Toner}) Support({Drucker}) Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Assoziationsregeln Erhöhen der Konfidenz Für zwei Assoziationsregeln L ⇒ R, L+ ⇒ R − abgeleitet aus demselben frequent itemset F = L ∪ R = L+ ∪ R − mit L ⊆ L+ und R − ⊆ R, gilt allgemein Konfidenz(L+ ⇒ R − ) ≥ Konfidenz(L ⇒ R). kann Konfidenz durch Verschieben von Items von rechts nach links erhöhen! Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Assoziationsregeln Erhöhen der Konfidenz Für zwei Assoziationsregeln L ⇒ R, L+ ⇒ R − abgeleitet aus demselben frequent itemset F = L ∪ R = L+ ∪ R − mit L ⊆ L+ und R − ⊆ R, gilt allgemein Konfidenz(L+ ⇒ R − ) ≥ Konfidenz(L ⇒ R). kann Konfidenz durch Verschieben von Items von rechts nach links erhöhen! Beispiel: Konfidenz({Drucker, Papier} ⇒ {Toner}) ≥ Konfidenz({Drucker} ⇒ {Papier, Toner}) Ronald Ortner (1) (2) Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Assoziationsregeln Anwendung: Empfehlungen Beispiel: Empfehlungen bei amazon funktioniert nicht immer gut (etwa bei Kunden mit ausgefallenem Geschmack): Liebe Kundin, lieber Kunde! Kunden, die sich für “The Art of Chess Combination” von Eugene Znosko-Borovsky interessierten, haben “Read the High Country: A Guide to Western Books and Films” von Mort bestellt. Daher möchten wir Sie darüber informieren, dass “Read the High Country: A Guide to Western Books and Films” von Mort in Kürze erscheinen wird. Bestellen Sie jetzt Ihr Exemplar vor! (Support zu gering!) Ronald Ortner Organisatorisches Ranking und Data Mining Clustering Outline 1 Organisatorisches 2 Ranking und Data Mining Ranking Klassifikation Assoziationsregeln Clustering 3 Datenschutz 4 Normalisierung: Weiteres Beispiel Ronald Ortner Datenschutz Normalisierung: Weiteres Beispiel Organisatorisches Ranking und Data Mining Datenschutz Clustering Clustering Setting: Gegeben: große Datenmenge finde Cluster von ähnlichen Daten Ronald Ortner Normalisierung: Weiteres Beispiel Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Clustering Clustering Setting: Gegeben: große Datenmenge finde Cluster von ähnlichen Daten Beispiel: Cluster in Bilddaten → Bilder im gleichen Cluster zeigen ähnliche Objekte Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Clustering Beispiel: Books that make you dumb Ronald Ortner Normalisierung: Weiteres Beispiel Organisatorisches Ranking und Data Mining Datenschutz Clustering Beispiel: Music that makes you dumb Ronald Ortner Normalisierung: Weiteres Beispiel Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz In George Orwells Dystopie ‘1984’ überwacht die Regierung ihre Bürger. (“Big brother is watching you.”) Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz In George Orwells Dystopie ‘1984’ überwacht die Regierung ihre Bürger. (“Big brother is watching you.”) Die Gegenwart ist noch schlimmer: Menschen teilen alle Details ihres Leben mit Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz In George Orwells Dystopie ‘1984’ überwacht die Regierung ihre Bürger. (“Big brother is watching you.”) Die Gegenwart ist noch schlimmer: Menschen teilen alle Details ihres Leben mit ihren Freunden und Bekannten, Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz In George Orwells Dystopie ‘1984’ überwacht die Regierung ihre Bürger. (“Big brother is watching you.”) Die Gegenwart ist noch schlimmer: Menschen teilen alle Details ihres Leben mit ihren Freunden und Bekannten, jedem, den es interessiert, Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz In George Orwells Dystopie ‘1984’ überwacht die Regierung ihre Bürger. (“Big brother is watching you.”) Die Gegenwart ist noch schlimmer: Menschen teilen alle Details ihres Leben mit ihren Freunden und Bekannten, jedem, den es interessiert, großen Firmen wie Facebook oder google (und der NSA). Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz In George Orwells Dystopie ‘1984’ überwacht die Regierung ihre Bürger. (“Big brother is watching you.”) Die Gegenwart ist noch schlimmer: Menschen teilen alle Details ihres Leben mit ihren Freunden und Bekannten, jedem, den es interessiert, großen Firmen wie Facebook oder google (und der NSA). If it’s free, YOU (=your data) are the product. Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen können? Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen können? Ihre Einkaufsliste? Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen können? Ihre Einkaufsliste? (regelmäßig große Mengen an Alkohol) Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen können? Ihre Einkaufsliste? (regelmäßig große Mengen an Alkohol) Bücher, die Sie lesen / Musik, die Sie hören ? Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen können? Ihre Einkaufsliste? (regelmäßig große Mengen an Alkohol) Bücher, die Sie lesen / Musik, die Sie hören ? (siehe oben) Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen können? Ihre Einkaufsliste? (regelmäßig große Mengen an Alkohol) Bücher, die Sie lesen / Musik, die Sie hören ? (siehe oben) Ihre Hobbies Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen können? Ihre Einkaufsliste? (regelmäßig große Mengen an Alkohol) Bücher, die Sie lesen / Musik, die Sie hören ? (siehe oben) Ihre Hobbies (Fallschirmspringen) Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen können? Ihre Einkaufsliste? (regelmäßig große Mengen an Alkohol) Bücher, die Sie lesen / Musik, die Sie hören ? (siehe oben) Ihre Hobbies (Fallschirmspringen) Informationen können isoliert betrachtet harmlos aussehen, in Kombination jedoch unerwünschte Schlüsse zulassen: Sie haben gestern früh Milch gekauft. Sie haben sich gestern nachmittag auf Facebook eingeloggt. Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen können? Ihre Einkaufsliste? (regelmäßig große Mengen an Alkohol) Bücher, die Sie lesen / Musik, die Sie hören ? (siehe oben) Ihre Hobbies (Fallschirmspringen) Informationen können isoliert betrachtet harmlos aussehen, in Kombination jedoch unerwünschte Schlüsse zulassen: Sie haben gestern früh Milch gekauft. Sie haben sich gestern nachmittag auf Facebook eingeloggt. Sie waren gestern krank gemeldet. Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Gewisse Information möchte man u.U. nicht mit anderen teilen (z.B. dem Arbeitgeber, der Versicherung, dem Nachbarn, usw.): Krankheiten politische Einstellung sexuelle Orientierung ... Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Gewisse Information möchte man u.U. nicht mit anderen teilen (z.B. dem Arbeitgeber, der Versicherung, dem Nachbarn, usw.): Krankheiten politische Einstellung sexuelle Orientierung ... Darüber sprechen Sie nicht auf Facebook? Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Zuverlässigkeit der Einschätzung nach 170 Facebook Likes: Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Zuverlässigkeit der Einschätzung nach 170 Facebook Likes: Sexuelle Orientierung: 88 % Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Zuverlässigkeit der Einschätzung nach 170 Facebook Likes: Sexuelle Orientierung: 88 % Politische Einstellung: 85 % Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Zuverlässigkeit der Einschätzung nach 170 Facebook Likes: Sexuelle Orientierung: 88 % Politische Einstellung: 85 % Religion: 82 % Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Zuverlässigkeit der Einschätzung nach 170 Facebook Likes: Sexuelle Orientierung: 88 % Politische Einstellung: 85 % Religion: 82 % Beziehungsstatus: 67 % Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Zuverlässigkeit der Einschätzung nach 170 Facebook Likes: Sexuelle Orientierung: 88 % Politische Einstellung: 85 % Religion: 82 % Beziehungsstatus: 67 % Drogenkonsum: 65 % Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Auch ohne Likes können aus dem Facebook-Graphen Rückschlüsse gezogen werden über: ehemalige Mitschüler Arbeitskollegen mit wem Sie Ihre Freizeit verbringen Ihren Partner Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Datenschutz Pilotprojekt: Social credit sytem (SCS) in China bewertet Bürger anhand Verhalten in sozialen Netzwerken Einkaufsverhalten Bankdaten Jeder Bürger erhält sogenannte Sesame credit points für ‘gutes’ Verhalten, für ‘schlechtes’ Verhalten gibt es Punkteabzüge. Ob ein Bürger z.B. ein Visum fürs Ausland bekommt, hängt dann von seinem Punktestand ab. Ronald Ortner Organisatorisches Ranking und Data Mining Datenschutz Normalisierung: Weiteres Beispiel Normalisierung: Weiteres Beispiel Entwerfen Sie eine Datenbank für Kunstwerke. Neben dem Künstler und dem Titel des Werks sollen Jahr, Material und Technik sowie die Größe gespeichert werden. Weiters soll für jedes Werk der Besitzer hinterlegt werden. Dies kann eine Privatperson, eine Galerie oder ein Museum sein. Von diesen sollen Kontaktadressen und Telefonnummern (soweit vorhanden) gespeichert werden. Für Museen und Galerien sollen weiters Öffnungszeiten hinterlegt werden. Falls ein Werk zum Verkauf steht, soll auch der Preis gespeichert werden. Ronald Ortner