Datenbanken Unit 10: Ranking und Data Mining Erstellen und

Werbung
Organisatorisches
Ranking und Data Mining
Datenschutz
Datenbanken
Unit 10: Ranking und Data Mining
Erstellen und Ändern von Datenbanken
Ronald Ortner
7. VI. 2016
Ronald Ortner
Normalisierung
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Organisatorisches
nächste Woche am 14. Juni Abschlusstest
(Gruppe 1: 10:00–11:15, Gruppe 2: 11:30–12:45 )
Übungsblatt mit vermischten Aufgaben als Vorbereitung
heute letzte Wissensüberprüfung
Am 21. Juni VO + UE im RWZ HS (von 8:30 bis 11 Uhr).
XML-Einführung von Martin Antenreiter voraussichtlich am
21. Juni ab 10 Uhr
Abschlusstest VO am 28. Juni, 9–11 Uhr im Zeichensaal
(Anmeldung über MU Online)
alte Prüfung online
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Organisatorisches
VO nächste Woche (14. Juni):
Fragen zum UE-Abschlusstest
VO übernächste Woche (21. Juni):
Fragen zur VO-Abschlussprüfung & weitere
Normalisierungsbeispiele
Ronald Ortner
Normalisierung
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Nachbetrachtung Wissensüberprüfung
DIE REGEL
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
!Alles was im SELECT keine Aggregatfunktion ist,!
!
muss ins GROUP BY
!
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Nachbetrachtung Wissensüberprüfung
DIE REGEL
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
!Alles was im SELECT keine Aggregatfunktion ist,!
!
muss ins GROUP BY
!
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Hat man mehrere Attribute neben Aggregatfunktion im SELECT,
dann müssen auch mehrere Attribute ins GROUP BY.
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Nachbetrachtung Wissensüberprüfung
DIE REGEL
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
!Alles was im SELECT keine Aggregatfunktion ist,!
!
muss ins GROUP BY
!
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Hat man mehrere Attribute neben Aggregatfunktion im SELECT,
dann müssen auch mehrere Attribute ins GROUP BY.
z.B.:
SELECT spalte1, spalte2, COUNT(*) FROM tabelle
GROUP BY spalte1, spalte2
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
SQL: Erstellen und Ändern von Datenbanken und
Tabellen
Heute:
Erstellen und Ändern von Datenbanken und Tabellen
Index auf Datenbanken
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Index auf Datenbanken
Outline
1
Organisatorisches
2
Ranking und Data Mining
Index auf Datenbanken
Ranking
Klassifikation
Assoziationsregeln
Clustering
3
Datenschutz
4
Normalisierung
Ronald Ortner
Datenschutz
Normalisierung
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Index auf Datenbanken
Indexstrukturen auf Datenbanken
(letzte Kopien dazu im Sekretariat)
Sucht man in Tabelle Zeilen mit bestimmtem Wert in Spalte, muss
man sich im schlimmsten Fall alle Zeilen ansehen.
Indexstrukturen auf Tabellen helfen durch Vorsortierung, sodass
Abfragen schneller ausgeführt werden können.
Verschiedene Indexstrukturen:
Index Sequential Access Method (ISAM)
B-Bäume
B+ -Bäume
Hashing
Bitmap Indizes
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Index auf Datenbanken
Indexstrukturen auf Datenbanken
Verschiedene Indexstrukturen:
Index Sequential Access Method (ISAM)
B-Bäume
B+ -Bäume
Hashing
Bitmap Indizes
Der Performancegewinn von Abfragen sowie der Performanceverlust
von Änderungen hängen von der verwendeten Indexstruktur ab.
In SQL hat man entsprechend je nach verwendeter Variante die Wahl
zwischen verschiedenen Indextypen.
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Ranking
Outline
1
Organisatorisches
2
Ranking und Data Mining
Index auf Datenbanken
Ranking
Klassifikation
Assoziationsregeln
Clustering
3
Datenschutz
4
Normalisierung
Ronald Ortner
Datenschutz
Normalisierung
Organisatorisches
Ranking und Data Mining
Datenschutz
Ranking
Ranking
Aufgabe:
haben mehrere Listen derselben Objekte, gereiht nach
verschiedenen Kriterien
aggregieren die verschiedenen Kriterien zu einem Wert
(einfachster Fall: Summe)
hätten gerne die besten k Objekte
Naive Lösung:
Berechnen Wert für alle Objekte und sortieren
Bessere Lösung:
Threshold Algorithmus
No Random Access Algorithmus
Ronald Ortner
Normalisierung
Organisatorisches
Ranking und Data Mining
Klassifikation
Outline
1
Organisatorisches
2
Ranking und Data Mining
Index auf Datenbanken
Ranking
Klassifikation
Assoziationsregeln
Clustering
3
Datenschutz
4
Normalisierung
Ronald Ortner
Datenschutz
Normalisierung
Organisatorisches
Ranking und Data Mining
Klassifikation
Data Mining
Idee:
haben viele Daten
suchen nach speziellen Mustern
Ronald Ortner
Datenschutz
Normalisierung
Organisatorisches
Ranking und Data Mining
Klassifikation
Data Mining
Idee:
haben viele Daten
suchen nach speziellen Mustern
Wir unterscheiden dabei:
Klassifikation
Assoziationsregeln
Clustering
Ronald Ortner
Datenschutz
Normalisierung
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Klassifikation
Klassifikation
Setting:
interessieren uns für bestimmte Eigenschaft
schauen uns vergangene Daten an und generieren Hypothese
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Klassifikation
Klassifikation
Setting:
interessieren uns für bestimmte Eigenschaft
schauen uns vergangene Daten an und generieren Hypothese
Beispiele:
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Klassifikation
Klassifikation
Setting:
interessieren uns für bestimmte Eigenschaft
schauen uns vergangene Daten an und generieren Hypothese
Beispiele:
Risiko für Versicherungsfall
(gegeben: Geschlecht, Alter etc.)
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Klassifikation
Klassifikation
Setting:
interessieren uns für bestimmte Eigenschaft
schauen uns vergangene Daten an und generieren Hypothese
Beispiele:
Risiko für Versicherungsfall
(gegeben: Geschlecht, Alter etc.)
Risiko, dass Kredit nicht zurückgezahlt wird
(gegeben: Geschlecht, Alter, Familienstand, Arbeitsverhältnis,
etc.)
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Klassifikation
Klassifikation
Setting:
interessieren uns für bestimmte Eigenschaft
schauen uns vergangene Daten an und generieren Hypothese
Beispiele:
Risiko für Versicherungsfall
(gegeben: Geschlecht, Alter etc.)
Risiko, dass Kredit nicht zurückgezahlt wird
(gegeben: Geschlecht, Alter, Familienstand, Arbeitsverhältnis,
etc.)
Aussicht, dass medizinische Behandlung erfolgreich
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Klassifikation
Klassifikation
Setting:
interessieren uns für bestimmte Eigenschaft
schauen uns vergangene Daten an und generieren Hypothese
Beispiele:
Risiko für Versicherungsfall
(gegeben: Geschlecht, Alter etc.)
Risiko, dass Kredit nicht zurückgezahlt wird
(gegeben: Geschlecht, Alter, Familienstand, Arbeitsverhältnis,
etc.)
Aussicht, dass medizinische Behandlung erfolgreich
Ist E-Mail Spam?
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Klassifikation
Klassifikation
Setting:
interessieren uns für bestimmte Eigenschaft
schauen uns vergangene Daten an und generieren Hypothese
Beispiele:
Risiko für Versicherungsfall
(gegeben: Geschlecht, Alter etc.)
Risiko, dass Kredit nicht zurückgezahlt wird
(gegeben: Geschlecht, Alter, Familienstand, Arbeitsverhältnis,
etc.)
Aussicht, dass medizinische Behandlung erfolgreich
Ist E-Mail Spam?
Enthält dieses Bild eine Katze?
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Klassifikation
Klassifikation
Setting:
interessieren uns für bestimmte Eigenschaft
schauen uns vergangene Daten an und generieren Hypothese
Beispiele:
Risiko für Versicherungsfall
(gegeben: Geschlecht, Alter etc.)
Risiko, dass Kredit nicht zurückgezahlt wird
(gegeben: Geschlecht, Alter, Familienstand, Arbeitsverhältnis,
etc.)
Aussicht, dass medizinische Behandlung erfolgreich
Ist E-Mail Spam?
Enthält dieses Bild eine Katze?
Ist diese Website über Datenbanknormalisierung?
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Klassifikation
Maschinelles Lernen
Es gibt viele verschiedene Methoden, um aus Daten zu ‘lernen’:
Neuronale Netze
Entscheidungsbäume
Support Vector Machines
..
.
→ Lehrveranstaltung “Maschinelles Lernen” (Auer)
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Assoziationsregeln
Outline
1
Organisatorisches
2
Ranking und Data Mining
Index auf Datenbanken
Ranking
Klassifikation
Assoziationsregeln
Clustering
3
Datenschutz
4
Normalisierung
Ronald Ortner
Datenschutz
Normalisierung
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Assoziationsregeln
Assoziationsregeln
Setting:
möchten aus großer Datenmenge bestimmte Regeln ableiten
Beispiel:
Wenn jemand einen PC kauft, dann auch einen Drucker.
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Assoziationsregeln
Assoziationsregeln
Setting:
möchten aus großer Datenmenge bestimmte Regeln ableiten
Beispiel:
Wenn jemand einen PC kauft, dann auch einen Drucker.
Diese Assoziationsregeln gelten i.a. nicht immer:
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Assoziationsregeln
Assoziationsregeln
Setting:
möchten aus großer Datenmenge bestimmte Regeln ableiten
Beispiel:
Wenn jemand einen PC kauft, dann auch einen Drucker.
Diese Assoziationsregeln gelten i.a. nicht immer:
Konfidenz: In wievielen % der Fälle stimmt die Regel?
(Wieviele PC Käufer haben auch einen Drucker gekauft?)
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Assoziationsregeln
Assoziationsregeln
Setting:
möchten aus großer Datenmenge bestimmte Regeln ableiten
Beispiel:
Wenn jemand einen PC kauft, dann auch einen Drucker.
Diese Assoziationsregeln gelten i.a. nicht immer:
Konfidenz: In wievielen % der Fälle stimmt die Regel?
(Wieviele PC Käufer haben auch einen Drucker gekauft?)
Support: Aus wievielen Daten wurde die Regel abgeleitet?
(In wievielen % der Einkäufe wurden ein PC und ein Drucker
zusammen gekauft?)
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Assoziationsregeln
Der A Priori Algorithmus
→ möchten alle Assoziationsregeln mit Support≥ smin
und Konfidenz≥ cmin .
frequent itemset := Menge von Items mit Support ≥ smin
Algorithmus für das Finden von frequent itemsets:
Überprüfe für jeden Item i, ob {i} ein frequent itemset ist.
Wiederhole:
Für jedes gefundene frequent itemset F und jeden Item i ∈
/F
überprüfe ob F ∪ {i} ein frequent itemset ist.
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Assoziationsregeln
Ableiten von Regeln aus Frequent Itemsets
Sind frequent itemsets bekannt, so lassen sich leicht
Assoziationsregeln daraus ableiten:
Wenn F ein frequent itemset und F = L ∪ R mit L ∩ R = ∅,
dann ist L ⇒ R Assoziationsregel mit
Konfidenz(L ⇒ R) =
Support(F )
Support(L)
Überprüfe, ob Regel Konfidenz≥ cmin hat.
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Assoziationsregeln
Ableiten von Regeln aus Frequent Itemsets
Wenn F ein frequent itemset und F = L ∪ R mit L ∩ R = ∅,
dann ist L ⇒ R Assoziationsregel mit
Konfidenz(L ⇒ R) =
Support(F )
Support(L)
Überprüfe, ob Regel Konfidenz≥ cmin hat.
Beispiel: Wenn {Drucker, Papier, Toner} ein frequent itemset, dann
haben wir die Assoziationsregel
Drucker ⇒ Papier, Toner
mit Konfidenz
Support({Drucker, Papier, Toner})
Support({Drucker})
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Assoziationsregeln
Erhöhen der Konfidenz
Für zwei Assoziationsregeln
L ⇒ R,
L+ ⇒ R −
abgeleitet aus demselben frequent itemset F = L ∪ R = L+ ∪ R − mit
L ⊆ L+ und R − ⊆ R, gilt allgemein
Konfidenz(L+ ⇒ R − ) ≥ Konfidenz(L ⇒ R).
kann Konfidenz durch Verschieben von Items von rechts nach links
erhöhen!
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Assoziationsregeln
Erhöhen der Konfidenz
Für zwei Assoziationsregeln
L ⇒ R,
L+ ⇒ R −
abgeleitet aus demselben frequent itemset F = L ∪ R = L+ ∪ R − mit
L ⊆ L+ und R − ⊆ R, gilt allgemein
Konfidenz(L+ ⇒ R − ) ≥ Konfidenz(L ⇒ R).
kann Konfidenz durch Verschieben von Items von rechts nach links
erhöhen!
Beispiel:
Konfidenz({Drucker, Papier} ⇒ {Toner}) ≥
Konfidenz({Drucker} ⇒ {Papier, Toner})
Ronald Ortner
(1)
(2)
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Assoziationsregeln
Anwendung: Empfehlungen
Beispiel:
Empfehlungen bei amazon
funktioniert nicht immer gut
(etwa bei Kunden mit ausgefallenem Geschmack):
Liebe Kundin, lieber Kunde!
Kunden, die sich für “The Art of Chess Combination” von Eugene
Znosko-Borovsky interessierten, haben “Read the High Country: A
Guide to Western Books and Films” von Mort bestellt. Daher möchten
wir Sie darüber informieren, dass “Read the High Country: A Guide to
Western Books and Films” von Mort in Kürze erscheinen wird.
Bestellen Sie jetzt Ihr Exemplar vor!
(Support zu gering!)
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Clustering
Outline
1
Organisatorisches
2
Ranking und Data Mining
Index auf Datenbanken
Ranking
Klassifikation
Assoziationsregeln
Clustering
3
Datenschutz
4
Normalisierung
Ronald Ortner
Datenschutz
Normalisierung
Organisatorisches
Ranking und Data Mining
Clustering
Clustering
Setting:
Gegeben: große Datenmenge
finde Cluster von ähnlichen Daten
Ronald Ortner
Datenschutz
Normalisierung
Organisatorisches
Ranking und Data Mining
Datenschutz
Clustering
Clustering
Setting:
Gegeben: große Datenmenge
finde Cluster von ähnlichen Daten
Beispiel:
Cluster in Bilddaten
→ Bilder im gleichen Cluster zeigen ähnliche Objekte
Ronald Ortner
Normalisierung
Organisatorisches
Ranking und Data Mining
Datenschutz
Clustering
Beispiel: Books that make you dumb
Ronald Ortner
Normalisierung
Organisatorisches
Ranking und Data Mining
Datenschutz
Clustering
Beispiel: Music that makes you dumb
Ronald Ortner
Normalisierung
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
In George Orwells Dystopie ‘1984’ überwacht die Regierung ihre
Bürger. (“Big brother is watching you.”)
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
In George Orwells Dystopie ‘1984’ überwacht die Regierung ihre
Bürger. (“Big brother is watching you.”)
Die Gegenwart ist noch schlimmer:
Menschen teilen alle Details ihres Leben mit
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
In George Orwells Dystopie ‘1984’ überwacht die Regierung ihre
Bürger. (“Big brother is watching you.”)
Die Gegenwart ist noch schlimmer:
Menschen teilen alle Details ihres Leben mit
ihren Freunden und Bekannten,
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
In George Orwells Dystopie ‘1984’ überwacht die Regierung ihre
Bürger. (“Big brother is watching you.”)
Die Gegenwart ist noch schlimmer:
Menschen teilen alle Details ihres Leben mit
ihren Freunden und Bekannten,
jedem, den es interessiert,
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
In George Orwells Dystopie ‘1984’ überwacht die Regierung ihre
Bürger. (“Big brother is watching you.”)
Die Gegenwart ist noch schlimmer:
Menschen teilen alle Details ihres Leben mit
ihren Freunden und Bekannten,
jedem, den es interessiert,
großen Firmen wie Facebook oder google (und der NSA).
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
In George Orwells Dystopie ‘1984’ überwacht die Regierung ihre
Bürger. (“Big brother is watching you.”)
Die Gegenwart ist noch schlimmer:
Menschen teilen alle Details ihres Leben mit
ihren Freunden und Bekannten,
jedem, den es interessiert,
großen Firmen wie Facebook oder google (und der NSA).
If it’s free, YOU (=your data) are the product.
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen
können?
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen
können?
Ihre Einkaufsliste?
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen
können?
Ihre Einkaufsliste? (regelmäßig große Mengen an Alkohol)
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen
können?
Ihre Einkaufsliste? (regelmäßig große Mengen an Alkohol)
Bücher, die Sie lesen / Musik, die Sie hören ?
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen
können?
Ihre Einkaufsliste? (regelmäßig große Mengen an Alkohol)
Bücher, die Sie lesen / Musik, die Sie hören ? (siehe oben)
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen
können?
Ihre Einkaufsliste? (regelmäßig große Mengen an Alkohol)
Bücher, die Sie lesen / Musik, die Sie hören ? (siehe oben)
Ihre Hobbies
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen
können?
Ihre Einkaufsliste? (regelmäßig große Mengen an Alkohol)
Bücher, die Sie lesen / Musik, die Sie hören ? (siehe oben)
Ihre Hobbies (Fallschirmspringen)
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen
können?
Ihre Einkaufsliste? (regelmäßig große Mengen an Alkohol)
Bücher, die Sie lesen / Musik, die Sie hören ? (siehe oben)
Ihre Hobbies (Fallschirmspringen)
Informationen können isoliert betrachtet harmlos aussehen, in
Kombination jedoch unerwünschte Schlüsse zulassen:
Sie haben gestern früh Milch gekauft.
Sie haben sich gestern nachmittag auf Facebook eingeloggt.
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
Welche Informationen sind so harmlos, dass Sie sie mit jedem teilen
können?
Ihre Einkaufsliste? (regelmäßig große Mengen an Alkohol)
Bücher, die Sie lesen / Musik, die Sie hören ? (siehe oben)
Ihre Hobbies (Fallschirmspringen)
Informationen können isoliert betrachtet harmlos aussehen, in
Kombination jedoch unerwünschte Schlüsse zulassen:
Sie haben gestern früh Milch gekauft.
Sie haben sich gestern nachmittag auf Facebook eingeloggt.
Sie waren gestern krank gemeldet.
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
Gewisse Information möchte man u.U. nicht mit anderen teilen
(z.B. dem Arbeitgeber, der Versicherung, dem Nachbarn, usw.):
Krankheiten
politische Einstellung
sexuelle Orientierung
...
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
Gewisse Information möchte man u.U. nicht mit anderen teilen
(z.B. dem Arbeitgeber, der Versicherung, dem Nachbarn, usw.):
Krankheiten
politische Einstellung
sexuelle Orientierung
...
Darüber sprechen Sie nicht auf Facebook?
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Datenschutz
Zuverlässigkeit der Einschätzung nach 170 Facebook Likes:
Ronald Ortner
Normalisierung
Organisatorisches
Ranking und Data Mining
Datenschutz
Datenschutz
Zuverlässigkeit der Einschätzung nach 170 Facebook Likes:
Sexuelle Orientierung: 88 %
Ronald Ortner
Normalisierung
Organisatorisches
Ranking und Data Mining
Datenschutz
Datenschutz
Zuverlässigkeit der Einschätzung nach 170 Facebook Likes:
Sexuelle Orientierung: 88 %
Politische Einstellung: 85 %
Ronald Ortner
Normalisierung
Organisatorisches
Ranking und Data Mining
Datenschutz
Datenschutz
Zuverlässigkeit der Einschätzung nach 170 Facebook Likes:
Sexuelle Orientierung: 88 %
Politische Einstellung: 85 %
Religion: 82 %
Ronald Ortner
Normalisierung
Organisatorisches
Ranking und Data Mining
Datenschutz
Datenschutz
Zuverlässigkeit der Einschätzung nach 170 Facebook Likes:
Sexuelle Orientierung: 88 %
Politische Einstellung: 85 %
Religion: 82 %
Beziehungsstatus: 67 %
Ronald Ortner
Normalisierung
Organisatorisches
Ranking und Data Mining
Datenschutz
Datenschutz
Zuverlässigkeit der Einschätzung nach 170 Facebook Likes:
Sexuelle Orientierung: 88 %
Politische Einstellung: 85 %
Religion: 82 %
Beziehungsstatus: 67 %
Drogenkonsum: 65 %
Ronald Ortner
Normalisierung
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
Auch ohne Likes können aus dem Facebook-Graphen Rückschlüsse
gezogen werden über:
ehemalige Mitschüler
Arbeitskollegen
mit wem Sie Ihre Freizeit verbringen
Ihren Partner
Ronald Ortner
Organisatorisches
Ranking und Data Mining
Datenschutz
Normalisierung
Datenschutz
Social credit sytem (SCS) in China bewertet Bürger anhand
Verhalten in sozialen Netzwerken
Einkaufsverhalten
Bankdaten
Jeder Bürger erhält sogenannte Sesame credit points für ‘gutes’
Verhalten, für ‘schlechtes’ Verhalten gibt es Punkteabzüge.
Ob ein Bürger z.B. ein Visum fürs Ausland bekommt, hängt dann von
seinem Punktestand ab.
Ronald Ortner
Herunterladen