Über maschinelles Lernen und das Spielen mit Viren und Zombis

Werbung
Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Über maschinelles Lernen und das
Spielen mit Viren und Zombis
Tobias Scheffer
Maschinelles Lernen

Teil der Ingenieurwissenschaft Informatik
Informatik.
Ziel der Forschung: Erkenntnisse über Konstruktion
technischer Artefakte, die


Tobias Sch
T
heffer

Modelle aus Daten generieren,
Zukünftiges
g Verhalten der in den Daten reflektierten
Systeme vorhersagen.
2
Maschinelles Lernen
Tobias Sch
T
heffer
1 2
s  gt
2
v  g t
?!
System
Lern-Algorithmus
Daten
M d ll
Modell
3
Maschinelles Lernen und Data Mining
Datenbank
Lern-Algorithmus
In Ländern in denen im
Winter Salz gestreut wird
hä f sich
häufen
i hD
Defekte
f kt d
der
neuen Lichtmaschine.
Bestimmte Muster
in der Kommunikation
deuten auf Hackerangriffe
auf Server hin
hin.
4
Tobias Sch
T
heffer
Defekte bestimmter
Gene beeinträchtigen
Zellstoffwechselprozesse.
Maschinelles Lernen
Text-Archiv
30 Millionen
Formulierungen treten
in Spam häufiger auf
als in Nicht-Spam
Die Suchmaschinenanfragen
von T.
T deuten
d t darauf
d
f hin,
hi d
dass
er sich ein Auto kaufen will. Vielleicht
interessiert in Werbung für Autos
mehr als für Fahrräder.
5
Tobias Sch
T
heffer
Es gibt eine indirekte
Verbindung zwischen
Parkinson und Viagra,
di noch
die
h nie
i explizit
li it
untersucht wurde.
Maschinelles Lernen
Tobias Sch
T
heffer
6
Maschinelles Lernen
Tobias Sch
T
heffer

Anwendung.
7
Maschinelles Lernen
Tobias Sch
T
heffer


Abstraktes Modell der
Problemstellung,
Optimierungskriterium.
Anwendung.
8
Maschinelles Lernen


Tobias Sch
T
heffer

Analyse, Lösbarkeit
Analyse
Lösbarkeit,
Eigenschaften der
Lösungen.
g
Abstraktes Modell der
Problemstellung,
Optimierungskriterium.
Anwendung.
9
Maschinelles Lernen
Engineering
Engineering.
Nash
Tobias Sch
T
heffer

Invar-SVM
Logreg, SVM



Analyse, Lösbarkeit
Analyse
Lösbarkeit,
Eigenschaften der
Lösungen.
g
Abstraktes Modell der
Problemstellung,
Optimierungskriterium.
Anwendung.
10
Email-Spam
Problem für Email-Service-Provider:

Tobias Sch
T
heffer

Netzwerk-, Rechen-,
Speicher-Ressourcen.
p
11
Pump & Dump: Auf dem Rückzug

Spam Pink Sheets vom Handel
Spam-Pink-Sheets
ausgesetzt + Krise.
Lange Zeit hat es funktioniert,
7% abnormaler
b
l Gewinn
G i pro Tag.
T
 Vor allem für Spammer,
 Aber auch für schnelle
Investoren.
Tobias Sch
T
heffer

12
Pump & Dump: Auf dem Rückzug



Spam Pink Sheets vom Handel
Spam-Pink-Sheets
ausgesetzt + Krise.
Lange Zeit hat es funktioniert,
7% abnormaler
b
l Gewinn
G i pro Tag.
T
 Vor allem für Spammer,
 Aber auch für schnelle
Investoren.
„Ich glaube dass Du glaubst
d
dass…
d
dass iich
h glaube,
l b di
die Akti
Aktie
sei mehr wert als ich dafür
bezahlt habe.
Nullsummen-Koordinierungsspiel
mit Informationsvorsprung für
Spammer.
Tobias Sch
T
heffer

13
Phishing: Wo würden Sie sich einloggen?
Tobias Sch
T
heffer
14
Wo ist der Unterschied
Tobias Sch
T
heffer
15
419 Scam


Vorschussgebühren in Hoffnung
aus späteren Gewinn.
Je mehr investiert worden ist,
d t höher
desto
höh wird
i d psychologische
h l i h
Schwelle vor Ausstieg.
Empfänger
p g wird zu BusinessTermin nach Nigeria eingeladen,
dann Geisel genommen.
Tobias Sch
T
heffer

16
419 Scam



Vorschussgebühren in Hoffnung
aus späteren Gewinn.
Je mehr investiert worden ist,
d t höher
desto
höh wird
i d psychologische
h l i h
Schwelle vor Ausstieg.
Empfänger
p g wird zu BusinessTermin nach Nigeria eingeladen,
dann Geisel genommen.
Tobias Sch
T
heffer

Frieda Springer Beck:



Geschäftsführerin einer Pinselfabrik
Führt Kreuzzug gegen 419 Scam.
Hat Großteil ihres Investments
zurückbekommen.
17
Ransomware


Statt Person lieber Daten als Geisel
nehmen.
Variante verschlüsselt alle Textdateien
auf Festplatte.
Nervige
g Fenster im Vordergrund,
g
, bis
Nutzer „Antivirus-Software“ bestellt.
Tobias Sch
T
heffer

18
Zombis erzeugen Spams nach Grammatik


Tools erlauben Definition von Grammatik
Grammatik.
 Reactor Mailer: Text-to-image engine (Rückgang nach
Microsoft 2/2009 update).
Grammatik wird an Botnetz verteilt, Zombi-Rechner erzeugen
Nachrichten.
Wenige Spams pro Knoten,
keine identischen Nachrichten.
Tobias Sch
T
heffer

19
Virenscanner helfen nicht mehr



An N Stellen im Code zwei alternative
alternative, über Makro getriggerte
Codealternativen.
2N Virus-Varianten.
Botnetzknoten verbreiten einzelne Varianten in geringer
Anzahl.
Erkennungsrate gängiger Virenscanner häufig unter 10%.
Tobias Sch
T
heffer

A
hl Vi
ä i
Anzahl
Viren, di
die von gängigen
Scannern nicht erkannt werden.
20
Maschinelles Lernen
Maschinelles Lernen an mehreren Stellen
Email
Provider
Welche IP-Adressen
sind aktuell Teil eines
Botnetzes?
Schwarze und
Weiße Listen
verteilter Quellen
Botnetz 2
Schwarze und
Weiße Listen von
Massensendungen
Versenden Rechner häufig
Nachrichten mit identischem
Fingerabdruck so werden
Fingerabdruck,
sie in der Internet-Karte
assoziiert.
Erkennung neuer
Massensendungen
Statistischer
Fingerabdruck
Die Internet-Karte
entscheidet, ob eine
potenzielle Massensendung
aus einer gemeinsamen,
verteilten Quelle stammt.
Inhaltsbasierte
Klassifikation
 Spamverdachtsordner
Operator bestätigt
Fingerabdruck für Schwarze
oder Weiße Liste
SpamKlassifikator
Posteingänge der Nutzer
Bekannte
Massensendung
g
von Botnetz?
 Nicht annehmen.
Spam-Verdachtsorder der Nutzer
Welche
g
Massensendungen
werden nach einem
gemeinsamen Muster
gebildet?
Tobias Sch
T
heffer
Business
Mailer
Botnetz 1
Maschinelles Lernen
Maschinelles Lernen an mehreren Stellen
Email
Provider
Welche IP-Adressen
sind aktuell Teil eines
Botnetzes?
Schwarze und
Weiße Listen
verteilter Quellen
Botnetz 2
Schwarze und
Weiße Listen von
Massensendungen
Versenden Rechner häufig
Nachrichten mit identischem
Fingerabdruck so werden
Fingerabdruck,
sie in der Internet-Karte
assoziiert.
Erkennung neuer
Massensendungen
Statistischer
Fingerabdruck
Die Internet-Karte
entscheidet, ob eine
potenzielle Massensendung
aus einer gemeinsamen,
verteilten Quelle stammt.
Inhaltsbasierte
Klassifikation
 Spamverdachtsordner
Operator bestätigt
Fingerabdruck für Schwarze
oder Weiße Liste
SpamKlassifikator
Posteingänge der Nutzer
Bekannte
Massensendung
g
von Botnetz?
 Nicht annehmen.
Spam-Verdachtsorder der Nutzer
Welche
g
Massensendungen
werden nach einem
gemeinsamen Muster
gebildet?
Tobias Sch
T
heffer
Business
Mailer
Botnetz 1
Email-Klassifikation
Tobias Sch
T
heffer
Emails aus Spam-Traps,
b k
bekannte
t Newsletter,
N
l tt …
23
Email-Klassifikation
Tobias Sch
T
heffer
Trainingsdaten
24
Email-Klassifikation
Optimierungskriterium:
Tobias Sch
T
heffer

Risiko( f )  E( x , y ) ~ ptrain [l ( f ( x), y )]  ( f )
25
Email-Klassifikation
Optimierungskriterium
Tobias Sch
T
heffer

Risiko( f )  E( x , y ) ~ ptrain [l ( f ( x), y )]  ( f )
f (x )  w T x  w0
?!
Lernalgorithmus
26
Email-Klassifikation
Tobias Sch
T
heffer
Neuere Nachrichten,
Neuere Kodierungstricks,
Spezifische Nutzer.
27
Email-Klassifikation
Naives Optimierungskriterium:
Tobias Sch
T
heffer

Risiko( f )  E( x , y ) ~ ptrain [l ( f ( x), y )]  ( f )
Neuere Nachrichten,
Neuere Kodierungstricks,
Spezifische Nutzer.
28
Transferlernen
Eigentliches Optimierungskriterium:
Risiko( f )  E( x , y ) ~ ptest [l ( f ( x), y )]  ( f )
Unterschied zwischen
Trainings- und
A
d
d t ?
Anwendungsdaten?
Tobias Sch
T
heffer

Transferlernen
Eigentliches Optimierungskriterium:
Tobias Sch
T
heffer

Risiko( f )  E( x , y ) ~ ptest [l ( f ( x), y )]  ( f )
Unterschied zwischen
Trainings- und
A
d
d t ?
Anwendungsdaten?
?!
p test ( x )
 v T x  v0
p train ( x )
30
Transferlernen
Eigentliches Optimierungskriterium:
Tobias Sch
T
heffer

[Bickel et al.,
al JMLR 2009]
[Google Research Award].
Risiko( f )  E( x , y ) ~ ptest [l ( f ( x), y )]  ( f )
ptest (x)
 v T x  v0
ptrain (x)
?!
Minimiere Risiko auf Verteilung
der Anwendungsdaten.
f (x)  w T x  w0
31
Klassifikationsspiele
Gegner kann Verteilung zukünftiger Daten beeinflussen
beeinflussen.


Tobias Sch
T
heffer

In Reaktion auf Anwesenheit des Lerners.
Typisch für Sicherheitsanwendungen.
[email protected]
32
Klassifikationsspiele


Kostenfunktion des Lerners:
 Optimaler Klassifikator von Transformation abhängig.
Kostenfunktion des Gegners:
 Optimale Transformation von Klassifikator
abhängig.
Interessen nicht exakt entgegengesetzt
entgegengesetzt.
Tobias Sch
T
heffer

[email protected]
33
Klassifikationsspiele
Kostenfunktionen:

Akti
Aktionsraum:


Lerner wählt Klassifikator a+1.
Gegner addiert Matrix a-11 auf Eingabematrix.
Tobias Sch
T
heffer

[email protected]

34
Klassifikationsspiele
Kostenfunktionen:

Akti
Aktionsraum:


Lerner wählt Klassifikator a+1.
Gegner addiert Matrix a-11 auf Eingabematrix.
Tobias Sch
T
heffer

…
[email protected]
35
Klassifikationsspiele



Nash Equilibrium:
Nash-Equilibrium:
 Paar aus Klassifikator und Daten-Transformation, so dass
 kein Spieler unilateral davon profitiert, einen anderen
Klassifikator bzw. eine andere Transformation zu wählen.
Nicht jedes Spiel besitzt ein Nash-Equilibrium.
Manche Spiele besitzen mehrere Equilibria.
Equilibria
 Kombination von Zügen aus unterschiedlichen
Equilibria kann beliebig schlecht sein.
Existiert eindeutiges Equilibrium?
Tobias Sch
T
heffer

36
Klassifikationsspiele
Kostenfunktionen:

Aktionsraum:



Lerner wählt Klassifikator a+1.
Gegner addiert Matrix a-1 auf Eingabematrix.
Tobias Sch
T
heffer

[email protected]
Theorem:
 Wenn Aktionsraum kompakt, konvex, endlichdimensional,
 Verlustfunktionen entgegengesetzt monoton
monoton,
 Verlustfunktion konvex, zweifach ableitbar,
 dann existiert eindeutiges Nash-Equilibrium.
 Danskins Theorem und Nikaido-Isoda-Funktion zeigen
Gradientenrichtung.
37
Klassifikationsspiele

[B ü k
&S
h ff NIPS 2009]
[Brückner
Scheffer,
2009].
Tobias Sch
T
heffer

Training auf Daten aus Vergangenheit,
Vergangenheit Evaluierung in die
Zukunft.
Nash-Klassifikator bleibt über Monate hinweg genau.

Nash
Invar-SVM
Logreg, SVM
38
Wirksamkeit von HIV-Therapien


Für jeden Patienten: teste Genom des Virus auf Mutationen
Mutationen.
Kombinationstherapie aus 3-6 Medikamenten.
Vorhersage:
 Wäre hypothetische Therapie für Patienten erfolgreich?
Tobias Sch
T
heffer

39
Wirksamkeit von HIV-Therapien


Für jeden Patienten: teste Genom des Virus auf Mutationen
Mutationen.
Kombinationstherapie aus 3-6 Medikamenten.
Vorhersage:
 Wäre hypothetische Therapie für Patienten erfolgreich?
 Trainingsdaten: frühere Therapien, mit Behandlungserfolg.
Tobias Sch
T
heffer

40
Wirksamkeit von HIV-Therapien


Für jeden Patienten: teste Genom des Virus auf Mutationen
Mutationen.
Kombinationstherapie aus 3-6 Medikamenten.
Vorhersage:
 Wäre hypothetische Therapie für Patienten erfolgreich?
 Trainingsdaten: frühere Therapien, mit Behandlungserfolg.
Neue Varianten des Virus.
Verbreitung der Varianten in Ländern unterschiedlich.
Neue Medikamentenkombinationen.
Tobias Sch
T
heffer

41
Wirksamkeit von HIV-Therapien



Modell für Unterschied zwischen TrainingsTrainings und
Anwendungsdaten,
Dann Vorhersagemodell gezielt auf Anwendungsverteilung
optimieren.
ti i
Zurzeit 2/3 aller Therapien erfolgreich. Maschinelles Lernen
mit Optimierung
p
g auf Zielverteilung
g  80%.
Web-basiertes Tool für Ärzte.
Tobias Sch
T
heffer

82
Accuracy %
78
74
70
66
Kooperation mit
Thomas Lengauer, MPII
62
separate

one-sizefits-all
hier. Bayes hier. Bayes distribution
Gauss. Proc. matching
kernel
[Bickel et al., ICML 2008]
42
Forschungsthemen
Botnetz-Modelle
Bayes‘sche
Bayes
sche
Clusteranalyse
Bild- und Video-Analyse,
N i ti und
Navigation
d Retrieval
R ti
l
Tobias Sch
T
heffer
Prädiktionsspiele,
Spam Phishing
Spam,
Analyse von Dialysedaten,
Behandlungsoptimierung
g p
g
personalisierte
Empfehlungen
Lokalisierung
L
k li i
von
Softwarefehlern,
Bayessche Modelle
Prognose von Nutzerinteressen,
Aktive Modellevaluierung.
Aktive ModellE l i
Evaluierung
Missbrauch von Diensten erkennen
Steuerung von Poisson-Prozessen
43
Zusammenfassung
Maschinelles Lernen
Lernen.





Ingenieurwissenschaft,
Artefakte die Systeme aus Daten modellieren und
Artefakte,
weiteres Verhalten vorhersagen.
Methodische Fragestellungen:
g
g


Tobias Sch
T
heffer

Transferlernen: Trainings- ≠ Testverteilung.
Prädiktionsspiele mit aktivem Gegner.
Lernen über Viren und Zombis.
Anwendungspotenzial in Naturwissenschaften.
44
Herunterladen