Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Über maschinelles Lernen und das Spielen mit Viren und Zombis Tobias Scheffer Maschinelles Lernen Teil der Ingenieurwissenschaft Informatik Informatik. Ziel der Forschung: Erkenntnisse über Konstruktion technischer Artefakte, die Tobias Sch T heffer Modelle aus Daten generieren, Zukünftiges g Verhalten der in den Daten reflektierten Systeme vorhersagen. 2 Maschinelles Lernen Tobias Sch T heffer 1 2 s gt 2 v g t ?! System Lern-Algorithmus Daten M d ll Modell 3 Maschinelles Lernen und Data Mining Datenbank Lern-Algorithmus In Ländern in denen im Winter Salz gestreut wird hä f sich häufen i hD Defekte f kt d der neuen Lichtmaschine. Bestimmte Muster in der Kommunikation deuten auf Hackerangriffe auf Server hin hin. 4 Tobias Sch T heffer Defekte bestimmter Gene beeinträchtigen Zellstoffwechselprozesse. Maschinelles Lernen Text-Archiv 30 Millionen Formulierungen treten in Spam häufiger auf als in Nicht-Spam Die Suchmaschinenanfragen von T. T deuten d t darauf d f hin, hi d dass er sich ein Auto kaufen will. Vielleicht interessiert in Werbung für Autos mehr als für Fahrräder. 5 Tobias Sch T heffer Es gibt eine indirekte Verbindung zwischen Parkinson und Viagra, di noch die h nie i explizit li it untersucht wurde. Maschinelles Lernen Tobias Sch T heffer 6 Maschinelles Lernen Tobias Sch T heffer Anwendung. 7 Maschinelles Lernen Tobias Sch T heffer Abstraktes Modell der Problemstellung, Optimierungskriterium. Anwendung. 8 Maschinelles Lernen Tobias Sch T heffer Analyse, Lösbarkeit Analyse Lösbarkeit, Eigenschaften der Lösungen. g Abstraktes Modell der Problemstellung, Optimierungskriterium. Anwendung. 9 Maschinelles Lernen Engineering Engineering. Nash Tobias Sch T heffer Invar-SVM Logreg, SVM Analyse, Lösbarkeit Analyse Lösbarkeit, Eigenschaften der Lösungen. g Abstraktes Modell der Problemstellung, Optimierungskriterium. Anwendung. 10 Email-Spam Problem für Email-Service-Provider: Tobias Sch T heffer Netzwerk-, Rechen-, Speicher-Ressourcen. p 11 Pump & Dump: Auf dem Rückzug Spam Pink Sheets vom Handel Spam-Pink-Sheets ausgesetzt + Krise. Lange Zeit hat es funktioniert, 7% abnormaler b l Gewinn G i pro Tag. T Vor allem für Spammer, Aber auch für schnelle Investoren. Tobias Sch T heffer 12 Pump & Dump: Auf dem Rückzug Spam Pink Sheets vom Handel Spam-Pink-Sheets ausgesetzt + Krise. Lange Zeit hat es funktioniert, 7% abnormaler b l Gewinn G i pro Tag. T Vor allem für Spammer, Aber auch für schnelle Investoren. „Ich glaube dass Du glaubst d dass… d dass iich h glaube, l b di die Akti Aktie sei mehr wert als ich dafür bezahlt habe. Nullsummen-Koordinierungsspiel mit Informationsvorsprung für Spammer. Tobias Sch T heffer 13 Phishing: Wo würden Sie sich einloggen? Tobias Sch T heffer 14 Wo ist der Unterschied Tobias Sch T heffer 15 419 Scam Vorschussgebühren in Hoffnung aus späteren Gewinn. Je mehr investiert worden ist, d t höher desto höh wird i d psychologische h l i h Schwelle vor Ausstieg. Empfänger p g wird zu BusinessTermin nach Nigeria eingeladen, dann Geisel genommen. Tobias Sch T heffer 16 419 Scam Vorschussgebühren in Hoffnung aus späteren Gewinn. Je mehr investiert worden ist, d t höher desto höh wird i d psychologische h l i h Schwelle vor Ausstieg. Empfänger p g wird zu BusinessTermin nach Nigeria eingeladen, dann Geisel genommen. Tobias Sch T heffer Frieda Springer Beck: Geschäftsführerin einer Pinselfabrik Führt Kreuzzug gegen 419 Scam. Hat Großteil ihres Investments zurückbekommen. 17 Ransomware Statt Person lieber Daten als Geisel nehmen. Variante verschlüsselt alle Textdateien auf Festplatte. Nervige g Fenster im Vordergrund, g , bis Nutzer „Antivirus-Software“ bestellt. Tobias Sch T heffer 18 Zombis erzeugen Spams nach Grammatik Tools erlauben Definition von Grammatik Grammatik. Reactor Mailer: Text-to-image engine (Rückgang nach Microsoft 2/2009 update). Grammatik wird an Botnetz verteilt, Zombi-Rechner erzeugen Nachrichten. Wenige Spams pro Knoten, keine identischen Nachrichten. Tobias Sch T heffer 19 Virenscanner helfen nicht mehr An N Stellen im Code zwei alternative alternative, über Makro getriggerte Codealternativen. 2N Virus-Varianten. Botnetzknoten verbreiten einzelne Varianten in geringer Anzahl. Erkennungsrate gängiger Virenscanner häufig unter 10%. Tobias Sch T heffer A hl Vi ä i Anzahl Viren, di die von gängigen Scannern nicht erkannt werden. 20 Maschinelles Lernen Maschinelles Lernen an mehreren Stellen Email Provider Welche IP-Adressen sind aktuell Teil eines Botnetzes? Schwarze und Weiße Listen verteilter Quellen Botnetz 2 Schwarze und Weiße Listen von Massensendungen Versenden Rechner häufig Nachrichten mit identischem Fingerabdruck so werden Fingerabdruck, sie in der Internet-Karte assoziiert. Erkennung neuer Massensendungen Statistischer Fingerabdruck Die Internet-Karte entscheidet, ob eine potenzielle Massensendung aus einer gemeinsamen, verteilten Quelle stammt. Inhaltsbasierte Klassifikation Spamverdachtsordner Operator bestätigt Fingerabdruck für Schwarze oder Weiße Liste SpamKlassifikator Posteingänge der Nutzer Bekannte Massensendung g von Botnetz? Nicht annehmen. Spam-Verdachtsorder der Nutzer Welche g Massensendungen werden nach einem gemeinsamen Muster gebildet? Tobias Sch T heffer Business Mailer Botnetz 1 Maschinelles Lernen Maschinelles Lernen an mehreren Stellen Email Provider Welche IP-Adressen sind aktuell Teil eines Botnetzes? Schwarze und Weiße Listen verteilter Quellen Botnetz 2 Schwarze und Weiße Listen von Massensendungen Versenden Rechner häufig Nachrichten mit identischem Fingerabdruck so werden Fingerabdruck, sie in der Internet-Karte assoziiert. Erkennung neuer Massensendungen Statistischer Fingerabdruck Die Internet-Karte entscheidet, ob eine potenzielle Massensendung aus einer gemeinsamen, verteilten Quelle stammt. Inhaltsbasierte Klassifikation Spamverdachtsordner Operator bestätigt Fingerabdruck für Schwarze oder Weiße Liste SpamKlassifikator Posteingänge der Nutzer Bekannte Massensendung g von Botnetz? Nicht annehmen. Spam-Verdachtsorder der Nutzer Welche g Massensendungen werden nach einem gemeinsamen Muster gebildet? Tobias Sch T heffer Business Mailer Botnetz 1 Email-Klassifikation Tobias Sch T heffer Emails aus Spam-Traps, b k bekannte t Newsletter, N l tt … 23 Email-Klassifikation Tobias Sch T heffer Trainingsdaten 24 Email-Klassifikation Optimierungskriterium: Tobias Sch T heffer Risiko( f ) E( x , y ) ~ ptrain [l ( f ( x), y )] ( f ) 25 Email-Klassifikation Optimierungskriterium Tobias Sch T heffer Risiko( f ) E( x , y ) ~ ptrain [l ( f ( x), y )] ( f ) f (x ) w T x w0 ?! Lernalgorithmus 26 Email-Klassifikation Tobias Sch T heffer Neuere Nachrichten, Neuere Kodierungstricks, Spezifische Nutzer. 27 Email-Klassifikation Naives Optimierungskriterium: Tobias Sch T heffer Risiko( f ) E( x , y ) ~ ptrain [l ( f ( x), y )] ( f ) Neuere Nachrichten, Neuere Kodierungstricks, Spezifische Nutzer. 28 Transferlernen Eigentliches Optimierungskriterium: Risiko( f ) E( x , y ) ~ ptest [l ( f ( x), y )] ( f ) Unterschied zwischen Trainings- und A d d t ? Anwendungsdaten? Tobias Sch T heffer Transferlernen Eigentliches Optimierungskriterium: Tobias Sch T heffer Risiko( f ) E( x , y ) ~ ptest [l ( f ( x), y )] ( f ) Unterschied zwischen Trainings- und A d d t ? Anwendungsdaten? ?! p test ( x ) v T x v0 p train ( x ) 30 Transferlernen Eigentliches Optimierungskriterium: Tobias Sch T heffer [Bickel et al., al JMLR 2009] [Google Research Award]. Risiko( f ) E( x , y ) ~ ptest [l ( f ( x), y )] ( f ) ptest (x) v T x v0 ptrain (x) ?! Minimiere Risiko auf Verteilung der Anwendungsdaten. f (x) w T x w0 31 Klassifikationsspiele Gegner kann Verteilung zukünftiger Daten beeinflussen beeinflussen. Tobias Sch T heffer In Reaktion auf Anwesenheit des Lerners. Typisch für Sicherheitsanwendungen. [email protected] 32 Klassifikationsspiele Kostenfunktion des Lerners: Optimaler Klassifikator von Transformation abhängig. Kostenfunktion des Gegners: Optimale Transformation von Klassifikator abhängig. Interessen nicht exakt entgegengesetzt entgegengesetzt. Tobias Sch T heffer [email protected] 33 Klassifikationsspiele Kostenfunktionen: Akti Aktionsraum: Lerner wählt Klassifikator a+1. Gegner addiert Matrix a-11 auf Eingabematrix. Tobias Sch T heffer [email protected] 34 Klassifikationsspiele Kostenfunktionen: Akti Aktionsraum: Lerner wählt Klassifikator a+1. Gegner addiert Matrix a-11 auf Eingabematrix. Tobias Sch T heffer … [email protected] 35 Klassifikationsspiele Nash Equilibrium: Nash-Equilibrium: Paar aus Klassifikator und Daten-Transformation, so dass kein Spieler unilateral davon profitiert, einen anderen Klassifikator bzw. eine andere Transformation zu wählen. Nicht jedes Spiel besitzt ein Nash-Equilibrium. Manche Spiele besitzen mehrere Equilibria. Equilibria Kombination von Zügen aus unterschiedlichen Equilibria kann beliebig schlecht sein. Existiert eindeutiges Equilibrium? Tobias Sch T heffer 36 Klassifikationsspiele Kostenfunktionen: Aktionsraum: Lerner wählt Klassifikator a+1. Gegner addiert Matrix a-1 auf Eingabematrix. Tobias Sch T heffer [email protected] Theorem: Wenn Aktionsraum kompakt, konvex, endlichdimensional, Verlustfunktionen entgegengesetzt monoton monoton, Verlustfunktion konvex, zweifach ableitbar, dann existiert eindeutiges Nash-Equilibrium. Danskins Theorem und Nikaido-Isoda-Funktion zeigen Gradientenrichtung. 37 Klassifikationsspiele [B ü k &S h ff NIPS 2009] [Brückner Scheffer, 2009]. Tobias Sch T heffer Training auf Daten aus Vergangenheit, Vergangenheit Evaluierung in die Zukunft. Nash-Klassifikator bleibt über Monate hinweg genau. Nash Invar-SVM Logreg, SVM 38 Wirksamkeit von HIV-Therapien Für jeden Patienten: teste Genom des Virus auf Mutationen Mutationen. Kombinationstherapie aus 3-6 Medikamenten. Vorhersage: Wäre hypothetische Therapie für Patienten erfolgreich? Tobias Sch T heffer 39 Wirksamkeit von HIV-Therapien Für jeden Patienten: teste Genom des Virus auf Mutationen Mutationen. Kombinationstherapie aus 3-6 Medikamenten. Vorhersage: Wäre hypothetische Therapie für Patienten erfolgreich? Trainingsdaten: frühere Therapien, mit Behandlungserfolg. Tobias Sch T heffer 40 Wirksamkeit von HIV-Therapien Für jeden Patienten: teste Genom des Virus auf Mutationen Mutationen. Kombinationstherapie aus 3-6 Medikamenten. Vorhersage: Wäre hypothetische Therapie für Patienten erfolgreich? Trainingsdaten: frühere Therapien, mit Behandlungserfolg. Neue Varianten des Virus. Verbreitung der Varianten in Ländern unterschiedlich. Neue Medikamentenkombinationen. Tobias Sch T heffer 41 Wirksamkeit von HIV-Therapien Modell für Unterschied zwischen TrainingsTrainings und Anwendungsdaten, Dann Vorhersagemodell gezielt auf Anwendungsverteilung optimieren. ti i Zurzeit 2/3 aller Therapien erfolgreich. Maschinelles Lernen mit Optimierung p g auf Zielverteilung g 80%. Web-basiertes Tool für Ärzte. Tobias Sch T heffer 82 Accuracy % 78 74 70 66 Kooperation mit Thomas Lengauer, MPII 62 separate one-sizefits-all hier. Bayes hier. Bayes distribution Gauss. Proc. matching kernel [Bickel et al., ICML 2008] 42 Forschungsthemen Botnetz-Modelle Bayes‘sche Bayes sche Clusteranalyse Bild- und Video-Analyse, N i ti und Navigation d Retrieval R ti l Tobias Sch T heffer Prädiktionsspiele, Spam Phishing Spam, Analyse von Dialysedaten, Behandlungsoptimierung g p g personalisierte Empfehlungen Lokalisierung L k li i von Softwarefehlern, Bayessche Modelle Prognose von Nutzerinteressen, Aktive Modellevaluierung. Aktive ModellE l i Evaluierung Missbrauch von Diensten erkennen Steuerung von Poisson-Prozessen 43 Zusammenfassung Maschinelles Lernen Lernen. Ingenieurwissenschaft, Artefakte die Systeme aus Daten modellieren und Artefakte, weiteres Verhalten vorhersagen. Methodische Fragestellungen: g g Tobias Sch T heffer Transferlernen: Trainings- ≠ Testverteilung. Prädiktionsspiele mit aktivem Gegner. Lernen über Viren und Zombis. Anwendungspotenzial in Naturwissenschaften. 44