ppt

Werbung
Techniken des Maschinellen Lernens für
“Data Mining”
Ian Witten, Eibe Frank
(übersetzt von Norbert Fuhr)
1
Problemstellungen
 Data vs. Information
 Data Mining und Maschinelles Lernen
 Strukturelle Beschreibungen
 Regeln: Klassifikation und Assoziation
 Entscheidungsbäume
 Datensätze
 Wetter, Kontaktlinsen, CPU-Performance,
Tarifverhandlungen, Klassifikation von Sojabohnen
 Feldstudien
 Kreditanträge, Bildanalyse, Lastvorhersage, Diagnose
von Maschinenfehlern, Warenkorbanalyse
 Generalisierung als Suche
 Data Mining und Ethik
2
1
Daten vs. Information
 Unsere Gesellschaft produziert riesige
Datenmengen
 Quellen: Naturwissenschaften, Medizin, Wirtschaft,
Geografie, Umwelt, Sport, …
 Potenziell wertvolle Ressourcen
 Rohdaten sind nutzlos: Techniken zur
automatischen Extraktion von Information
benötigt:
 Daten: aufgezeichnete Fakten
 Information: den Daten zugrundeliegende Muster
3
Information ist entscheidend
 Beispiel 1: künstliche Befruchtung
 Gegeben: Embryonen, beschrieben durch 60
Merkmale
 Problem: Auswahl der Embryonen, die überleben
werden
 Daten: gesammelte Fakten über bisherig Embryonen
und deren Schicksal
 Beispiel 2: Haltung von Milchkühen
 Gegeben: Kühe, beschrieben durch 700 Merkmale
 Probleme: Auswahl der Kühe, die geschlachtet
werden sollten
 Daten: Aufzeichnungen über Kühe in den
zurückliegenden Jahren und die Entscheidungen der
Bauern
4
Data Mining
 Extraktion von
 impliziter,
 bislang unbekannter,
 potenziell nützlicher
Information aus Daten
 Gesucht: Programme, die Muster und
Regularitäten in den Daten entdecken
 Ausgeprägte Muster können für Vorhersagen
genutzt werden:
 Problem 1: Die meisten Muster sind uninteressant
 Problem 2: Muster können unscharf sein (oder
extrem fragwürdig), falls die Daten unvollständig
oder fehlerhaft sind
5
Techniken des
Maschinellen Lernens
 Technische Basis für Data Mining: Algorithmen
zum Lernen von strukturellen Beschreibungen
aus Beispielen
 Strukturelle Beschreibungen repräsentieren
implizit Muster:
 Nutzung zur Vorhersage in neuen Situationen
 Nutzung, um die Vorhersage zu verstehen und zur
Erklärung des Zustandekommens der Vorhersage
(evtl. sogar wichtiger)
 Methoden stammen aus der künstlichen
Intelligenz, Statistik und der Datenbankforschung
6
Strukturelle
Beschreibungen
 Beispiel: Wenn-Dann-Regeln
If tear production rate = reduced
then recommendation = none
Otherwise, if age = young and astigmatic = no
then recommendation = soft
Age
Spectacle
prescription
Astigmatism
Tear production
rate
Recommended
lenses
Young
Myope
No
Reduced
None
Young
Hypermetrope
No
Normal
Soft
Pre-presbyopic
Hypermetrope
No
Reduced
None
Presbyopic
Myope
Yes
Normal
Hard
…
…
…
…
…
7
Können Maschinen lernen?
 Lexikon-Definition von “Lernen”:
Wissen sammeln durch Studium,
Erfahrung, oder durch einen Lehrer
Bewusst werden durch Informieren
oder durch Beobachtung
Im Gedächtnis abspeichern
Informiert werden, sich vergewissern,
Anleitung erhalten
Schwierig zu messen
Trivial für Computer
 Operationale Definition:
Wesen lernen, wenn sie ihr Verhalten
in einer Weise so ändern, dass sie
in Zukunft erfolgreicher agieren
Lernt ein Schuh?
 Muss Lernen bewusst erfolgen?
8
Das Wetterproblem
 Bedingungen, um ein unspezifiziertes
Spiel zu spielen:
Outlook
Temperature
Humidity
Windy
Play
Sunny
Hot
High
False
No
Sunny
Hot
High
True
No
Overcast
Hot
High
False
Yes
Rainy
Mild
Normal
False
Yes
…
…
…
…
…
If
If
If
If
If
outlook = sunny and humidity = high then play = no
outlook = rainy and windy = true then play = no
outlook = overcast then play = yes
humidity = normal then play = yes
none of the above then play = yes
9
Ross Quinlan
 Machine learning researcher from 1970’s
 University of Sydney, Australia
1986 “Induction of decision trees” ML Journal
1993 C4.5: Programs for machine learning.
Morgan Kaufmann
199? Started
10
Klassifikations- vs.
Assoziationsregeln
 Klassifikationsregeln:
Vorhersage des Wertes einer spezifischen Attributs (die Klassifikation
des Beispiels)
If outlook = sunny and humidity = high
then play = no
 Assoziationsregeln:
Vorhersage des Wertes eines beliebigen Attributs, oder einer
Attributkombination
If temperature = cool then humidity = normal
If humidity = normal and windy = false
then play = yes
If outlook = sunny and play = no
then humidity = high
If windy = false and play = no
then outlook = sunny and humidity = high
11
Wetterdaten mit
gemischten Attributen
 Zwei Attribute mit numerischen Werten
Outlook
Temperature
Humidity
Windy
Play
Sunny
85
85
False
No
Sunny
80
90
True
No
Overcast
83
86
False
Yes
Rainy
75
80
False
Yes
…
…
…
…
…
If
If
If
If
If
outlook = sunny and humidity > 83 then play = no
outlook = rainy and windy = true then play = no
outlook = overcast then play = yes
humidity < 85 then play = yes
none of the above then play = yes
12
Die Kontaktlinsen-Daten
Age
Young
Young
Young
Young
Young
Young
Young
Young
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Spectacle
prescription
Myope
Myope
Myope
Myope
Hypermetrope
Hypermetrope
Hypermetrope
Hypermetrope
Myope
Myope
Myope
Myope
Hypermetrope
Hypermetrope
Hypermetrope
Hypermetrope
Myope
Myope
Myope
Myope
Hypermetrope
Hypermetrope
Hypermetrope
Hypermetrope
Astigmatism
No
No
Yes
Yes
No
No
Yes
Yes
No
No
Yes
Yes
No
No
Yes
Yes
No
No
Yes
Yes
No
No
Yes
Yes
Tear production
rate
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Recommended
lenses
None
Soft
None
Hard
None
Soft
None
hard
None
Soft
None
Hard
None
Soft
None
None
None
None
None
Hard
None
Soft
None
None
13
Eine vollständige und
korrekte Regelmenge
If tear production rate = reduced then recommendation = none
If age = young and astigmatic = no
and tear production rate = normal then recommendation = soft
If age = pre-presbyopic and astigmatic = no
and tear production rate = normal then recommendation = soft
If age = presbyopic and spectacle prescription = myope
and astigmatic = no then recommendation = none
If spectacle prescription = hypermetrope and astigmatic = no
and tear production rate = normal then recommendation = soft
If spectacle prescription = myope and astigmatic = yes
and tear production rate = normal then recommendation = hard
If age young and astigmatic = yes
and tear production rate = normal then recommendation = hard
If age = pre-presbyopic
and spectacle prescription = hypermetrope
and astigmatic = yes then recommendation = none
If age = presbyopic and spectacle prescription = hypermetrope
and astigmatic = yes then recommendation = none
14
Ein Entscheidungsbaum
für dasselbe Problem
15
Klassifikation von
Irisblumen
Sepal length
Sepal width
Petal length
Petal width
Type
1
5.1
3.5
1.4
0.2
Iris setosa
2
4.9
3.0
1.4
0.2
Iris setosa
51
7.0
3.2
4.7
1.4
Iris versicolor
52
6.4
3.2
4.5
1.5
Iris versicolor
101
6.3
3.3
6.0
2.5
Iris virginica
102
5.8
2.7
5.1
1.9
Iris virginica
…
…
…
If petal length < 2.45 then Iris setosa
If sepal width < 2.10 then Iris versicolor
...
16
Vorhersage der CPUPerformanz
 Beispiele: 209 verschiedene Computer-Konfigurationen
Cycle time
(ns)
Main memory
(Kb)
Cache
(Kb)
Channels
Performance
MYCT
MMIN
MMAX
CACH
CHMIN
CHMAX
PRP
1
125
256
6000
256
16
128
198
2
29
8000
32000
32
8
32
269
208
480
512
8000
32
0
0
67
209
480
1000
4000
0
0
0
45
…
 Lineare Regressionsfunktion
PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX
+ 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX
17
Daten aus
Tarifverhandlungen
Attribute
Duration
Wage increase first year
Wage increase second year
Wage increase third year
Cost of living adjustment
Working hours per week
Pension
Standby pay
Shift-work supplement
Education allowance
Statutory holidays
Vacation
Long-term disability assistance
Dental plan contribution
Bereavement assistance
Health plan contribution
Acceptability of contract
Type
(Number of years)
Percentage
Percentage
Percentage
{none,tcf,tc}
(Number of hours)
{none,ret-allw, empl-cntr}
Percentage
Percentage
{yes,no}
(Number of days)
{below-avg,avg,gen}
{yes,no}
{none,half,full}
{yes,no}
{none,half,full}
{good,bad}
1
1
2%
?
?
none
28
none
?
?
yes
11
avg
no
none
no
none
bad
2
2
4%
5%
?
tcf
35
?
13%
5%
?
15
gen
?
?
?
?
good
3
3
4.3%
4.4%
?
?
38
?
?
4%
?
12
gen
?
full
?
full
good
…
40
2
4.5
4.0
?
none
40
?
?
4
?
12
avg
yes
full
yes
half
good
18
Entscheidungsbäume für die
Tarifdaten
19
Klassifikation von
Sojabohnen
Attribute
Environment Time of occurrence
Precipitation
…
Seed Condition
Number
of values
7
3
Sample value
July
Above normal
2
2
Normal
Absent
4
Normal
Fruit spots
Leaves Condition
Leaf spot size
5
2
3
?
Abnormal
?
Stem lodging
2
2
Abnormal
Yes
3
19
Normal
Diaporthe stem canker
Mold growth
…
Fruit Condition of fruit
pods
…
Stem Condition
…
Roots Condition
Diagnosis
20
Die Rolle von
Domänenwissen
If leaf condition is normal
and stem condition is abnormal
and stem cankers is below soil line
and canker lesion color is brown
then
diagnosis is rhizoctonia root rot
If leaf malformation is absent
and stem condition is abnormal
and stem cankers is below soil line
and canker lesion color is brown
then
diagnosis is rhizoctonia root rot
Aber (bei dieser Anwendung): “leaf condition is normal”
impliziert “leaf malformation is absent”!
21
Feld-Anwendungen
 Das Lernergebnis oder die Lernmethode
selbst wird in praktischen Anwendungen
eingesetzt
 Reduzierung der Verzögerungen beim
Rotationsdruck
 Formgebung von Flugzeugteilen
 Automatische Klassifikation von Flugobjekten
 Automatische Vervollständigung von sich
wiederholenden Formularen
 Text-Retrieval
 …
22
Entscheidung von
Kreditanträgen
 Gegeben: Fragebogen mit
Angaben zur Person und deren
finanzielle Situation
 Problem: soll der Kredit gewährt werden?
 Einfache statistische Methode deckt 90%
aller Fälle ab
 Aber: 50% aller Grenzfälle führen zu
Kreditausfällen
 Lösung(?): alle Grenzfälle zurückweisen
 Nein! Grenzfälle gehören zu den
umsatzstärksten Kunden
23
Anwendung von
maschinellem Lernen
 1000 Trainingsbeispiele für Grenzfälle
 20 Attribute:





Alter,
Beschäftigungsdauer beim aktuellen Arbeitgeber,
Wohndauer an der gegenwärtigen Adresse,
Dauer der Kundenbeziehung zur Bank,
andere gewährte Kredite, …
 Gelernte Regelmenge sagt 2/3 der Grenzfälle
korrekt voraus!
 Außerdem: Firma mag die Regeln, da sie benutzt
werden können, um den Kunden gegenüber die
Kreditentscheidung zu erläutern
24
Analyse von Luftbildern
 Gegeben: Satellitenbilder von
Küstengewässern
 Problem: Auffinden von Ölflecken
in diesen Bildern
 Ölflecken erscheinen als dunkle
Regionen unterschiedlicher Größe
und Gestalt
 Schwierigkeit: ähnliche dunkle
Flecken können durch bestimmte
Wetterbedingungen verursacht
werden (z.B. starke Winde)
 Aufwändige Analyse, erfordert
lange geschultes Personal
25
Anwendung von maschinellem Lernen
 Dunkle Regionen werden aus normalisierten
Bildern extrahiert
 Attribute:




Größe der Region, Gestalt, Fläche, Intensität,
Schärfe und Zackung der Grenzen,
Nähe zu anderen Regionen,
Informationen über den Hintergrund
 Randbedingungen:
 Wenige Trainingsbeispiele (Ölflecken treten selten auf)
 Unbalancierte Daten: die meisten dunklen Regionen
sind keine Ölflecken
 Regionen aus einem Bild werden gemeinsam
prozessiert
 Anforderung: einstellbare Quote für Fehlalarme
26
Last-Vorhersage
 Elektrizitätswerke benötigen Vorhersagen
über den zukünftigen Energiebedarf
zu bestimmten Zeitpunkten
 Präzise Vorhersagen über die minimale und
die maximale Last innerhalb jeder Stunde führen zu
beachtlichen Einsparungen
 Gegeben: manuell konstruiertes statisches Modell, das
“normale” Wetterbedingungen voraussetzt
 Problem: Anpassung an konkrete Wetterbedingungen
 Parameter des statischen Modells:
 Grundlast im laufenden Jahr,
 Jahreszeitliche Lastschwankungen,
 Einfluss von Feiertagen
27
Anwendung von maschinellem Lernen
 verbesserte Vorhersage durch Suche nach
den “ähnlichsten Tagen”
 Attribute:





Temperatur,
Luftfeuchtigkeit,
Windgeschwindigkeit,
Bewölkungsgrad,
zusätzlich Differenz zwischen tatsächlicher und
vorhergesagter Last
 Zum statischen Modell wird mittlere Differenz
der drei ähnlichsten Tage addiert
 Koeffizienten der linearen Regressionsfunktion stellen Attributgewichtungen in der
Ähnlichkeitsfunktion dar
28
Diagnose von
Maschinenausfällen
 Diagnose: klassisches
Anwendungsgebiet der
Expertensysteme
 Gegeben: Fourier-Analyse von Vibrationen an
verschiedenen Stellen des Gehäuses
 Problem: Welcher Fehler liegt vor?
 Vorbeugende Wartung der elektromechanischen
Motoren und Generatoren
 Daten sind stark verrauscht
 Bisher: Diagnose durch Experten/manuell
erstellte Regeln
29
Anwendung von
maschinellem Lernen
Ausgangsdaten: 600 Fehler mit
Expertendiagnosen
~300 ungeeignet, restliche Fälle als
Trainingsmenge genutzt
Attribute angereichert um höhere Konzepte, die
kausales Domänenwissen repräsentieren
Experte unzufrieden mit den initialen Regeln, da
sie sich nicht auf sein Anwendungswissen
bezogen
Weiteres Hintergrundwissen führte zu
komplexeren Regeln, die zufriedenstellend waren
Gelernte Regeln besser als die manuell erstellten
30
Marketing und Verkauf I
 Firmen sammeln große Mengen an
Verkaufs- und Marketingdaten
 Mögliche Anwendungen:
 Kundentreue: Identifikation von Kunden, die
potenziell bald “abspringen”, durch Erkennen
von Änderungen in deren Verhalten
(z.B. Banken, Telefongesellschaften)
 Spezielle Angebote: Identifikation von
profitablen Kunden (z.B. zuverlässige Kunden
von Kreditkartenunternehmen, die ein höheres
Limit in der Urlaubszeit benötigen)
31
Marketing und
Verkauf II
 Warenkorb-Analyse
 Assoziationstechniken, um
Gruppen von Waren zu finden,
die häufig zusammen gekauft
werden
 Analyse von Einkaufsmustern in der
Vergangenheit
 Identifikation von guten Kunden
 Fokussierung von Werbesendungen (gezielte
Kampagnen sind billiger als MassenWerbesendungen)
32
Maschinelles Lernen und
Statistik
 Historische Unterschiede (vereinfacht):
 Statistik: Hypothesen-Tests
 Maschinelles Lernen: Suche nach den richtigen
Hypothesen
 Aber: große Überlappungen
 Entscheidungsbäume (C4.5 und CART)
 Nächster-Nachbar-Methoden
 Heute: ähnliche Ziele
 Die meisten ML-Algorithmen benutzen statistische
Techniken
33
Statisticians
 Sir Ronald Aylmer Fisher
 Born: 17 Feb 1890 London, England
Died: 29 July 1962 Adelaide, Australia
 Numerous distinguished contributions to
developing the theory and application of
statistics for making quantitative a vast field of
biology
 Leo Breiman
 Developed decision trees
 1984 Classification and
Regression Trees.
Wadsworth.
34
Generalisierung als Suche
 Induktives Lernen: Suche nach einer
Konzeptbeschreibung, die zu den Daten passt
 Beispiel: Regelmenge als Beschreibungssprache
 Riesiger, aber endlicher Suchraum
 Einfache Lösung:
 Aufzählen der Elemente des Konzeptraums
 Eliminieren aller Beschreibungen, die nicht zu den
Beispielen passen
 Verbleibende Beschreibung stellt das gesuchte
Konzept dar
35
Aufzählen der Elemente
des Konzeptraums
 Suchraum für das Wetterproblem:
 4 x 4 x 3 x 3 x 2 = 288 mögliche Regeln
 Beschränkung auf maximal 14 Regeln in der
Beschreibung  2.7x1034 mögliche
Regelmengen
 Möglicher Ausweg: Algorithmus zur
Eliminierung von Kandidaten
 Weitere praktische Probleme:
 Mehr als eine Beschreibung kann übrig bleiben
 Keine Beschreibung bleibt übrig
 Beschreibungssprache ist ungeeignet, um das
Zielkonzept zu beschreiben
 Daten können verrauscht sein
36
Der Versionsraum
 Raum von konsistenten Konzeptbeschreibungen
 Komplett bestimmt durch 2 Mengen:
 L: spezifischste Beschreibungen, die alle positiven
und keine negativen Beispiele abdecken
 G: generellste Beschreibungen, die keine negativen
und alle positiven Beispiele abdecken
 Nur L und G müssen verwaltet und aktualisiert
werden
 Aber: immer noch hoher Berechnungsaufwand
 Und: löst die anderen praktischen Problem nicht
37
Versionsraum: Beispiel
 Gegeben: Rote oder grüne Kühe oder
Hühner
L={}
G={<*, *>}
<green,cow>: positive
L={<green, cow>} G={<*, *>}
<red,chicken>: negative
L={<green, cow>} G={<green,*>,<*,cow>}
<green, chicken>: positive
L={<green, *>}
G={<green, *>}
38
Algorithmus zur
Kandidaten-Eliminierung
Initialize L and G
For each example e:
If e is positive:
Delete all elements from G that do not cover e
For each element r in L that does not cover e:
Replace r by all of its most specific generalizations
that 1. cover e and
2. are more specific than some element in G
Remove elements from L that
are more general than some other element in L
If e is negative:
Delete all elements from L that cover e
For each element r in G that covers e:
Replace r by all of its most general specializations
that 1. do not cover e and
2. are more general than some element in L
Remove elements from G that
are more specific than some other element in G
39
Bias (systematische
Fehler)
 Die wichtigsten Entscheidungen in
Lernsystemen:
 Konzept-Beschreibungssprache
 Reihenfolge, in der der Raum durchsucht wird
 Vermeidung der Überadaption an die
Trainingsdaten
 Diese Eigenschaften bestimmen den “Bias”
der Suche
 Beschreibungssprachen-Bias
 Such-Bias
 Überadaptions-Vermeidungs-Bias
40
BeschreibungssprachenBias
 Wichtigste Frage:
 Ist die Sprache universell oder beschränkt sie
das zu Lernende?
 Universelle Sprache kann beliebige
Teilmengen der Beispiele beschreiben
 Wenn die Sprache die Oder-Verknüpfung von
Aussagen zulässt, ist sie universell
 Domänenwissen kann benutzt werden, um
einige Konzeptbeschreibungen von
vornherein von der Suche auszuschließen
41
Such-Bias
 Such-Heuristik
 “Greedy”-Suche: wähle jeweils den besten
Einzelschritt aus
 “Beam”-Suche: Behalte mehrere Alternativen
im Auge
 …
 Richtung der Suche
 Vom Allgemeinen zum Speziellen
 Z.B. Spezialisieren einer Regel durch Hinzufügen von
Bedingungen
 Vom Speziellen zum Allgemeinen
 Z.B. Generalisierung einer einzelnen Instanz zu einer
Regel
42
ÜberadaptionsVermeidungs-Bias
 Kann als Teil des Such-Bias gesehen
werden
 Modifiziertes Bewertungskriterium
 Z.B. Balance zwischen Einfachheit und
Fehleranzahl
 Modifizierte Suchstrategie
 Z.B. Pruning (Vereinfachen einer
Beschreibung)
 Pre-Pruning: Stoppt bei einer einfachen
Beschreibung, bevor übermäßig komplexe
Beschreibungen generiert werden
 Post-Pruning: Generiert zunächst eine komplexe
Beschreibung, die anschließend vereinfacht wird
43
Data Mining und
Ethik I
 Viele ethische Fragen werden bei
praktischen Anwendungen aufgeworfen
 Data Mining wird oft zur Diskriminierung benutzt
 Z.B. Kreditanträge: Berücksichtigung bestimmter
Attribute (z.B. Geschlecht, Rasse, Religion) ist
unethisch
 Die Frage der Ethik ist anwendungsabhängig
 z.B. ist die Verwendung obiger Attribute in
medizinischen Anwendungen ok
 Attribute können problematische Informationen
beinhalten
 Z.B. kann die Postleitzahl mit der Rasse korrelieren
44
Data Mining und Ethik II
 Wichtige Fragen in praktischen
Anwendungen:
 Wer hat Zugriff auf die Daten?
 Für welchen Zweck wurden die Daten
gesammelt
 Welche Schlüsse können legitimerweise daraus
gezogen werden?
 Ergebnisse müssen unter Vorbehalt
betrachtet werden
 Rein statistische Argumente sind nie
ausreichend!
 Werden Ressourcen sinnvoll verwendet?
45
Herunterladen