Data Mining in Datenbanken

Werbung
Data Mining in Datenbanken
Alexander Hinneburg
[email protected]
www.informatik.uni-halle.de/~hinneburg
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 0
Vorlesungsplan
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
17.10. Einleitung
24.10. Ein- und Ausgabe
31.10. Reformationstag
7.11. Einfache Regeln, Naïve Bayes
14.11. Entscheidungsbäume, und Regeln
21.11. Assoziationsregeln
28.11. Lineare Modelle
5.12. Instanzbasiertes Lernen, Clustering
12.12. Evaluation I
19.12. Evaluation II
9.1. Entscheidungsbäume, Klassifikationsregeln
16.1. Lineare Modelle, Numerische Vorhersage
23.1. Clustering
30.1. Attribut-Selektion, Diskretisierung, Transformationen
6.2. Kombination von Modellen, Lernen von nicht-klassifizierten Beispielen
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 1
Veranstaltungsmodalitäten
•
Vorlesung
– Mischung aus Folien und Tafel
– Ian Witten, Eibe Frank: Data Mining, 2. Aufl., Morgan Kaufmann, 2005
•
Übung
– Theorieaufgaben
– Praktische Aufgaben,
WEKA Data Mining Suite
(http://www.cs.waikato.ac.nz/~ml/weka/), Oracle
– Präsentation der Ergebnisse, 3-5 Folien
•
Schein
– 50% der Übungspunkte
– Klausur Ende des Semesters
– Wirtschaftsinformatiker: 2+2 Vorlesung, 6 Leistungspunkte
•
Blockseminar
– 2-3 Tage, Anfang April 2006 (vor Vorlesungsbeginn)
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 2
Einleitung
• Daten versus Wissen
• Data Mining und Machine Learning
• Strukturierte Beschreibungen
– Regeln: Klassifikation und Assoziation
– Entscheidungsbäume
• Daten
– Wetter, Kontaktlinsen, CPU Performanz,
Gewerkschaftsverhandlungen, Sojabohnen Klassifikation
• Echte Anwendungen
– Kreditanwendungen, Satellitenaufnahmen, Lastvorhersage,
Maschinenfehlerdiagnose, Warenkorbanalyse
• Verallgemeinerung als Suche
• Data Mining und Ethik
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 3
Daten versus Wissen
• Gesellschaft erzeugt riesige Datenmengen
– Quellen: Wirtschaft, Wissenschaft, Medizin, GeoAnwendungen, Sport, Umwelt, …
• Potentiell wertvolle Ressource
• Rohdaten sind nutzlos: Methoden um
Informationen automatisch daraus zu gewinnen
– Daten: gespeicherte Fakten
– Informationen: in den Daten inhärente Muster
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 4
Data Mining Aufgabe
• Extrahiere
– implizite,
– vorher unbekannte,
– potentiell nützliche
Informationen aus Daten
• Bedarf: Programme, die Muster und
Regelmäßigkeiten in Daten detektieren
• Interessante Muster ⇒ gute Vorhersagen
– Problem 1: meisten Muster nicht interessant
– Problem 2: Muster sind unscharf, unecht
– Problem 3: Daten fehlen, sind fehlerbehaftet
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 5
Data Mining Methoden
• Algorithmen zum Gewinnen (Lernen)
struktureller Beschreibungen aus Beispielen
• strukturelle Beschreibungen repräsentieren
Muster explizit
– Vorhersage in neuen Situationen möglich
– Zum Verstehen und Erklären wie Vorhersage
entstand (meist wichtiger)
• Methoden stammen aus Künstlicher
Intelligenz, Statistik, Datenbanken,
Visualisierung, Theoretische Informatik
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 6
Kontaktlinsen Daten
Age
Young
Young
Young
Young
Young
Young
Young
Young
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Wintersemester 2005/06
Spectacle
prescription
Myope
Myope
Myope
Myope
Hypermetrope
Hypermetrope
Hypermetrope
Hypermetrope
Myope
Myope
Myope
Myope
Hypermetrope
Hypermetrope
Hypermetrope
Hypermetrope
Myope
Myope
Myope
Myope
Hypermetrope
Hypermetrope
Hypermetrope
Hypermetrope
Astigmatism
No
No
Yes
Yes
No
No
Yes
Yes
No
No
Yes
Yes
No
No
Yes
Yes
No
No
Yes
Yes
No
No
Yes
Yes
Tear production
rate
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Recommended
lenses
None
Soft
None
Hard
None
Soft
None
hard
None
Soft
None
Hard
None
Soft
None
None
None
None
None
Hard
None
Soft
None
None
Seite 7
Können Maschinen wirklich lernen?
• Definitionen für “lernen” aus dem Lexikon:
Wissenserwerb durch Studium, Erfahrung
oder Belehrung
Kenntnis erlangen durch sich informieren
oder durch Beobachtung
Auswendig lernen
Informiert sein, etwas ermitteln, Instruktionen erhalten,
• Operationale Definition:
Etwas lernt, wenn es sein Verhalten oder
Eigenschaften so ändert, dass es in
Zukunft besser funktioniert.
• Impliziert Lernen eine Intention?
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 8
Das Wetter Problem
• Umstände um Tennis zu spielen
Outlook
Temperature
Humidity
Windy
Play
Sunny
Hot
High
False
No
Sunny
Hot
High
True
No
Overcast
Hot
High
False
Yes
Rainy
Mild
Normal
False
Yes
Rainy
Cool
Normal
True
No
…
…
…
…
…
If
If
If
If
If
outlook = sunny and humidity = high then play = no
outlook = rainy and windy = true then play = no
outlook = overcast then play = yes
humidity = normal then play = yes
none of the above then play = yes
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 9
Wetterdaten mit gemischten Attributen
• Einige Attribute haben nummerische Werte
Outlook
Temperature
Humidity
Windy
Play
Sunny
85
85
False
No
Sunny
80
90
True
No
Overcast
83
86
False
Yes
Rainy
75
80
False
Yes
…
…
…
…
…
If
If
If
If
If
outlook = sunny and humidity > 83 then play = no
outlook = rainy and windy = true then play = no
outlook = overcast then play = yes
humidity < 85 then play = yes
none of the above then play = yes
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 10
Ross Quinlan
• Machine learning Forscher seit 1970
• University of Sydney, Australia
1986 “Induction of decision trees” ML Journal
1993 C4.5: Programs for machine learning.
Morgan Kaufmann
199? Started
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 11
Klassifikations & Assoziationsregeln
• Klassifikationsregel:
Vorhersage für den Wert eines gegebenen Attributes
If outlook = sunny and humidity = high
then play = no
• Assoziationsregel:
Vorhersage des Wertes eines beliebigen Attributes o. Kombination
If temperature = cool then humidity = normal
If humidity = normal and windy = false
then play = yes
If outlook = sunny and play = no
then humidity = high
If windy = false and play = no
then outlook = sunny and humidity = high
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 12
Wetterdaten (komplett)
•
•
•
•
•
•
•
•
•
•
•
•
•
•
sunny
sunny
overcast
rainy
rainy
rainy
overcast
sunny
sunny
rainy
sunny
overcast
overcast
rainy
hot
hot
hot
mild
cool
cool
cool
mild
cool
mild
mild
mild
hot
mild
Wintersemester 2005/06
high
high
high
high
normal
normal
normal
high
normal
normal
normal
high
normal
high
FALSE
TRUE
FALSE
FALSE
FALSE
TRUE
TRUE
FALSE
FALSE
FALSE
TRUE
TRUE
FALSE
TRUE
no
no
yes
yes
yes
no
yes
no
yes
yes
yes
yes
yes
no
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 13
Kontaktlinsen Daten
Age
Young
Young
Young
Young
Young
Young
Young
Young
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Wintersemester 2005/06
Spectacle
prescription
Myope
Myope
Myope
Myope
Hypermetrope
Hypermetrope
Hypermetrope
Hypermetrope
Myope
Myope
Myope
Myope
Hypermetrope
Hypermetrope
Hypermetrope
Hypermetrope
Myope
Myope
Myope
Myope
Hypermetrope
Hypermetrope
Hypermetrope
Hypermetrope
Astigmatism
No
No
Yes
Yes
No
No
Yes
Yes
No
No
Yes
Yes
No
No
Yes
Yes
No
No
Yes
Yes
No
No
Yes
Yes
Tear production
rate
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Recommended
lenses
None
Soft
None
Hard
None
Soft
None
hard
None
Soft
None
Hard
None
Soft
None
None
None
None
None
Hard
None
Soft
None
None
Seite 14
Komplete und korrekte Regelmenge
If tear production rate = reduced then recommendation = none
If age = young and astigmatic = no
and tear production rate = normal then recommendation = soft
If age = pre-presbyopic and astigmatic = no
and tear production rate = normal then recommendation = soft
If age = presbyopic and spectacle prescription = myope
and astigmatic = no then recommendation = none
If spectacle prescription = hypermetrope and astigmatic = no
and tear production rate = normal then recommendation = soft
If spectacle prescription = myope and astigmatic = yes
and tear production rate = normal then recommendation = hard
If age young and astigmatic = yes
and tear production rate = normal then recommendation = hard
If age = pre-presbyopic
and spectacle prescription = hypermetrope
and astigmatic = yes then recommendation = none
If age = presbyopic and spectacle prescription = hypermetrope
and astigmatic = yes then recommendation = none
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 15
Entscheidungsbaum für dieses Problem
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 16
Klassifizierung von
Iris-Blumen
Sepal length
Sepal width
Petal length
Petal width
Type
1
5.1
3.5
1.4
0.2
Iris setosa
2
4.9
3.0
1.4
0.2
Iris setosa
51
7.0
3.2
4.7
1.4
Iris versicolor
52
6.4
3.2
4.5
1.5
Iris versicolor
101
6.3
3.3
6.0
2.5
Iris virginica
102
5.8
2.7
5.1
1.9
Iris virginica
…
…
…
If petal length < 2.45 then Iris setosa
If sepal width < 2.10 then Iris versicolor
...
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 17
Vorhersage CPU Performanz
• Beispiel: 209 verschiedene Computer Konfig.
Cycle time
(ns)
Main memory
(Kb)
Cache
(Kb)
Channels
Performanc
e
MYCT
MMIN
MMAX
CACH
CHMIN
CHMAX
PRP
1
125
256
6000
256
16
128
198
2
29
8000
32000
32
8
32
269
208
480
512
8000
32
0
0
67
209
480
1000
4000
0
0
0
45
…
• Lineare Regression Funktion
PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX
+ 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 18
Gewerkschaftsverhandlungen
Attribute
Duration
Wage increase first year
Wage increase second year
Wage increase third year
Cost of living adjustment
Working hours per week
Pension
Standby pay
Shift-work supplement
Education allowance
Statutory holidays
Vacation
Long-term disability assistance
Dental plan contribution
Bereavement assistance
Health plan contribution
Acceptability of contract
Wintersemester 2005/06
Type
(Number of years)
Percentage
Percentage
Percentage
{none,tcf,tc}
(Number of hours)
{none,ret-allw, empl-cntr}
Percentage
Percentage
{yes,no}
(Number of days)
{below-avg,avg,gen}
{yes,no}
{none,half,full}
{yes,no}
{none,half,full}
{good,bad}
1
1
2%
?
?
none
28
none
?
?
yes
11
avg
no
none
no
none
bad
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
2
2
4%
5%
?
tcf
35
?
13%
5%
?
15
gen
?
?
?
?
good
3
3
4.3%
4.4%
?
?
38
?
?
4%
?
12
gen
?
full
?
full
good
…
40
2
4.5
4.0
?
none
40
?
?
4
?
12
avg
yes
full
yes
half
good
Seite 19
Entscheidungsbäume
für Gewerkschaftsdaten
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 20
Sojabohnen Klassifikation
Attribute
Environment Time of occurrence
Precipitation
…
Seed Condition
Mold growth
…
Fruit Condition of fruit
pods
Fruit spots
Leaves Condition
Leaf spot size
…
Stem Condition
Stem lodging
…
Roots Condition
Diagnosis
Wintersemester 2005/06
Number
of values
7
3
Sample value
July
Above normal
2
2
Normal
Absent
4
Normal
5
2
3
?
Abnormal
?
2
2
Abnormal
Yes
3
19
Normal
Diaporthe stem canker
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 21
Bedeutung von Hintergrundwissen
If leaf condition is normal
and stem condition is abnormal
and stem cankers is below soil line
and canker lesion color is brown
then
diagnosis is rhizoctonia root rot
If leaf malformation is absent
and stem condition is abnormal
and stem cankers is below soil line
and canker lesion color is brown
then
diagnosis is rhizoctonia root rot
Aber hier, “leaf condition is normal” impliziert
“leaf malformation is absent”!
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 22
Echte Anwendungen
•
Das Ergebnis des Data Mining
—oder die DM Methode selbst—
wird in praktischen Anwendungen eingesetzt
–
–
–
–
–
–
–
–
Bearbeiten von Kreditanträgen
Durchsuchen von Satellitenbilden nach Ölteppichen
Stromverbrauchvorhersage
Diagnose von Maschinenfehlern
Marketing und Verkauf
Automatische Klassifikation von Himmelsobjekten
Automatische Ergänzung von Formularen
Text Retrieval und Mining
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 23
Kreditanträge (American Express)
• Gegeben: Fragebogen mit
finanziellen und persönliche Informationen
• Frage: soll der Antrag bewilligt werden?
• Einfache statist. Methode für 90% der Fälle
• Grenzfälle an Sachbearbeiter weitergereicht
• Aber: 50% der akzeptierten Grenzfälle konnten
nicht zurückzahlen!
• Lösung: alle Grenzfälle zurückweisen?
– Nein! Grenzfälle sind die aktivsten Kunden
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 24
Data Mining Einstieg
•
•
1000 Trainingsbeispiele von Grenzfällen
20 Attribute:
–
–
–
–
–
•
Gelernte Regeln: korrekt in 70% der Fälle
–
•
Alter
Jahre beim derzeitigen Arbeitgeber
Jahre bei derzeitiger Adresse
Jahre bei der Bank
andere Kredit Karten besessen ,…
Sachbearbeiter nur 50%
Regeln konnten genutzt werden, um die
Entscheidung dem Kunden zu erklären
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 25
Satellitenbilder
•
•
•
•
•
Gegeben: Radar Satellitenbilder von
Küstengewässern
Problem: finde Ölteppiche in den
Bildern
Ölteppiche tauchen als dunkle Region
mit sich ändernder Größe und Form
auf
Schwierigkeiten: ähnliche dunkle
Regionen können durch
Wetterphenomene verursacht werden
(z.B. Höhenwinde)
Teure Bearbeitung erfordert
spezialisiertes Personal
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 26
Data Mining Einstieg
•
•
Extrahiere dunkle Regionen aus normalisierten Bildern
Attribute:
–
–
–
–
–
–
•
Größe der Region
Form und Fläche
Intensität
Schärfe und Zerklüftung der Grenzen
Nähe zu anderen Regionen
Infos über Hintergrund
Bedingungen:
–
–
–
Wenig Trainingsbeispiele—Ölteppiche sind selten!
Ungleich verteilte Daten: meisten dunklen Regionen sind
keine Ölteppiche
Anforderung: einstellbare Rate der Fehlalarme
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 27
Stromverbrauchsvorhersage
•
•
•
•
•
Stromanbieter müssen den Verbrauch
vorhersagen und bestellen
Vorhersage von Min/Max Last für jede Stunde
⇒ signifikante Einsparungen
Gegeben: manuell konstruiertes Lastmodell mit
Annahmen über “normale” klimatische Bedingungen
Problem: anpassen der Wetterbedingungen
Statisches Modell besteht aus:
–
–
–
Basislast des Jahres
periodische Lastveränderungen übers Jahr
Effekt der Ferien
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 28
Data Mining Einstieg
•
•
Vorhersage korrigiert mittels der “ähnlichsten” Tage
Attribute:
–
–
–
–
–
•
•
Temperatur
Luftfeutigkeit
Windgeschwindigkeit
Wolkenbedeckung
plus Unterschied zwischen aktueller Last und
vorhergesagter Last
Durchschnittsunterschied der drei “ähnlichsten” Tage
zum Modell hinzugefügt
Lineare Regressionskoeffizienten bilden
Attributgewichte in der Ähnlichkeitsfunktion
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 29
Diagnose von
Maschinenfehlern
• Diagnose: klassische Domäne
von Expertensystemen
• Gegeben: Fourier Analyse von Vibrationen
gemessen an verschiedenen Haltepunkten
• Frage: welcher Fehler ist gegeben?
• Preventive Wartung von elektromechanischen
Motoren und Generatoren
• Information ist sehr verrauscht
• Bisher: Diagnose durch Expertenregeln
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 30
Data Mining Einstieg
• Verfügbar: 600 Fehler mit Expertendiagnose
• ~300 nichtbefriedigend, Rest genutzt zum Trainieren
• Attribute erweitert durch Zwischenkonzepte, die
kausales Hintergrundwissen enthalten
• Experte nicht zufrieden mit initialen Regeln, weil sie
sich nicht in Beziehung zum Hintergrundwissen setzen
ließen
• Weiteres Hintergrundwissen ergab komplexere
Regeln, die besser waren
• Gelernte Regeln waren besser als Expertenregeln
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 31
Marketing und Verkauf I
• Firmen speichern detailierte Daten über Verkauf
und Marketing
• Anwendungen:
– Kunden Loyalität:
finde Kunden, die wechseln wollen durch Analyse
ihres bisherigen Verhaltens
(e.g. Banken/Telekommunikationsfirmen)
– Sonderangebote:
finde profitabele Kunden
(z.B. zuverlässige Kreditkartenkunden, die in den
Ferien mehr Geld brauchen)
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 32
Marketing
und Verkauf II
• Warenkorbanalyse
– Assoziationsmethoden finden
Produktgruppen, die oft
zusammen gekauft werden
(verwendet um Kassendaten zu untersuchen)
• Zeitliche Analyse von Kaufverhalten
• Identifiziere interessierte Kunden
– Fokusiere Einführungswerbesendungen
(Gezielte Aktionen sind billiger als das
Gießkannenprinzip)
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 33
Data Mining, Maschinelles Lernen
und Statistik
•
Geschichtliche Unterschiede (stark vereinfacht)
–
–
–
•
Aber: viele Gemeinsamkeiten
–
–
–
•
Statistik: testen von Hypothesen, kleine Datenmengen
Machine learning: finde die richtigen Hypothesen, meist
Klassifikation
Data Mining: Anwendungsgetrieben, große Datenbanken
Entscheidungsbäume (C4.5 und CART)
Nächste Nachbar Methoden
Associationsregeln und formale Begriffsanalyse
Heute: Perspektiven konvergieren
–
–
Die meisten ML Algorithmen verwenden statistische Techniken
Verschiedene „Communities“, verschiedene Begriffe,
gemeinsame Probleme
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 34
•
•
•
Statistiker
Sir Ronald Aylmer Fisher
* 17 Feb 1890 London, England
+ 29 July 1962 Adelaide, Australia
Numerous distinguished contributions to
developing the theory and application of
statistics for making quantitative a vast field of
biology
•
•
•
Wintersemester 2005/06
Leo Breiman
Entwickelte
Entscheidungsbäume
1984 Classification and
Regression Trees. Wadsworth.
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 35
Problemverallgemeinerung als
Suche
• Induktives Lernen: finde eine KonzeptBeschreibung, die auf die Daten paßt
• Beispiel: Regeln als Beschreibungssprache
– Riesiger, aber endlicher Suchraum
• Einfache Lösung:
– durchsuche den ganzen Konzeptraum
– verwerfe Beschreibungen, die nicht auf die
Beispiele passen
– übrigbleibende Beschreibungen enthalten das
Zielkonzept
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 36
Durchsuchen des Konzeptraumes
• Suchraum für das Wetterproblem
– 4 x 4 x 3 x 3 x 2 = 288 mögliche Kombinationen
– mit 14 Regeln ⇒ 2.7x1034 mögliche Regelmengen
• Lösung: Kandidaten-Eliminations Algorithmus
• Andere praktische Probleme:
– Mehr als eine Beschreibung bleibt übrig
– Keine Beschreibung bleibt übrig
• Sprache kann Zielkonzept nicht ausdrücken
• oder Daten enthalten Rauschen
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 37
Der Versionsraum
• Raum der konsistenten Konzeptbeschreibungen
• Komplett durch zwei Mengen bestimmt
– L: spezifischste Beschreibungen, die alle pos. und
keine neg. Beispiele bestimmen
– G: allgemeinsten Beschreibungen, die keine neg.
und alle pos. Beispiele bestimmen
• Nur L und G müssen aktualisiert werden
• Nachteile
– immer noch sehr berechnung intensiv
– lößt nicht die anderen prakt. Probleme
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 38
Versionsraum Beispiel
• Gegeben: rot oder grün, Kühe oder Hühner
L={}
<grün,Kuh>: positiv
L={<grün, Kuh>}
<rot,Huhn>: negativ
L={<grün, Kuh>}
<grün, Huhn>: positiv
L={<grün, *>}
Wintersemester 2005/06
G={<*, *>}
G={<*, *>}
G={<grün,*>,<*,Kuh>}
G={<grün, *>}
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 39
Candidate-elimination algorithm
Initialize L and G
For each example e:
If e is positive:
Delete all elements from G that do not cover e
For each element r in L that does not cover e:
Replace r by all of its most specific generalizations
that 1. cover e and
2. are more specific than some element in G
Remove elements from L that
are more general than some other element in L
If e is negative:
Delete all elements from L that cover e
For each element r in G that covers e:
Replace r by all of its most general specializations
that 1. do not cover e and
2. are more general than some element in L
Remove elements from G that
are more specific than some other element in G
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 40
Bias (Befangenheit)
• Wichtige Entscheidungen in Lernsystemen:
– Konzeptbeschreibungssprache
– Reihenfolge in der der Suchraum durchmustert wird
– Methoden um overfitting (auswendiglernen) der
Trainingsdaten zu vermeiden
• Diese Entsch. bestimmen den “Bias” der Suche:
– Sprach Bias
– Such Bias
– Overfitting-Vermeidungs Bias
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 41
Sprach Bias
•
Wichtige Frage:
–
•
•
•
•
ist die Sprache universal
oder beschränkt sie was gelernt werden kann?
Universale Sprache kann beliebige Teilmengen der
Beispiele beschreiben
Falls Sprache logisches oder (“Disjunktion”) enthält,
ist sie universal
Beispiel: Regelmengen
Hintergrundwissen kann genutzt werden, um Teile
des Suchraums von vornherein auszuschließen
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 42
Such Bias
• Suchheuristik
– “Greedy” Suche: macht immer den aktuell
bestmöglichen Schritt
– “Beam search”: hält immer ein paar Alternativen vor
– …
• Richtung der Suche
– Allgemein-hinzu-Spezifisch
• z.B. spezialisieren einer Rgel durch Hinzufügen von
Bedingungen
– Spezifisch-hinzu-Allgemein
• z.B. Verallgemeinern eines Beispiels zu einer Regel
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 43
Overfitting-Vermeidungs Bias
• Kann als Art Such Bias verstanden werden
• Verändertes Evaluationskriterium
– z.B. balanciert Einfachheit und Anzahl der Fehler
• Veränderte Suchstrategie
– z.B. pruning (Vereinfachen einer Beschreibung)
• Pre-pruning: hält bei einer einfachen Beschreibung an,
bevor die Suche mit einer komplexen B. fortgesetzt wird
• Post-pruning: erzeugt zuerst komplexe Beschreibungen,
die dann vereinfacht werden
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 44
Data mining
und Ethik I
• Ethische Fragestellungen tauchen in
praktischen Anwendungen auf
• Data mining oft benutzt zum Unterscheiden
– z.B. Kreditanträge: Verwendung von Informationen
(z.B. Geschlecht, Religion, Herkunft) ist unethisch
• Ethische Situation hängt von der Anwendung ab
– z.B. dieselbe Information ist ok in medizinischen
Anwendungen
• Attribute können problematische Informationen
enthalten
– z.B. Postleitzahl kann mit Herkunft korrelieren
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 45
Data mining und Ethik II
• Wichtige Fragen:
– Wer hat Zugang zu den Daten?
– Für welchen Zweck werden die Daten gesammelt?
– Welche Schlußfolgerung dürfen daraus gezogen
werden?
• Ergebnisse müssen Vorteile enthalten, für wen?
• Rein statistische Argumente sind niemals
ausreichend!
• Werden die Ergebnisse sinnvoll und gut
verwendet?
Wintersemester 2005/06
Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Seite 46
Zugehörige Unterlagen
Herunterladen