Data Mining - Wiederholung

Werbung
Data Mining - Wiederholung
Data Mining - Wiederholung
Norbert Fuhr
18. Januar 2006
Data Mining - Wiederholung
Problemstellungen
Problemstellungen
Daten vs. Information
Def. Data Mining
Arten von strukturellen Beschreibungen
Regeln (Klassifikation, Assoziations-)
Regressionsfunktionen
Entscheidungsbäume
Domänenwissen und Transparenz der gelernten Beschreibungen
Versionsraum
Arten von Bias
Beschreibungssprache,
Suche,
Überadaption
Ethische Aspekte
Data Mining - Wiederholung
Eingabe: Konzepte, Instanzen, Attribute
Eingabe: Konzepte, Instanzen, Attribute
Konzepte
Klassifikationen
Assoziationen,
Clustering,
Nummerische Vorhersage
Instanzen
Eigenschaften einer instanz
Multi-Instanz-Problem
Rekursion
Data Mining - Wiederholung
Eingabe: Konzepte, Instanzen, Attribute
Eingabe: Attribute
Skalenniveaus
Nominalskala
Ordinalskala
Intervallskala
Verhältnisskala
Semantik fehlender Werte
Ungenaue Werte
Data Mining - Wiederholung
Ausgabe: Wissensrepräsentation
Ausgabe: Wissensrepräsentation
Entscheidungstabellen
Entscheidungsbäume
Nominale vs. nummerische Attribute
Behandlung fehlender Werte
Entscheidungsregeln
Bäume ↔ Regeln
Regelinterpretation: Konflikte, nicht abgedeckte Fälle
Assoziationsregeln
Unterstützung und Konfidenz
Interpretation
Regeln mit Ausnahmen: Struktur, Vorteile
Regeln mit Relationen
Data Mining - Wiederholung
Ausgabe: Wissensrepräsentation
Ausgabe: Wissensrepräsentation (Fortsetzung)
Lineare Regression
Bäume zur nummerischen Vorhersage
Modellbaum
Regressionsbaum
Instanz-basierte Repräsentation
Abstandsmetrik
Prototypen/Rechteckige Generalisierungen
Cluster: Repräsentation
Data Mining - Wiederholung
Algorithmen
Algorithmen
1R
Grundversion
nummerische Attribute
Überadaption
Berücksichtigung aller Attribute
Naiver Bayes
Modifizierte Wahrscheinlichkeitsschätzer
Fehlende Werte
nummerische Werte: Wahrscheinlichkeitsdichte
Entscheidungsbäume: ID3
Teile-und-herrsche-Ansatz
Attributauswahl: Informationsgewinn
Reinheitsmaß: Entropie
Gewinnverhältnis
Data Mining - Wiederholung
Algorithmen
Algorithmen (2)
Abdeckungsalgorithmen
einfacher Abdeckungsalgorithmus
Auswahl einer Bedingung
PRISM-Algorithmus
Regeln vs. Entscheidungslisten
Assoziationsregeln
Unterstützung und Konfidenz einer Regel
Gewinnung von Assoziationsregeln: Item sets
Effiziente Generierung von Regeln
Data Mining - Wiederholung
Algorithmen
Algorithmen (3)
Lineare Modelle
Minimierung des quadratischen Fehlers
Klassifikation durch Regression
logistische Regression
Instanzbasiertes Lernen
Methoden
Distanzfunktion
Normalisierung
Data Mining - Wiederholung
Evaluierung des Gelernten
Evaluierung des Gelernten
Aspekte: Training, Testen, Tuning
Training, Validieren. Testen
Resubstitutionsfehler
Vorhersage der Qualität: Vertrauensintervalle
Optimale Ausnutzung der Daten
Holdout
Kreuzvalidierung
Leave-one-out
Bootstrap
Vergleich von Verfahren
Signifikanztests: Hypothesen
Paarweiser t-Test
Unabhängige Stichproben
Data Mining - Wiederholung
Evaluierung des Gelernten
Evaluierung des Gelernten(2)
Schätzung von Wahrscheinlichkeiten
Verlustfunktionen: quadratisch, informationell
Kosten-basierte Maße
Fallmatrix
Steigerungsdiagramm
ROC-Kurve
kostensensitives Lernen
Evaluierung nummerischer Vorhersagen
Fehlermaße
Korrelationskoeffizient
Das Prinzip der minimalen Beschreibungslänge
MDL
MAP
Bayessche Modell-Mittelung
MDL und Clustering
Data Mining - Wiederholung
Bayessche Netzwerke
Bayessche Netzwerke
Aufbau Bayesscher Netze
Berechnung der Klassenwahrscheinlichkeiten
1
2
Berechnung des Produktes von Wahrscheinlichkeiten pro
Klasse
Normalisierung
Zugnundeliegende Annahme
Data Mining - Wiederholung
Implementierung
Entscheidungsbäume
Entscheidungsbäume
Nummerische Attribute
Mehrwege-Aufteilung
Fehlende Werte
Pruning
Prepruning
Postpruning: Ersetzen/Hochziehen von Teilbäumen
Komplexität der Bauminduktion
Von Bäumen zu Regeln
Data Mining - Wiederholung
Implementierung
Klassifikationsregeln
Klassifikationsregeln
Auswahlkriterien für Bedingungen
Fehlende Werte, nummerische Attribute
Pruning von Regeln
Signifikanzmaße
inkrementelles vs. globales Pruning
Incremental reduced-error pruning
Pruning in PART
Regeln mit Ausnahmen
Generierung
Data Mining - Wiederholung
Implementierung
Erweiterung der linearen Klassifikation
Erweiterung der linearen Klassifikation
Nichtlineare Klassengrenzen
Supportvektor-Maschinen
Hyperebene mit maximalem Abstand
Supportvektoren
Kernel-Funktionen
Verrauschte Daten
Spärliche Daten
Data Mining - Wiederholung
Implementierung
Instanz-basiertes Lernen
Instanz-basiertes Lernen
Probleme des 1-NN-Verfahrens
Lernen von Prototypen
Beschleunigung und Bekämpfung von Rauschen
Gewichtete Attribute
Rechteckige Generalisierungen
Data Mining - Wiederholung
Implementierung
Bäume für die nummerische Vorhersage
Bäume für die nummerische Vorhersage
Regressionsbäume
Modellbäume
Aufbau des Baumes
Nominale Attribute
Fehlende Werte
M5-Algorithmus
Lokal gewichtete Regression
Entwurfsentscheidungen
Gewichtungsfunktion
Glättungsparameter zur Skalierung der Distanzfunktion
Data Mining - Wiederholung
Implementierung
Clustern
Clustern
Grundlegende Methoden
Hierarchisches Clustern
k-means
Inkrementelles Clustern
Klassen-Nützlichkeit
Nummerische Attribute
Wahrscheinlichkeits-basiertes Clustern
Mischungsmodell
EM-Algorithmus
Bayes’sches Clustern
Herunterladen