Logbuch - hsrm-mathematik.de

Werbung
Logbuch zur Vorlesung Data Mining
WS 2015-16
Hagen Knaf
Alle im Folgenden angegebenen Dateien finden sich auf der Webseite zur
Vorlesung.
06.10.15 Präsentation Was ist Data Mining?;
Erläuterungen zu Aufbau, Zielen, Vorgehen und Leistungsanforderungen in der Vorlesung;
Vorstellung der Software Rapidminer Studio und Import der Datenmenge Kids (Kids.dat, Kids Description.txt) in das lokale
Repository.
13.10.15 Präsentationen Was sind Daten? (Daten.pdf) und
Itemset Mining und Association Rule Mining (FIM.pdf);
Frequent
Erstellen eines Rapidminer-Prozesses zum FIM in der Datenmenge
Kids. Die hierfür nötige Umwandlung eines nominalen Merkmals mit
r Ausprägungen in r binominale (binäre) Merkmale wurde erläutert (DM
Techniken.pdf).
20.10.15 Abschließen des Themas Association Rule Mining;
Präsentation zum Thema Zufall in Daten (Daten Zufall Modelle.pdf);
Beginn des Abschnitts Data Mining: Grundlagen aus der Stochastik mit einer Wiederholung der Begriffe σ-Algebra und Wahrscheinlichkeitsmaß (siehe Kurzskript DM Stochastik.pdf);
selbstständiges Anwenden von Association Rule Mining auf die Datenmenge titanic (Titanic.csv).
27.10.15 Fortsetzung des Abschnitts Data Mining: Grundlagen aus der
Stochastik (DM Stochastik.pdf);
Diskussion der Ergebnisse des Association Rule Mining auf der Datenmenge titanic anhand zweier Beispielprozesse (ARM Titanic.rmp,
Bayer Titanic.rmp).
03.11.15 Einführung in die Diskriminanzanalyse und Diskriminanzanalyse
mittel k-Nearest-Neighbors (kNN) (DM Diskriminanzanalyse.pdf);
Diskussion eines Rapidminer-Prozesses zur kNN-Diskriminanzanalyse der Wine-Datenmenge (wine.csv, wine description.txt);
selbstständiges Arbeiten an einer Realisierung der kNN-Diskriminanzanalyse der Wine-Datenmenge mit automatischer, zufälliger Aufteilung
in Trainings- und Testdaten (kNN Wine.rmp).
10.11.15 Fortsetzung des Abschnitts Data Mining: Grundlagen aus der
Stochastik (DM Stochastik.pdf);
selbstständiges Arbeiten: Vergleich verschiedener Methoden der Gütebestimmung
einer
Labelabbildung
(DM kNN Uebung.pdf,
kNN Wine Uebung-1.rmp, kNN Wine Uebung-2.rmp),
kNN-Diskriminanzanalyse
der
Datenmenge
Glass
(glass.csv,
glass description.txt).
18.11.15 Der Satz von Glivenko-Cantelli über empirische Verteilungsfunktionen (DM Stochastik.pdf).
25.11.15 Probabilistische Darstellung der Diskriminanzanalyse (DM Diskriminanzanalyse.pdf);
Diskussion der Ergebnisse zum Übungsblatt zur kNN-Diskriminanzanalyse.
1.12.15 Distanzmaße auf Datenmengen (DM Techniken.pdf);
selbstständiges Arbeiten: Schätzung der Trefferquote einer Labelabbildung mittels Kreuzvalidierung (DM Techniken.pdf), automatische
Wahl eines optimalen k-Werts für die kNN-Diskriminanzanalyse der
Datenmenge Glass, Arbeiten mit Loop-Operatoren und Macros in Rapidminer (LoopMacro.rmp).
8.12.15 Fortsetzung der probabilistische Darstellung der Diskriminanzanalyse (DM Diskriminanzanalyse.pdf): Bayesklassifikation;
selbstständiges Arbeiten: Parameteroptimierung, Vorführen einer Lösung
(S. Windorf);
Verteilung der Zusatzleistungen für Masterstudierende – siehe die Liste
auf der Webseite zur Vorlesung.
15.12.15 Data Mining als standardisierter Arbeitsprozess – das FayyadModell (Fayyad.pdf, DM Arbeitsprozess.pdf); detaillierte Diskussion eines realitätsnahen Rapidminer-Prozesses zur Parameteroptimierung.
2
05.01.16 Einführung in die Clusteranalyse (Clusteranalyse I.pdf,
Clusteranalyse II.pdf, Clusteranalyse III.pdf.
12.01.16 Bayes-Klassifikation im Fall klassenweise normalverteilter Merkmale (DM Diskriminanzanalyse.pdf);
selbstständiges Arbeiten: Übung zur Clusteranalyse mit KMeans.
3
Herunterladen