Data Mining-Modelle und

Werbung
Data Mining-Modelle
und -Algorithmen
Data Mining-Modelle
und -Algorithmen
Data Mining ist ein Prozess, bei dem mehrere Komponenten i nteragieren. Sie greifen auf Datenquellen, um diese zum Training,
für Tests oder für Vorhe rsagen zu verwenden. Sie definieren D ata Mining-Strukturen und -Modelle und können dann Abfragen
erstellen und Analysen durchführen.
Data Mining-Lösungen und -Projekte
Um ein Data Mining-Projekt zu erstellen, müssen Sie
Datenquellen,
Data Mining-Strukturen
und Data Mining-Modelle
definieren. Das erstellte Data Mining-Projekt kann auch Testsätze zum Überprüfen des Modells
enthalten. Nachdem Sie ein Projekt auf dem Server bereitgestellt haben, können Sie fortfahren, indem Sie in der Originallösung neue Modelle entwickeln und testen.
Data Mining-Quelldaten
Data Mining-Quelldaten Sie müssen keinen
Sie können auch Tabellen hinzufügen, die
Cube oder andere spezielle Datenquellen
eine n:1-Beziehung aufweisen, um geschach-
verwenden, um das Data Mining ausführen
telte Tabellenspalten zu erstellen.
zu können. Sie können das Data Mining für
Sie haben die Möglichkeit, die Data Mining-
relationale Datentabellen oder andere belie-
Lösung fortlaufend mit neuen Daten zu aktu-
bige Datenquellenschnell und einfach durch-
alisieren, oder Sie können ein gut funktionie-
führen. Die Daten, die Sie beim Data Mining
rendes Modell bereitstellen und keine neuen
verwenden, werden nicht in der Data Mi-
Daten mehr hinzufügen. Sie können die Da-
ning-Lösung gespeichert. Es werden nur die
ten auch in Trainings- und Testdatensätze
Bindungen gespeichert. Die Daten können
unterteilen, damit Sie Ihre Data Mining-
sich in einer Datenbank befinden, oder in
Modelle mit einem repräsentativen, zufä;llig
einem CRM-System oder sogar einer Flatfile.
ausgewählten Satz von Daten testen können.
Data Mining-Strukturen
Data Mining-Strukturen Eine Data Mining-
onieren, indem Sie einen Prozentsatz oder
Struktur ist eine logische Datenstruktur, die
eine Menge von Daten als HOLDOUT ange-
die Datendomäne definiert, aus der die Mi-
ben.
ningmodelle erstellt werden. Eine einzelne
Eine Data Mining-Struktur kann geschachtel-
Miningstruktur kann mehrere Miningmodelle
te Tabellen enthalten. In einer geschachtel-
unterstützen, die dieselbe Domäne verwen-
ten Tabelle werden weitere Details zu dem
den. Sie können die Data Mining-Struktur
Fall bereitgestellt, der in der primären Da-
auch in einen Trainings- und Testsatz partiti-
tentabelle modelliert ist.
Data Mining-Modelle
Data Mining-Modelle Ein Data Mining-
auf die Originaldaten ein mathematischer
Modell umfasst eine Kombination von Daten,
Algorithmus angewendet wird. Mithilfe von
einen Data Mining-Algorithmus und eine
Parametern kann jeder Algorithmus ange-
Auflistung von Parameter- und Filtereinstel-
passt werden.
lungen, die sich auf die verwendeten Daten
Beim Erstellen neuer Data Mining-Modelle
und die Art der Verarbeitung auswirken.
Nachdem Sie die Struktur des Miningmodells
testen Sie diese iterativ, indem Sie Vorhersa-
festgelegt haben, verarbeiten Sie das Modell,
gen vor, um die Ergebnisse zu optimieren.
indem Sie die leere Struktur mit den Mustern
Eine Änderung kann z. B. das Hinzufügen
auffüllen, die das Modell beschreiben. Dies
zusätzlicher Daten oder das Ändern der Pa-
wird auch als Trainieren des Modells be-
rameter des Modells sein, um eine bessere
zeichnet. Muster werden gefunden, indem
Datenanpassung zu erzielen.
gen erstellen, und nehmen dann Änderun-
Data Mining-Algorithmen
Der Data Mining-Algorithmus ist ein Mechanismus zur Erstellung eines Data Mining-Modells.
Der Algorithmus analysiert zunächst Daten auf der Suche nach bestimmten Mustern und
Trends, um ein Modell zu erstellen. Mithilfe der Ergebnisse dieser Analyse definiert der Algorithmus die Parameter für das Miningmodell. Diese Parameter werden dann für das gesamte
Dataset übernommen, um aussagefähige Muster und ausführliche Statistiken zu extrahieren.
Das von einem Algorithmus erstellte Miningmodell kann verschiedene Formen annehmen,
einschließlich der folgenden:
Eine Gruppe von Regeln, die beschreiben, wie Produkte bei einer Transaktion gruppiert
werden.
Ein Entscheidungsbaum, der vorhersagt, ob ein bestimmter Kunde ein Produkt kaufen
wird.
Ein mathematisches Modell zum Vorhersagen von Umsätzen.
Eine Reihe von Clustern, die die Beziehungen der Fälle in einem Dataset beschreiben.
Microsoft SQL Server Microsoft SQL Server Analysis Services stellt verschiedene Algorithmen
bereit, die in den Data Mining-Projektmappen verwendet werden können. Diese Algorithmen
sind eine Teilmenge aller Algorithmen, die für Data Mining verwendet werden können. Sie
können darüber hinaus Algorithmen von Drittanbietern verwenden, die der Spezifikation OLE
DB für Data Mining entsprechen.
Typen von Data Mining-Algorithmen
Analysis Services enthält die folgenden Alg orithmentypen:
Klassifikationsalgorithmen sagen basierend
auf den anderen Attributen im Dataset
mindestens eine diskrete Variable voraus.
Ein Beispiel für einen Klassifikationsalgorithmus ist der Microsoft Decision TreesAlgorithmus.
Regressionsalgorithmen sagen basierend
auf anderen Attribute im Dataset mindestens eine kontinuierliche Variable voraus.
Ein Beispiel für einen Regressionsalgorithmus ist der Microsoft Time SeriesAlgorithmus.
Segmentierungsalgorithmen teilen Daten
in Gruppen oder Cluster aus Elementen auf,
die ä;hnliche Eigenschaften haben. Ein Beispiel für einen Segmentierungsalgorithmus
ist der Microsoft Clustering-Algorithmus.
Zuordnungsalgorithmen suchen nach Korrelationen zwischen verschiedenen Attributen in einem Dataset. Die häufigste Anwendung dieser Algorithmusart besteht im Erstellen von Zuordnungsregeln, die für eine
Warenkorbanalyse verwendet werden können. Ein Beispiel für einen Zuordnungsalgorithmus ist der Microsoft AssociationAlgorithmus.
Sequenzanalysealgorithmen fassen häufige
Datensequenzen oder Periodizitäten wie z.
B. einen Webpfadfluss zusammen. Ein Beispiel für einen Sequenzanalysealgorithmus
ist der Microsoft Sequence ClusteringAlgorithmus.
Anwenden der Algorithmen
Es kann schwierig sein, den besten Algorith-
können einige Algorithmen zum Durchsu-
mus für eine bestimmte Geschäftsaufgabe
chen von Daten und andere Algorithmen
auszuwählen. Während verschiedene Algo-
zum Vorhersagen bestimmter Ausgaben auf
rithmen zum Ausführen derselben Ge-
Grundlage dieser Daten verwendet werden.
schäftsaufgabe verwendet werden können,
Sie können z. B. einen Clusteringalgorithmus
liefert jeder Algorithmus ein anderes Ergeb-
zum Erkennen von Mustern verwenden, um
nis und einige Algorithmen können mehr als
Daten in mehr oder weniger homogene
eine Ergebnisart ergeben. Sie können z. B.
Gruppen aufzuteilen, und im Anschluss da-
den Microsoft Decision Trees-Algorithmus
ran mit den Ergebnissen ein besseres Ent-
nicht nur für Vorhersagen verwenden, son-
scheidungsbaummodell erstellen. Sie können
dern auch als Möglichkeit, die Anzahl der
mehrere Algorithmen innerhalb einer Pro-
Spalten in einem Dataset zu reduzieren, weil
jektmappe zum Ausführen separater Aufga-
der Entscheidungsbaum Spalten identifizie-
ben verwenden, z. B. können Sie mit einem
ren kann, die sich nicht auf das endgültige
Regressionsstrukturalgorithmus Finanzprog-
Miningmodell auswirken.
Sie müssen die Algorithmen außerdem nicht
nosen erstellen und eine Warenkorbanalyse
unabhängig voneinander verwenden. In ei-
führen.
ner einzelnen Data Mining-Projektmappe
mit einem regelbasierten Algorithmus aus-
Mithilfe von Miningmodellen können Werte
Algorithmen für bestimmte Aufgaben, die
vorhergesagt,
Datenzusammenfassungen
Ihnen beim Auswählen der Algorithmen für
erstellt und verborgene Korrelationen ge-
eine Data Mining-Projektmappe helfen sol-
sucht werden. In der folgenden Tabelle fin-
len.
den Sie Empfehlungen zum Verwenden von
Vorhersagen eines diskreten Attributs Sie möchten z. B. vorhersagen, ob der Em pfänger
einer Targeted Mailing -Kampagne ein Produkt kaufen wird:
Microsoft Decision Trees-Algorithmus
Microsoft Naive Bayes-Algorithmus
Microsoft Clustering-Algorithmus
Microsoft Neural Network-Algorithmus
Vorhersagen eines kontinuierlichen Attributs Sie möchten z. B. den Verkaufstrend für
das nächste Jahr vorhersagen.
Microsoft Decision Trees-Algorithmus
Microsoft Time Series-Algorithmus
Vorhersagen einer Sequenz Sie möchten z. B. bei einer Unternehmenswebsite eine
Clickstreamanalyse ausführen.
Microsoft Sequence Clustering-Algorithmus
Suchen von Gruppen aus allgemeinen Elementen in Transaktionen. Sie möchten z. B.
die Warenkorbanalyse verwenden, um einem Kunden weitere Produkte vorzuschl agen.
Microsoft Association-Algorithmus
Microsoft Decision Trees-Algorithmus
Suchen von Gruppen mit ähnlichen Elementen Sie möchten z. B. demografische Daten in
Gruppen unterteilen, um die Beziehungen zwischen den Attributen besser zu verstehen
Microsoft Clustering-Algorithmus
Microsoft Sequence Clustering-Algorithmus
Herunterladen