SQL Server 2005 Data Mining. Eine Einführung.

Werbung
SQL Server 2005 Data Mining. Eine
Einführung.
Autor: Craig Utley
Veröffentlichung: April 2005
Zusammenfassung: Microsoft SQL Server 2005 stellt eine Vielfalt neuer Features zum
Data Mining vor. Dieses Dokument untersucht Probleme, die mit Data Mining
angesteuert werden können und wie SQL Server 2005 diese Probleme angeht. Es enthält
einen Überblick der Probleme, die typisch für Data Mining sind, und stellt die Werkzeuge
und Modelle vor, die in SQL Server enthalten sind, um diese Probleme zu lösen.
Microsoft ist sehr stolz, Data Mining-Werkzeuge vorstellen zu können, die im gesamten
Lebenszyklus von Daten einsetzbar sind, von der Erfassung über Analyse bis zur
Berichterstellung. Die Möglichkeit, Data Mining-Technologien zu jeder dieser Phasen
einsetzen zu können, eröffnet neue Möglichkeiten innerhalb der Datenanalyse,
Anwendungsentwicklung, Datenerfassung und Berichterstellungsaktivitäten.
Copyright
Dies ist ein vorläufiges Dokument und kann vor der endgültigen kommerziellen Veröffentlichung der hier beschriebenen
Software noch wesentliche Veränderungen erfahren.
Die in diesem Dokument enthaltenen Informationen repräsentieren die augenblickliche Meinung der Microsoft Corporation
zu den diskutierten Themen zum Zeitpunkt der Publikation. Da Microsoft den wechselnden Ansprüchen des Marktes
entsprechen muss, sollte dieses Dokument nicht als eine Haftung seitens Microsoft interpretiert werden, und Microsoft
kann nicht für die Genauigkeit jeglicher gegebener Information nach dem Datum der Veröffentlichung garantieren.
Dieses Whitepaper dient nur der Information. MICROSOFT GIBT KEINE GARANTIEEN, AUSDRÜCKLICHE, ANGEDEUTETE
ODER STATUTARISCHE, DIE DIE INFORMATIONEN IN DIESEM DOKUMENT BETREFFEN.
Es liegt in der Verantwortung des Benutzers, allen maßgeblichen Urheberrechten zu entsprechen. Kein Teil dieses
Dokuments kann reproduziert werden, in einem Verteilersystem gespeichert oder in ein Verteilersystem eingespeist
werden, oder in irgend einer Form auf irgend eine Art übertragen werden (elektronisch, mechanisch, durch Photokopieren,
Aufnehmen oder ähnliches), ohne Urheberrechte zu verletzten und darf nur geschehen mit einer ausdrücklichen
schriftlichen Genehmigung der Microsoft Corporation.
Microsoft kann Patente, Patentanmeldungen, Schutzmarken, Urheberrechte oder andere Rechte geistigen Eigentums
haben, die in diesem Dokument behandelte Gegenstände betreffen. Soweit nicht eine ausdrückliche schriftliche
Lizenzgenehmigung seitens Microsoft vorliegt, gibt die Ausstattung dieses Dokuments Ihnen keinerlei Lizenz über Patente,
Schutzmarken, Urheberrechte oder andere geistige Eigentümer.
 2005 Microsoft Corporation. Alle Rechte vorbehalten.
Microsoft, ActiveX, SharePoint, Visual Basic, Visual C#, Visual Studio, Windows, und Windows Server System sind
entweder eingetragene Handelsmarken oder Handelsmarken der Microsoft Corporation in den Vereinigten Staaten
und/oder anderen Ländern.
Die Namen hier erwähnter tatsächlicher Unternehmen oder Produkte können Handelsmarken ihrer entsprechenden
Besitzer darstellen.
2
Inhaltsverzeichnis
SQL Server 2005 Data Mining. Eine Einführung................................................. 1
Copyright .......................................................................................................... 2
Inhaltsverzeichnis ............................................................................................ i
Einführung ........................................................................................................ 1
Das Versprechen von Data Mining .................................................................... 2
SQL Server 2005 Data Mining ........................................................................... 3
Einführung ..................................................................................................... 3
Intelligente Anwendungen erstellen................................................................... 4
Der Nutzen von SQL Server 2005 Data Mining-Features ...................................... 5
Leichte Handhabung................................................................................... 5
Einfache, aber reichhaltige API .................................................................... 6
Skalierbarkeit ............................................................................................ 7
Die SQL Server 2005 Data Mining-Algorithmen .............................................. 8
Erweiterbarkeit .......................................................................................... 9
SQL Server 2005 Data Mining und End-to-End Business Intelligence ..................... 9
Datenintegration ........................................................................................ 9
Datenanalyse .......................................................................................... 10
Berichterstellung ..................................................................................... 10
Geschäftsprobleme, die mit Data Mining gelöst werden können ..................... 11
Problem 1: Was werden Kunden kaufen? Welche Produkte verkaufen sich
zusammen? ................................................................................................. 11
Problem 2: Abwandernde Kunden erkennen ..................................................... 12
Problem 3: Wie hat sich der Markt verhalten, und wohin wird er sich entwickeln? . 12
Problem 5: Den Erfolg einer Marketing-Kampagne bestimmen ............................ 14
Problem 6: Daten von schlechter Qualität ........................................................ 14
Problem 7: Textanalyse ................................................................................. 15
Zusammenfassung .......................................................................................... 16
Einführung
Unternehmen sehen sich beim Versuch, ihre Daten zu analysieren, einer Vielzahl von
Problemen konfrontiert. Generell gibt es keinen Mangel an Daten. Tatsächlich haben
viele Unternehmen das Gefühl, in Daten zu ertrinken; sie sind nicht in der Lage, dem
allen einen Sinn zu entnehmen und in Information zu verwandeln. Zu diesem Ziel wurde
Data Warehousing entworfen; es soll Unternehmen ermöglichen, den Reichtum von
verschiedenen Datenquellen zu nutzen und in akzeptable Information zu verwandeln.
Korrekt implementiertes Data Warehousing ist eine unglaublich machtvolle Lösung. Ein
Unternehmen kann Daten analysieren und so fundierte Entscheidungen treffen. Data
Warehousing kann benutzt werden um Fragen zu beantworten wie:

Welche Produkte sind bei Frauen im Alter zwischen 15-20 Jahren am beliebtesten?

Wie Verhalten sich die Prozentsätze von Auftragsdurchlaufzeit und pünktlicher
Lieferung eines bestimmten Kunden im Vergleich zum Durchschnitt aller Kunden?

Welche Kosten und wie viel Zeit werden pro Patient pro Station aufgewendet?

Welcher Prozentsatz von Projekten steckt seit mehr als zehn Tagen in der
Vertragsabschlussphase?

Wenn eine bestimmte Einrichtung mehr Geld für eine bestimmte Art von Arznei
ausgibt, zeigen dann die Laborbefunde der Patienten bessere Resultate als die
anderer Einrichtungen?
Über diese Fragen, die üblicherweise durch den Gebrauch einer analytischen Anwendung
beantwortet werden, hinaus unterstützt Data Warehousing eine Vielzahl von Formaten
zur Datenauslieferung. Analyseanwendungen sind entworfen für Analytiker, die Daten
per Slice und Dice betrachten und tiefer liegende Detailebenen untersuchen.
Berichtsanwendungen entwerfen in der Regel Berichte auf Papier oder online, die
entweder statisch sind oder geringere drill-down-Möglichkeiten bieten für Benutzer, die
weniger kraftvolle Eigenschaften benötigen. Für Entscheidungsträger in Unternehmen
bieten Scorecards ein machtvolles Werkzeug, das ihnen einen schnellen Eindruck von
den Key Performance Indicators (KPI) des Unternehmens zu vermittelt sie zu jedem
Zeitpunkt wissen lässt, wo sie stehen.
So nützlich und einsatzkräftig Data Warehousing auch ist, so hat es doch eine
Beschränkung: es ist in seiner Eigenschaft historisch. Data Warehouses bieten eine
zeitliche Momentaufnahme, da sie häufig auf einer nächtlichen oder wöchentlichen Basis
geladen und ausgeführt werden. Auch wenn Echtzeit-, oder Fast-Echtzeit-Data
Warehouses und demnächst üblicher werden, werden die Daten trotzdem bestenfalls
historische oder aktuelle Daten repräsentieren. Da Entscheidungsträger und Analytiker
in Unternehmen diese Daten untersuchen müssen, benötigen Data Warehouses einen
gewissen Aufwand an Analyse, um kausale Zusammenhänge zu Tage zu fördern.
1
Anstatt jemanden zu beauftragen, eine Hypothese zu erstellen, und dann nach Daten zu
graben, wäre es nicht hilfreicher, wenn das Data Warehouse Beziehungen bestimmte,
zukünftige Ereignisse voraussagte, ungültige Daten erkennen würde und eine Analyse
der Daten ermöglichte, die bisher nicht denkbar war? Das kann durch den Gebrauch von
Data Mining erreicht werden. Data Mining kann benutzt werden, um Fragen zu
beantworten wie:

Was werden Kunden kaufen? Welche Produkte verkaufen sich zusammen?

Wie kann ein Unternehmen vorhersagen, bei welchen Kunden die Gefahr besteht,
dass sie abwandern?

Wie hat sich der Markt verhalten, wohin wird er sich entwickeln?

Wie kann ein Unternehmen am besten die Verwendungsmuster seiner Website
analysieren?

Wie kann eine Organisation den Erfolg einer Marketing-Kampagne ermitteln?

Wie kann verhindert werden, dass Daten von schlechter Qualität in das System des
Unternehmens dringen?

Was sind die besten Techniken, um unstrukturierte Daten zu analysieren, wie z.B.
Freitext?
Microsoft hat in Microsoft® SQL Server™ 2005 eine Fülle neuer Eigenschaften für Data
Mining vorgestellt, die es Unternehmen ermöglichen, diese und andere Fragen zu
beantworten. Dieses Dokument untersucht die Probleme, die Data Mining angehen kann
und wie SQL Server 2005 diese Probleme ansteuert. Es enthält einen Überblick der
typischen Probleme beim Data Mining und die Werkzeuge und Modelle, die durch SQL
Server verfügbar sind, um diese Probleme zu lösen.
Das Versprechen von Data Mining
Data Mining verspricht, das Leben von Entscheidungsträgern und Wirtschaftsanalytikern
zu erleichtern. Neben der bloßen Vorhersage zukünftiger Verhältnisse hilft Data Mining,
Beziehungen zwischen Daten zu erkennen, die sonst versteckt geblieben wären, die
Wahrscheinlichkeit zu errechnen, mit der sich ein gewisses Produkt verkauft oder
gewisse Kunden sich aus verschiedenen Gründen anderweitig orientieren werden, und
mehr.
Microsoft Data Mining-Werkzeuge reichen weit über traditionelles Data Mining hinaus. Da
Data Mining die Daten untersuchte und bislang unbekannte Beziehungen suchte, war es
ein typischer “gelaufen und fertig”-Prozess. In anderen Worten, Unternehmen setzten
Data Mining-Werkzeuge ein und schauten sich dann die Daten an. Microsoft Data MiningWerkzeuge erledigen nicht nur eine einzige bestimmte Arbeit; sie führen ihre Arbeit aus,
um die Resultate umgehend zurück in den Prozess zu geben. Das heißt beispielsweise,
dass Data Mining-Modelle Kunden – basierend auf gewissen Kriterien – gruppieren, aber
der Analytiker kann sofort damit beginnen, die Daten, basierend auf den neuen
Gruppierungen, zu slicen.
Die Möglichkeit, Resultate der Data Mining-Modelle umgehend zurück in den
Analyseprozess zu speisen bedeutet, dass Unternehmen nun bestimmen können, wie die
Daten am besten zu analysieren sind. Heutzutage schlüsseln die meisten Organisationen
ihre Kunden nach geographischen Begebenheiten auf und erfassen wenige
2
demographische Information, wie Einkommen und Bildungsniveau. Data Mining könnte
feststellen, dass gewisse Zusammenstellungen der Kunden mehr Sinn machen als
geographische Belange; beispielsweise könnten Kunden mit einem hohen Einkommen,
die sowohl Freude an Klassischer Musik als auch an Zugtraktoren haben, bestimmte
Produkte bevorzugen, ungeachtet ihres Bildungsniveaus oder der Geographie. Wenn
diese Kundengruppierung einmal festgelegt wurde, kann sie während der Analyse-Phase
dazu benutzt werden, Daten zu untersuchen. Einer der großen Nutzen von Data Mining
ist es, Daten von Gruppen zu analysieren, die eigentlich nicht offensichtlich sind.
Es ist sehr effektiv, Daten anhand des Output von Data Mining-Modellen analysieren zu
können, aber diese Resultate können auch während der Integrationsphase genutzt
werden. In anderen Worten: wenn eine Organisation Daten des gesamten
Unternehmens konsolidiert, kann Data Mining bestimmen, ob diese Daten im Licht
anderer Daten besehen überhaupt Sinn ergeben. Die Fähigkeit, anomale Daten während
der Integrationsphase in ein Business Intelligence-Projekt zu erkennen, bedeutet, dass
das daraus resultierende Data Warehouse reiner ist und Analysen dessen genauer und
aussagekräftiger sind.
Data Mining wird hier einen Schritt weiter gebracht; indem Anwendungen zur
Datensammlung die verwendeten Regeln anwenden können, vermeiden sie den Input
ungültiger Daten an der Quelle. Wenn Daten eingegeben werden, können sie anhand des
Universums vorhandener Daten überprüft werden und ihre Verlässlichkeit bestimmt.
Daten, die unterhalb einer bestimmte Verlässlichkeitsebene sind, können
zurückgewiesen werden. Wenn so ein Web-Formular Benutzer-Informationen annimmt
und ein Benutzer das Geburtsdatum 07.02.1179 eingibt, können die Daten noch an der
Quelle abgewiesen werden. Über einfache Daten hinaus kann nach einer Kombination
von Geburtsdatum, Ausbildung, Beruf und Einkommen gesucht werden, um eine
Verlässlichkeitsebene zu definieren, die Daten akzeptiert oder zurückweist.
So wird, weit entfernt von einem simplen Prozess, der einmal gelaufen und dann
analysiert wird, Data Mining ein fester Bestandteil eines gesamten Lebenszyklus einer
Business Intelligence-Anwendung, Datenerfassung, Datenanalyse und Berichterstellung.
SQL Server 2005 Data Mining
Einführung
Die Microsoft SQL Server 2005 Data Mining Plattform hat entscheidende Fähigkeiten, um
Data Mining sowohl in traditionellen als auch neuen Arten anzugehen. Traditionell
gesehen kann Data Mining aufgrund des Input zukünftige Ergebnisse vorhersagen oder
versuchen, sowohl Beziehungen zwischen Daten zu finden als auch Daten in bisher
unerkannten, doch gleichen Gruppen zu ballen.
Microsoft Data Mining-Werkzeuge unterscheiden sich erheblich von herkömmlichen Data
Mining-Anwendungen. Erstens unterstützen sie den gesamten Verlauf von
Datenentwicklung in einer Organisation, auf den sich Microsoft bezieht als Integrieren,
Analysieren und Berichten. Diese Fähigkeit entzieht die Ergebnisse des Data Mining den
Händen einiger weniger Analytiker und bietet sie dem ganzen Unternehmen dar.
Zweitens stellt SQL Server 2005 Data Mining eine Plattform dar, um intelligente
Anwendungen zu entwickeln. Es ist möglich, benutzerorientierte Anwendungen zu
entwerfen, die intelligent sind, denn die Data Mining-Modelle sind der Außenwelt leicht
3
zugänglich zu machen. Weiterhin ist das Modell erweiterbar, so dass Drittnutzer eigene
Algorithmen hinzufügen können, um speziellen Ansprüchen an das Data Mining gerecht
zu werden. Viertens können Microsoft Data Mining-Algorithmen in Echtzeit laufen, was
eine Echtzeitvalidierung der Daten gegen ein Set von Daten erlaubt, die bereits mittels
Data Mining erfasst wurden.
Intelligente Anwendungen erstellen
Der Gedanke, der hinter dem Entwerfen intelligenter Anwendungen steht ist der, die
Vorteile des Data Mining zu nehmen und sie dem gesamten Prozess von Dateneingabe,
Integration, Analyse und Berichterstellung hinzuzufügen. Die meisten Data MiningWerkzeuge zeigen Vorhersagen künftiger Ergebnisse und helfen, Beziehungen zwischen
unterschiedlichen Datenelementen zu ermitteln. Meistens lässt man diese Werkzeuge
über die Daten laufen und interpretiert dann – in einem getrennten Prozess – die
Ergebnisse. Viele Data Mining-Werkzeuge sind Stand-Alone-Anwendungen die dafür
gemacht wurden, Nachfragen vorherzusehen oder Beziehungen zu ermitteln; an diesem
Punkt endet ihre Funktionalität.
Intelligente Anwendungen nehmen den Output von Data Mining führen ihn als Input dem
gesamten Prozess zu. Ein Beispiel für eine Anwendung, die ein Data Mining-Modell
benutzt, wäre ein Formular zur Eingabe persönlicher Daten. Benutzer dieser Anwendung
können eine gewaltige Menge von Daten eingeben, wie Geburtsdatum, Geschlecht,
Ausbildung, Einkommen, Beruf und so fort. Gewisse Kombinationen von Attributen
ergeben keinen Sinn. Ein Siebenjähriger z.B., der als Arzt arbeitet und ein HochschulDiplom hat, ist ein Hinweis darauf, dass entweder jemand wahllos Daten einfügt oder
aber seine Unfähigkeit unter Beweis stellt, ein Formular zur Dateneingabe auszufüllen.
Viele Anwendungen versuchen, diesem Problem beizukommen, indem sie komplizierte
und tief verschachtelte Logik einsetzen, aber realistisch betrachtet ist es so gut wie
unmöglich, die gesamten Datenkombinationen als gültig oder ungültig zu bestimmen.
Um dieses Problem zu lösen, kann ein Unternehmen Data Mining benutzen, um
existierende Daten zu untersuchen und Regeln dafür erstellen, was gültig erscheint. Jede
Kombination wird mit einer Aussagewahrscheinlichkeit bewertet. Das Unternehmen kann
nun eine Anwendung zur Dateneingabe erstellen, um das Data Mining-Modell für eine
Echtzeitüberprüfung der Dateneingabe einzusetzen. Das Modell bewertet die Eingabe auf
dem Hintergrund eines Universums existierender Daten und gibt eine
Aussagewahrscheinlichkeit zurück in den Input. Die Anwendung kann dann, anhand
eines vordefinierten Schwellenwerts, den Input akzeptieren oder abweisen.
Dieses Beispiel verdeutlicht den Vorteil einer Data Mining-Maschine, die in Echtzeit läuft:
Es können Anwendungen geschrieben werden, die von den Vorteilen kraftvollen Data
Minings profitieren. Anstatt das Endresultat darzustellen wird Data Mining Teil des
Gesamtprozesses und ist beteiligt in jeder Phase von Integration, Analyse und
Berichterstellung.
Während die Bewertung von Eingaben bedeutet, Data Mining am vorderen Ende des
Datenintegrations-Prozesses zu benutzen, kann Data Mining auch in der Analyse
verwendet werden. Data Mining bietet die Möglichkeit, Werte - wie ähnliche Kunden oder
Dokumente - basierend auf Schlüsselwörtern zu gruppieren oder clustern. Diese Cluster
können in das Data Warehouse zurückgespeist werden, damit Analysen mit diesen
Gruppierungen ausgeführt werden. Sobald diese Gruppierungen bekannt und zurück in
4
die Analyse-Schleife gespeist wurden, können Analytiker sie benutzen, um Daten in nie
da gewesener Art zu betrachten.
Eines der Hauptziele intelligenter Anwendungen ist es, die Kraft von Data MiningModellen jedem verfügbar zu machen, nicht nur den Analytikern. In der Vergangenheit
stelle Data Mining eine Domäne für Experten dar, die über einen Hintergrund in Statistik
oder Unternehmensforschung verfügten. Die Data Mining-Werkzeuge waren dazu
entworfen, diese Nutzer zu unterstützen, aber nicht dafür, problemlos mit anderen
Anwendungen zu integrieren. So war die Möglichkeit, außerhalb des Data MiningProduktes Data Mining-Informationen zu verwenden, erheblich eingeschränkt. Nun, mit
einem Werkzeug, das den gesamten Prozess umfasst und seine Modelle und Resultate
anderen Anwendung eröffnet, haben Unternehmen die Macht, intelligente Anwendungen
zu schaffen, die Data Mining-Modelle in jeder Phase benutzen.
Ein anderer Aspekt einer Plattform, die das Erstellen intelligenter Anwendungen
ermöglicht, ist es, dass die Data Mining-Modelle und Resultate in einem zentralen Server
gespeichert werden. Die Modelle sind häufig höchst proprietär und geheim. Sie auf dem
Server zu speichern heißt zu verhindern, dass sie außerhalb des Unternehmens
gelangen. Ein weiterer Nutzen eines gemeinsamen Ortes für Modelle ist der, dass die
Unternehmen eine einzige Version des Modells haben und nicht eine Vielzahl von
Varianten auf den Desktops der Analytiker. Eine einzige Version der Wahrheit; das ist
eines der Ziele von Data Warehousing, und dieses Konzept kann auf Data Mining
erweitert werden, so dass es eine einzige Version eines Modells gibt, das entworfen und
abgestimmt wurde für ein bestimmtes Geschäft.
Der Nutzen von SQL Server 2005 Data
Mining-Features
SQL Server 2005 Data Mining-Features enthalten eine Menge von Vorteilen gegenüber
traditionellen Data Mining-Anwendungen. Wie zuvor gezeigt wurde, sind SQL
Server 2005 Data Mining-Features in die gesamten SQL Server-Produkte integriert,
einschließlich SQL Server, SQL Server Integration Services, und Analysis Services. SQL
Server Data Mining-Werkzeuge sind nicht eine einzelne Anwendung, die Unternehmen
laufen lassen, um einen Output zu produzieren, der dann – unabhängig vom Rest des
Analyseprozesses – analysiert wird. Stattdessen sind Data Mining-Features im gesamten
Prozess eingebettet und können in Echtzeit laufen, und die Resultate können in den
Prozess von Integration, Analyse und Berichterstattung zurückgespeist werden.
Allerdings wären diese Features ohne Bedeutung, wenn sie schwierig anzuwenden
wären. Glücklicherweise hat sich Microsoft darauf fokussiert, die Werkzeuge leicht
anwendbar zu gestalten.
Leichte Handhabung
Mit SQL Server 2005 wollte Microsoft Data Mining aus dem Wirkungsbereich
promovierter Physiker holen und es Entwicklern und Datenbankadministratoren
zugänglich machen, die Datenmodelle entwerfen und betreiben, und es jedem
Analytiker, Entscheidungsträger oder anderen Benutzer ermöglichen, den Output der
Modelle zu benutzen, ohne über ein Spezialwissen verfügen zu müssen.
Eine Firma z.B., die eine frühe Version des SQL Server 2005 benutzte, wollte eine Cross
Sell-Anwendung implementieren. Cross Selling empfiehlt Kunden auf dem Hintergrund
5
ihrer Kaufgewohnheiten und dem Produkt, das sie augenblicklich erstehen, weitere
Produkte. Ein Kunde, der gerade den dritten Film mit einer bestimmten Schauspielerin in
der Hauptrolle kauft, könnte an anderen Filmen mit der betreffenden Schauspielerin
mehr interessiert sein als an anderen Filmen aus dem selben Genre. Andererseits wären
Kunden, die sich sowohl für Science-Fiction- als auch für Horror-Filme interessieren,
wahrscheinlich nicht interessiert an einer Cross-Promotion für einen romantischen Film.
Um eine Cross Sell-Anwendung zu entwerfen wandte sich diese Firma an einen
Datenbankadministratoren, nicht an einen Analytiker. Der Datenbankadministrator
verwendete neue SQL Server 2005 Data Mining-Features um ein Vorhersagemodell zu
entwerfen, das Verkäufe empfiehlt, basierend auf einer Vielzahl von Faktoren,
einschließlich Kaufgeschichte und demographischer Kundendaten. Das Out-of-the-box
Modell kann eine Million Vorhersagen pro Sekunde für en Betreffenden Kunden machen.
Das Resultat: Die Verkäufe empfohlener Produkte haben sich seit Implementierung des
neuen Modells verdoppelt.
Einfache, aber reichhaltige API
Die Data Mining-Features von SQL Server 2005 machen das Erstellen intelligenter
Anwendungen einfach, dank einer kraftvollen, aber einfachen API. Diese API hat die
Fähigkeit, Vorhersagemodelle von Client-Anwendungen abzurufen ohne verstehen zu
müssen, was in den jeweiligen Modellen enthalten ist und wie sie funktionieren. Das
erlaubt es Entwicklern, die Maschine aufzurufen und das Modell zu wählen, das die
besten Resultate – basierend auf den analysierten Daten – bietet. Zurückgegebene
Daten werden in Tokens zerlegt, was bedeutet, dass numerische Werte in einer Serie
von Attributen zurückgegeben werden. Das erlaubt es dem Entwickler, mit einfachen
Daten zu arbeiten, anstatt mit neuen Datenformaten.
6
Zugang zu den Resultaten von Data Mining ist einfach erlangt durch den Gebrauch einer
einfachen, SQL-ähnlichen Sprache, die Data Mining Extensions to SQL genannt wird,
oder DMX. Die Syntax ist so entworfen, dass sie denen Zugang bietet, die schon mit SQL
vertraut sind. Eine DMX-Abfrage könnte beispielsweise so aussehen:
SELECT TOP 25 t.CustomerID
FROM CustomerChurnModel
NATURAL PREDICTION JOIN
OPENQUERY('CustomerDataSource', 'SELECT * FROM Customers')
ORDER BY PredictProbability([Churned],True) DESC
Skalierbarkeit
Eines der wichtigsten Features von Data Mining in SQL Server 2005 ist die Möglichkeit,
große Datensets zu bewältigen. Bei vielen Data Mining-Werkzeugen muss der Analytiker
eine gültige zufällige Stichprobe der Daten erstellen und die Data Mining-Anwendung
auf der Stichprobe laufen lassen. Obwohl es einfach klingen mag, eine zufällige
Stichprobe zu entwerfen, fallen Statistikern haufenweise Gründe ein, warum es
schwierig und risikoreich ist, gültige und wirklich zufällige Stichproben zu entwerfen.
SQL Server 2005 beseitigt die Herausforderung der Stichprobenerhebung, indem es den
Modellen ermöglicht wird, über das gesamte Datenset zu laufen. Das bedeutet, dass
Analytiker keine Beispielsets entwerfen müssen und dass Algorithmen auf den gesamten
Daten operieren können, und so die genauesten möglichen Resultate garantieren.
7
Die SQL Server 2005 Data MiningAlgorithmen
Eine Vielzahl von Algorithmen sind verfügbar in SQL Server 2005 (Table 1).
Modell
Beschreibung
Decision Trees
Der Decision Trees-Algorithmus berechnet die
Wahrscheinlichkeit eines Ergebnisses, basiert auf Werten in
einem Trainingset. Eine Person der Altersgruppe von 20-30
z.B., die über $60,000 pro Jahr verdient und ein Haus
besitzt wird mit höherer Wahrscheinlichkeit Rasenpflege
benötigen als jemand in der Altersgruppe von 15-19, der
kein Haus besitzt. Basierend auf Alter, Einkommen, und
dem Status als Hausbesitzer kann der Decision TreesAlgorithmus die Wahrscheinlichkeit berechnen, mit der die
Person eine Rasenpflege benötigt, basierend auf
historischen Werten.
Association Rules
Der Association Rules-Algorithmus hilft, Beziehungen
zwischen verschiedenen Elementen zu erkennen. Er wird
beispielsweise in Cross Selling-Lösungen verwendet, denn
er erkennt Beziehungen zwischen Gegenständen und kann
vorhersagen, an welchem Produkt ein Kunde, der gerade
etwas kauft, noch interessiert sein könnte. Der Association
Rules-Algorithmus kann unglaublich große Kataloge
bewältigen, wurde schon an Katalogen mit mehr als einer
halben Million Posten getestet.
Naïve Bayes
Der Naïve Bayes-Algorithmus wird verwendet, um
deutliche Unterschiede innerhalb einer bestimmten
Variable für verschiedene Datenelemente zu zeigen. Das
Einkommen eines Haushaltes variiert bei jedem in der
Datenbank erfassten Kunden und kann als Vorhersage für
Zukünftige Anschaffungen dienen. Dieses Modell zeichnet
sich darin aus, Unterschiede zwischen bestimmten
Gruppen aufzuweisen, beispielsweise Kunden, die
abwandern und solchen, die es nicht tun.
Sequence Clustering
Der Sequence Clustering-Algorithmus wird verwendet, um
Daten auf einer Sequenz vorhergegangener Ereignisse zu
gruppieren oder clustern. Beispielsweise kann sich der
Benutzer einer Web-Anwendung häufig auf einer Vielzahl
von Pfaden durch die Site bewegen. Dieser Algorithmus
kann Kunden gruppieren, indem er als Grundlage die
Abfolge der verfolgten Pfade auf der Site benutzt. Dies
hilft, Benutzer zu analysieren und festzustellen, ob manche
Pfade profitabler sind als andere. Der Algorithmus kann
ebenso zur Vorhersage verwendet werden, wie der, welche
8
Seite der Nutzer las nächstes ansteuern wird. Es muss
festgestellt werden, dass die Vorhersagefähigkeit des
Sequence Clustering-Algorithmus etwas ist, das andere
Data Mining-Anbieter nicht liefern können.
Time Series
Der Time Series-Algorithmus wird verwendet, zeitbasierte
Daten zu analysieren und vorherzusagen. Verkäufe sind
die am häufigsten analysierten und vorhergesagten Daten
bei der Verwendung des Time Series-Algorithmus. Dieser
Algorithmus sucht Muster in vielfältigen Datenserien, damit
Unternehmen feststellen können, wie verschiedene
Elemente die analysierten Serien beeinflussen.
Neural Nets
Neuronale Netzwerke sind der Kern künstlicher Intelligenz.
Sie sollen Beziehungen zwischen Daten entdecken, die
anderen Algorithmen entgehen. Auch wenn der Neural
Nets-Algorithmus langsamer ist als andere, so findet er
Beziehungen, die nichtintuitiv sein können.
Text Mining
Der Text Mining-Algorithmus erscheint in SQL Server
Integration Services und analysiert unstrukturierte TextDaten. Dies erlaubt es Unernehmen, unstrukturierte Daten
zu analysieren, wie etwa den Bereich “Kommentare” in
einer Umfrage zur Kundenzufriedenheit.
Tabelle 1: Die Algorithmen in SQL Server 2005 Data Mining
Erweiterbarkeit
Obwohl SQL Server 2005 eine Vielzahl von Algorithmen hat, erlaubt das von SQL
Server 2005 genutzte Modell jedem, neue Modelle der Data Mining-Maschine
hinzuzufügen. Diese Modelle sind dann gleichrangig mit den in SQL Server 2005
gelieferten. Algorithmen von Dritten profitieren ebenso von den neuen Features: sie sind
per DMX aufrufbar und einfach zu integrieren, in jeden Teil des Prozesses von
Integrieren, Analysieren und Berichterstellen.
SQL Server 2005 Data Mining und End-to-End
Business Intelligence
Datenintegration
Die Integrationsphase beinhaltet das Erfassen von Daten aus verschiedenen Quellen, die
Transformation der Daten und das Laden der Daten in eine oder mehrere Quellen. In der
Integrationsphase spielen traditionelle Data Mining-Werkzeuge nahezu keine Rolle, da in
dieser Phase Daten erfasst werden und auf das Mining vorbereitet werden. Obwohl das
etwas nach dem berühmten Problem mit dem Huhn und dem Ei klingt, ist doch die
Herangehensweise von Microsoft an dieses Problem eher direkt: Daten erfassen, sie
zusammenführen, Data Mining anwenden, und dann die Ergebnisse des Mining auf die
augenblicklichen und allen zukünftigen Daten anwenden. Weiterhin helfen die Data
Mining-Algorithmen Unternehmen, bereits existierende Ausreißer in den Daten zu
9
erfassen, oder welche, die in einem traditionellen ETL (Extraktion, Transformation,
Laden)-Prozess eingeführt werden könnten.
In der Integrationsphase ist es auch möglich, dass das Modell fehlende Werte liefert,
wenn interpolierende Werte akzeptabel sind. Diese Werte können aus einer
vorhergegangenen Periode stammen oder Prognosen für zukünftige Aktivitäten
darstellen. Der Vorteil, den Microsoft Data Mining-Werkzeuge bieten ist der, dass die
Nummern während des Integrationsprozesses generiert werden können, anstatt nach
beendeter Integrationsphase.
Data Mining-Werkzeuge sind integriert mit SQL Server Integration Services. Das
bedeutet, dass während der Datenbewegung und Transformationsphase Daten anhand
des vorhersagenden Outputs von Data Mining-Modellen analysiert und modifiziert
werden können. So können beispielsweise Dokumente und Textfelder schon während der
Übertragung analysiert werden und, anhand von Schlüsselwörtern, in entsprechende
Buckets platziert werden.
Datenanalyse
Typische Data Mining-Werkzeuge generieren Ergebnisse, nachdem ein Data Warehouse
erstellt wurde, und diese Ergebnisse werden analysiert - unabhängig von der im Data
Warehouse getätigten Analyse. Vorhersagen werden erstellt oder Beziehungen
bestimmt, aber die Ergebnisse von Data Mining-Modellen sind generell unabhängig von
den im Data Warehouse verwendeten Daten.
Werkzeuge von Microsoft sind in den gesamten Prozess integriert. Auch wenn Data
Mining durch SQL Server Integration Services zugänglich ist, ist der Nutzen von Data
Mining auch in Analysis Services und SQL Server sichtbar. Egal, ob ein Unternehmen
sich entschließt, relationale Daten oder OLAP-Daten zu verwenden, so können die
Vorteile von Data Mining während der Analysephase hervorstechend sein. Dank UDM
(Universal Data Model) können sowohl relationale, als auch OLAP-Daten analysiert
werden, und Data Mining gibt der Analyse starken Antrieb.
Die Frage danach, in welcher Verbindung Produkte zueinander stehen, oder wie Kunden,
basierend auf Verhaltensmustern beim Websurfen, gruppiert werden können, bedarf der
Analyse bestimmter Datenelemente. Verschiedenste Data Mining-Modelle können
bestimmen, wie diese Produkte oder Kunden am besten in Gruppen gefasst werden
können, die Sinn im Analyseprozess ergeben. Zurückgespeist in den Analyseprozess
erlaubt es die Data Mining-Maschine Analytikern und Benutzern, die Cluster per Slice
und Drill zu betrachten.
Berichterstellung
Wenn ein funktionierendes Modell entworfen und erstellt worden ist, verlagert sich der
Schwerpunkt des Data Mining von der Analyse zu den Ergebnissen, und, noch wichtiger,
dahin, diese Ergebnisse in Taten zu verwandeln, indem sie zur rechten Zeit in die Hände
der richtigen Menschen gelangen. Dank der Integration zwischen Data Mining und
Berichterstellung in SQL Server 2005 können vorhersagekräftige Ergebnisse jedem
einzelnen im Unternehmen in einfacher, flexibler und skalierbarer Art zur Verfügung
gestellt werden.
10
Durch das Einsetzen von SQL Server 2005 Reporting Services können die Ergebnisse
von Vorhersagemodellen auf einfache Art als gedruckte Berichte zur Verfügung gestellt
werden, als Microsoft Office-Dokumente, oder aber im Intranet durch einbetten des
Berichts in Microsoft SharePoint® Services. So könnte beispielsweise ein Unternehmen
auf einfache Art intelligente Vorhersagen für Produktverkäufe einsehen, oder aber eine
Liste von Kunden, die am wahrscheinlichsten in bestimmtes Produkt kaufen würden, an
ihr Call Center weiterleiten. Es können auch intelligente Berichte eingesehen werden, in
denen die wichtigsten Gründe genannt werden, warum Kunden ein Produkt kaufen oder
nicht kaufen und so Bemühungen zielgerichtet eingesetzt werden. Microsoft ermöglicht
es durch Berichterstellung, dass die Intelligenz und Kraft von Data Mining auf einfache
Art dargestellt wird, indem wichtige Daten den Benutzern in einem leicht verdaulichen
Format präsentiert werden.
Geschäftsprobleme, die mit Data Mining
gelöst werden können
Wenn man Probleme von Unternehmen betrachten will, die mit Data Mining gelöst
werden können, denken die meisten Menschen an Warenkorbanalysen oder daran,
bisher unentdeckte Beziehungen zwischen Daten zu finden. In Wirklichkeit gibt es eine
Vielzahl von Problemen, die mit Data Mining angegangen werden können, aber um das
umsetzen zu können ist es wichtig zu verstehen, dass Data Mining in jeder ProzessPhase von Integrieren, Analysieren und Berichterstellen zum Zuge kommen kann.
Problem 1: Was werden Kunden kaufen?
Welche Produkte verkaufen sich zusammen?
Eine der bekanntesten Anwendungen von Data Mining ist die traditionelle
Warenkorbanalyse, in der Beziehungen zwischen Produkten untersucht werden.
Besonders Unternehmen im Einzelhandel liegt es sehr daran zu erfahren, welche
Produkte sich zusammen verkaufen. Das erlaubt es Unternehmen, Produkte zu
bewerben und im Cross Selling anzubieten. Unternehmen versuchen Beziehungen
zwischen Produkten zu finden, die sich nicht intuitiv erschließen; ein klassisches Beispiel
sei hier die enge Verknüpfung von Bier- und Windel-Verkäufen, entstanden aufgrund der
Tatsache, dass Männer, die zum Windelnkauf losgeschickt wurden, im betreffenden
Geschäft auch Bier kauften.
Data Mining hilft Geschäften, alle Produkte zu untersuchen und die Wahrscheinlichkeit zu
bestimmen, mit der sich andere Produkte gemeinsam mit dem entsprechenden Produkt
verkaufen. Wenn ein Geschäft beispielsweise ein Glas Erdnussbutter verkauft, welches
sind dann die Produkte, die am wahrscheinlichsten auch verkauft werden? Genauer: Wie
hoch ist die Wahrscheinlichkeit eines jeden anderen Produkts, auch verkauft zu werden?
Sind die Wahrscheinlichkeiten, mit denen der Käufer von Erdnussbutter auch Brot oder
Kekse kauft, hoch? Was ist mit Marmelade? Diese Verbindungen mögen augenscheinlich
sein, aber Warenkorbanalysen sollten alle Gegenstände, die in Verbindung mit
Erdnussbutter verkauft wurden, einstufen, um Geschäfte in die Lage zu versetzen
entscheiden zu können, richtig zu vermarkten und Entscheidungen für das Platzieren von
Produkten
Mit dem Einsatz von SQL Server Data Mining können Unternehmen Transaktionsdaten
analysieren, sei es in relationalen Data Warehouses oder OLAP-Cubes, um häufige
11
Produkt-Kombinationen zu entdecken. Der Microsoft Association Rules-Algorithmus
bestimmt Gegenstände, die gemeinsam auftreten, und leitet die Regeln für die Stärke
solcher Korrelationen ab. Weiterhin können Unternehmen, weit über einfache Analyse
hinaus, mit SQL Server Data Mining erstellte Modelle einsetzen, um in Echtzeit ProduktEmpfehlungen zu produzieren, sei es für den Ausdruck auf Kassenzetteln, als auch in
einem Online-Warenkorb, um die Verkäufe verwandter Produkte zu erhöhen.
Problem 2: Abwandernde Kunden erkennen
Unternehmen investieren einen erheblichen Aufwand an Zeit, Energie und Geld, um
Kunden zu gewinnen. Kundenbindung wird für Unternehmen zu einem immer
wichtigeren Thema, da es immer teurer wird, einen Kunden zu gewinnen. In manchen
Industriezweigen, wie der Telekommunikations-Industrie, haben es sich Kunden zur
Angewohnheit gemacht, abzuwandern, oder häufig von einem Anbieter zum anderen zu
wechseln, um Bonusse oder Sonderangebote zu erhalten, und dann so schnell wie
möglich wegen der Sonderangebote anderer Anbieter wieder zu wechseln.
Indem sie Kunden, bei denen das Risiko des Abwanderns besteht, identifizieren, können
Unternehmen besser bewerten, ob ein Kunde akzeptiert werden sollte oder nicht, und es
können Strategien entworfen werden, um das Abwandern zu reduzieren und so die
Kundenbindung zu erhöhen. Data Mining kann dabei helfen, Kunden zu erkennen, bei
denen die Wahrscheinlichkeit des Abwanderns besteht, indem Kunden untersucht
werden, die abgewandert sind und solche, die es nicht getan haben, und Charakteristika
zu bestimmen, die helfen zu erkennen, wie sich ein neuer Kunde verhalten könnte.
SQL Server Data Mining enthält eine Vielzahl von Algorithmen, die aufgrund historischer
Daten Abwanderungs-Analyse betreiben. Jeder dieser Algorithmen wird eine
Wahrscheinlichkeit oder Möglichkeit ausgeben, mit der jeder Kunde bleiben oder gehen
wird. SQL Server Data Mining bietet einfache Werkzeuge mit denen einfach zu
entscheiden ist, welcher Algorithmus und welche Einstellung das genaueste Modell für
eine bestimmte Situation schaffen; das garantiert, dass Organisationen die
bestmöglichen Ergebnisse erhalten. Sobald sich ein Unternehmen für das beste Modell
entschieden hat, kann das Modell eingesetzt werden. Durch die Verwendung von DMX
und SQL Server Reporting Services wird eine Liste der Kunden, die am wahrscheinlichten
abwandern, via Web Reports oder einem SharePoint Portal zur Verfügung gestellt.
Problem 3: Wie hat sich der Markt verhalten,
und wohin wird er sich entwickeln?
Zukünftige Verkäufe vorherzusagen betrifft nicht nur die Frage der zu erwartenden
Einnahmen; viele Unternehmen verwenden Verkaufsvorhersagen, um Personalbestände
zu bestimmen, Rohstoffe und Zubehör zu bestellen und Marketing-Kampagnen zu
entwerfen. Unternehmen, die einen Schwerpunkt auf die Vorhersage zukünftiger
Verkäufe oder anderer Marktbewegungen legen, verwendeten lange Zeit eine Vielzahl
statistischer Methoden, um Trendanalysen zu betreiben. Bei manchen Modellen können
auch Prognosen für gewisse wirtschaftliche Faktoren hinzugefügt werden. Woran es bei
den meisten Modellen scheitert ist die Tatsache, dass sie keine Vorhersagen treffen
können, die den Einfluss von zusätzlichen willkürlichen Datenserien berücksichtigen.
Beispielsweise berücksichtigen sie bei der Vorhersage von Inventarsbeständen nicht die
Produktverkäufe.
12
Der Time Series-Algorithmus in SQL Server Data Mining untersucht die Verbindungen
zwischen vielfachen Datenserien, wobei er die natürlichen Periodizitäten im
Geschäftsverlauf beachtet. So können Unternehmen nicht nur Ergebnisse für bestimmte
Produkte vorhersagen, sondern es kann auch betrachtet werden, wie Produktverkäufe
mit anderen Faktoren zu einander in Beziehung stehen oder wie Verkaufsmuster sich
über die Zeit verändern und entwickeln.
Problem 4. Die Website analysieren
Websites sind heutzutage ein fester Bestandteil vieler Unternehmen. Sie fungieren als
ein wichtiges Werkzeug des Marketing, indem sie das Unternehmen einem weltweiten
Publikum präsentieren, und das vierundzwanzig Stunden am Tag, sieben Tage die
Woche. Die Überwachung von Betriebszeit, Skalierbarkeit und Reaktionsbereitschaft ist
wichtig, doch es gibt andere Messgrößen, die schwieriger zu erreichen sind, aber
großartigen Einblick in die Gewohnheiten der Kunden gewähren. Dieses Thema betrifft
nicht nur die üblichen Pfade, auf denen sich Benutzer durch die Website bewegen,
sondern auch die Frage, wie diese Benutzer gruppiert und analysiert werden können.
Zum Beispiel unterscheidet sich ein Besucher, der auf der Homepage startet und dann
Produkte und andere Sites besucht von einem Besucher, der über ein Link von einer
fremden Site kommt.
Data Mining ermöglicht es nicht nur, die Besucher von Websites aufgrund der von ihnen
gewählten Pfade zu gruppieren, sondern erlaubt es auch, Daten, die diesen Gruppen zu
Grunde liegen, zu analysieren. So können Verkäufe anhand von Kundengruppierungen
analysiert werden. Es können Beziehungen zwischen Benutzergruppen, bestellten
Produkten und Website-Navigation festgelegt werden. Basierend auf dem Eingangspunkt
von Benutzern und den Seiten, von denen sie kamen, kann die Effektivität von
Marketing-Kampagnen analysiert werden und so dazu benutzt werden, die Ergebnisse
zukünftiger Bemühungen vorherzusagen.
Der Microsoft Sequence Clustering-Algorithmus, der von SQL Server Data Mining zur
Verfügung gestellt wird, ermöglicht es Unternehmen, Benutzer aufgrund dessen, wie sie
die Website des Unternehmens nutzen, zu unterteilen, anstatt nur festzustellen, welche
Sites sie besuchen. Die Ergebnisse der Unterteilung können in Analysis Services-Cubes
importiert werden für historische Analysen, sowie Trendanalysen. Weiter kann dann der
Microsoft Time Series-Algorithmus verwendet werden, um Käufe und Bewegungen dieser
Gruppen vorherzusagen, um wichtige betriebliche- und Marketing-Informationen zu
liefern, die Effizienz der Web-Präsenz eines Unternehmens zum Maximum zu bringen.
13
Problem 5: Den Erfolg einer MarketingKampagne bestimmen
Manche Unternehmen geben große Mengen von Geld aus, um Marketing-Kampagnen zu
führen, aber nur wenige haben die finanziellen Möglichkeiten, eingehende
Kundenbefragungen durchzuführen und sich auf bestimmte Gruppen zu konzentrieren,
um die Effektivität einer Marketing-Kampagne zu bestimmen. Viele Unternehmen
belassen es dabei, den Erfolg einer Kampagne abzuschätzen, indem sie die
Verkaufszahlen vor und während der Kampagne untersuchen, aber dieses Verfahren
schließt eine Menge anderer Themen aus, wie etwa neue Produkte, die das Unternehmen
eingeführt haben mag.
Durch Data Mining haben Unternehmen die Möglichkeit, den Einfluss einer MarketingKampagne zu untersuchen, wobei die aktuelle Produkt-Zusammenstellung berücksichtigt
wird, es können sowohl Verkäufe ohne die Kampagne vorhergesagt werden, als auch
Veränderungen der Kunden-Demographie und so weiter. Unternehmen können auch den
Erfolg zukünftiger Marketing-Kampagnen vorhersagen und ihren Geldfluss entsprechend
steuern.
SQL Server Data Mining stellt Werkzeuge zur Verfügung, die sowohl dabei helfen,
Marketing gezielt einzusetzen, als auch den eigenen Aufwand für größtmöglichen Profit
zu optimieren. Durch die Verwendung des Microsoft Windows® Clustering-Algorithmus
können Unternehmen Unterschiede und Ähnlichkeiten innerhalb ihres Kundenstamms
bestimmen und so Nachrichten entsprechend zuschneidern. Microsoft Decision Trees
und andere Algorithmen können die Kunden, die am wahrscheinlichsten auf eine
Kampagne ansprechen werden, bestimmen, was es Unternehmen ermöglicht, die
größtmögliche Gegenleistung für ihren Werbeetat zu bekommen. Mit SQL Server
Integration Services können Unternehmen die Modelle schnell und einfach einsetzen,
durch das Erstellen von Mailing-Listen, die für die besten Kunden optimiert wurden und
individuell zugeschneiderte Nachrichten enthalten.
Problem 6: Daten von schlechter Qualität
Kein Unternehmen hat vollkommen reine Daten. Einen Data Mart von Data Warehouses
zu erstellen ist wahrscheinlich der beste Weg, ungültige Daten zu erkennen, obwohl das
nicht der Zweck von Data Warehousing ist. Data Warehousing entdeckt Probleme wie
Nullwerte oder fehlende Werte, ungültige Datumsangaben, Daten im falschen Format,
Daten außerhalb der zulässigen Beschränkungen, und widersprüchliche Daten (wie eine
Bestellung, die ausgeliefert wurde, bevor sie eingegangen war, oder
Stundenabrechnungen für eine geschlossene Einrichtung.)
Wenn es darum geht, die Qualität von Daten zu bestimmen, rückt der Prozess von
Extraktion, Transformation und Laden (ETL) in den Mittelpunkt. Während dieses
Prozesses - hauptsächlich während des Transformierens - sollen Daten bereinigt werden.
Allerdings bedeutet das Reinigen von Daten zu diesem Zeitpunkt nicht, dass die Eingabe
ungültiger Daten zu einem späteren Zeitpunkt verhindert wird. Stattdessen müssen
Anwendungen zur Dateneingabe dahingehend verändert werden, Dateneingabe zu
begrenzen und Fehler an der Quelle zu vermeiden. Das bringt als weiteren Nutzen, dass
der Aufwand, einen ETL-Prozess zu erstellen, reduziert wird.
14
Häufig betrachten Menschen Data Mining als ein Endprodukt, aber Data Mining ist ein
großartiger Weg, den Input in Dateneingabeanwendung abzugleichen. Das Mining
existierender Daten bedeutet, dass die Anwendung Aussagewahrscheinlichkeiten
benutzen kann, um zu bestimmen, ob die Dateneingabe gut ist oder nicht. Das
bedeutet, dass die Dateneingabeanwendung nicht überfrachtet ist mit komplizierten
Entscheidungsbäumen, die versuchen, den Input zu validieren. Wenn ein Individuum
beispielsweise behauptet, vierzehn Jahre alt zu sein, einen Doktor-Titel zu besitzen und
als Kassierer zu arbeiten, würden diese Daten wegen geringer
Aussagewahrscheinlichkeit schon bei der Eingabe zurückgewiesen werden. Wenn man
die Möglichkeit hat, Data Mining des Endprodukts zu betreiben, um den Input von Daten
am vorderen Ende abzugleichen, stellt das ein mächtiges Feature dar, um ungültige
Daten aus der Anwendung zu halten.
SQL Server Data Mining ermöglicht es Unternehmen, ungültige Daten zu erkennen,
bevor sie in das System dringen können und so die gesamte Datenqualität und
Analysemöglichkeiten zu verringern. Egal, ob Unternehmen per DMX und .NETProgrammierung Daten in Echtzeit bei der Eingabe validieren müssen, oder beim Laden
eines Data Warehouse durch SQL Server Integration Services Ausreißer in der
Datenpipeline filtern wollen; SQL Server Data Mining bietet die kraftvolle Möglichkeit,
Daten zu reinigen, bevor sie die Resultate eines Unternehmens beeinflussen.
Problem 7: Textanalyse
Viele Anwendungen erlauben die Eingabe von Freitext, sei es durch eine Webseite oder
eine gebräuchliche Windows-Anwendung. Es ist einfach genug, diese Daten zu
speichern, aber sie zu analysieren ist weitaus schwieriger. Es gibt Maschinen zur
Volltextindizierung, aber diese Werkzeuge versehen den Text mit Indizes, um Suchen zu
ermöglichen; weder analysieren sie die Daten, um Entwicklungen herauszufinden, noch
kategorisieren sie die Dokumente anhand ihres Inhalts.
Die Analyse von Freitext, oder Text Mining, wertet die Wörter in einem Textfeld oder
Dokument und zieht Schlüsselwörter heraus. Dies ermöglicht es, Dokumente oder
Kommentare zu clustern und kategorisieren. Diese Dokumenten-Cluster können dann
verwendet werden, um Daten zu analysieren, so wie Zeiträume und Produkte verwendet
werden können. Zum Beispiel können Analysen an Dokumenten-Kategorien ausgeführt
werden, die Produktsicherheit als eine Hauptkomponente erwähnen, oder es ist möglich,
Freitext-Einträge zu unterteilen, in denen Kunden mittels eines Text-Felds ihre Hobbys
aufgezählt haben. Die Fähigkeit, gleiche Themen in Dokumenten und anderen Freitexten
zu finden, ermöglicht die Analyse von Clustern dieser Dokumente.
SQL Server Data Mining gibt Unternehmen die Macht, die Mengen von unstrukturiert
erhaltenen Daten zu transformieren, damit diese Daten analysiert werden können. Nach
Transformieren der Text-Daten in SQL Server Integration Services, können
Unternehmen die Ergebnisse in Analysis Services-Cubes laden, Mining-Modelle oder
sogar SQL Server Reporting Services-Berichte, um genau aufzugliedern, was es ist, das
den Kunden bewegt.
15
Zusammenfassung
Microsofts Annäherung an Data Mining ist revolutionär. Statt eines Stand-AloneWerkzeugs für das Generieren für Gruppen oder Vorhersagen zukünftiger Resultate, hat
Microsoft eine Plattform geschaffen, die den gesamten Prozess der Datenverarbeitung
umfasst, etwas, das sie Integration, Analyse, and Berichterstellung nennen.
Das bedeutet, dass der Output eines Data Mining-Modells sofort zurückgegeben werden
kann in die Prozesse von Datenerfassung, -transformation und –analyse. Anomale Daten
können innerhalb existierender Datensets entdeckt werden, und neue Dateneinträge
können auf dem Hintergrund bereits existierender Daten in Echtzeit bewertet werden.
Das befreit Entwickler davon, komplizierte Entscheidungsbäume im Anwendungscode
entwerfen zu müssen, um komplexen den Input vielzähliger Daten zu bewerten.
Weiterhin kann der Modell-Output unmittelbar in der Analyse angewendet werden. Wenn
ein Data Mining-Modell Kunden in Gruppen zusammenfasst auf der Grundlage von
Verhaltensmustern beim Einkauf oder Navigieren durch eine Website, werden diese
Gruppen in die Analyseschleife zurückgespeist, so dass Analysen mit diesen Gruppen
ausgeführt werden können, als seien sie von Anfang an im Data Warehouse eingebaut
gewesen. Analytiker und andere Wissensarbeiter können diese Gruppierungen per Slice
and Dice untersuchen und beispielsweise herausfinden, ob gewisse Gruppen profitabler
sind.
Microsoft hat auch eine sichere Plattform entworfen, in der das Mining-Modell und sein
Output an einer zentralen Stelle gespeichert wird. Nicht länger werden die Modelle auf
einer Vielzahl unterschiedlicher Maschinen gespeichert, wo sie schwieriger zu
kontrollieren sind. Zusätzlich wird durch ein zentralisiertes Modell gewährleistet, dass
alle Analytiker und Benutzer das selbe Modell verwenden.
Craig Utley ist der Vize-Präsident für Entwicklung von KiZAN Technologies LLC, wo ein er
Team leitet, das sich auf Business Intelligence-Lösungen und den Entwurf und die
Entwicklung von Unternehmens-Anwendungen konzentriert. Seit ihrer Einführung
arbeitet er mit Microsoft Business Intelligence-Produkten und erarbeitete BI- und Data
Warehousing-Lösungen für Unternehmen in den ganzen USA. Er ist Autor, Sprecher auf
Konferenzen und ein MVP.
Dieses Dokument wurde in Zusammenarbeit mit A23 Consulting entworfen.
16
Herunterladen