SQL Server 2005 Data Mining. Eine Einführung. Autor: Craig Utley Veröffentlichung: April 2005 Zusammenfassung: Microsoft SQL Server 2005 stellt eine Vielfalt neuer Features zum Data Mining vor. Dieses Dokument untersucht Probleme, die mit Data Mining angesteuert werden können und wie SQL Server 2005 diese Probleme angeht. Es enthält einen Überblick der Probleme, die typisch für Data Mining sind, und stellt die Werkzeuge und Modelle vor, die in SQL Server enthalten sind, um diese Probleme zu lösen. Microsoft ist sehr stolz, Data Mining-Werkzeuge vorstellen zu können, die im gesamten Lebenszyklus von Daten einsetzbar sind, von der Erfassung über Analyse bis zur Berichterstellung. Die Möglichkeit, Data Mining-Technologien zu jeder dieser Phasen einsetzen zu können, eröffnet neue Möglichkeiten innerhalb der Datenanalyse, Anwendungsentwicklung, Datenerfassung und Berichterstellungsaktivitäten. Copyright Dies ist ein vorläufiges Dokument und kann vor der endgültigen kommerziellen Veröffentlichung der hier beschriebenen Software noch wesentliche Veränderungen erfahren. Die in diesem Dokument enthaltenen Informationen repräsentieren die augenblickliche Meinung der Microsoft Corporation zu den diskutierten Themen zum Zeitpunkt der Publikation. Da Microsoft den wechselnden Ansprüchen des Marktes entsprechen muss, sollte dieses Dokument nicht als eine Haftung seitens Microsoft interpretiert werden, und Microsoft kann nicht für die Genauigkeit jeglicher gegebener Information nach dem Datum der Veröffentlichung garantieren. Dieses Whitepaper dient nur der Information. MICROSOFT GIBT KEINE GARANTIEEN, AUSDRÜCKLICHE, ANGEDEUTETE ODER STATUTARISCHE, DIE DIE INFORMATIONEN IN DIESEM DOKUMENT BETREFFEN. Es liegt in der Verantwortung des Benutzers, allen maßgeblichen Urheberrechten zu entsprechen. Kein Teil dieses Dokuments kann reproduziert werden, in einem Verteilersystem gespeichert oder in ein Verteilersystem eingespeist werden, oder in irgend einer Form auf irgend eine Art übertragen werden (elektronisch, mechanisch, durch Photokopieren, Aufnehmen oder ähnliches), ohne Urheberrechte zu verletzten und darf nur geschehen mit einer ausdrücklichen schriftlichen Genehmigung der Microsoft Corporation. Microsoft kann Patente, Patentanmeldungen, Schutzmarken, Urheberrechte oder andere Rechte geistigen Eigentums haben, die in diesem Dokument behandelte Gegenstände betreffen. Soweit nicht eine ausdrückliche schriftliche Lizenzgenehmigung seitens Microsoft vorliegt, gibt die Ausstattung dieses Dokuments Ihnen keinerlei Lizenz über Patente, Schutzmarken, Urheberrechte oder andere geistige Eigentümer. 2005 Microsoft Corporation. Alle Rechte vorbehalten. Microsoft, ActiveX, SharePoint, Visual Basic, Visual C#, Visual Studio, Windows, und Windows Server System sind entweder eingetragene Handelsmarken oder Handelsmarken der Microsoft Corporation in den Vereinigten Staaten und/oder anderen Ländern. Die Namen hier erwähnter tatsächlicher Unternehmen oder Produkte können Handelsmarken ihrer entsprechenden Besitzer darstellen. 2 Inhaltsverzeichnis SQL Server 2005 Data Mining. Eine Einführung................................................. 1 Copyright .......................................................................................................... 2 Inhaltsverzeichnis ............................................................................................ i Einführung ........................................................................................................ 1 Das Versprechen von Data Mining .................................................................... 2 SQL Server 2005 Data Mining ........................................................................... 3 Einführung ..................................................................................................... 3 Intelligente Anwendungen erstellen................................................................... 4 Der Nutzen von SQL Server 2005 Data Mining-Features ...................................... 5 Leichte Handhabung................................................................................... 5 Einfache, aber reichhaltige API .................................................................... 6 Skalierbarkeit ............................................................................................ 7 Die SQL Server 2005 Data Mining-Algorithmen .............................................. 8 Erweiterbarkeit .......................................................................................... 9 SQL Server 2005 Data Mining und End-to-End Business Intelligence ..................... 9 Datenintegration ........................................................................................ 9 Datenanalyse .......................................................................................... 10 Berichterstellung ..................................................................................... 10 Geschäftsprobleme, die mit Data Mining gelöst werden können ..................... 11 Problem 1: Was werden Kunden kaufen? Welche Produkte verkaufen sich zusammen? ................................................................................................. 11 Problem 2: Abwandernde Kunden erkennen ..................................................... 12 Problem 3: Wie hat sich der Markt verhalten, und wohin wird er sich entwickeln? . 12 Problem 5: Den Erfolg einer Marketing-Kampagne bestimmen ............................ 14 Problem 6: Daten von schlechter Qualität ........................................................ 14 Problem 7: Textanalyse ................................................................................. 15 Zusammenfassung .......................................................................................... 16 Einführung Unternehmen sehen sich beim Versuch, ihre Daten zu analysieren, einer Vielzahl von Problemen konfrontiert. Generell gibt es keinen Mangel an Daten. Tatsächlich haben viele Unternehmen das Gefühl, in Daten zu ertrinken; sie sind nicht in der Lage, dem allen einen Sinn zu entnehmen und in Information zu verwandeln. Zu diesem Ziel wurde Data Warehousing entworfen; es soll Unternehmen ermöglichen, den Reichtum von verschiedenen Datenquellen zu nutzen und in akzeptable Information zu verwandeln. Korrekt implementiertes Data Warehousing ist eine unglaublich machtvolle Lösung. Ein Unternehmen kann Daten analysieren und so fundierte Entscheidungen treffen. Data Warehousing kann benutzt werden um Fragen zu beantworten wie: Welche Produkte sind bei Frauen im Alter zwischen 15-20 Jahren am beliebtesten? Wie Verhalten sich die Prozentsätze von Auftragsdurchlaufzeit und pünktlicher Lieferung eines bestimmten Kunden im Vergleich zum Durchschnitt aller Kunden? Welche Kosten und wie viel Zeit werden pro Patient pro Station aufgewendet? Welcher Prozentsatz von Projekten steckt seit mehr als zehn Tagen in der Vertragsabschlussphase? Wenn eine bestimmte Einrichtung mehr Geld für eine bestimmte Art von Arznei ausgibt, zeigen dann die Laborbefunde der Patienten bessere Resultate als die anderer Einrichtungen? Über diese Fragen, die üblicherweise durch den Gebrauch einer analytischen Anwendung beantwortet werden, hinaus unterstützt Data Warehousing eine Vielzahl von Formaten zur Datenauslieferung. Analyseanwendungen sind entworfen für Analytiker, die Daten per Slice und Dice betrachten und tiefer liegende Detailebenen untersuchen. Berichtsanwendungen entwerfen in der Regel Berichte auf Papier oder online, die entweder statisch sind oder geringere drill-down-Möglichkeiten bieten für Benutzer, die weniger kraftvolle Eigenschaften benötigen. Für Entscheidungsträger in Unternehmen bieten Scorecards ein machtvolles Werkzeug, das ihnen einen schnellen Eindruck von den Key Performance Indicators (KPI) des Unternehmens zu vermittelt sie zu jedem Zeitpunkt wissen lässt, wo sie stehen. So nützlich und einsatzkräftig Data Warehousing auch ist, so hat es doch eine Beschränkung: es ist in seiner Eigenschaft historisch. Data Warehouses bieten eine zeitliche Momentaufnahme, da sie häufig auf einer nächtlichen oder wöchentlichen Basis geladen und ausgeführt werden. Auch wenn Echtzeit-, oder Fast-Echtzeit-Data Warehouses und demnächst üblicher werden, werden die Daten trotzdem bestenfalls historische oder aktuelle Daten repräsentieren. Da Entscheidungsträger und Analytiker in Unternehmen diese Daten untersuchen müssen, benötigen Data Warehouses einen gewissen Aufwand an Analyse, um kausale Zusammenhänge zu Tage zu fördern. 1 Anstatt jemanden zu beauftragen, eine Hypothese zu erstellen, und dann nach Daten zu graben, wäre es nicht hilfreicher, wenn das Data Warehouse Beziehungen bestimmte, zukünftige Ereignisse voraussagte, ungültige Daten erkennen würde und eine Analyse der Daten ermöglichte, die bisher nicht denkbar war? Das kann durch den Gebrauch von Data Mining erreicht werden. Data Mining kann benutzt werden, um Fragen zu beantworten wie: Was werden Kunden kaufen? Welche Produkte verkaufen sich zusammen? Wie kann ein Unternehmen vorhersagen, bei welchen Kunden die Gefahr besteht, dass sie abwandern? Wie hat sich der Markt verhalten, wohin wird er sich entwickeln? Wie kann ein Unternehmen am besten die Verwendungsmuster seiner Website analysieren? Wie kann eine Organisation den Erfolg einer Marketing-Kampagne ermitteln? Wie kann verhindert werden, dass Daten von schlechter Qualität in das System des Unternehmens dringen? Was sind die besten Techniken, um unstrukturierte Daten zu analysieren, wie z.B. Freitext? Microsoft hat in Microsoft® SQL Server™ 2005 eine Fülle neuer Eigenschaften für Data Mining vorgestellt, die es Unternehmen ermöglichen, diese und andere Fragen zu beantworten. Dieses Dokument untersucht die Probleme, die Data Mining angehen kann und wie SQL Server 2005 diese Probleme ansteuert. Es enthält einen Überblick der typischen Probleme beim Data Mining und die Werkzeuge und Modelle, die durch SQL Server verfügbar sind, um diese Probleme zu lösen. Das Versprechen von Data Mining Data Mining verspricht, das Leben von Entscheidungsträgern und Wirtschaftsanalytikern zu erleichtern. Neben der bloßen Vorhersage zukünftiger Verhältnisse hilft Data Mining, Beziehungen zwischen Daten zu erkennen, die sonst versteckt geblieben wären, die Wahrscheinlichkeit zu errechnen, mit der sich ein gewisses Produkt verkauft oder gewisse Kunden sich aus verschiedenen Gründen anderweitig orientieren werden, und mehr. Microsoft Data Mining-Werkzeuge reichen weit über traditionelles Data Mining hinaus. Da Data Mining die Daten untersuchte und bislang unbekannte Beziehungen suchte, war es ein typischer “gelaufen und fertig”-Prozess. In anderen Worten, Unternehmen setzten Data Mining-Werkzeuge ein und schauten sich dann die Daten an. Microsoft Data MiningWerkzeuge erledigen nicht nur eine einzige bestimmte Arbeit; sie führen ihre Arbeit aus, um die Resultate umgehend zurück in den Prozess zu geben. Das heißt beispielsweise, dass Data Mining-Modelle Kunden – basierend auf gewissen Kriterien – gruppieren, aber der Analytiker kann sofort damit beginnen, die Daten, basierend auf den neuen Gruppierungen, zu slicen. Die Möglichkeit, Resultate der Data Mining-Modelle umgehend zurück in den Analyseprozess zu speisen bedeutet, dass Unternehmen nun bestimmen können, wie die Daten am besten zu analysieren sind. Heutzutage schlüsseln die meisten Organisationen ihre Kunden nach geographischen Begebenheiten auf und erfassen wenige 2 demographische Information, wie Einkommen und Bildungsniveau. Data Mining könnte feststellen, dass gewisse Zusammenstellungen der Kunden mehr Sinn machen als geographische Belange; beispielsweise könnten Kunden mit einem hohen Einkommen, die sowohl Freude an Klassischer Musik als auch an Zugtraktoren haben, bestimmte Produkte bevorzugen, ungeachtet ihres Bildungsniveaus oder der Geographie. Wenn diese Kundengruppierung einmal festgelegt wurde, kann sie während der Analyse-Phase dazu benutzt werden, Daten zu untersuchen. Einer der großen Nutzen von Data Mining ist es, Daten von Gruppen zu analysieren, die eigentlich nicht offensichtlich sind. Es ist sehr effektiv, Daten anhand des Output von Data Mining-Modellen analysieren zu können, aber diese Resultate können auch während der Integrationsphase genutzt werden. In anderen Worten: wenn eine Organisation Daten des gesamten Unternehmens konsolidiert, kann Data Mining bestimmen, ob diese Daten im Licht anderer Daten besehen überhaupt Sinn ergeben. Die Fähigkeit, anomale Daten während der Integrationsphase in ein Business Intelligence-Projekt zu erkennen, bedeutet, dass das daraus resultierende Data Warehouse reiner ist und Analysen dessen genauer und aussagekräftiger sind. Data Mining wird hier einen Schritt weiter gebracht; indem Anwendungen zur Datensammlung die verwendeten Regeln anwenden können, vermeiden sie den Input ungültiger Daten an der Quelle. Wenn Daten eingegeben werden, können sie anhand des Universums vorhandener Daten überprüft werden und ihre Verlässlichkeit bestimmt. Daten, die unterhalb einer bestimmte Verlässlichkeitsebene sind, können zurückgewiesen werden. Wenn so ein Web-Formular Benutzer-Informationen annimmt und ein Benutzer das Geburtsdatum 07.02.1179 eingibt, können die Daten noch an der Quelle abgewiesen werden. Über einfache Daten hinaus kann nach einer Kombination von Geburtsdatum, Ausbildung, Beruf und Einkommen gesucht werden, um eine Verlässlichkeitsebene zu definieren, die Daten akzeptiert oder zurückweist. So wird, weit entfernt von einem simplen Prozess, der einmal gelaufen und dann analysiert wird, Data Mining ein fester Bestandteil eines gesamten Lebenszyklus einer Business Intelligence-Anwendung, Datenerfassung, Datenanalyse und Berichterstellung. SQL Server 2005 Data Mining Einführung Die Microsoft SQL Server 2005 Data Mining Plattform hat entscheidende Fähigkeiten, um Data Mining sowohl in traditionellen als auch neuen Arten anzugehen. Traditionell gesehen kann Data Mining aufgrund des Input zukünftige Ergebnisse vorhersagen oder versuchen, sowohl Beziehungen zwischen Daten zu finden als auch Daten in bisher unerkannten, doch gleichen Gruppen zu ballen. Microsoft Data Mining-Werkzeuge unterscheiden sich erheblich von herkömmlichen Data Mining-Anwendungen. Erstens unterstützen sie den gesamten Verlauf von Datenentwicklung in einer Organisation, auf den sich Microsoft bezieht als Integrieren, Analysieren und Berichten. Diese Fähigkeit entzieht die Ergebnisse des Data Mining den Händen einiger weniger Analytiker und bietet sie dem ganzen Unternehmen dar. Zweitens stellt SQL Server 2005 Data Mining eine Plattform dar, um intelligente Anwendungen zu entwickeln. Es ist möglich, benutzerorientierte Anwendungen zu entwerfen, die intelligent sind, denn die Data Mining-Modelle sind der Außenwelt leicht 3 zugänglich zu machen. Weiterhin ist das Modell erweiterbar, so dass Drittnutzer eigene Algorithmen hinzufügen können, um speziellen Ansprüchen an das Data Mining gerecht zu werden. Viertens können Microsoft Data Mining-Algorithmen in Echtzeit laufen, was eine Echtzeitvalidierung der Daten gegen ein Set von Daten erlaubt, die bereits mittels Data Mining erfasst wurden. Intelligente Anwendungen erstellen Der Gedanke, der hinter dem Entwerfen intelligenter Anwendungen steht ist der, die Vorteile des Data Mining zu nehmen und sie dem gesamten Prozess von Dateneingabe, Integration, Analyse und Berichterstellung hinzuzufügen. Die meisten Data MiningWerkzeuge zeigen Vorhersagen künftiger Ergebnisse und helfen, Beziehungen zwischen unterschiedlichen Datenelementen zu ermitteln. Meistens lässt man diese Werkzeuge über die Daten laufen und interpretiert dann – in einem getrennten Prozess – die Ergebnisse. Viele Data Mining-Werkzeuge sind Stand-Alone-Anwendungen die dafür gemacht wurden, Nachfragen vorherzusehen oder Beziehungen zu ermitteln; an diesem Punkt endet ihre Funktionalität. Intelligente Anwendungen nehmen den Output von Data Mining führen ihn als Input dem gesamten Prozess zu. Ein Beispiel für eine Anwendung, die ein Data Mining-Modell benutzt, wäre ein Formular zur Eingabe persönlicher Daten. Benutzer dieser Anwendung können eine gewaltige Menge von Daten eingeben, wie Geburtsdatum, Geschlecht, Ausbildung, Einkommen, Beruf und so fort. Gewisse Kombinationen von Attributen ergeben keinen Sinn. Ein Siebenjähriger z.B., der als Arzt arbeitet und ein HochschulDiplom hat, ist ein Hinweis darauf, dass entweder jemand wahllos Daten einfügt oder aber seine Unfähigkeit unter Beweis stellt, ein Formular zur Dateneingabe auszufüllen. Viele Anwendungen versuchen, diesem Problem beizukommen, indem sie komplizierte und tief verschachtelte Logik einsetzen, aber realistisch betrachtet ist es so gut wie unmöglich, die gesamten Datenkombinationen als gültig oder ungültig zu bestimmen. Um dieses Problem zu lösen, kann ein Unternehmen Data Mining benutzen, um existierende Daten zu untersuchen und Regeln dafür erstellen, was gültig erscheint. Jede Kombination wird mit einer Aussagewahrscheinlichkeit bewertet. Das Unternehmen kann nun eine Anwendung zur Dateneingabe erstellen, um das Data Mining-Modell für eine Echtzeitüberprüfung der Dateneingabe einzusetzen. Das Modell bewertet die Eingabe auf dem Hintergrund eines Universums existierender Daten und gibt eine Aussagewahrscheinlichkeit zurück in den Input. Die Anwendung kann dann, anhand eines vordefinierten Schwellenwerts, den Input akzeptieren oder abweisen. Dieses Beispiel verdeutlicht den Vorteil einer Data Mining-Maschine, die in Echtzeit läuft: Es können Anwendungen geschrieben werden, die von den Vorteilen kraftvollen Data Minings profitieren. Anstatt das Endresultat darzustellen wird Data Mining Teil des Gesamtprozesses und ist beteiligt in jeder Phase von Integration, Analyse und Berichterstellung. Während die Bewertung von Eingaben bedeutet, Data Mining am vorderen Ende des Datenintegrations-Prozesses zu benutzen, kann Data Mining auch in der Analyse verwendet werden. Data Mining bietet die Möglichkeit, Werte - wie ähnliche Kunden oder Dokumente - basierend auf Schlüsselwörtern zu gruppieren oder clustern. Diese Cluster können in das Data Warehouse zurückgespeist werden, damit Analysen mit diesen Gruppierungen ausgeführt werden. Sobald diese Gruppierungen bekannt und zurück in 4 die Analyse-Schleife gespeist wurden, können Analytiker sie benutzen, um Daten in nie da gewesener Art zu betrachten. Eines der Hauptziele intelligenter Anwendungen ist es, die Kraft von Data MiningModellen jedem verfügbar zu machen, nicht nur den Analytikern. In der Vergangenheit stelle Data Mining eine Domäne für Experten dar, die über einen Hintergrund in Statistik oder Unternehmensforschung verfügten. Die Data Mining-Werkzeuge waren dazu entworfen, diese Nutzer zu unterstützen, aber nicht dafür, problemlos mit anderen Anwendungen zu integrieren. So war die Möglichkeit, außerhalb des Data MiningProduktes Data Mining-Informationen zu verwenden, erheblich eingeschränkt. Nun, mit einem Werkzeug, das den gesamten Prozess umfasst und seine Modelle und Resultate anderen Anwendung eröffnet, haben Unternehmen die Macht, intelligente Anwendungen zu schaffen, die Data Mining-Modelle in jeder Phase benutzen. Ein anderer Aspekt einer Plattform, die das Erstellen intelligenter Anwendungen ermöglicht, ist es, dass die Data Mining-Modelle und Resultate in einem zentralen Server gespeichert werden. Die Modelle sind häufig höchst proprietär und geheim. Sie auf dem Server zu speichern heißt zu verhindern, dass sie außerhalb des Unternehmens gelangen. Ein weiterer Nutzen eines gemeinsamen Ortes für Modelle ist der, dass die Unternehmen eine einzige Version des Modells haben und nicht eine Vielzahl von Varianten auf den Desktops der Analytiker. Eine einzige Version der Wahrheit; das ist eines der Ziele von Data Warehousing, und dieses Konzept kann auf Data Mining erweitert werden, so dass es eine einzige Version eines Modells gibt, das entworfen und abgestimmt wurde für ein bestimmtes Geschäft. Der Nutzen von SQL Server 2005 Data Mining-Features SQL Server 2005 Data Mining-Features enthalten eine Menge von Vorteilen gegenüber traditionellen Data Mining-Anwendungen. Wie zuvor gezeigt wurde, sind SQL Server 2005 Data Mining-Features in die gesamten SQL Server-Produkte integriert, einschließlich SQL Server, SQL Server Integration Services, und Analysis Services. SQL Server Data Mining-Werkzeuge sind nicht eine einzelne Anwendung, die Unternehmen laufen lassen, um einen Output zu produzieren, der dann – unabhängig vom Rest des Analyseprozesses – analysiert wird. Stattdessen sind Data Mining-Features im gesamten Prozess eingebettet und können in Echtzeit laufen, und die Resultate können in den Prozess von Integration, Analyse und Berichterstattung zurückgespeist werden. Allerdings wären diese Features ohne Bedeutung, wenn sie schwierig anzuwenden wären. Glücklicherweise hat sich Microsoft darauf fokussiert, die Werkzeuge leicht anwendbar zu gestalten. Leichte Handhabung Mit SQL Server 2005 wollte Microsoft Data Mining aus dem Wirkungsbereich promovierter Physiker holen und es Entwicklern und Datenbankadministratoren zugänglich machen, die Datenmodelle entwerfen und betreiben, und es jedem Analytiker, Entscheidungsträger oder anderen Benutzer ermöglichen, den Output der Modelle zu benutzen, ohne über ein Spezialwissen verfügen zu müssen. Eine Firma z.B., die eine frühe Version des SQL Server 2005 benutzte, wollte eine Cross Sell-Anwendung implementieren. Cross Selling empfiehlt Kunden auf dem Hintergrund 5 ihrer Kaufgewohnheiten und dem Produkt, das sie augenblicklich erstehen, weitere Produkte. Ein Kunde, der gerade den dritten Film mit einer bestimmten Schauspielerin in der Hauptrolle kauft, könnte an anderen Filmen mit der betreffenden Schauspielerin mehr interessiert sein als an anderen Filmen aus dem selben Genre. Andererseits wären Kunden, die sich sowohl für Science-Fiction- als auch für Horror-Filme interessieren, wahrscheinlich nicht interessiert an einer Cross-Promotion für einen romantischen Film. Um eine Cross Sell-Anwendung zu entwerfen wandte sich diese Firma an einen Datenbankadministratoren, nicht an einen Analytiker. Der Datenbankadministrator verwendete neue SQL Server 2005 Data Mining-Features um ein Vorhersagemodell zu entwerfen, das Verkäufe empfiehlt, basierend auf einer Vielzahl von Faktoren, einschließlich Kaufgeschichte und demographischer Kundendaten. Das Out-of-the-box Modell kann eine Million Vorhersagen pro Sekunde für en Betreffenden Kunden machen. Das Resultat: Die Verkäufe empfohlener Produkte haben sich seit Implementierung des neuen Modells verdoppelt. Einfache, aber reichhaltige API Die Data Mining-Features von SQL Server 2005 machen das Erstellen intelligenter Anwendungen einfach, dank einer kraftvollen, aber einfachen API. Diese API hat die Fähigkeit, Vorhersagemodelle von Client-Anwendungen abzurufen ohne verstehen zu müssen, was in den jeweiligen Modellen enthalten ist und wie sie funktionieren. Das erlaubt es Entwicklern, die Maschine aufzurufen und das Modell zu wählen, das die besten Resultate – basierend auf den analysierten Daten – bietet. Zurückgegebene Daten werden in Tokens zerlegt, was bedeutet, dass numerische Werte in einer Serie von Attributen zurückgegeben werden. Das erlaubt es dem Entwickler, mit einfachen Daten zu arbeiten, anstatt mit neuen Datenformaten. 6 Zugang zu den Resultaten von Data Mining ist einfach erlangt durch den Gebrauch einer einfachen, SQL-ähnlichen Sprache, die Data Mining Extensions to SQL genannt wird, oder DMX. Die Syntax ist so entworfen, dass sie denen Zugang bietet, die schon mit SQL vertraut sind. Eine DMX-Abfrage könnte beispielsweise so aussehen: SELECT TOP 25 t.CustomerID FROM CustomerChurnModel NATURAL PREDICTION JOIN OPENQUERY('CustomerDataSource', 'SELECT * FROM Customers') ORDER BY PredictProbability([Churned],True) DESC Skalierbarkeit Eines der wichtigsten Features von Data Mining in SQL Server 2005 ist die Möglichkeit, große Datensets zu bewältigen. Bei vielen Data Mining-Werkzeugen muss der Analytiker eine gültige zufällige Stichprobe der Daten erstellen und die Data Mining-Anwendung auf der Stichprobe laufen lassen. Obwohl es einfach klingen mag, eine zufällige Stichprobe zu entwerfen, fallen Statistikern haufenweise Gründe ein, warum es schwierig und risikoreich ist, gültige und wirklich zufällige Stichproben zu entwerfen. SQL Server 2005 beseitigt die Herausforderung der Stichprobenerhebung, indem es den Modellen ermöglicht wird, über das gesamte Datenset zu laufen. Das bedeutet, dass Analytiker keine Beispielsets entwerfen müssen und dass Algorithmen auf den gesamten Daten operieren können, und so die genauesten möglichen Resultate garantieren. 7 Die SQL Server 2005 Data MiningAlgorithmen Eine Vielzahl von Algorithmen sind verfügbar in SQL Server 2005 (Table 1). Modell Beschreibung Decision Trees Der Decision Trees-Algorithmus berechnet die Wahrscheinlichkeit eines Ergebnisses, basiert auf Werten in einem Trainingset. Eine Person der Altersgruppe von 20-30 z.B., die über $60,000 pro Jahr verdient und ein Haus besitzt wird mit höherer Wahrscheinlichkeit Rasenpflege benötigen als jemand in der Altersgruppe von 15-19, der kein Haus besitzt. Basierend auf Alter, Einkommen, und dem Status als Hausbesitzer kann der Decision TreesAlgorithmus die Wahrscheinlichkeit berechnen, mit der die Person eine Rasenpflege benötigt, basierend auf historischen Werten. Association Rules Der Association Rules-Algorithmus hilft, Beziehungen zwischen verschiedenen Elementen zu erkennen. Er wird beispielsweise in Cross Selling-Lösungen verwendet, denn er erkennt Beziehungen zwischen Gegenständen und kann vorhersagen, an welchem Produkt ein Kunde, der gerade etwas kauft, noch interessiert sein könnte. Der Association Rules-Algorithmus kann unglaublich große Kataloge bewältigen, wurde schon an Katalogen mit mehr als einer halben Million Posten getestet. Naïve Bayes Der Naïve Bayes-Algorithmus wird verwendet, um deutliche Unterschiede innerhalb einer bestimmten Variable für verschiedene Datenelemente zu zeigen. Das Einkommen eines Haushaltes variiert bei jedem in der Datenbank erfassten Kunden und kann als Vorhersage für Zukünftige Anschaffungen dienen. Dieses Modell zeichnet sich darin aus, Unterschiede zwischen bestimmten Gruppen aufzuweisen, beispielsweise Kunden, die abwandern und solchen, die es nicht tun. Sequence Clustering Der Sequence Clustering-Algorithmus wird verwendet, um Daten auf einer Sequenz vorhergegangener Ereignisse zu gruppieren oder clustern. Beispielsweise kann sich der Benutzer einer Web-Anwendung häufig auf einer Vielzahl von Pfaden durch die Site bewegen. Dieser Algorithmus kann Kunden gruppieren, indem er als Grundlage die Abfolge der verfolgten Pfade auf der Site benutzt. Dies hilft, Benutzer zu analysieren und festzustellen, ob manche Pfade profitabler sind als andere. Der Algorithmus kann ebenso zur Vorhersage verwendet werden, wie der, welche 8 Seite der Nutzer las nächstes ansteuern wird. Es muss festgestellt werden, dass die Vorhersagefähigkeit des Sequence Clustering-Algorithmus etwas ist, das andere Data Mining-Anbieter nicht liefern können. Time Series Der Time Series-Algorithmus wird verwendet, zeitbasierte Daten zu analysieren und vorherzusagen. Verkäufe sind die am häufigsten analysierten und vorhergesagten Daten bei der Verwendung des Time Series-Algorithmus. Dieser Algorithmus sucht Muster in vielfältigen Datenserien, damit Unternehmen feststellen können, wie verschiedene Elemente die analysierten Serien beeinflussen. Neural Nets Neuronale Netzwerke sind der Kern künstlicher Intelligenz. Sie sollen Beziehungen zwischen Daten entdecken, die anderen Algorithmen entgehen. Auch wenn der Neural Nets-Algorithmus langsamer ist als andere, so findet er Beziehungen, die nichtintuitiv sein können. Text Mining Der Text Mining-Algorithmus erscheint in SQL Server Integration Services und analysiert unstrukturierte TextDaten. Dies erlaubt es Unernehmen, unstrukturierte Daten zu analysieren, wie etwa den Bereich “Kommentare” in einer Umfrage zur Kundenzufriedenheit. Tabelle 1: Die Algorithmen in SQL Server 2005 Data Mining Erweiterbarkeit Obwohl SQL Server 2005 eine Vielzahl von Algorithmen hat, erlaubt das von SQL Server 2005 genutzte Modell jedem, neue Modelle der Data Mining-Maschine hinzuzufügen. Diese Modelle sind dann gleichrangig mit den in SQL Server 2005 gelieferten. Algorithmen von Dritten profitieren ebenso von den neuen Features: sie sind per DMX aufrufbar und einfach zu integrieren, in jeden Teil des Prozesses von Integrieren, Analysieren und Berichterstellen. SQL Server 2005 Data Mining und End-to-End Business Intelligence Datenintegration Die Integrationsphase beinhaltet das Erfassen von Daten aus verschiedenen Quellen, die Transformation der Daten und das Laden der Daten in eine oder mehrere Quellen. In der Integrationsphase spielen traditionelle Data Mining-Werkzeuge nahezu keine Rolle, da in dieser Phase Daten erfasst werden und auf das Mining vorbereitet werden. Obwohl das etwas nach dem berühmten Problem mit dem Huhn und dem Ei klingt, ist doch die Herangehensweise von Microsoft an dieses Problem eher direkt: Daten erfassen, sie zusammenführen, Data Mining anwenden, und dann die Ergebnisse des Mining auf die augenblicklichen und allen zukünftigen Daten anwenden. Weiterhin helfen die Data Mining-Algorithmen Unternehmen, bereits existierende Ausreißer in den Daten zu 9 erfassen, oder welche, die in einem traditionellen ETL (Extraktion, Transformation, Laden)-Prozess eingeführt werden könnten. In der Integrationsphase ist es auch möglich, dass das Modell fehlende Werte liefert, wenn interpolierende Werte akzeptabel sind. Diese Werte können aus einer vorhergegangenen Periode stammen oder Prognosen für zukünftige Aktivitäten darstellen. Der Vorteil, den Microsoft Data Mining-Werkzeuge bieten ist der, dass die Nummern während des Integrationsprozesses generiert werden können, anstatt nach beendeter Integrationsphase. Data Mining-Werkzeuge sind integriert mit SQL Server Integration Services. Das bedeutet, dass während der Datenbewegung und Transformationsphase Daten anhand des vorhersagenden Outputs von Data Mining-Modellen analysiert und modifiziert werden können. So können beispielsweise Dokumente und Textfelder schon während der Übertragung analysiert werden und, anhand von Schlüsselwörtern, in entsprechende Buckets platziert werden. Datenanalyse Typische Data Mining-Werkzeuge generieren Ergebnisse, nachdem ein Data Warehouse erstellt wurde, und diese Ergebnisse werden analysiert - unabhängig von der im Data Warehouse getätigten Analyse. Vorhersagen werden erstellt oder Beziehungen bestimmt, aber die Ergebnisse von Data Mining-Modellen sind generell unabhängig von den im Data Warehouse verwendeten Daten. Werkzeuge von Microsoft sind in den gesamten Prozess integriert. Auch wenn Data Mining durch SQL Server Integration Services zugänglich ist, ist der Nutzen von Data Mining auch in Analysis Services und SQL Server sichtbar. Egal, ob ein Unternehmen sich entschließt, relationale Daten oder OLAP-Daten zu verwenden, so können die Vorteile von Data Mining während der Analysephase hervorstechend sein. Dank UDM (Universal Data Model) können sowohl relationale, als auch OLAP-Daten analysiert werden, und Data Mining gibt der Analyse starken Antrieb. Die Frage danach, in welcher Verbindung Produkte zueinander stehen, oder wie Kunden, basierend auf Verhaltensmustern beim Websurfen, gruppiert werden können, bedarf der Analyse bestimmter Datenelemente. Verschiedenste Data Mining-Modelle können bestimmen, wie diese Produkte oder Kunden am besten in Gruppen gefasst werden können, die Sinn im Analyseprozess ergeben. Zurückgespeist in den Analyseprozess erlaubt es die Data Mining-Maschine Analytikern und Benutzern, die Cluster per Slice und Drill zu betrachten. Berichterstellung Wenn ein funktionierendes Modell entworfen und erstellt worden ist, verlagert sich der Schwerpunkt des Data Mining von der Analyse zu den Ergebnissen, und, noch wichtiger, dahin, diese Ergebnisse in Taten zu verwandeln, indem sie zur rechten Zeit in die Hände der richtigen Menschen gelangen. Dank der Integration zwischen Data Mining und Berichterstellung in SQL Server 2005 können vorhersagekräftige Ergebnisse jedem einzelnen im Unternehmen in einfacher, flexibler und skalierbarer Art zur Verfügung gestellt werden. 10 Durch das Einsetzen von SQL Server 2005 Reporting Services können die Ergebnisse von Vorhersagemodellen auf einfache Art als gedruckte Berichte zur Verfügung gestellt werden, als Microsoft Office-Dokumente, oder aber im Intranet durch einbetten des Berichts in Microsoft SharePoint® Services. So könnte beispielsweise ein Unternehmen auf einfache Art intelligente Vorhersagen für Produktverkäufe einsehen, oder aber eine Liste von Kunden, die am wahrscheinlichsten in bestimmtes Produkt kaufen würden, an ihr Call Center weiterleiten. Es können auch intelligente Berichte eingesehen werden, in denen die wichtigsten Gründe genannt werden, warum Kunden ein Produkt kaufen oder nicht kaufen und so Bemühungen zielgerichtet eingesetzt werden. Microsoft ermöglicht es durch Berichterstellung, dass die Intelligenz und Kraft von Data Mining auf einfache Art dargestellt wird, indem wichtige Daten den Benutzern in einem leicht verdaulichen Format präsentiert werden. Geschäftsprobleme, die mit Data Mining gelöst werden können Wenn man Probleme von Unternehmen betrachten will, die mit Data Mining gelöst werden können, denken die meisten Menschen an Warenkorbanalysen oder daran, bisher unentdeckte Beziehungen zwischen Daten zu finden. In Wirklichkeit gibt es eine Vielzahl von Problemen, die mit Data Mining angegangen werden können, aber um das umsetzen zu können ist es wichtig zu verstehen, dass Data Mining in jeder ProzessPhase von Integrieren, Analysieren und Berichterstellen zum Zuge kommen kann. Problem 1: Was werden Kunden kaufen? Welche Produkte verkaufen sich zusammen? Eine der bekanntesten Anwendungen von Data Mining ist die traditionelle Warenkorbanalyse, in der Beziehungen zwischen Produkten untersucht werden. Besonders Unternehmen im Einzelhandel liegt es sehr daran zu erfahren, welche Produkte sich zusammen verkaufen. Das erlaubt es Unternehmen, Produkte zu bewerben und im Cross Selling anzubieten. Unternehmen versuchen Beziehungen zwischen Produkten zu finden, die sich nicht intuitiv erschließen; ein klassisches Beispiel sei hier die enge Verknüpfung von Bier- und Windel-Verkäufen, entstanden aufgrund der Tatsache, dass Männer, die zum Windelnkauf losgeschickt wurden, im betreffenden Geschäft auch Bier kauften. Data Mining hilft Geschäften, alle Produkte zu untersuchen und die Wahrscheinlichkeit zu bestimmen, mit der sich andere Produkte gemeinsam mit dem entsprechenden Produkt verkaufen. Wenn ein Geschäft beispielsweise ein Glas Erdnussbutter verkauft, welches sind dann die Produkte, die am wahrscheinlichsten auch verkauft werden? Genauer: Wie hoch ist die Wahrscheinlichkeit eines jeden anderen Produkts, auch verkauft zu werden? Sind die Wahrscheinlichkeiten, mit denen der Käufer von Erdnussbutter auch Brot oder Kekse kauft, hoch? Was ist mit Marmelade? Diese Verbindungen mögen augenscheinlich sein, aber Warenkorbanalysen sollten alle Gegenstände, die in Verbindung mit Erdnussbutter verkauft wurden, einstufen, um Geschäfte in die Lage zu versetzen entscheiden zu können, richtig zu vermarkten und Entscheidungen für das Platzieren von Produkten Mit dem Einsatz von SQL Server Data Mining können Unternehmen Transaktionsdaten analysieren, sei es in relationalen Data Warehouses oder OLAP-Cubes, um häufige 11 Produkt-Kombinationen zu entdecken. Der Microsoft Association Rules-Algorithmus bestimmt Gegenstände, die gemeinsam auftreten, und leitet die Regeln für die Stärke solcher Korrelationen ab. Weiterhin können Unternehmen, weit über einfache Analyse hinaus, mit SQL Server Data Mining erstellte Modelle einsetzen, um in Echtzeit ProduktEmpfehlungen zu produzieren, sei es für den Ausdruck auf Kassenzetteln, als auch in einem Online-Warenkorb, um die Verkäufe verwandter Produkte zu erhöhen. Problem 2: Abwandernde Kunden erkennen Unternehmen investieren einen erheblichen Aufwand an Zeit, Energie und Geld, um Kunden zu gewinnen. Kundenbindung wird für Unternehmen zu einem immer wichtigeren Thema, da es immer teurer wird, einen Kunden zu gewinnen. In manchen Industriezweigen, wie der Telekommunikations-Industrie, haben es sich Kunden zur Angewohnheit gemacht, abzuwandern, oder häufig von einem Anbieter zum anderen zu wechseln, um Bonusse oder Sonderangebote zu erhalten, und dann so schnell wie möglich wegen der Sonderangebote anderer Anbieter wieder zu wechseln. Indem sie Kunden, bei denen das Risiko des Abwanderns besteht, identifizieren, können Unternehmen besser bewerten, ob ein Kunde akzeptiert werden sollte oder nicht, und es können Strategien entworfen werden, um das Abwandern zu reduzieren und so die Kundenbindung zu erhöhen. Data Mining kann dabei helfen, Kunden zu erkennen, bei denen die Wahrscheinlichkeit des Abwanderns besteht, indem Kunden untersucht werden, die abgewandert sind und solche, die es nicht getan haben, und Charakteristika zu bestimmen, die helfen zu erkennen, wie sich ein neuer Kunde verhalten könnte. SQL Server Data Mining enthält eine Vielzahl von Algorithmen, die aufgrund historischer Daten Abwanderungs-Analyse betreiben. Jeder dieser Algorithmen wird eine Wahrscheinlichkeit oder Möglichkeit ausgeben, mit der jeder Kunde bleiben oder gehen wird. SQL Server Data Mining bietet einfache Werkzeuge mit denen einfach zu entscheiden ist, welcher Algorithmus und welche Einstellung das genaueste Modell für eine bestimmte Situation schaffen; das garantiert, dass Organisationen die bestmöglichen Ergebnisse erhalten. Sobald sich ein Unternehmen für das beste Modell entschieden hat, kann das Modell eingesetzt werden. Durch die Verwendung von DMX und SQL Server Reporting Services wird eine Liste der Kunden, die am wahrscheinlichten abwandern, via Web Reports oder einem SharePoint Portal zur Verfügung gestellt. Problem 3: Wie hat sich der Markt verhalten, und wohin wird er sich entwickeln? Zukünftige Verkäufe vorherzusagen betrifft nicht nur die Frage der zu erwartenden Einnahmen; viele Unternehmen verwenden Verkaufsvorhersagen, um Personalbestände zu bestimmen, Rohstoffe und Zubehör zu bestellen und Marketing-Kampagnen zu entwerfen. Unternehmen, die einen Schwerpunkt auf die Vorhersage zukünftiger Verkäufe oder anderer Marktbewegungen legen, verwendeten lange Zeit eine Vielzahl statistischer Methoden, um Trendanalysen zu betreiben. Bei manchen Modellen können auch Prognosen für gewisse wirtschaftliche Faktoren hinzugefügt werden. Woran es bei den meisten Modellen scheitert ist die Tatsache, dass sie keine Vorhersagen treffen können, die den Einfluss von zusätzlichen willkürlichen Datenserien berücksichtigen. Beispielsweise berücksichtigen sie bei der Vorhersage von Inventarsbeständen nicht die Produktverkäufe. 12 Der Time Series-Algorithmus in SQL Server Data Mining untersucht die Verbindungen zwischen vielfachen Datenserien, wobei er die natürlichen Periodizitäten im Geschäftsverlauf beachtet. So können Unternehmen nicht nur Ergebnisse für bestimmte Produkte vorhersagen, sondern es kann auch betrachtet werden, wie Produktverkäufe mit anderen Faktoren zu einander in Beziehung stehen oder wie Verkaufsmuster sich über die Zeit verändern und entwickeln. Problem 4. Die Website analysieren Websites sind heutzutage ein fester Bestandteil vieler Unternehmen. Sie fungieren als ein wichtiges Werkzeug des Marketing, indem sie das Unternehmen einem weltweiten Publikum präsentieren, und das vierundzwanzig Stunden am Tag, sieben Tage die Woche. Die Überwachung von Betriebszeit, Skalierbarkeit und Reaktionsbereitschaft ist wichtig, doch es gibt andere Messgrößen, die schwieriger zu erreichen sind, aber großartigen Einblick in die Gewohnheiten der Kunden gewähren. Dieses Thema betrifft nicht nur die üblichen Pfade, auf denen sich Benutzer durch die Website bewegen, sondern auch die Frage, wie diese Benutzer gruppiert und analysiert werden können. Zum Beispiel unterscheidet sich ein Besucher, der auf der Homepage startet und dann Produkte und andere Sites besucht von einem Besucher, der über ein Link von einer fremden Site kommt. Data Mining ermöglicht es nicht nur, die Besucher von Websites aufgrund der von ihnen gewählten Pfade zu gruppieren, sondern erlaubt es auch, Daten, die diesen Gruppen zu Grunde liegen, zu analysieren. So können Verkäufe anhand von Kundengruppierungen analysiert werden. Es können Beziehungen zwischen Benutzergruppen, bestellten Produkten und Website-Navigation festgelegt werden. Basierend auf dem Eingangspunkt von Benutzern und den Seiten, von denen sie kamen, kann die Effektivität von Marketing-Kampagnen analysiert werden und so dazu benutzt werden, die Ergebnisse zukünftiger Bemühungen vorherzusagen. Der Microsoft Sequence Clustering-Algorithmus, der von SQL Server Data Mining zur Verfügung gestellt wird, ermöglicht es Unternehmen, Benutzer aufgrund dessen, wie sie die Website des Unternehmens nutzen, zu unterteilen, anstatt nur festzustellen, welche Sites sie besuchen. Die Ergebnisse der Unterteilung können in Analysis Services-Cubes importiert werden für historische Analysen, sowie Trendanalysen. Weiter kann dann der Microsoft Time Series-Algorithmus verwendet werden, um Käufe und Bewegungen dieser Gruppen vorherzusagen, um wichtige betriebliche- und Marketing-Informationen zu liefern, die Effizienz der Web-Präsenz eines Unternehmens zum Maximum zu bringen. 13 Problem 5: Den Erfolg einer MarketingKampagne bestimmen Manche Unternehmen geben große Mengen von Geld aus, um Marketing-Kampagnen zu führen, aber nur wenige haben die finanziellen Möglichkeiten, eingehende Kundenbefragungen durchzuführen und sich auf bestimmte Gruppen zu konzentrieren, um die Effektivität einer Marketing-Kampagne zu bestimmen. Viele Unternehmen belassen es dabei, den Erfolg einer Kampagne abzuschätzen, indem sie die Verkaufszahlen vor und während der Kampagne untersuchen, aber dieses Verfahren schließt eine Menge anderer Themen aus, wie etwa neue Produkte, die das Unternehmen eingeführt haben mag. Durch Data Mining haben Unternehmen die Möglichkeit, den Einfluss einer MarketingKampagne zu untersuchen, wobei die aktuelle Produkt-Zusammenstellung berücksichtigt wird, es können sowohl Verkäufe ohne die Kampagne vorhergesagt werden, als auch Veränderungen der Kunden-Demographie und so weiter. Unternehmen können auch den Erfolg zukünftiger Marketing-Kampagnen vorhersagen und ihren Geldfluss entsprechend steuern. SQL Server Data Mining stellt Werkzeuge zur Verfügung, die sowohl dabei helfen, Marketing gezielt einzusetzen, als auch den eigenen Aufwand für größtmöglichen Profit zu optimieren. Durch die Verwendung des Microsoft Windows® Clustering-Algorithmus können Unternehmen Unterschiede und Ähnlichkeiten innerhalb ihres Kundenstamms bestimmen und so Nachrichten entsprechend zuschneidern. Microsoft Decision Trees und andere Algorithmen können die Kunden, die am wahrscheinlichsten auf eine Kampagne ansprechen werden, bestimmen, was es Unternehmen ermöglicht, die größtmögliche Gegenleistung für ihren Werbeetat zu bekommen. Mit SQL Server Integration Services können Unternehmen die Modelle schnell und einfach einsetzen, durch das Erstellen von Mailing-Listen, die für die besten Kunden optimiert wurden und individuell zugeschneiderte Nachrichten enthalten. Problem 6: Daten von schlechter Qualität Kein Unternehmen hat vollkommen reine Daten. Einen Data Mart von Data Warehouses zu erstellen ist wahrscheinlich der beste Weg, ungültige Daten zu erkennen, obwohl das nicht der Zweck von Data Warehousing ist. Data Warehousing entdeckt Probleme wie Nullwerte oder fehlende Werte, ungültige Datumsangaben, Daten im falschen Format, Daten außerhalb der zulässigen Beschränkungen, und widersprüchliche Daten (wie eine Bestellung, die ausgeliefert wurde, bevor sie eingegangen war, oder Stundenabrechnungen für eine geschlossene Einrichtung.) Wenn es darum geht, die Qualität von Daten zu bestimmen, rückt der Prozess von Extraktion, Transformation und Laden (ETL) in den Mittelpunkt. Während dieses Prozesses - hauptsächlich während des Transformierens - sollen Daten bereinigt werden. Allerdings bedeutet das Reinigen von Daten zu diesem Zeitpunkt nicht, dass die Eingabe ungültiger Daten zu einem späteren Zeitpunkt verhindert wird. Stattdessen müssen Anwendungen zur Dateneingabe dahingehend verändert werden, Dateneingabe zu begrenzen und Fehler an der Quelle zu vermeiden. Das bringt als weiteren Nutzen, dass der Aufwand, einen ETL-Prozess zu erstellen, reduziert wird. 14 Häufig betrachten Menschen Data Mining als ein Endprodukt, aber Data Mining ist ein großartiger Weg, den Input in Dateneingabeanwendung abzugleichen. Das Mining existierender Daten bedeutet, dass die Anwendung Aussagewahrscheinlichkeiten benutzen kann, um zu bestimmen, ob die Dateneingabe gut ist oder nicht. Das bedeutet, dass die Dateneingabeanwendung nicht überfrachtet ist mit komplizierten Entscheidungsbäumen, die versuchen, den Input zu validieren. Wenn ein Individuum beispielsweise behauptet, vierzehn Jahre alt zu sein, einen Doktor-Titel zu besitzen und als Kassierer zu arbeiten, würden diese Daten wegen geringer Aussagewahrscheinlichkeit schon bei der Eingabe zurückgewiesen werden. Wenn man die Möglichkeit hat, Data Mining des Endprodukts zu betreiben, um den Input von Daten am vorderen Ende abzugleichen, stellt das ein mächtiges Feature dar, um ungültige Daten aus der Anwendung zu halten. SQL Server Data Mining ermöglicht es Unternehmen, ungültige Daten zu erkennen, bevor sie in das System dringen können und so die gesamte Datenqualität und Analysemöglichkeiten zu verringern. Egal, ob Unternehmen per DMX und .NETProgrammierung Daten in Echtzeit bei der Eingabe validieren müssen, oder beim Laden eines Data Warehouse durch SQL Server Integration Services Ausreißer in der Datenpipeline filtern wollen; SQL Server Data Mining bietet die kraftvolle Möglichkeit, Daten zu reinigen, bevor sie die Resultate eines Unternehmens beeinflussen. Problem 7: Textanalyse Viele Anwendungen erlauben die Eingabe von Freitext, sei es durch eine Webseite oder eine gebräuchliche Windows-Anwendung. Es ist einfach genug, diese Daten zu speichern, aber sie zu analysieren ist weitaus schwieriger. Es gibt Maschinen zur Volltextindizierung, aber diese Werkzeuge versehen den Text mit Indizes, um Suchen zu ermöglichen; weder analysieren sie die Daten, um Entwicklungen herauszufinden, noch kategorisieren sie die Dokumente anhand ihres Inhalts. Die Analyse von Freitext, oder Text Mining, wertet die Wörter in einem Textfeld oder Dokument und zieht Schlüsselwörter heraus. Dies ermöglicht es, Dokumente oder Kommentare zu clustern und kategorisieren. Diese Dokumenten-Cluster können dann verwendet werden, um Daten zu analysieren, so wie Zeiträume und Produkte verwendet werden können. Zum Beispiel können Analysen an Dokumenten-Kategorien ausgeführt werden, die Produktsicherheit als eine Hauptkomponente erwähnen, oder es ist möglich, Freitext-Einträge zu unterteilen, in denen Kunden mittels eines Text-Felds ihre Hobbys aufgezählt haben. Die Fähigkeit, gleiche Themen in Dokumenten und anderen Freitexten zu finden, ermöglicht die Analyse von Clustern dieser Dokumente. SQL Server Data Mining gibt Unternehmen die Macht, die Mengen von unstrukturiert erhaltenen Daten zu transformieren, damit diese Daten analysiert werden können. Nach Transformieren der Text-Daten in SQL Server Integration Services, können Unternehmen die Ergebnisse in Analysis Services-Cubes laden, Mining-Modelle oder sogar SQL Server Reporting Services-Berichte, um genau aufzugliedern, was es ist, das den Kunden bewegt. 15 Zusammenfassung Microsofts Annäherung an Data Mining ist revolutionär. Statt eines Stand-AloneWerkzeugs für das Generieren für Gruppen oder Vorhersagen zukünftiger Resultate, hat Microsoft eine Plattform geschaffen, die den gesamten Prozess der Datenverarbeitung umfasst, etwas, das sie Integration, Analyse, and Berichterstellung nennen. Das bedeutet, dass der Output eines Data Mining-Modells sofort zurückgegeben werden kann in die Prozesse von Datenerfassung, -transformation und –analyse. Anomale Daten können innerhalb existierender Datensets entdeckt werden, und neue Dateneinträge können auf dem Hintergrund bereits existierender Daten in Echtzeit bewertet werden. Das befreit Entwickler davon, komplizierte Entscheidungsbäume im Anwendungscode entwerfen zu müssen, um komplexen den Input vielzähliger Daten zu bewerten. Weiterhin kann der Modell-Output unmittelbar in der Analyse angewendet werden. Wenn ein Data Mining-Modell Kunden in Gruppen zusammenfasst auf der Grundlage von Verhaltensmustern beim Einkauf oder Navigieren durch eine Website, werden diese Gruppen in die Analyseschleife zurückgespeist, so dass Analysen mit diesen Gruppen ausgeführt werden können, als seien sie von Anfang an im Data Warehouse eingebaut gewesen. Analytiker und andere Wissensarbeiter können diese Gruppierungen per Slice and Dice untersuchen und beispielsweise herausfinden, ob gewisse Gruppen profitabler sind. Microsoft hat auch eine sichere Plattform entworfen, in der das Mining-Modell und sein Output an einer zentralen Stelle gespeichert wird. Nicht länger werden die Modelle auf einer Vielzahl unterschiedlicher Maschinen gespeichert, wo sie schwieriger zu kontrollieren sind. Zusätzlich wird durch ein zentralisiertes Modell gewährleistet, dass alle Analytiker und Benutzer das selbe Modell verwenden. Craig Utley ist der Vize-Präsident für Entwicklung von KiZAN Technologies LLC, wo ein er Team leitet, das sich auf Business Intelligence-Lösungen und den Entwurf und die Entwicklung von Unternehmens-Anwendungen konzentriert. Seit ihrer Einführung arbeitet er mit Microsoft Business Intelligence-Produkten und erarbeitete BI- und Data Warehousing-Lösungen für Unternehmen in den ganzen USA. Er ist Autor, Sprecher auf Konferenzen und ein MVP. Dieses Dokument wurde in Zusammenarbeit mit A23 Consulting entworfen. 16