Agenda Document Warehousing und Text Mining in der Wettbewerberanalyse 1. Textuelle Daten als Herausforderung für die IT-Unterstützung der Wettbewerberanalyse 2. Document Warehousing: Technologie im Überblick 3. Text Mining: Technologie im Überblick 4. Software-Demo: Text Mining mit dem SAS Enterprise Miner for Text Vorlesung IKS, 30. Januar 2002 Humboldt-Universität zu Berlin 5. Zusammenfassung und Literaturhinweise Karsten Winkler Handelshochschule Leipzig 2 Agenda 1. Textuelle Daten als Herausforderung für die IT-Unterstützung der Wettbewerberanalyse Wettbewerberanalyse: Definition • Engl.: Competitive Intelligence (CI) • "Competitive analysis is a systematic program for gathering and analyzing information about your competitors' activities and general business trends to further your own company's goals" (Kahaner) 2. Document Warehousing: Technologie im Überblick 3. Text Mining: Technologie im Überblick 4. Software-Demo: Text Mining mit dem SAS Enterprise Miner for Text • "Competitive a systematic and ethical program for gathering, analyzing, and managing information that can affect your company's plans, decisions, and operations" (http://www.scip.org, 29.01.2002) 5. Zusammenfassung und Literaturhinweise 3 Wettbewerberanalyse: Umfeld 4 Wettbewerberanalyse: Aufgaben • Antizipation von relevanten Marktveränderungen Diverse Behörden Wettbewerber Unternehmen Finanzmärkte • Antizipation von Aktivitäten der Wettbewerber • Entdeckung neuer, potentieller Wettbewerber • Sammlung von Wissen über für das eigene Unternehmen potentiell relevante Technologien, Produkte, Gesetze und Verordnungen (...) • Auswertung der Erfolge und Mißerfolge anderer Öffentliche Meinung • Verbesserung von Umfang und Qualität bei Unternehmenszusammenschlüssen (Kahaner) (Sullivan) 5 6 1 Wettbewerberanalyse: Datenbasis Strukturierte Daten Ad-hocMitteilungen Patente Wettbewerberanalyse: Datenbasis (2) Aktienkurse Aktienkurse Meinungsportale Handelsregister Produktkataloge Bilanzkennzahlen Pressemitteilungen Branchenverbände (...) Testberichte über Produkte Jahresabschluß (XBRL) Patente Pressemitteilungen Testberichte über Produkte Handelsregister Website Website Produktkataloge Unstrukturierte Daten Branchenverbände Jahresabschluß (XBRL) Semi-strukturierte Daten Bilanzkennzahlen 7 Ad-hocMitteilungen (...) Meinungsportale 8 Herausforderung: Textuelle Daten Agenda • Bis zu 80 % betrieblicher Informationen sind Texte 1. Textuelle Daten als Herausforderung für die IT-Unterstützung der Wettbewerberanalyse • Informationsüberfluß 2. Document Warehousing: Technologie im Überblick • Fehlende (offensichtliche) Struktur in Texten • Speicherung der Texte und Abfrage bzw. Suche in Textdokumenten 3. Text Mining: Technologie im Überblick 4. Software-Demo: Text Mining mit dem SAS Enterprise Miner for Text 5. Zusammenfassung und Literaturhinweise • Entscheidungsrelevanz von Textdokumenten • Beurteilung der Qualität 9 Data Warehouse: Definition • Verschiedene Anforderungen an Datenhaltung 10 Data Warehouse: Datenmodellierung • Denormalisierte und multidimensionale Datenmodellierung z.B. mittels Sternschema oder Scheeflockenschema – Online Transaction Processing (OLTP) – Online Analytical Processing (OLAP) • "a subject-oriented, integrated, time-varying, nonvolatile collection of data that is used primarily in organizational decision making" (Inmon) • "a copy of transaction data specifically structured for query and analysis" (Kimball) • Ziel: Historische, verdichtete und aus mehreren Quellen konsolidierte Daten hoher Qualität 11 • Beispiel: Sternschema eines Data Warehouse der Wettbewerberanalyse als UML-Klassendiagramm Wettbewerber Bereich Branche Unternehmen Konzern 1 1..* Gewinn Umsatzerlöse Aufwendungen 1..* 1 Marktsegment Land Kontinent 1..* 1 Periode Quartal Jahr Dekade 12 2 Data Warehouse: OLAP Data Warehouse: Beispielarchitektur Extraktion, Transformation, Laden, Aktualisieren • OLAP-Operationen bei multidimensionaler Datenhaltung: Slice, Dice, Roll-Up, Drill-Down, Rotate Dimension: Marktsegment Dimension: Wettbewerber D GB F Welt Afrika E-Plus IV/2001 III/2001 II/2001 Dimension: Periode GB OLAP-Analyse, Anfragen/Berichte, Visualisierung, Data Mining Asien externe Daten D Vodafone Telekom Europa Metadatenrepositorium Data Warehouse F D OLAPServer GB T-Online 2001 2000 T-Mobile Data Marts OLTP-Datenbanken (Chaudhauri und Dayal) 13 Document Warehouse: Definition • Relativ junger Begriff (Google: 1.400 Webseiten) im Gegensatz zu Data Warehouse (Google: 364.000 Webseiten) • "document warehouse provides a repository for text and text metadata" (Sullivan) Document Warehouse: Ziele 1. Unterstützung von Entscheidungsprozessen • Datenbasis für Text Mining-Aktivitäten • Ergänzung eines existierenden Data Warehouse • Beispiel: Signifikanter Gewinnanstieg eines Wettbewerbers in Deutschland in IV/2001 • Analogie zu Definition des Data Warehouse: Wer? Was? Wann? Wieviel? Wo? Wie oft? – "a subject-oriented, integrated, time-varying, nonvolatile collection of data that is used primarily in organizational decision making" (Inmon) – "a copy of transaction data specifically structured for query and analysis" (Kimball) Data Warehouse Warum? (Sullivan) Document Warehouse 15 16 Document Warehouse: Ziele (2) 2. Systematische Verwaltung von Dokumenten aus verschiedenen internen und externen Quellen Interne Quellen: Externe Quellen: Dateisystem Internet (WWW, FTP, Newsgroups) Datei-Server Dokumentenmanagementsystem Intranet Document Warehouse Document Warehouse: Ziele (3) 3. Systematische Ablage unterschiedlicher Dokumenten ohne einheitliche Struktur Format: Struktur: Textdateien Unstrukturierte Dokumente (Texte i.w.S.) PDF-Dateien Digitale Bibliotheken Webseiten Satzdateien Amtliche Veröffentlichungen Word-Dateien 17 14 Document Warehouse Semistrukturierte Dokumente (z.B. HTML, XML, SGML) 18 3 Document Warehouse: Ziele (4) Document Warehouse: Inhalt 4. Erzeugung und Speicherung von Metadaten Metadaten 5. Extraktion und Ablage entscheidungsrelevanter Informationen aus Dokumenten • Dominierende Themen in Dokumenten • Zusammenfassung von Dokumenten • Extraktion benannter Entitäten (z.B. Personen) Dokumente bzw. URI der Dokumente 6. Integration semantisch verwandter Dokumente • Segmentierung von Dokumenten (Clustering) • Indexierung von Dokumenten Zusammenfassungen von Dokumenten Cluster ähnlicher Dokumente Thematischer Index Thesaurus Volltextindex Index benannter Entitäten Document Warehouse 19 20 Document Warehouse: Metadaten • "Daten über Daten" (z.B. Meta-Tags in HTML) • Inhaltsbezogene Metadaten – Autor, Titel, Beschreibung, Schlüsselwörter, ... – Doblin Core-Standard: dc.language=de • Herkunftsbezogene Metadaten – Quelle, Suchanfrage, Nutzername, Passwort, ... • Document Warehouse-bezogene Metadaten – Ladedatum, Übersetzung, Speicherung von Dokument vs. Zusammenfassung vs. URI, ... 21 Document Warehouse: Metadaten (2) Umsetzung mit CREATE TABLE Documents ( Id INTEGER NOT NULL, Oracle SQL: Content_Metadata_Id INTEGER, DocSourceId INTEGER, CREATE TABLE Content_Metadata ( Source_Id INTEGER, Id INTEGER NOT NULL, Storage_Metadata_Id INTEGER, Creator VARCHAR2(100), Contents CLOB, Subject VARCHAR2(100), Summary CLOB, Title VARCHAR2(100), Version INTEGER, Description VARCHAR2(100), Document_Expires_On DATE, Publisher VARCHAR2(100), Summary_Expires_On DATE, Contributor VARCHAR2(100), Date_Loaded DATE, Published DATE, Last_Verified DATE Revised DATE, ); Type VARCHAR2(100), Format VARCHAR2(100), (ähnlich Sullivan) Language VARCHAR2(100), Rights VARCHAR2(100) ); 22 Document Warehouse: Thesaurus • Kontrolliertes, meist fachspezifisches Vokabular für themenbezogene Indexierung und Suche, z.B. Unternehmen Handelsgesellschaft Offene Handelsgesellschaft Synonym: OHG Kommanditgesellschaft Synonym: KG Synonym: Firma (Organisation) Kapitalgesellschaft Aktiengesellschaft Synonym: AG Gesellschaft mit beschränkter Haftung Eingetragener Kaufmann Synonym: Einzelkaufmann Document Warehouse: Thesaurus (2) • Thesaurus als Sammlung semantischer Konzepte • Inhalt: Deskriptoren, Nicht-Deskriptoren mit Verweis zu Deskriptor, Definition, Synomyme sowie Beziehungen zu anderen Termen • Auszug aus einem Thesaurus nach DIN 1463 / ISO 2788 Synonym: GmbH 23 (Sullivan) TT Unternehmen SYN Firma (Organisation) NT Handelsgesellschaft NT Kapitalgesellschaft NT Eingetragener Kaufmann Handelsgesellschaft NT Kommanditgesellschaft NT Offene Handelsgesellschaft UF Kommanditgesellschaft UF Offene Handelsgesellschaft BT Unternehmen Kommanditgesellschaft USE Handelsgesellschaft BT Handelsgesellschaft SYN KG (...) 24 4 Document Warehouse: Indexierung Document Warehouse: Indexierung (2) • Volltextindex (keyword index) • Thematischer Index (thematic index) • Inhalt: Alle Terme sämtlicher Texte, ggf. • Inhalt: Themen und Konzepte sämtlicher Texte – Bereinigung um sinnleere Worte (Stopworte) – Basis: Kontrolliertes Vokabular (z.B. Thesaurus) – Indexierung der grammatischen Grundformen Volltextindex: – Einbettung von Semantik des Anwendungsgebiets Document Warehouse: gründen AG Aktiengesellschaft Document Warehouse: Vorstand Dokument 1 2001 Gründung Thematischer Index: Dokument 1 Aktiengesellschaft Dokument 2 Dokument 2 Gründung Dokument N Dokument N 25 26 Document Warehouse: Indexierung (3) Document Warehouse: Beispielarchitektur Manuelle vs. automatische Suche nach Dokumenten • Index benannter Entitäten (feature index) • Inhalt: Benannte Entitäten sämtlicher Texte Auswahl, Vorverarbeitung, Indexierung, Kategorisierung, Clustering, Zusammenfassung – Kontrolliertes Vokabular nicht erforderlich Metadatenrepositorium – Identifikation wichtiger Terme und Entitäten Index benannter Entitäten: Document Warehouse: externe Dokumente Dokument 1 Medieninformation Ron Sommer, CEO Deutsche Telekom AG Information Retrieval, Visualisierung, Text Mining Dokument 2 Dokument N interne Dokumente 27 Staging Area Document Warehouse (in Anlehnung an Sullivan) Document Warehouse: Beispielanfragen mit Oracle SQL SELECT Id FROM Documents WHERE CONTAINS (Contents, 'Bestellung Geschäftsfürer') > 0; 28 Agenda 1. Textuelle Daten als Herausforderung für die IT-Unterstützung der Wettbewerberanalyse SELECT Id FROM Documents WHERE CONTAINS (Contents, 'Gründung | $gründen') > 0; 2. Document Warehousing: Technologie im Überblick SELECT Id FROM Documents WHERE CONTAINS (Contents, NT('Kapitalgesellschaft')) > 0; 3. Text Mining: Technologie im Überblick SELECT Id FROM Documents WHERE CONTAINS (Contents, ABOUT('GmbH')) > 0; 4. Software-Demo: Text Mining mit dem SAS Enterprise Miner for Text SELECT Id FROM Documents WHERE CONTAINS (Contents, '$Preis & ABOUT('Änderung')') > 0; 5. Zusammenfassung und Literaturhinweise SELECT Id FROM Documents WHERE CONTAINS (Contents, 'NEAR(ABOUT('neu'), ABOUT('Produkt'), 20)' > 0; 29 30 5 Data Mining: Definition • Wissensentdeckung in Datenbanken Data Mining: Vorgehensmodell • Interaktiver und iterativer Prozeß (Mannila) • Gewinnung von neuem, nicht trivialem, interessantem und vor allem ökonomisch umsetzbarem Wissen aus riesigen Datenbeständen (Fayyad et al.) Definition der Ziele Aufbereitung der Daten • Typische Fragestellungen: Musterentdeckung – Welche Kunden eines TK-Anbieters sind abwanderungsgefährdet? – Welche Kunden kaufen tendenziell Produkte eines Spezialkatalogs? Umsetzung der Ergebnisse Nachbereitung der Ergebnisse 31 32 Data Mining: Methodik • Musterentdeckung durch Methoden der Statistik, des maschinellen Lernens, der künstlichen Intelligenz und der Informatik • Aufgaben vs. Data Mining: Beispiel • Klassifikation profitabler Kunden mit Entscheidungsbaumverfahren: Was charakterisiert profitable Kunden? Methoden Segmentierung Clustering Browser = Microsoft Warenkorbanalyse Assoziationsverfahren profitabel Klassifikation Neuronale Netze (Steinicke) Entscheidungsbäume Browser = Netscape Host != Uni • Aktion: Kaufanreize in Echtzeit schaffen! profitabel Host = Uni nicht profitabel 33 34 Text Mining: Unstrukturierter Text? Text Mining: Definition • Verteilung der Worthäufigkeiten in einem Textarchiv (Zipf's Gesetz): • Wissensentdeckung in textuellen Datenbanken (Feldman und Dagan) • Eher umfassender: "Text mining is the process of compiling, organizing, and analyzing large document collections Absolute Häufigkeit – to support the delivery of targeted information to analysts and decision makers and • Größe des Vokabulars in Abhängigkeit von der Textgröße (Heap's Gesetz): Absolute Größe des Vokabulars – to discover relationships between related facts that span wide domains of inquiry." (Sullivan) 0 • Methoden des Data Mining, des Information Retrieval und der Information Extraction 35 Wörter, nach absteigender Häufigkeit sortiert 0 Textgröße in Anzahl der Wörter (Baeza-Yates und Ribeiro-Neto) 36 6 Text Mining: Unstrukturierter Text? (2) • Textsstruktur aus Sicht der Linguistik, z.B. Text Mining: Textrepräsentation • Vektorraummodell des Information Retrieval (Salton et al.) • Struktur und Form der Worte (Morphologie) – Präfix - Wortstamm - Suffix, flektierte Wortformen – Basis für Ermittlung grammatischer Grundformen • Bildung von Wortgruppen und Sätzen (Syntax) – Substantivgruppen, Subjekt - Prädikat - Objekt • Bedeutung der Wörter und Aussagen (Semantik) – Synomyme: Unternehmen, Firma (Organisation) – Homonym: Firma (Organisation, registrierter Name) – Extraktion der Merkmale für jedes Dokument (z.B. sämtliche Terme oder auch nur bestimmte Konzepte) – Transformation aller Dokumente in einen i.d.R. hochdimensionalen Vektor Dokument 1 (...) Dokument M Merkmal 1 H 1,1 (...) H 1,M Merkmal 2 H 2,1 (...) H 2,M (...) (...) (...) (...) (...) H N,M Merk- H N,1 mal N H n,m: Absolute Häufigkeit des Merkmals n in Dokument m 37 38 Text Mining: Textrepräsentation (2) • Bestimmung des Gewichts der Terme in Dokumenten z.B. als Produkt aus – Absoluter Häufigkeit des Terms n in Dokument m und – Inverser Häufigkeit des Terms n in allen Dokumenten. • Dimensionsreduktion! Text Mining: Textrepräsentation (3) Dokument 1: Dokument 1 (...) Dokument M Merkmal 1 G 1,1 (...) G 1,M Merkmal 2 G 2,1 (...) G 2,M (...) (...) (...) (...) (...) G N,M Term Pawel Balski, 14.04.1965, Berlin, ist zum Geschäftsführer bestellt. bestellen G ('bestellen') Dokument 1 Geschäftsführer H = +++ H=1 H=+ Dokument 1 Term Merk- G N,1 mal N 1 Geschäftsführer bestellen G n,m: Gewicht des Merkmals n in Dokument m 0 Archiv H=1 1 Dokument 1 G = 0,9010 G = 1,4283 G ('Geschäftsführer') 39 Text Mining: Vorbereitung der Daten (Beispiel) 1. Zerlegung der Dokumente, um Terme zu isolieren • Einteilung der Daten in a priori unbekannte Kategorien, Klassen oder Gruppen, so daß 2. Extrahierung und Ersetzung benannter Entitäten (...) (...) PERSON PERSON , ist zum Geschäftsführer bestellt . Er (...) (...) 3. Bestimmung der grammatischen Grundformen – Objekte im gleichen Cluster möglichst ähnlich und (...) (...) PERSON PERSON ,, sein sein zu zu Geschäftsführer Geschäftsführer bestellen bestellen .. Er Er (...) (...) – Objekte aus verschiedenen Clustern möglichst unähnlich zueinander sind (Ester, Sander) 4. Festlegung der Dimensionen des Vektorraums (bestellen, ..., Geschäftsführer, Gründung, Gesellschaft) Gesellschaft) • Bestimmung der Ähnlichkeit von Texten? 5. Abbildung der Dokumente auf den Vektorraum ..., 1, 0, 0 – Euklidische Distanz der Dokumentvektoren ) – Kosinus des Winkels zwischen Dokumentvektoren 6. Bestimmung der Gewichte je Term und Dokument (1.4283, (1.4283, ..., 0.9010, 0.9010, 0, 0, 00 Text Mining: Clustering • "... the art of finding groups in data." (Kaufman, Rousseeuw) (...) 1999 abgeändert . Pawel Balski , 14.04.1965 , Berlin, ist zum Geschäftsführer bestellt . Er vertritt die (...) (1, 40 )) 41 42 7 Text Mining: Clustering (2) Text Mining: Klassifikation • Hierarchische Verfahren • Partitionierende Ver(z.B. Cobweb) fahren (z.B. k-Means) Cluster A 2 Cluster: • Klassen der Dokumente sind a priori gegeben • Aufgabe ist die Zuordnung von Dokumenten aufgrund ihrer Attributwerte zu einer von n gegebenen Klassen, Teilaufgaben: 11 Dokumente 1. Generierung von Klassifikationswissen auf Trainingsdaten mit bekannter Klassezugehörigkeit 4 Cluster: Cluster B 2. Anwendung des Klassifikationswissen auf Dokumente mit unbekannter Klassenzugehörigkeit (Ester, Sander) Cluster C 5 Dokumente • Beispiel: Entdeckung einer Taxonomie von Dokumenten • Beispiel: Entdeckung von Dokumentklassen für Klassifikation wie etwa Ereignisse • Nutzung verschiedener Methoden: Entscheidungsbaumverfahren, Neuronale Netze, ... 43 44 Text Mining: Klassifikation(2) • Generierung von Klassifikationswissen: Trainingsarchiv: 1. Training eines Entscheidungsbaums Testarchiv: Agenda • Anwendung von Klassifikationswissen: 1. Textuelle Daten als Herausforderung für die IT-Unterstützung der Wettbewerberanalyse Neue Dokumente: 2. Document Warehousing: Technologie im Überblick 2. Anwendung des Entscheidungsbaums 3. Text Mining: Technologie im Überblick 4. Software-Demo: Text Mining mit dem SAS Enterprise Miner for Text Klassifizierte Dokumente: • Beispiel: Annotation des Trainingsarchivs mit n Ereignisklassen 5. Zusammenfassung und Literaturhinweise • Beispiel: Entdeckung von Ereignissen in neuen Texten wie etwa Presseerklärungen 45 46 Fallstudie: Handelsregistereintrag Fallstudie: Anwendungsgebiet Unternehmen Firma Gründungsdatum Liquidationsdatum Gegenstand Daniel Spiel-Center GmbH HRB 12576 Potsdamer Str. 94, 14513 Teltow 06.05.99 Der Betrieb von Spielhallen in Teltow und das Aufstellen von Geldspiel- und Unterhaltungsautomaten. Stammkapital: 25.000 EUR. Gesellschaft mit beschränkter Haftung. Der Gesellschaftsvertrag ist am 12. November 1998 abgeschlossen und am 19. April 1999 abgeändert. (...) Pawel Balski, 14.04.1965, Berlin, ist zum Geschäftsführer bestellt. Er vertritt die Gesellschaft stets einzeln und (...) 1 Hauptniederlassung 1 0..* Niederlassung Ort Geschäftsadresse Zweigniederlassung 1 Namenszusatz 1 1 47 Handelsregisterblatt 1 Amtsgericht Abteilung HandelsregisterblattNr Handelsregistereintrag Publikationsdatum 1..* Eintragungsdatum Eintragungstyp Eintragungstext 48 8 Agenda • Ziel: Klassifikation von Handelsregistereintragungen (Neueintragung, Veränderung, Löschung) 1. Textuelle Daten als Herausforderung für die IT-Unterstützung der Wettbewerberanalyse • Software: SAS Enterprise Miner for Text 2. Document Warehousing: Technologie im Überblick 3. Text Mining: Technologie im Überblick 4. Software-Demo: Text Mining mit dem SAS Enterprise Miner for Text 5. Zusammenfassung und Literaturhinweise Diagramm Ergebnis: e = 10.7% 49 Zusammenfassung und Ausblick • Document Warehousing und Text Mining als komplementäre, zukunftsweisende Technologien 50 Literaturhinweise • R. Baeza-Yates and B. Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, 1999. • Technologie in 1/02 m.E. im Early Adopters-Stadium • Vielfältige Anwendungsgebiete: • G. Chang et al.: Mining the World Wide Web. Kluwer Academic Publishers, 2001. • L. Kahaner: Competive Intelligence. Touchstone Books, 1998. – Business Intelligence • M. Multhaupt: Data Mining und Text Mining im strategischen Controlling. Shaker Verlag, 2000. – Marketing – CRM und SCM • D. Sullivan: Document Warehousing and Text Mining. Wiley & Sons, 2001. – Produktion http://www.kdnuggets.com 51 52 Vielen Dank an die und den ! ? Fragen Karsten Winkler [email protected] http://ebusiness.hhl.de 53 9