PDF-File

Agenda
Document Warehousing
und Text Mining in der
Wettbewerberanalyse
1. Textuelle Daten als Herausforderung für die
IT-Unterstützung der Wettbewerberanalyse
2. Document Warehousing: Technologie im
Überblick
3. Text Mining: Technologie im Überblick
4. Software-Demo: Text Mining mit dem SAS
Enterprise Miner for Text
Vorlesung IKS, 30. Januar 2002
Humboldt-Universität zu Berlin
5. Zusammenfassung und Literaturhinweise
Karsten Winkler
Handelshochschule Leipzig
2
Agenda
1. Textuelle Daten als Herausforderung für die
IT-Unterstützung der Wettbewerberanalyse
Wettbewerberanalyse: Definition
• Engl.: Competitive Intelligence (CI)
• "Competitive analysis is a systematic program
for gathering and analyzing information about
your competitors' activities and general
business trends to further your own company's
goals" (Kahaner)
2. Document Warehousing: Technologie im
Überblick
3. Text Mining: Technologie im Überblick
4. Software-Demo: Text Mining mit dem SAS
Enterprise Miner for Text
• "Competitive a systematic and ethical program
for gathering, analyzing, and managing
information that can affect your company's
plans, decisions, and operations"
(http://www.scip.org, 29.01.2002)
5. Zusammenfassung und Literaturhinweise
3
Wettbewerberanalyse: Umfeld
4
Wettbewerberanalyse: Aufgaben
• Antizipation von relevanten Marktveränderungen
Diverse
Behörden
Wettbewerber
Unternehmen
Finanzmärkte
• Antizipation von Aktivitäten der Wettbewerber
• Entdeckung neuer, potentieller Wettbewerber
• Sammlung von Wissen über für das eigene
Unternehmen potentiell relevante Technologien,
Produkte, Gesetze und Verordnungen
(...)
• Auswertung der Erfolge und Mißerfolge anderer
Öffentliche
Meinung
• Verbesserung von Umfang und Qualität bei
Unternehmenszusammenschlüssen
(Kahaner)
(Sullivan)
5
6
1
Wettbewerberanalyse: Datenbasis
Strukturierte Daten
Ad-hocMitteilungen
Patente
Wettbewerberanalyse: Datenbasis (2)
Aktienkurse
Aktienkurse
Meinungsportale
Handelsregister
Produktkataloge
Bilanzkennzahlen
Pressemitteilungen
Branchenverbände
(...)
Testberichte
über Produkte
Jahresabschluß (XBRL)
Patente
Pressemitteilungen
Testberichte
über Produkte
Handelsregister
Website
Website
Produktkataloge
Unstrukturierte Daten
Branchenverbände
Jahresabschluß (XBRL)
Semi-strukturierte Daten
Bilanzkennzahlen
7
Ad-hocMitteilungen
(...)
Meinungsportale
8
Herausforderung: Textuelle Daten
Agenda
• Bis zu 80 % betrieblicher
Informationen sind Texte
1. Textuelle Daten als Herausforderung für die
IT-Unterstützung der Wettbewerberanalyse
• Informationsüberfluß
2. Document Warehousing: Technologie im
Überblick
• Fehlende (offensichtliche) Struktur in Texten
• Speicherung der Texte
und Abfrage bzw. Suche
in Textdokumenten
3. Text Mining: Technologie im Überblick
4. Software-Demo: Text Mining mit dem SAS
Enterprise Miner for Text
5. Zusammenfassung und Literaturhinweise
• Entscheidungsrelevanz
von Textdokumenten
• Beurteilung der Qualität
9
Data Warehouse: Definition
• Verschiedene Anforderungen an Datenhaltung
10
Data Warehouse: Datenmodellierung
• Denormalisierte und multidimensionale Datenmodellierung z.B. mittels Sternschema oder
Scheeflockenschema
– Online Transaction Processing (OLTP)
– Online Analytical Processing (OLAP)
• "a subject-oriented, integrated, time-varying, nonvolatile collection of data that is used primarily in
organizational decision making" (Inmon)
• "a copy of transaction data specifically
structured for query and analysis" (Kimball)
• Ziel: Historische, verdichtete und aus mehreren
Quellen konsolidierte Daten hoher Qualität
11
• Beispiel: Sternschema eines Data Warehouse der
Wettbewerberanalyse als UML-Klassendiagramm
Wettbewerber
Bereich
Branche
Unternehmen
Konzern
1
1..*
Gewinn
Umsatzerlöse
Aufwendungen
1..*
1
Marktsegment
Land
Kontinent
1..*
1
Periode
Quartal
Jahr
Dekade
12
2
Data Warehouse: OLAP
Data Warehouse: Beispielarchitektur
Extraktion,
Transformation,
Laden,
Aktualisieren
• OLAP-Operationen bei multidimensionaler
Datenhaltung: Slice, Dice, Roll-Up, Drill-Down,
Rotate
Dimension:
Marktsegment
Dimension:
Wettbewerber
D
GB
F
Welt
Afrika
E-Plus
IV/2001
III/2001
II/2001
Dimension:
Periode
GB
OLAP-Analyse,
Anfragen/Berichte,
Visualisierung,
Data Mining
Asien
externe Daten
D
Vodafone
Telekom
Europa
Metadatenrepositorium
Data Warehouse
F
D
OLAPServer
GB
T-Online
2001
2000
T-Mobile
Data
Marts
OLTP-Datenbanken
(Chaudhauri und Dayal)
13
Document Warehouse: Definition
• Relativ junger Begriff (Google: 1.400 Webseiten)
im Gegensatz zu Data Warehouse (Google:
364.000 Webseiten)
• "document warehouse provides a repository for
text and text metadata" (Sullivan)
Document Warehouse: Ziele
1. Unterstützung von Entscheidungsprozessen
•
Datenbasis für Text Mining-Aktivitäten
•
Ergänzung eines existierenden Data Warehouse
•
Beispiel: Signifikanter Gewinnanstieg eines
Wettbewerbers in Deutschland in IV/2001
• Analogie zu Definition des Data Warehouse:
Wer? Was? Wann?
Wieviel? Wo? Wie oft?
– "a subject-oriented, integrated, time-varying, nonvolatile collection of data that is used primarily in
organizational decision making" (Inmon)
– "a copy of transaction data specifically structured
for query and analysis" (Kimball)
Data Warehouse
Warum?
(Sullivan)
Document
Warehouse
15
16
Document Warehouse: Ziele (2)
2. Systematische Verwaltung von Dokumenten aus
verschiedenen internen und externen Quellen
Interne Quellen:
Externe Quellen:
Dateisystem
Internet
(WWW, FTP,
Newsgroups)
Datei-Server
Dokumentenmanagementsystem
Intranet
Document
Warehouse
Document Warehouse: Ziele (3)
3. Systematische Ablage unterschiedlicher
Dokumenten ohne einheitliche Struktur
Format:
Struktur:
Textdateien
Unstrukturierte
Dokumente
(Texte i.w.S.)
PDF-Dateien
Digitale
Bibliotheken
Webseiten
Satzdateien
Amtliche
Veröffentlichungen
Word-Dateien
17
14
Document
Warehouse
Semistrukturierte
Dokumente
(z.B. HTML,
XML, SGML)
18
3
Document Warehouse: Ziele (4)
Document Warehouse: Inhalt
4. Erzeugung und Speicherung von Metadaten
Metadaten
5. Extraktion und Ablage entscheidungsrelevanter
Informationen aus Dokumenten
•
Dominierende Themen in Dokumenten
•
Zusammenfassung von Dokumenten
•
Extraktion benannter Entitäten (z.B. Personen)
Dokumente
bzw. URI der
Dokumente
6. Integration semantisch verwandter Dokumente
•
Segmentierung von Dokumenten (Clustering)
•
Indexierung von Dokumenten
Zusammenfassungen von
Dokumenten
Cluster
ähnlicher
Dokumente
Thematischer
Index
Thesaurus
Volltextindex
Index benannter Entitäten
Document
Warehouse
19
20
Document Warehouse:
Metadaten
• "Daten über Daten" (z.B. Meta-Tags in HTML)
• Inhaltsbezogene Metadaten
– Autor, Titel, Beschreibung, Schlüsselwörter, ...
– Doblin Core-Standard: dc.language=de
• Herkunftsbezogene Metadaten
– Quelle, Suchanfrage, Nutzername, Passwort, ...
• Document Warehouse-bezogene Metadaten
– Ladedatum, Übersetzung, Speicherung von
Dokument vs. Zusammenfassung vs. URI, ...
21
Document Warehouse:
Metadaten (2)
Umsetzung mit
CREATE TABLE Documents (
Id INTEGER NOT NULL,
Oracle SQL:
Content_Metadata_Id INTEGER,
DocSourceId
INTEGER,
CREATE TABLE Content_Metadata (
Source_Id
INTEGER,
Id
INTEGER NOT NULL,
Storage_Metadata_Id INTEGER,
Creator
VARCHAR2(100),
Contents
CLOB,
Subject
VARCHAR2(100),
Summary
CLOB,
Title
VARCHAR2(100),
Version
INTEGER,
Description VARCHAR2(100),
Document_Expires_On DATE,
Publisher
VARCHAR2(100),
Summary_Expires_On
DATE,
Contributor VARCHAR2(100),
Date_Loaded
DATE,
Published
DATE,
Last_Verified DATE
Revised
DATE,
);
Type
VARCHAR2(100),
Format
VARCHAR2(100),
(ähnlich Sullivan)
Language
VARCHAR2(100),
Rights
VARCHAR2(100)
);
22
Document Warehouse:
Thesaurus
• Kontrolliertes, meist fachspezifisches Vokabular
für themenbezogene Indexierung und Suche, z.B.
Unternehmen
Handelsgesellschaft
Offene
Handelsgesellschaft
Synonym:
OHG
Kommanditgesellschaft
Synonym:
KG
Synonym: Firma (Organisation)
Kapitalgesellschaft
Aktiengesellschaft
Synonym:
AG
Gesellschaft
mit beschränkter Haftung
Eingetragener
Kaufmann
Synonym:
Einzelkaufmann
Document Warehouse:
Thesaurus (2)
• Thesaurus als Sammlung semantischer Konzepte
• Inhalt: Deskriptoren,
Nicht-Deskriptoren
mit Verweis zu Deskriptor, Definition,
Synomyme sowie
Beziehungen zu
anderen Termen
• Auszug aus einem
Thesaurus nach
DIN 1463 / ISO 2788
Synonym:
GmbH
23
(Sullivan)
TT Unternehmen
SYN Firma (Organisation)
NT Handelsgesellschaft
NT Kapitalgesellschaft
NT Eingetragener Kaufmann
Handelsgesellschaft
NT Kommanditgesellschaft
NT Offene Handelsgesellschaft
UF Kommanditgesellschaft
UF Offene Handelsgesellschaft
BT Unternehmen
Kommanditgesellschaft
USE Handelsgesellschaft
BT Handelsgesellschaft
SYN KG (...)
24
4
Document Warehouse:
Indexierung
Document Warehouse:
Indexierung (2)
• Volltextindex (keyword index)
• Thematischer Index (thematic index)
• Inhalt: Alle Terme sämtlicher Texte, ggf.
• Inhalt: Themen und Konzepte sämtlicher Texte
– Bereinigung um sinnleere Worte (Stopworte)
– Basis: Kontrolliertes Vokabular (z.B. Thesaurus)
– Indexierung der grammatischen Grundformen
Volltextindex:
– Einbettung von Semantik des Anwendungsgebiets
Document Warehouse:
gründen
AG
Aktiengesellschaft
Document Warehouse:
Vorstand
Dokument 1
2001
Gründung
Thematischer Index:
Dokument 1
Aktiengesellschaft
Dokument 2
Dokument 2
Gründung
Dokument N
Dokument N
25
26
Document Warehouse:
Indexierung (3)
Document Warehouse:
Beispielarchitektur
Manuelle vs.
automatische
Suche nach
Dokumenten
• Index benannter Entitäten (feature index)
• Inhalt: Benannte Entitäten sämtlicher Texte
Auswahl, Vorverarbeitung, Indexierung, Kategorisierung, Clustering,
Zusammenfassung
– Kontrolliertes Vokabular nicht erforderlich
Metadatenrepositorium
– Identifikation wichtiger Terme und Entitäten
Index benannter
Entitäten:
Document Warehouse:
externe Dokumente
Dokument 1
Medieninformation
Ron Sommer, CEO
Deutsche
Telekom AG
Information
Retrieval,
Visualisierung,
Text Mining
Dokument 2
Dokument N
interne Dokumente
27
Staging
Area
Document
Warehouse
(in Anlehnung an Sullivan)
Document Warehouse:
Beispielanfragen mit Oracle SQL
SELECT Id FROM Documents WHERE
CONTAINS (Contents, 'Bestellung Geschäftsfürer') > 0;
28
Agenda
1. Textuelle Daten als Herausforderung für die
IT-Unterstützung der Wettbewerberanalyse
SELECT Id FROM Documents WHERE
CONTAINS (Contents, 'Gründung | $gründen') > 0;
2. Document Warehousing: Technologie im
Überblick
SELECT Id FROM Documents WHERE
CONTAINS (Contents, NT('Kapitalgesellschaft')) > 0;
3. Text Mining: Technologie im Überblick
SELECT Id FROM Documents WHERE
CONTAINS (Contents, ABOUT('GmbH')) > 0;
4. Software-Demo: Text Mining mit dem SAS
Enterprise Miner for Text
SELECT Id FROM Documents WHERE
CONTAINS (Contents, '$Preis & ABOUT('Änderung')') > 0;
5. Zusammenfassung und Literaturhinweise
SELECT Id FROM Documents WHERE CONTAINS (Contents,
'NEAR(ABOUT('neu'), ABOUT('Produkt'), 20)' > 0;
29
30
5
Data Mining: Definition
• Wissensentdeckung in Datenbanken
Data Mining: Vorgehensmodell
• Interaktiver und iterativer Prozeß (Mannila)
• Gewinnung von neuem, nicht trivialem,
interessantem und vor allem ökonomisch
umsetzbarem Wissen aus riesigen Datenbeständen (Fayyad et al.)
Definition
der Ziele
Aufbereitung
der Daten
• Typische Fragestellungen:
Musterentdeckung
– Welche Kunden eines TK-Anbieters
sind abwanderungsgefährdet?
– Welche Kunden kaufen tendenziell
Produkte eines Spezialkatalogs?
Umsetzung
der Ergebnisse
Nachbereitung
der Ergebnisse
31
32
Data Mining: Methodik
• Musterentdeckung durch Methoden der
Statistik, des maschinellen Lernens, der
künstlichen Intelligenz und der Informatik
• Aufgaben
vs.
Data Mining: Beispiel
• Klassifikation profitabler Kunden mit
Entscheidungsbaumverfahren: Was
charakterisiert profitable Kunden?
Methoden
Segmentierung
Clustering
Browser =
Microsoft
Warenkorbanalyse
Assoziationsverfahren
profitabel
Klassifikation
Neuronale Netze
(Steinicke)
Entscheidungsbäume
Browser =
Netscape
Host !=
Uni
• Aktion: Kaufanreize
in Echtzeit schaffen!
profitabel
Host =
Uni
nicht
profitabel
33
34
Text Mining:
Unstrukturierter Text?
Text Mining: Definition
• Verteilung der Worthäufigkeiten in einem
Textarchiv (Zipf's
Gesetz):
• Wissensentdeckung in textuellen Datenbanken
(Feldman und Dagan)
• Eher umfassender: "Text mining is the process
of compiling, organizing, and analyzing large
document collections
Absolute
Häufigkeit
– to support the delivery of targeted information to
analysts and decision makers and
• Größe des Vokabulars
in Abhängigkeit von der
Textgröße (Heap's
Gesetz):
Absolute
Größe
des Vokabulars
– to discover relationships between related facts
that span wide domains of inquiry." (Sullivan)
0
• Methoden des Data Mining, des Information
Retrieval und der Information Extraction
35
Wörter, nach absteigender
Häufigkeit sortiert
0
Textgröße in Anzahl der
Wörter
(Baeza-Yates und Ribeiro-Neto)
36
6
Text Mining:
Unstrukturierter Text? (2)
• Textsstruktur aus Sicht der Linguistik, z.B.
Text Mining:
Textrepräsentation
• Vektorraummodell des
Information Retrieval
(Salton et al.)
• Struktur und Form der Worte (Morphologie)
– Präfix - Wortstamm - Suffix, flektierte Wortformen
– Basis für Ermittlung grammatischer Grundformen
• Bildung von Wortgruppen und Sätzen (Syntax)
– Substantivgruppen, Subjekt - Prädikat - Objekt
• Bedeutung der Wörter und Aussagen (Semantik)
– Synomyme: Unternehmen, Firma (Organisation)
– Homonym: Firma (Organisation, registrierter Name)
– Extraktion der Merkmale für jedes Dokument (z.B. sämtliche
Terme oder auch nur
bestimmte Konzepte)
– Transformation aller
Dokumente in einen
i.d.R. hochdimensionalen Vektor
Dokument 1
(...)
Dokument M
Merkmal 1
H 1,1
(...)
H 1,M
Merkmal 2
H 2,1
(...)
H 2,M
(...)
(...)
(...)
(...)
(...)
H N,M
Merk- H N,1
mal N
H n,m: Absolute Häufigkeit des
Merkmals n in Dokument m
37
38
Text Mining:
Textrepräsentation (2)
• Bestimmung des
Gewichts der Terme
in Dokumenten z.B.
als Produkt aus
– Absoluter Häufigkeit
des Terms n in
Dokument m und
– Inverser Häufigkeit
des Terms n in allen
Dokumenten.
• Dimensionsreduktion!
Text Mining:
Textrepräsentation (3)
Dokument 1:
Dokument 1
(...)
Dokument M
Merkmal 1
G 1,1
(...)
G 1,M
Merkmal 2
G 2,1
(...)
G 2,M
(...)
(...)
(...)
(...)
(...)
G N,M
Term
Pawel Balski, 14.04.1965,
Berlin, ist zum Geschäftsführer bestellt.
bestellen
G ('bestellen')
Dokument 1
Geschäftsführer
H = +++
H=1
H=+
Dokument 1
Term
Merk- G N,1
mal N
1
Geschäftsführer
bestellen
G n,m: Gewicht des Merkmals n
in Dokument m
0
Archiv
H=1
1
Dokument 1
G = 0,9010
G = 1,4283
G ('Geschäftsführer')
39
Text Mining:
Vorbereitung der Daten (Beispiel)
1. Zerlegung der Dokumente, um Terme zu isolieren
• Einteilung der Daten in a priori unbekannte
Kategorien, Klassen oder Gruppen, so daß
2. Extrahierung und Ersetzung benannter Entitäten
(...)
(...) PERSON
PERSON , ist zum Geschäftsführer bestellt . Er (...)
(...)
3. Bestimmung der grammatischen Grundformen
– Objekte im gleichen Cluster möglichst ähnlich und
(...)
(...) PERSON
PERSON ,, sein
sein zu
zu Geschäftsführer
Geschäftsführer bestellen
bestellen .. Er
Er (...)
(...)
– Objekte aus verschiedenen Clustern möglichst
unähnlich zueinander sind (Ester, Sander)
4. Festlegung der Dimensionen des Vektorraums
(bestellen, ..., Geschäftsführer, Gründung, Gesellschaft)
Gesellschaft)
• Bestimmung der Ähnlichkeit von Texten?
5. Abbildung der Dokumente auf den Vektorraum
..., 1,
0,
0
– Euklidische Distanz der Dokumentvektoren
)
– Kosinus des Winkels zwischen Dokumentvektoren
6. Bestimmung der Gewichte je Term und Dokument
(1.4283,
(1.4283,
..., 0.9010,
0.9010,
0,
0,
00
Text Mining: Clustering
• "... the art of finding groups in data." (Kaufman,
Rousseeuw)
(...) 1999 abgeändert . Pawel Balski , 14.04.1965 , Berlin,
ist zum Geschäftsführer bestellt . Er vertritt die (...)
(1,
40
))
41
42
7
Text Mining: Clustering (2)
Text Mining: Klassifikation
• Hierarchische Verfahren • Partitionierende Ver(z.B. Cobweb)
fahren (z.B. k-Means)
Cluster A
2 Cluster:
•
Klassen der Dokumente sind a priori gegeben
•
Aufgabe ist die Zuordnung von Dokumenten
aufgrund ihrer Attributwerte zu einer von n
gegebenen Klassen, Teilaufgaben:
11 Dokumente
1. Generierung von Klassifikationswissen auf
Trainingsdaten mit bekannter Klassezugehörigkeit
4 Cluster:
Cluster B
2. Anwendung des Klassifikationswissen auf
Dokumente mit unbekannter Klassenzugehörigkeit
(Ester, Sander)
Cluster C
5 Dokumente
• Beispiel: Entdeckung
einer Taxonomie von
Dokumenten
• Beispiel: Entdeckung
von Dokumentklassen
für Klassifikation wie
etwa Ereignisse
•
Nutzung verschiedener Methoden: Entscheidungsbaumverfahren, Neuronale Netze, ...
43
44
Text Mining: Klassifikation(2)
• Generierung von
Klassifikationswissen:
Trainingsarchiv:
1. Training
eines Entscheidungsbaums
Testarchiv:
Agenda
• Anwendung von
Klassifikationswissen:
1. Textuelle Daten als Herausforderung für die
IT-Unterstützung der Wettbewerberanalyse
Neue Dokumente:
2. Document Warehousing: Technologie im
Überblick
2. Anwendung
des Entscheidungsbaums
3. Text Mining: Technologie im Überblick
4. Software-Demo: Text Mining mit dem SAS
Enterprise Miner for Text
Klassifizierte
Dokumente:
• Beispiel: Annotation
des Trainingsarchivs
mit n Ereignisklassen
5. Zusammenfassung und Literaturhinweise
• Beispiel: Entdeckung
von Ereignissen in
neuen Texten wie etwa
Presseerklärungen
45
46
Fallstudie: Handelsregistereintrag
Fallstudie: Anwendungsgebiet
Unternehmen
Firma
Gründungsdatum
Liquidationsdatum
Gegenstand
Daniel Spiel-Center GmbH
HRB 12576
Potsdamer Str. 94, 14513 Teltow 06.05.99
Der Betrieb von Spielhallen in Teltow
und das Aufstellen von Geldspiel- und
Unterhaltungsautomaten. Stammkapital:
25.000 EUR. Gesellschaft mit beschränkter
Haftung. Der Gesellschaftsvertrag ist am
12. November 1998 abgeschlossen und am
19. April 1999 abgeändert. (...) Pawel
Balski, 14.04.1965, Berlin, ist zum Geschäftsführer bestellt. Er vertritt die
Gesellschaft stets einzeln und (...)
1
Hauptniederlassung
1
0..*
Niederlassung
Ort
Geschäftsadresse
Zweigniederlassung
1
Namenszusatz
1
1
47
Handelsregisterblatt
1
Amtsgericht
Abteilung
HandelsregisterblattNr
Handelsregistereintrag
Publikationsdatum
1..* Eintragungsdatum
Eintragungstyp
Eintragungstext
48
8
Agenda
• Ziel: Klassifikation von Handelsregistereintragungen (Neueintragung, Veränderung, Löschung)
1. Textuelle Daten als Herausforderung für die
IT-Unterstützung der Wettbewerberanalyse
• Software: SAS Enterprise Miner for Text
2. Document Warehousing: Technologie im
Überblick
3. Text Mining: Technologie im Überblick
4. Software-Demo: Text Mining mit dem SAS
Enterprise Miner for Text
5. Zusammenfassung und Literaturhinweise
Diagramm
Ergebnis:
e = 10.7%
49
Zusammenfassung und Ausblick
• Document Warehousing und Text Mining als
komplementäre, zukunftsweisende Technologien
50
Literaturhinweise
• R. Baeza-Yates and B. Ribeiro-Neto: Modern
Information Retrieval. Addison Wesley, 1999.
• Technologie in 1/02 m.E. im Early Adopters-Stadium
• Vielfältige Anwendungsgebiete:
• G. Chang et al.: Mining the World Wide Web.
Kluwer Academic Publishers, 2001.
• L. Kahaner: Competive Intelligence.
Touchstone Books, 1998.
– Business
Intelligence
• M. Multhaupt: Data Mining und Text Mining im
strategischen Controlling. Shaker Verlag, 2000.
– Marketing
– CRM und SCM
• D. Sullivan: Document Warehousing and Text
Mining. Wiley & Sons, 2001.
– Produktion
http://www.kdnuggets.com
51
52
Vielen Dank
an die
und den
!
?
Fragen
Karsten Winkler
[email protected]
http://ebusiness.hhl.de
53
9