Eine wissensbasierte Benutzerschnittstelle für das Invisible Data

Werbung
Eine wissensbasierte Benutzerschnittstelle
für das Invisible Data Mining
Der Technischen Fakultät der
Universität Erlangen-Nürnberg
zur Erlangung des Grades
DOKTOR-INGENIEUR
vorgelegt von
Oliver Mathias Johannes Hogl
Erlangen – 2003
Als Dissertation genehmigt von
der Technischen Fakultät der
Universität Erlangen-Nürnberg
Tag der Einreichung: 9. Mai 2003
Tag der Promotion: 30. Oktober 2003
Dekan: Prof. Dr. Albrecht Winnacker
Erstberichterstatter: Prof. Dr. Herbert Stoyan
Zweitberichterstatter: Prof. Dr. Stefan Jablonski
VORWORT
Die vorliegende Arbeit entstand vorwiegend während meiner Tätigkeit als wissenschaftlicher
Mitarbeiter in der Forschungsgruppe Wissenserwerb am Bayerischen Forschungszentrum für
Wissensbasierte Systeme (FORWISS) sowie am Lehrstuhl Informatik 8 (Künstliche Intelligenz) der Friedrich-Alexander-Universität Erlangen-Nürnberg. In der Zeit von 1998 bis 2002
habe ich dort verschiedene Projekte in den Bereichen Wissenserwerb, Wissensmanagement
und vor allem natürlich Data Mining bearbeitet und geleitet.
An dieser Stelle möchte ich den vielen Menschen Dank sagen, die zum Gelingen dieser Arbeit beigetragen haben. Mein besonderer Dank gilt dabei Herrn Prof. Dr. Herbert Stoyan, der
als Leiter der Forschungsgruppe und als Lehrstuhlinhaber diese Arbeit gefördert hat, jederzeit
diskussionsbereit war und mir den Freiraum gewährt hat, den das Gelingen einer solchen Arbeit voraussetzt. Nicht weniger danke ich Herrn Prof. Dr. Stefan Jablonski für die Übernahme
des Koreferats.
Unter den vielen Kollegen, die ihren Anteil am Erfolg dieser Arbeit tragen, möchte ich vor
allem Herrn Dr. Michael Müller und Herrn Carsten Hausdorf sowie Frau Andrea Stocker,
Herrn Dieter Käppel und Herrn Ralf Kokowski nennen. Auch dem Leiter des Qualitätsmanagements der Tiroler Landeskrankenanstalten GmbH, Herrn Univ.-Doz. Dr. Wolf Stühlinger,
sei stellvertretend gedankt für sein Interesse an dieser Arbeit, seinen Input und sein Feedback
aus der Sicht des Fachexperten.
Nicht vergessen möchte ich auch einige Menschen in nah und fern, die es beherrschten,
mich im richtigen Moment von den Problemen des Data Mining abzulenken, aber auch dann
Verständnis zu zeigen, wenn dies notwendig war. Auch meiner Familie möchte ich an dieser
Stelle meinen ganz besonderen Dank aussprechen. Ohne ihr Verständnis und ihre nicht zu unterschätzende Unterstützung wäre vieles nicht möglich gewesen.
Zuletzt – und diese Stelle hat durchaus ihre Bedeutung – möchte ich meinen Dank und meine Anerkennung an Ebba Friedrich richten. Ihre Geduld, ihr Verständnis und ihre Unterstützung haben mir die Kraft gegeben, diese Arbeit zu einem erfolgreichen Ende zu bringen.
Erlangen im Mai 2003
Oliver J. Hogl
.
KURZFASSUNG
Die Analyse von Daten mit Hilfe von Methoden des Data Mining ist ein wissensintensiver Bereich, der aufgrund seiner hohen Anforderungen bislang vor allem Experten des Data Mining
vorbehalten war. Fachexperten aus Bereichen wie Qualitätsmanagement, Marketing und Produktion als die eigentlichen Nutznießer dieser Technologie stehen häufig vor dem Problem,
dass sie auf eine umfassende Beratung oder gar auf die vollständige Durchführung der Datenanalyse durch Data-Mining-Experten angewiesen sind. Diese Problematik ist groß genug, dass
sie eine weitere Verbreitung der innovativen Data-Mining-Technologien wenn nicht verhindert dann doch stark einschränkt.
Vor dieser Problemstellung beschreiben wir in dieser Arbeit einen Ansatz für die Unterstützung von Fachexperten beim Data Mining, der sie in die Lage versetzen kann, Analysen einer
gewissen Komplexität selbst und ohne Hilfe von außen durchzuführen. Als Hauptaspekt unseres Ansatzes, den wir auch als Invisible Data Mining bezeichnen, tritt die Methodik des Data
Mining mit ihren Anforderungen in den Hintergrund und wird sozusagen für den Benutzer unsichtbar. Stattdessen erlaubt der Ansatz dem Benutzer die Kommunikation mittels zweier einfacher Konzepte, die ihm als Grundmittel des Erwerbs von Wissen vertraut sind: Fragen und
Antworten, formuliert in der jeweiligen Fachsprache.
Auf der Basis eines Modells von Sprachebenen bei der Entdeckung von Wissen in Datenbanken entwickeln wir in dieser Arbeit eine Sprache für die Beschreibung der natürlichsprachlichen Fragen, die von Fachexperten bei der Datenanalyse formuliert werden. Diese Sprache,
die wir Knowledge Discovery Question Language nennen, setzt sich aus bis zu fünf komplexen
Elementen zusammen und wird detailliert mit ihrer Syntax und Semantik beschrieben.
Fragen, die in der Knowledge Discovery Question Language formuliert sind, können unter
Einsatz von umfangreichem Domänenwissen zunächst verfeinert und dann in formale DataMining-Anfragen übersetzt werden. Dabei werden unter Berücksichtigung ihrer Einsatzbedingungen, Ergebniseigenschaften sowie weiteren Merkmalen und anfangs unabhängig von konkreten Implementierungen Data-Mining-Methoden und -Algorithmen ausgewählt und parametrisiert, die für die Beantwortung der Frage geeignet sind. Im letzten Schritt erfolgt die Anpassung an die Anforderungen einer gegebenen Implementierung eines Data-Mining-Algorithmus. Aus den Ergebnissen, die von den Algorithmen geliefert werden, können wieder
Antworten in der Fachsprache des Experten generiert werden.
Das für den Ansatz benötigte Wissen ist in einer komplexen Wissensbasis beschrieben, die
über drei Spezialisierungsstufen modular aufgebaut ist. Durch diese Trennung von allgemeinem, domänenspezifischem und unternehmens- bzw. anwenderspezifischem Wissen wird die
Übertragbarkeit des Ansatzes, z.B. von der Konzeptions- und Evaluierungsdomäne des medizinischen Qualitätsmanagements auf andere Anwendungsbereiche, erleichtert.
Der vorliegende Ansatz zur Benutzerunterstützung wurde in einem Assistenzsystem für das
Data Mining prototypisch implementiert. Damit können Datenanalysen unter Verwendung der
Technologie des Data Mining erstmals von Fachexperten selbst durchgeführt werden.
.
SUMMARY
Data analysis based on methods of data mining is a knowledge intensive task, which due to its
high demands on technical knowledge has been left to data mining experts. Experts from domains such as quality management, marketing and production who will eventually reap the
benefits of this technology often depend on expensive data mining experts to give advice or
even to let them carry out the analyses themselves. The problematic nature of this dependency
is strong enough to limit the further spreading of data mining technologies.
Against this background, this work describes an approach for the support of domain experts, which can enable them to carry out analyses of a certain complexity without any help
from other parties. As a main feature of our approach, the methodology of data mining with its
high knowledge demands retreats into the background and becomes so to speak invisible. Instead the approach allows domain users to communicate using two simple concepts, which are
all too familiar to him as basic means of knowledge acquisition: questions and answers, expressed in their very own technical language.
Based on a level model of language levels in the area of knowledge discovery in databases,
we develop a language for the description of natural language questions, which are being expressed by domain experts during data analysis. This language, which we call Knowledge Discovery Question Language, is composed of up to five complex elements and will be described
by its syntax and semantics in detail.
Questions formulated in KDQL can be initially refined and translated into formal data mining queries using extensive domain knowledge. This implies the selection of data mining
methods and algorithms to answer the question under consideration of their deployment criteria, result properties as well as other characteristic features and is performed independently
from concrete implementations of algorithms. In a final step the adaptation to the specific
needs of a given implementation is carried out. Using the results of the algorithms, answers in
the technical language of domain experts can be generated.
The knowledge which is required for the approach is described in a complex knowledge
base, which is structured over three levels of specialization. By this separation of common, domain specific and user or company specific knowledge the portability of our approach from
our evaluation domain of medical quality management to other domains is made easier.
The approach for user support in hand has been prototypically implemented in an assistance
system for data mining. With it data analyses using data mining technology for the first time
can be carried out by domain experts themselves.
.
INHALTSVERZEICHNIS
1 Einleitung
1
1.1
Business Understanding als Herausforderung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2
Intelligente Benutzerschnittstellen für Informationssysteme . . . . . . . . . . . . . . . . . 2
1.3
Ein Ansatz für das Invisible Data Mining – Ziele und Beiträge . . . . . . . . . . . . . . 3
1.3.1 Ziele der Arbeit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2 Beiträge der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4
Die praktische Anwendung beim Qualitätsmanagement im Gesundheitswesen . . 6
1.5
Der Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Relevante Ansätze für wissensbasierte Benutzerschnittstellen
2.1
9
Ansätze zur Unterstützung von Anfragen an Informationssysteme. . . . . . . . . . . 10
2.1.1 Unterstützung beim Zugriff auf Dokumente . . . . . . . . . . . . . . . . . . . . . . 12
2.1.2 Unterstützung beim Zugriff auf Datenbanktupel . . . . . . . . . . . . . . . . . . . 12
2.1.3 Unterstützung beim Zugriff auf Data Mining-Ergebnisse . . . . . . . . . . . . 18
2.2
Ansätze zur Unterstützung der Auswahl von Methoden . . . . . . . . . . . . . . . . . . . 25
2.2.1 Unterstützung der Auswahl von Methoden der Statistik . . . . . . . . . . . . . 25
2.2.2 Unterstützung der Auswahl von Methoden des Maschinellen Lernens . . 26
2.2.3 Unterstützung der Auswahl von Methoden bei der Entdeckung von Wissen
in Datenbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
x
INHALTSVERZEICHNIS
3 Relevante Ansätze zur Beschreibung der Semantik von Fragen
31
3.1
Die erotetische Logik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2
Theorien zur Semantik von Fragen und Antworten . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.1 Die funktionale Theorie der Semantik . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.2 Die propositionale Theorie der Semantik. . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.3 Die Konstruktion von komplexen Fragebedeutungen . . . . . . . . . . . . . . . 37
3.2.4 Exhaustive und nicht-exhaustive Semantik . . . . . . . . . . . . . . . . . . . . . . . 38
3.3
Fragen als Instrumente des Wissenserwerbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Der QUESTUS-KDD-Ansatz der wissensbasierten
Benutzerunterstützung
41
4.1
Die Anforderungen an die Realisierung des Benutzerunterstützung . . . . . . . . . . 41
4.2
Der Prozess der Formulierung und Beantwortung von Fragen . . . . . . . . . . . . . . 42
4.3
Das QUESTUS-KDD-Verarbeitungsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4
Die Modellierung der Wissensbasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.5
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5 KDQL und KDAL – Sprachen für Fragen und Antworten von
Fachexperten
51
5.1
Die Anforderungen an eine Sprache für Fragen von Fachexperten . . . . . . . . . . . 51
5.2
Die Modellierung von KD-Fragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.1 Die Fragewurzel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2.2 Die optionalen Frageelemente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.3
Die Modellierung von KD-Antworten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.3.1 KD-Antworten zu konfirmativen KD-Fragen . . . . . . . . . . . . . . . . . . . . . 73
5.3.2 KD-Antworten zu deskriptiven KD-Fragen . . . . . . . . . . . . . . . . . . . . . . . 73
5.3.3 KD-Antworten zu komplexen KD-Fragen . . . . . . . . . . . . . . . . . . . . . . . . 74
5.4
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
INHALTSVERZEICHNIS
6 Die Operationalisierung von KD-Fragen
6.1
xi
75
Die Operationalisierung des Frageobjekts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.1.1 KD-Fragen nach einem Zusammenhang . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.1.2 KD-Fragen nach einem Unterschied . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.1.3 KD-Fragen nach einer Gemeinsamkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.1.4 KD-Fragen nach einer Veränderung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.1.5 KD-Fragen mit domänenspezifischen Frageobjekten . . . . . . . . . . . . . . . 80
6.2
Die Operationalisierung des Fragetyps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.2.1 Konfirmative KD-Fragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.2.2 Deskriptive KD-Fragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2.3 Komplexe KD-Fragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.3
Die Konstruktion komplexer Bedeutungen von KD-Fragen . . . . . . . . . . . . . . . . 83
6.4
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7 Die Abbildung von KD-Fragen auf DM-Anfragen
7.1
87
Die Modellierung relevanter Objekte für die Abbildung . . . . . . . . . . . . . . . . . . . 87
7.1.1 Die Modellierung von DM-Anfragen. . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.1.2 Die Modellierung von Data-Mining-Methoden . . . . . . . . . . . . . . . . . . . . 89
7.1.3 Die Modellierung von Data-Mining-Algorithmen . . . . . . . . . . . . . . . . . . 92
7.2
Die Verfeinerung von KD-Fragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.3
Die Übersetzung von KD-Fragen in DM-Anfragen. . . . . . . . . . . . . . . . . . . . . . . 95
7.3.1 Die Ermittlung von Kandidaten von Data-Mining-Methoden . . . . . . . . . 95
7.3.2 Die Einschränkung der Kandidaten von Data-Mining-Methoden . . . . . . 97
7.3.3 Die Auswahl von Konfigurationen der Data-Mining-Methoden . . . . . . . 98
7.3.4 Die Ermittlung von Kandidaten von Data-Mining-Algorithmen . . . . . . 100
7.3.5 Die Spezifikation der Datenbasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
7.3.6 Die Formulierung der DM-Anfrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
7.3.7 Die Ermittlung der implementierungsabhängigen DM-System-Anfrage 102
7.4
Der Prozess der Beantwortung von KD-Fragen. . . . . . . . . . . . . . . . . . . . . . . . . 102
7.5
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
xii
INHALTSVERZEICHNIS
8 Der Knowledge Discovery Assistant
8.1
105
Die Gesamtarchitektur des Knowledge Discovery Assistant. . . . . . . . . . . . . . . 105
8.1.1 Der Knowledge-Discovery-Agent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8.1.2 Der Data-Mining-Agent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
8.1.3 Der Datenbank-Agent. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.1.4 Die Berichtsgeneratoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
8.2
Die graphische Benutzeroberfläche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
8.3
Die Realisierung des QUESTUS-KDD-Ansatzes . . . . . . . . . . . . . . . . . . . . . . . .110
8.3.1 Die Eingabe und Verwaltung der KD-Fragen . . . . . . . . . . . . . . . . . . . . .110
8.3.2 Die Verarbeitung von KD-Fragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .113
8.4
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .114
9 Die Evaluierung des QUESTUS-KDD-Ansatzes
117
9.1
Die Kriterien für die Evaluierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .117
9.2
Die Anwendung der Evaluierungskriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . .119
9.3
Die Anforderungen an den Benutzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
9.4
Die Integration in den Gesamtprozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
9.5
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
10 Zusammenfassung, Diskussion und Ausblick
133
10.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
10.2 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
10.3 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
Anhang A: Empirische Grundlagen
137
A.1 Die Themenhierarchie im Bereich des medizinischen Leistungscontrollings . . 137
A.2 Der Fragekorpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
Anhang B: Modellierung relevanter Objekte
141
B.1 Modellierung relevanter KDQL-Elemente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
B.2 Modellierung relevanter allgemeiner Objekte . . . . . . . . . . . . . . . . . . . . . . . . . . 147
INHALTSVERZEICHNIS
xiii
Anhang C: Allgemeine Modellierung der Wissensbasis
153
Anhang D: Modellierung von Wissen über Analysemethoden
157
D.1 Modellierung der Analysemethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
D.2 Zuordnung von Analysemethoden zu Frageobjekten und Frageargumenten. . . 163
D.3 Versprachlichung von Beschreibungsmaßen . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
Literaturverzeichnis
169
Stichwortverzeichnis
183
Lebenslauf
189
xiv
INHALTSVERZEICHNIS
ABBILDUNGSVERZEICHNIS
1.
Die Ermittlung von Antworten auf der Basis von Daten, Methoden, Fragen und
Domänenwissen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.
Das sprachorientierte Ebenenmodell für die Datenanalyse. . . . . . . . . . . . . . . . . . . . . . . . 4
3.
Die Hierarchie der Themen im medizinischen Qualitätsmanagement. . . . . . . . . . . . . . . 7
4.
Der Interaktionszyklus nach [Mur98]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
5.
Ein beispielhafter Syntaxbaum einer semantischen Grammatik nach [And95]. . . . . . . 15
6.
Das CRISP-DM Prozessmodell (aus [CRI01]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
7.
Der Prozess der Textrezeption nach [Ram91]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
8.
Der allgemeine Prozess der Formulierung und
Beantwortung von Fragen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
9.
Das sprachorientierte QUESTUS-KDD-Verarbeitungsmodell. . . . . . . . . . . . . . . . . . . . 43
10. Das QUESTUS-KDD-Begriffsmodell.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
11. Der modulare Aufbau der Wissensbasis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
12. Die Struktur des Elements KD-Frage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
13. Die Struktur des Elements Fragewurzel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
14. Darstellung des Elements TypKonfirmativ im XML-Schema.. . . . . . . . . . . . . . . . 57
15. Die Struktur des Elements PersonalFokus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
16. Die Struktur des Elements TypOffen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
17. Die Struktur des Elements TypKomplex. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
18. Die Struktur des Elements ObjektStat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
19. Ausschnitt aus der Operationalisierung des Themas
„Korrektheit der Therapeutik“. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
20. Ausschnitt aus der Operationalisierung des Themas
“Technische Differenziertheit der Dokumentation“. . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
21. Das Modell der Eigenschaftsargumente und der Gruppenargumente. . . . . . . . . . . . . . . 67
22. Ausschnitt aus dem Domänenmodell. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
23. XML-Darstellung der Frage aus Beispiel 12.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
24. Visualisierung der allgemeinen Frageobjekte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
xvi
ABBILDUNGSVERZEICHNIS
25. Ausschnitt aus einem bei der KD-Frage-Expansion entstehenden Fragebaum.. . . . . . . 94
26. Der Prozess der KD-DM-Transformation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
27. Überblick über die Zuordnung von Data-Mining-Methoden zu den allgemeinen
Frageobjekten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
28. Der Prozess der Beantwortung von KD-Fragen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
29. Die Gesamtarchitektur des Knowledge Discovery Assistant. . . . . . . . . . . . . . . . . . . . 106
30. Die Konfiguration der Datenquellen im Datenbank-Agenten. . . . . . . . . . . . . . . . . . . . 107
31. Die modulare Integration von Algorithmen in den Data-Mining-Agenten. . . . . . . . . . 107
32. Die Darstellung der Ergebnisse in einem Bericht im HTML-Format. . . . . . . . . . . . . . 108
33. Die graphische Benutzerschnittstelle des KDA.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
34. Die Fensterstruktur des KDA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
35. Die Verwaltung taxonomischer Informationen im KDA. . . . . . . . . . . . . . . . . . . . . . . 111
36. Die Eingabe von Fragen und Generierung von Feedback an den Benutzer. . . . . . . . . 112
37. Die Eingabe einer neuen natürlichsprachlichen Frage in den KDA. . . . . . . . . . . . . . . 112
38. Das Stufenmodell für Änderbarkeit und Portierbarkeit.. . . . . . . . . . . . . . . . . . . . . . . . 121
39. Die Abbildungen zur Überprüfung der Vollständigkeit. . . . . . . . . . . . . . . . . . . . . . . . 122
40. Die Anforderungen an die Benutzer des QUESTUS-KDD-Ansatzes.. . . . . . . . . . . . . 127
41. Der Ausgangsprozess des datenbasierten medizinischen Qualitätsmanagements.. . . . 130
42. Der Prozess des datenbasierten medizinischen Qualitätsmanagements unter Verwendung des KDA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
43. Die Themenhierarchie des Medizinischen Leistungscontrollings.. . . . . . . . . . . . . . . . 138
44. Darstellung des Elements TypKonfirmativ im XML-Schema.. . . . . . . . . . . . . . . 141
45. Darstellung des Elements TypDeskriptiv im XML-Schema. . . . . . . . . . . . . . . . . 142
46. Darstellung des Elements TypKomplex im XML-Schema. . . . . . . . . . . . . . . . . . . . 143
47. Darstellung des Elements FrageObjekt im XML-Schema. . . . . . . . . . . . . . . . . . . 144
48. Darstellung des Elements TypOffen im XML-Schema. . . . . . . . . . . . . . . . . . . . . . . 144
49. Darstellung des Elements Zusammenhang im XML-Schema. . . . . . . . . . . . . . . . . . 145
50. Darstellung des Elements Gemeinsamkeit im XML-Schema. . . . . . . . . . . . . . . . . 146
51. Darstellung des Elements Unterschied im XML-Schema. . . . . . . . . . . . . . . . . . . 146
52. Darstellung des Elements Veraenderung im XML-Schema. . . . . . . . . . . . . . . . . . 147
53. Die Datenbankstruktur für die Modellierung des Wissens
über Data-Mining-Methoden und -Algorithmen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
TABELLENVERZEICHNIS
1.
Einordnung der Ansätze bezüglich des Paradigmas der Benutzerunterstützung und des
unterstützten Datenmodells. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.
Einordnung der Ansätze bezüglich des Paradigmas und des Fokus der
Benutzerunterstützung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.
Aufstellung der semiotischen Ebenen für ausgewählte sprachliche Ausdrücke nach
[Wal85]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.
Nicht-exhaustive Interpretation nach Hamblin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.
Exhaustive Interpretation nach Groenendijk und Stokhof. . . . . . . . . . . . . . . . . . . . . . . . 38
6.
KDQL-Elemente einer einfachen Frage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.
Attribute für die Modellierung eines KDQL-Elements. . . . . . . . . . . . . . . . . . . . . . . . . . 54
8.
Formale Beschreibung des Elements TypKonfirmativ. . . . . . . . . . . . . . . . . . . . . . 57
9.
Gegenüberstellung verschiedener Arten von Ergänzungsfragen
nach [Kri00] und deren Modellierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
10. Beispiele für Fragen mit implizitem Variablenbereich und
daraus abgeleiteten expliziten Fragebereichen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
11. Semantische Klassen und ihre Referenzen auf mögliche Variablenbereiche. . . . . . . . . 59
12. Typen des Elements Zusammenhang. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
13. Typen des Elements Unterschied. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
14. Typen des Elements Veränderung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
15. Typen des Elements Gemeinsamkeit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
16. Modellierung des Elements Frageargumente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
17. Modellierung des Elements AttributKennzahl. . . . . . . . . . . . . . . . . . . . . . . . . . . 68
18. Modellierung des Elements Fragegruppe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
19. Modellierung des Elements Fragekontext. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
20. KDAL-Elemente einer einfachen Antwort. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
21. Arten von KD-Antworten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
22. Gruppierung und Übersetzung von Korrelationskoeffizienten wie beispielsweise
Pearson’s r in verbale Beschreibungen (nach [Wit91]). . . . . . . . . . . . . . . . . . . . . . . . . . 82
23. Gruppierung und Übersetzung der Irrtumswahrscheinlichkeit α (nach [Wit91]). . . . . . 82
xviii
TABELLENVERZEICHNIS
24. Verwendung der KDQL-Elemente bei der Ermittlung der Semantik. . . . . . . . . . . . . . . 84
25. Charakteristika zur Klassifikation von Data-Mining-Methoden. . . . . . . . . . . . . . . . . . . 90
26. Zuordnung der relevanten Evaluierungskriterien zu den Verarbeitungsschritten . . . . 120
27. Überprüfung der Vollständigkeit der Abbildung von natürlichsprachlichen Fragen . . 123
28. Überprüfung der Vollständigkeit der Abbildung von KD-Fragen . . . . . . . . . . . . . . . . 124
29. Formale Beschreibung des Elements TypKonfirmativ. . . . . . . . . . . . . . . . . . . . . 141
30. Formale Beschreibung des Elements TypDeskriptiv. . . . . . . . . . . . . . . . . . . . . . . 142
31. Formale Beschreibung des Elements TypKomplex. . . . . . . . . . . . . . . . . . . . . . . . . . 142
32. Formale Beschreibung des Elements TypOffen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
33. Formale Beschreibung des Elements FrageObjekt. . . . . . . . . . . . . . . . . . . . . . . . . 144
34. Formale Beschreibung des Elements Zusammenhang. . . . . . . . . . . . . . . . . . . . . . . . 145
35. Formale Beschreibung des Elements Unterschied. . . . . . . . . . . . . . . . . . . . . . . . . 145
36. Formale Beschreibung des Elements Gemeinsamkeit. . . . . . . . . . . . . . . . . . . . . . . 146
37. Formale Beschreibung des Elements Veraenderung. . . . . . . . . . . . . . . . . . . . . . . . 147
38. Attribute des Objekttyps Attribut. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
39. Attribute des Objekttyps Attributwert. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
40. Attribute des Objekttyps Fall. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
41. Attribute des Objekttyps Attributgruppe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
42. Attribute des Objekttyps Attributwertgruppe. . . . . . . . . . . . . . . . . . . . . . . . . . 149
43. Attribute des Objekttyps Fallgruppe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
44. Attribute des Objekttyps DM-Anfrage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
45. Attribute des Objekttyps DM-Ergebnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
46. Attribute des Objekttyps KD-Frage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
47. Attribute des Objekttyps KD-Antwort. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
48. Modularisierung des Wissens. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
49. Übersicht über die Modellierung der Analysemethoden (Teil A). . . . . . . . . . . . . . . . . 157
50. Übersicht über die Modellierung der Analysemethoden (Teil B). . . . . . . . . . . . . . . . . 159
51. Übersicht über die Modellierung der Analysemethoden (Teil C). . . . . . . . . . . . . . . . . 161
52. Übersicht über einige Methoden für die Operationalisierung
der allgemeinen Frageobjekte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
53. Sprachliche Ausdrücke für Wahrheitswerte (nach [Käp02]). . . . . . . . . . . . . . . . . . . . . 165
54. Sprachliche Ausdrücke für Interessantheitswerte (nach [Käp02]). . . . . . . . . . . . . . . . 166
55. Sprachliche Ausdrücke für Häufigkeitswerte (nach [Käp02]). . . . . . . . . . . . . . . . . . . 166
56. Sprachliche Ausdrücke für Korrelationsmaße (nach [Wit91]). . . . . . . . . . . . . . . . . . . 167
57. Sprachliche Ausdrücke für Maße der Irrtumswahrscheinlichkeit (nach [Wit91]). . . . 167
TABELLENVERZEICHNIS
xix
58. Sprachliche Ausdrücke für normierte Größen (nach [Käp02]). . . . . . . . . . . . . . . . . . . 168
xx
TABELLENVERZEICHNIS
KAPITEL 1 EINLEITUNG
Die Entdeckung von Wissen in Datenbanken oder Data Mining1 ist eine Technologie, die nach
der Einführung von leistungsfähigen Data Warehouses in immer mehr Unternehmen vor einer
neuen Chance der Anwendung in der betrieblichen Praxis steht: zum einen stehen nach dem
Abschluss der initialen Befüllung der Data Warehouses jetzt wieder Ressourcen für die Einführung von Technologien zur Auswertung der Daten im Allgemeinen und von Data-MiningTechnologien im Speziellen zu Verfügung. Zum anderen bieten die in den Data Warehouses
verfügbaren, konsolidierten Daten eine nahezu optimale Grundlage für weit reichende Analysen, die zuvor noch aufwändiger Datenvorverarbeitungsschritte bedurft hätten.
Die möglichen Anwendungen der Datenanalyse mit Methoden des Data Mining sind vielfältig und werden beinahe täglich um neue erweitert: Zur beinahe schon klassischen Analyse
von Kunden- und Warenkorbdaten kommen neue Bereiche, wie die Untersuchung des Verhaltens von Besuchern auf Websites und die Auswertung von Daten zum Zwecke des Qualitätsmanagements z.B. im Gesundheitswesen oder in Fertigungsbetrieben, hinzu.
Dabei darf jedoch nicht übersehen werden, dass die korrekte Anwendung von Methoden
des Data Mining ebenso wie von Methoden der Statistik eine höchst anspruchsvolle Aufgabe
ist, bei der das Fachwissen der Anwender durch das Methodenwissen von Data-Mining-Experten ergänzt werden muss. So beschreiben auch Wirth et al. die aktuelle Situation mit den Worten:
„The main bottleneck for KDD-applications is not the lack of techniques. The
challenge is to exploit and combine existing algorithms effectively, and help the
user during all phases of the KDD process.“ ([Wir97:243])
1.1 Business Understanding als Herausforderung
Tatsächlich wurden im Bereich der Entdeckung von Wissen in Datenbanken in den letzten Jahren große Forschungsanstrengungen vor allem in die Entwicklung von effizienten Algorithmen
für die Entdeckung von unterschiedlichen Mustern in großen Datenbeständen investiert. Natürlich waren diese Bemühungen nicht erfolglos und so existiert heute eine nur schwer überschaubare Menge an Data-Mining-Algorithmen, die in der Lage sind, immer komplexere Muster in immer größeren Datenbanken in immer kürzerer Zeit zu finden. Dabei wurden aber die
Prozessschritte, die dem eigentlichen Entdeckungsprozess vorangehen und ihm folgen – absichtlich oder unabsichtlich – vernachlässigt. Diese Schritte werden im CRISP-DM-Modell,
auf das wir in Abschnitt 2.1.3 noch ausführlich eingehen, von Chapman et al. in [Cha00a] detailliert beschrieben, sind aber in heutigen Data-Mining-Umgebungen noch weitgehend ohne
1
Dem allgemeinen Sprachgebrauch folgend verwenden wir hier und im Folgenden die Bezeichnungen
„Entdeckung von Wissen in Datenbanken“ (auch als Knowledge Discovery in Databases oder KDD bekannt) und „Data Mining“ synonym.
2
KAPITEL 1. EINLEITUNG
systemische Unterstützung. Vor allem die initiale CRISP-Phase des Business Understanding,
in der Fachexperte2 und Datenanalyst3 zu Beginn eines Analyseprojekts zusammenkommen,
um die beabsichtigten Ziele und möglichen Methoden der Datenanalyse zu identifizieren, ist
so komplex wie entscheidend für den Erfolg des Projekts. Denn nur wenn bereits an dieser
Stelle bei den beteiligten Gruppen (Experten der Anwendungsdomäne und Experten der Datenanalyse) ein gemeinsames Verständnis über Erwartungen und Möglichkeiten aufgebaut
werden kann, werden die Analysen in eine Richtung führen, die gleichermaßen valide und umsetzbare Ergebnisse erzeugt. Die Interessen des Fachexperten können dann als eine Fokussierung auf die ansonsten häufig unüberschaubare Menge an Data-Mining-Ergebnissen, wie sie
häufig von Data-Mining-Algorithmen produziert werden, verwendet und deren Nutzung und
die Akzeptanz des Vorgehens dadurch verbessert werden.
Business Understanding ist jedoch aus zwei Gründen eine schwierige Aufgabe: Zum einen
sprechen die Experten aus der Anwendungsdomäne und die Datenanalysten unterschiedliche
Fachsprachen. Zum anderen können die Fachexperten ihre Interessen oft nur vage formulieren.
Der direkteste Weg zur Lösung dieses Problem, nämlich die Definition von Zielen und die
Durchführung der Analysen in eine Hand zu geben, scheitert jedoch an dem jeweils tief greifenden Wissen, das für beide Aufgaben benötigt wird und nur selten auf eine Person vereinigt
gefunden werden kann.
Da auf das Wissen sowohl aus dem Anwendungsbereich als auch aus dem Methodenbereich jedoch nicht verzichtet werden kann, bleibt nur die Möglichkeit, eine der beiden Rollen
in die Lage zu versetzen, alleine die Data-Mining-Aufgabe durchzuführen, und das dafür benötigte Wissen als Teil der Benutzerunterstützung zu integrieren. Welche der beiden Rolle sich
besser für eine selbständige Durchführung des Data Mining eignet, bedarf einer einfachen Abwägung: Während das Handeln des Datenanalysten bei der Bewältigung einer komplexen
Data-Mining-Aufgabe üblicherweise von den verfügbaren Methoden geprägt sein wird (methodenorientiertes Vorgehen), wird der Fachexperte vor allem die Erreichung seiner Analyseziele im Auge haben (zielorientiertes Vorgehen). Aus diesem Grund wählen wir den Fachexperten als die Rolle, die – im Rahmen unseres Ansatzes – künftig in der Lage sein soll, das
Data Mining selbständig durchzuführen. Das Wissen, das er dafür aus dem Bereich der DataMining-Methodik benötigt, soll ihm im Rahmen der Benutzerunterstützung zur Verfügung gestellt werden.
1.2 Intelligente Benutzerschnittstellen für Informationssysteme
Die Notwendigkeit einer verbesserten Benutzerunterstützung für Fachexperten ist beim Data
Mining kein Einzelfall. Generell kann – wie auch in der Zielsetzung des vom Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI) geleiteten Projekts Smartkom in [Sma03]
formuliert – die Schaffung intelligenter Benutzerschnittstellen, die den natürlichen Kommunikationsstil von Computerlaien akzeptieren und so unterstützen, dass eine für den Menschen intuitive und benutzergerechte Mensch-Technik-Interaktion entsteht, als eine der derzeit wichtigsten Herausforderungen für die Wissensgesellschaft bezeichnet werden.
Die Aufwertung der Rolle des Fachexperten in dem vorgeschlagenen Szenario verursacht
einen Bedarf an einer effektiven, effizienten und natürlichen Schnittstelle, um den Zugriff auf
Methoden und Informationen zu erleichtern. Dieser Bedarf wird weiter gesteigert durch die
2
Hier und im Folgenden verwenden wir für diese Rolle die Bezeichnung „Fachexperte“. In anderen
Arbeiten werden diese auch als „Endbenutzer“, „Business User“ oder schlicht als „Client“ und „Customer“ ([Cha00a]) benannt.
3
In Übereinstimmung mit der Terminologie des CRISP-DM-Modells aus [Cha00a] bezeichnen wir die
Rolle des Data-Mining-Experten hier und im Folgenden als „Datenanalyst“.
3
1.3 EIN ANSATZ FÜR DAS INVISIBLE DATA MINING – ZIELE UND BEITRÄGE
rasch zunehmende Komplexität der IT-Systeme und durch die immer geringere Zeit, welche
den Benutzern zum Ausführen von Aufgaben und für das Erlernen von Bedienkonzepten zur
Verfügung steht.
1.3 Ein Ansatz für das Invisible Data Mining – Ziele und Beiträge
Auf der Basis der oben beschriebenen Herausforderung stellen wir in dieser Arbeit den QUESTUS-KDD-Ansatz (Question-Driven User Support für Knowledge Discovery in Databases)
vor, der vor allem Fachexperten den direkten Zugriff auf Methoden des Data Mining erleichtern und damit neue Potentiale der schnellen und einfachen Datenanalyse vor Ort erschließen
soll. Die Kernidee des Ansatzes, den Benutzern den Blick auf die formalen Grundlagen von
Data-Mining-Anfragen zu ersparen und ihnen die Interaktion auf höherer Ebene zu ermöglichen, wurde von Umesh Dayal4 als „Invisible Data Mining“ bezeichnet.5 Diese Bezeichnung
erscheint prägnant genug, um sie als Leitmotiv dieser Arbeit weiter zu tragen.
Bei der Konzeption des Ansatzes gehen wir von einer Situation aus, die sich durch die folgenden Elemente beschreiben lässt:
• Daten: Es gibt eine Menge von Daten, die in einer Datenbank für die Analysen verfügbar sind. Wir gehen dabei von einem relationalen Datenmodell aus, wie es von Wedekind in [Wed81] beschrieben wird.
• Domäne: Für die Anwendungsdomäne, aus der die Daten und der Fachexperte stammen,
ist Hintergrundwissen in Form von Konzepthierarchien und Begriffsoperationalisierungen, wie von Müller in [Mül98] beschrieben, verfügbar.
• Methoden: Es gibt eine Menge von Analysemethoden, deren Anforderungen, Merkmale
und Ergebniseigenschaften sich korrekt und vollständig beschreiben lassen.
• Fragen: Der Fachexperte ist in der Lage, eine Menge von Fragen in natürlicher Sprache
zur Verfolgung der Ziele seiner Analysen zu formulieren.
Ziel des Ansatzes ist dann, auf der Basis der Daten, mit dem Wissen der Domäne und unter
Zuhilfenahme der verfügbaren Methoden auf die Menge der Fragen eine Menge von adäquaten
Antworten zu finden, die vom Fachexperten verstanden werden können. Abbildung 1 illustriert
diesen Zusammenhang.
Methoden
Fragen
Antworten
Daten
Domäne
Abbildung 1: Die Ermittlung von Antworten auf der Basis von Daten,
Methoden, Fragen und Domänenwissen.
4
5
Intelligent Information Solutions Group, HP-Labs, Palo Alto, Kalifornien.
Der Begriff entstand bei der Panel-Diskussion auf dem ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery (DMKD 2000) am 14. Mai 2000 in Dallas, Texas.
4
KAPITEL 1. EINLEITUNG
Für die Erreichung dieses Ziels werden wir im Folgenden das in Abbildung 2 dargestellte
Ebenenmodell verwenden. Die darin dargestellten Ebenen in der vertikalen Dimension lassen
sich auf verschiedene Weisen interpretieren:
• Sprachebene: Ausgehend von der Struktur von Fragen und Antworten, die sich an der
natürlichen Sprache orientiert, werden die Objekte nach unten hin immer formaler beschrieben: durch Funktionenaufrufe für die Methoden bzw. durch SQL-Ausdrücke auf
der Ebene der Datenbank-Anfragen.
• Abstraktionsniveau: Während Datenbank-Anfragen und die zurück gelieferten Tupel
aus der Datensicht sehr konkrete Objekte darstellen, lassen sich die darüber liegenden
Objekte als Verdichtungen der unteren Stufen betrachten.
• Komplexitätsniveau: Analog zum Abstraktionsniveau nimmt die Komplexität der Objekte in Bezug auf ihre Syntax und Semantik von unten nach oben zu. Damit wächst
auch die Menge ihrer Interpretationsmöglichkeiten.
• Verarbeitungsstufen: Für die Lieferung von Ergebnissen zu den auf der linken Seite
des Modells dargestellten Objekten werden jeweils die darunter liegenden Ebenen verwendet: Um eine Antwort auf eine Frage auf der höchsten Ebene zu erhalten, werden in
diesem Sinne die Fragen durch eine geeignete Menge von Methodenaufrufen operationalisiert, deren Ergebnisse wieder in Antworten transformiert werden können. Ebenso werden die Methoden-Aufrufe unter Verwendung von Datenbank-Anfragen ausgeführt, die
zurück gelieferten Datenbanktupel stellen dann die Grundlage für die Berechnung der
Ergebnisse im Data Mining dar.
Knowledge-DiscoveryEbene (KD)
Fragen
Data-MiningEbene (DM)
Methoden-Aufrufe
DatenbankEbene (DB)
Datenbank-Anfragen
Beantwortung
Data Mining
Database Querying
Antworten
Ergebnisse
Datenbank-Tupel
Abbildung 2: Das sprachorientierte Ebenenmodell für die Datenanalyse.
Im Sinne des Invisible Data Mining interagiert der Fachexperte als der intendierte Benutzer
des Systems nur auf der obersten Ebene (KD-Ebene) durch Fragen und Antworten in einer
Sprache, die ihm näher ist als die formalen Aufrufe auf der Data-Mining- und auf der Datenbank-Ebene (DM- bzw. DB-Ebene). Der Blick auf die darunter liegenden Schichten wird nur
aus Gründen der Transparenz notwendig. Damit steht die Benutzerunterstützung bei der Interaktion mit einem Data-Mining-System auf hoher Ebene über Fragen und Antworten im Fokus
dieser Arbeit. Die darunter liegenden Schichten werden dabei als Werkzeuge für die Operationalisierung gebraucht und nur soweit beschrieben, wie es die Definition der Schnittstellen erfordert. Für die Grundlagen des Data Mining verweisen wir deshalb auf die einschlägige Literatur (z.B. [Ber97], [Fay96a], [Fay96b] und [Eng97c]).
1.3 EIN ANSATZ FÜR DAS INVISIBLE DATA MINING – ZIELE UND BEITRÄGE
5
Dabei soll nicht übersehen werden, dass sich durch die Interaktion auf hoher Ebene in diesem ersten Ansatz möglicherweise nicht das vollständige Aufgabenspektrum, das bei der Entdeckung von Wissen in Datenbanken vorgegeben ist, abgedeckt werden kann. Obwohl sich die
Arbeit um Vollständigkeit bei der Formulierung von möglichen Fragen im eigentlichen Analyseschritt bemüht, kann nicht ausgeschlossen werden, dass Analysen, die sich entweder durch
eine hohe Domänenabhängigkeit oder Komplexität auszeichnen, weiterhin durch die direkte
Interaktion auf Methodenebene und mit der Hilfe eines Datenanalysten durchgeführt werden
müssen. Zudem bedürfen einige Teilprozesse bei der Entdeckung von Wissen in Datenbanken
weiterhin der Unterstützung durch Datenbank- und Data-Mining-Experten, z.B. was die Vorverarbeitung und Integration der Daten sowie der benötigen Analysemethoden betrifft.
1.3.1 Ziele der Arbeit
Vor dem oben beschriebenen Hintergrund formulieren wir die folgenden Ziele der Arbeit:
1. Ermöglichung von Data Mining für Data-Mining-Laien: Fachexperten mit ihrem
Domänenwissen aber zugleich eingeschränkten Kenntnissen von Datenanalyse-Technologien stehen im Fokus des Ansatzes. Durch die Benutzerunterstützung soll es ihnen
ermöglicht werden, in einem konfigurierten System, das sich durch eine abgeschlossene
Integration von Daten und Methoden sowie die Formalisierung des Domänenwissens
auszeichnet, und nur mit geringen Analysekenntnissen selbständig Hinweise auf die
Beantwortung ihrer Fragen zu erhalten. Die technologische Zugangsschwelle zum Data
Mining soll damit für Fachexperten gesenkt werden.
2. Befreiung vom kognitiven Overhead beim Data Mining: Die Benutzer des Systems
sollen bei ihrer Analysetätigkeit nicht durch methodische Überlegungen abgelenkt werden. Stattdessen sollen sie in der Lage sein, sich auf ihre Interessen in Form von natürlichsprachlichen Fragen, wie sie auch bei der Kommunikation untereinander formuliert
werden, zu konzentrieren. Dies ermöglicht dann in der Fortsetzung auch einen vereinfachten Umgang mit den Ergebnissen und deren fokussiertere Umsetzung. Damit soll die
mentale Zugangsschwelle zum Data Mining reduziert werden.
3. Einsparung von Expertenkapazitäten: Aus betriebswirtschaftlicher Sicht stellt der
Einsatz von Datenanalyse-Experten für jede Art von Data-Mining-Analysen eine
beträchtliche Belastung für die Firmen dar. Vor allem für mittelständische Unternehmen
ist der Einsatz der Technologie aufgrund der damit verbundenen hohen Beratungskosten
nur schwer finanzierbar. Aber auch in den Fachabteilungen von Großunternehmen und
Konzernen stellen die Kosten, die für Beratungsleistungen oder abgeschlossene DataMining-Studien intern verrechnet werden, einen nicht zu unterschätzenden Aufwand dar.
Kann durch die verbesserte Benutzerunterstützung nun ein Teil der Analysen in den
Fachabteilungen vor Ort und ohne externe Beratung durchgeführt werden, lassen sich
diese Kosten deutlich reduzieren. Damit kann auch die betriebswirtschaftliche Zugangsschwelle zum Data Mining gesenkt werden.
1.3.2 Beiträge der Arbeit
Um die oben beschriebenen Ziele zu erreichen, definieren wir die folgenden Beiträge der Arbeit:
1. Modellierung von Fragen von Fachexperten für das Data Mining: Ausgehend von
der Analyse eines Korpus von Fragen von Fachexperten entwickeln wir die Knowledge
Discovery Question Language (KDQL) als kontrollierte Sprache für deren Formulie-
6
KAPITEL 1. EINLEITUNG
rung. Darüber hinaus beschreiben wir mit der Knowledge Discovery Answer Language
(KDAL) eine Sprache für die Formulierung entsprechender Antworten.
2. Abbildung von Fragen von Fachexperten auf Data-Mining-Anfragen: Für die
Beantwortung von Fragen von Fachexperten, die in KDQL formuliert sind, stellen wir
umfangreiche Methoden für deren schrittweise Operationalisierung durch Data-MiningAnfragen bereit.
3. Modellierung des Wissens auf verschiedenen Spezialisierungsebenen: Das für die
Formulierung und Operationalisierung der Fragen benötigte Wissen stellen wir in einer
modularen Wissensbasis zur Verfügung. Dabei unterscheiden wir zwischen allgemeinen,
domänenspezifischen und anwenderspezifischen Objekten.
4. Integration des Ansatzes als Front-End in den Knowledge Discovery Assistant: Der
in dieser Arbeit entwickelte Ansatz wird in das am Bayerischen Forschungszentrum für
Wissensbasierte Systeme (FORWISS) entstandene Data-Mining-Werkzeug Knowledge
Discovery Assistant (KDA) integriert und mit einer Benutzerschnittstelle für die interaktive Formulierung von Fragen versehen.
1.4 Die praktische Anwendung beim Qualitätsmanagement im
Gesundheitswesen
Die Liste möglicher Anwendungen für die Technologien des Data Mining ist lang und wird
laufend erweitert. Neben der rein wissenschaftlichen Suche nach neuem Wissen, wie sie beispielsweise in der Soziologie, der Chemie und der Medizin betrieben wird, hält diese Technologie auch immer mehr in Unternehmen ihren Einzug. Im Vordergrund steht dabei die Ausschöpfung von bisher nicht genutzten Effizienzreserven, wie sie sich durch die vorhandenen
Datenbestände ergeben und im Bereich des Customer Relationship Management (CRM) beispielsweise zur Akquisition von Neukunden und der Bindung von bestehenden Kunden verwendet werden können. Aber auch für die Verbesserung der vom Unternehmen erbrachten
Qualität birgt die Analyse der bestehenden Datenbestände großes Potential. Dies ist sowohl in
Produktionsbetrieben, vor allem bei der Herstellung von technologieorientierten Produkten, als
auch bei Dienstleistungsbetrieben, zu denen wir auch Einrichtungen des Gesundheitswesens
zählen, der Fall.
Als Grundlage für die Illustration der Problemstellung und des Vorgehens dienen deshalb
im Folgenden die seit Dezember 1998 am FORWISS laufenden Studien zum medizinischen
Leistungscontrolling, die in Zusammenarbeit mit der Tiroler Landeskrankenanstalten GmbH
in Innsbruck durchgeführt wurden. Das Ziel der Studien ist es, vermutete qualitätsrelevante
Kriterien für das medizinische Leistungscontrolling in Patientendaten zu überprüfen und neue
Kriterien zu entdecken. In den Studien wurden in den drei Themenbereichen Diagnosen und
Therapien, Komplikationen und Dokumentationsqualität Fragestellungen, die von der dortigen
Abteilung für Qualitätsmanagement formuliert wurden, bearbeitet. Abbildung 3 enthält die
Themenhierarchie des medizinischen Qualitätsmanagements auf oberster Ebene, wie sie als
Hintergrund zu den Studien auf der Basis von [Don92] erarbeitet wurde. Im Anhang A.1 findet
sich die vollständige Hierarchie der Themen für das medizinische Leistungscontrolling als Unteraufgabe des Qualitätsmanagements.
Grundlage für die Analysen sind die aus dem Data Warehouse des Klinikverbunds stammenden Daten in relationaler Form. Ein Patient ist darin unter anderem beschrieben durch Einträge zu seinem Alter, Geschlecht, Geburtsland und Krankenversicherungsträger. Die Attribute, mit denen ein Klinikaufenthalt beschrieben wird, lassen sich u.a. in die Gruppen Diagnosen
(z.B. Hauptdiagnose, Zusatzdiagnosen), medizinische Leistungen (z.B. Art und Anzahl der er-
7
1.5 DER AUFBAU DER ARBEIT
Medizinisches
Qualitätsmanagement
Strukturbewertung
Ergebnisbewertung
Prozessbewertung
Materielle
Ressourcen
Personal
Einrichtung
Ausrüstung
Diagnostische
Maßnahmen
Therapeutische
Maßnahmen
Patientenzufriedenheit
Gesundheitszustand
Finanzielle
Ausstattung
Abbildung 3: Die Hierarchie der Themen im medizinischen Qualitätsmanagement.
brachten ambulanten und stationären Leistungen) sowie Aufenthaltsinformation (z.B. Gesamtverweildauer, behandelnde Abteilungen) unterteilen. Für eine genauere Beschreibung der Studien verweisen wir auf [Stü2000].
1.5 Der Aufbau der Arbeit
Die vorliegende Arbeit gliedert sich nach dieser Einleitung wie folgt:
• Kapitel 2: In diesem Kapitel untersuchen wir bestehende Ansätze für wissensbasierte
Benutzerschnittstellen. Dabei behandeln wir zum einen Anfragesysteme für verschiedene Arten von Informationssystemen, die beispielsweise den Zugriff auf Ergebnisse auf
Datenbanktupel und Data-Mining-Ergebnisse erleichtern sollen. Zum anderen beschreiben wir Ansätze, die im Bereich der Statistik, des maschinellen Lernens und des Data
Mining Benutzerunterstützung bei der Auswahl von Methoden, die sich für die Lösung
einer gegebenen Problemstellung eignen, leisten.
• Kapitel 3: Fragen und Antworten als das Mittel der Kommunikation zwischen Fachexperten und Data-Mining-System sind Gegenstand der Analysen in diesem Kapitel. Der
Schwerpunkt liegt dabei auf Mitteln zur Beschreibung der Logik von Fragen und Antworten (erotetische Logik) im Allgemeinen sowie auf der Formalisierung ihrer Semantik
im Speziellen.
• Kapitel 4: Nach den Analysen bestehender Ansätze legen wir die Anforderungen an unseren Ansatz der Benutzerunterstützung fest, beschreiben sein Grundgerüst und definieren die wichtigsten Objekte und Methoden. Darüber hinaus stellen wir das Konzept für
die Modellierung der Wissensbasis vor.
• Kapitel 5: Als Hauptbestandteil unseres Ansatzes beschreiben wir in diesem Kapitel die
Knowledge Discovery Question Language für die Formulierung von Fragen von Fachexperten sowie der Knowledge Discovery Answer Language (KDAL) für die entsprechenden Antworten.
8
KAPITEL 1. EINLEITUNG
• Kapitel 6: Nach der Syntax von Fragen und Antworten leisten wir in diesem Kapitel die
Beschreibung ihrer Operationalisierung. Dabei untersuchen wir zunächst die Umsetzung
der KDQL-Einzelelemente und erschließen dann nach dem Prinzip der Komposition die
Operationalisierung der ganzen Frage.
• Kapitel 7: Dieses Kapitel beschreibt detailliert die Abbildung von Fragen, die in KDQL
formuliert sind, auf eine Menge geeigneter Data-Mining-Anfragen. Dabei expandieren
wir die gegebene Frage zunächst in eine Menge von konkreteren Unterfragen und leiten
aus diesen dann in mehreren Schritte die für die Formulierung einer Data-Mining-Anfrage benötigten Elemente ab. Die Methoden zur Beantwortung einer Frage runden das Kapitel ab.
• Kapitel 8: Als Nachweis der Umsetzbarkeit des vorgestellten Ansatzes integrieren wir
seine Objekte und Methoden in den Knowledge Discovery Assistant, den wir in diesem
Kapitel beschreiben. Dabei gehen wir auf seine grundlegende Architektur, die graphische Benutzeroberfläche und die Implementierung unseres Ansatzes ein.
• Kapitel 9: In diesem Kapitel stellen wir Ansätze für eine weitergehende Evaluierung der
beschriebenen Konzepte vor und führen diese teilweise durch. Der Schwerpunkt liegt dabei auf der Untersuchung der Vollständigkeit der Menge der formulierbaren Fragen.
• Kapitel 10: Abschließend fassen wir die Ergebnisse der Arbeit zusammen, diskutieren
die Vorteile und Nachteile des Ansatzes und geben einen Ausblick auf zukünftige Arbeiten in diesem Themenbereich.
• Anhang: In den Anhängen finden sich empirische Grundlagen für die Konzeption sowie
detaillierte Informationen über die Syntax von KDQL und die Modellierung der Wissensbasis.
Die theoretischen Konzepte der Arbeit werden durchgängig durch Beispiele aus dem Bereich des medizinischen Qualitätsmanagements veranschaulicht.
KAPITEL 2 RELEVANTE ANSÄTZE FÜR WISSENSBASIERTE
BENUTZERSCHNITTSTELLEN
In diesem Kapitel wollen wir einen Überblick über abgeschlossene und laufende Forschungsarbeiten geben, die einen inhaltlichen Bezug zur vorliegenden Arbeit aufweisen. Den über dieser Arbeit liegenden Rahmen bildet das Forschungsgebiet der Human-Computer-Interaction
oder eingedeutscht der Mensch-Maschine-Interaktion, das sich mit dem Verständnis, dem Entwurf, der Bewertung und der Umsetzung interaktiver Computersysteme beschäftigt. Mit dem
Begriff „Benutzerschnittstelle“ werden vor allem die technologischen Aspekte des Computersystems betrachtet, mit denen der Benutzer unmittelbar in Berührung kommt ([Pre94]).
Der grundlegende Begriff „Wissensbasierte Benutzerschnittstelle“ wird im Folgenden mit
dem Begriff „intelligente Benutzerschnittstelle“ (engl. Intelligent User Interface) synonym betrachtet, da sich intelligente Systeme im Allgemeinen durch den Einsatz einer (möglichst deklarativen) Wissensbasis auszeichnen. Wir bevorzugen jedoch die Wissensbasiertheit als
kennzeichnendes Attribut, da eine Definition des Intelligenz-Begriffs als höchst umstritten anzusehen ist.
Intelligente bzw. wissensbasierte Benutzerschnittstellen werden bereits 1993 von Dieterich
et al. sehr eng als
„...the integration of an adaptive user interface [...] both with an intelligent help
system (IHS), making context-sensitive and active help available, and with an intelligent tutoring system, supporting the user in learning the use of the system.''
([Die93])
definiert, also als Kombination einer adaptiven Benutzerschnittstelle mit einem intelligenten Hilfesystem und einem intelligenten Tutorsystem. Tyler et al. beschreiben die Anforderungen an intelligente Benutzerschnittstellen mit den folgenden Komponenten ([Tyl91]):
• Wissensbasiertheit und Modularität
• Schlussfolgerungs- und Bewertungsfähigkeit für die Pläne und Absichten der Nutzer
• Anpassungsfähigkeit des Verhaltens an den individuellen Nutzer und seine aktuellen
Aufgaben
• Unterstützung multimodaler Eingabe und Ergebnispräsentation
Diese beiden sehr restriktiven Definitionen wurden in den letzten Jahren dahingehend aufgeweicht, dass nicht mehr die Gesamtmenge der genannten Bestandteile gefordert wird, sondern diese Menge nur noch den Vorrat möglicher Realisierungen darstellt. Diese Menge der
möglichen Bestandteile einer intelligenten Benutzerschnittstelle wird von Encarnação um die
folgenden Komponenten erweitert ([Enc97]):
• Multimodale Kommunikation
• Dynamische Präsentation
10
KAPITEL 2. RELEVANTE ANSÄTZE FÜR WISSENSBASIERTE BENUTZERSCHNITTSTELLEN
• Natürlichsprachlicher Dialog
• Interface-Adaptivität
• Benutzermodellierung
• Erkennung der Pläne der Benutzer
Der Begriff „Wissensbasiertes System“ (engl. Knowledge-Based System) wird im American
National Standard Dictionary of Information Technology (ANSDIT) wie folgt definiert:
„A computer system that provides for solving problems in a given field or application area by drawing inferences from a knowledge base. (...)“ ([ANS02])
Dies greifen auch Borgelt et al. auf und erweitern die Definition des Begriffs um das Ziel
der Benutzerunterstützung:
„Wissensbasierte Systeme sind Programme, die auf der Grundlage von Wissen
über einen bestimmten Anwendungsbereich Schlussfolgerungen ziehen können,
und die so einem Benutzer helfen, ein Problem zu lösen oder eine Entscheidung zu
treffen.“ ([Bor00])
Die generelle Idee von wissensbasierten oder intelligenten Benutzerschnittstellen besteht in
der Unterstützung der Nutzer von Computersystemen bei der Lösung großer und komplexer
Aufgaben und stellt damit eines der Grundthemen der Anwendung künstlicher Intelligenz dar.
Miller et al. beschreiben bereits 1991 die Ziele intelligenter Benutzerschnittstellen [Mil91]:
• Interaktionen klarer und effizienter gestalten,
• die Aufgaben, Pläne und Ziele des Benutzers besser unterstützen und
• Informationen effektiver darstellen.
Während diese Ziele über die Jahre ihre Gültigkeit bewahrt haben, unterlag die Art der Unterstützung einem steten Wandel. Die frühen Arbeiten auf diesem Gebiet waren geprägt von
der Idee quasi-natürlichsprachlicher Mensch-Maschine-Kommunikation in der Form von Anfragen und Antworten. Durch die Schwierigkeiten bei der Verarbeitung natürlicher Sprache
kombiniert mit der Verfügbarkeit neuer graphischer Interaktionsmethoden erfolgte ein Paradigmenwechsel. Anstatt Aufgaben und Konzepte einer linguistischer Art der Interaktion zu
überlassen und Referenzen darauf nur über Namen oder Beschreibungen zu ermöglichen, kann
die Domäne graphisch dargestellt und mit visuellen Methoden greifbarer gemacht werden. Der
sich entwickelnde Wettbewerb zwischen den beiden Paradigmen hatte eine genauere Untersuchung ihrer relativen Stärken zur Folge. Eine natürliche Konsequenz stellt die Verbindung beider Ansätze in Form einer Einbindung linguistischer Arten der Konversation in graphische Benutzerschnittstellen. Aktuelle Arbeiten, wie das vom DFKI in Saarbrücken geleitete SmartKom-Projekt, konzentrieren sich vor allem auf das Prinzip der Multimodalität, also der Interaktion und der Kommunikation über verschiedene sensorische und effektorische Kanäle wie
Sprechen und Hören oder Zeigen und Sehen ([Sma03]).
2.1 Ansätze zur Unterstützung von Anfragen an Informationssysteme
In den folgenden Abschnitten werden wir die wichtigsten Forschungsansätze für die Unterstützung von Anfragen an Informationssysteme6 auf zwei Arten einordnen: zum ersten werden wir
eine Klassifikation aufgrund der Art der Ergebnisse vornehmen, die auf eine entsprechende
11
2.1 ANSÄTZE ZUR UNTERSTÜTZUNG VON ANFRAGEN AN INFORMATIONSSYSTEME
Anfrage zurückgeliefert werden, und zum zweiten aufgrund der Art der Unterstützung für den
Benutzer.
Wir verwenden das in Abbildung 4 gezeigte Modell von Murray et al. ([Mur98]), um den
allgemeinen Interaktionszyklus zwischen dem Benutzer und dem (Informations-)System mit
dessen Ein- und Ausgaben darzustellen. Der Zyklus beginnt mit der Entscheidung des Benutzers über eine geplante Anfrage und der Formulierung der Aufgabe an der Benutzerschnittstelle über dafür geeignete Mechanismen. Diese Handlung wird dann an das System übertragen,
das die Anfrage bearbeitet. Als Ergebnis der Anfrage sendet das System seine Ausgabe an die
Benutzerschnittstelle, damit sie diese über ihre Ausgabemechanismen dem Benutzer präsentiert.
Interaktion
Aktion
Aufgabenformulierung
Eingabesystem
System
Benutzer
Wahrnehmung
Eingabe
Ausgabesystem
Bearbeitung
Ausgabe
Präsentation
Mensch
Schnittstelle
System
Abbildung 4: Der Interaktionszyklus nach [Mur98].
Gastner beschreit in [Gas93] zwei grundlegende Dialogmetaphern für die Mensch-Maschine-Kommunikation, die auch für die vorliegende Aufgabenstellung relevant ist:
• Arbeit in der konversationellen Welt: Hier beschreibt der Mensch üblicherweise mit
einer Kommandosprache die Aufgaben, die vom Computer erledigt werden sollen. Für
die Ausführung der Aufgabe wird dann ein Anfrage-Antwort-Dialog eingesetzt. Diese
Form der Eingabe wird von Dennebouy et al. auch als prozedurales Vorgehen bei der
Anfrageformulierung bezeichnet ([Den95]).
• Arbeit in der Modellwelt: In diesem Fall zeigt der Mensch, was getan werden soll, indem er beispielsweise mit der Maus graphische Repräsentationen von Objekten manipuliert. Dennebouy et al. verwenden für die Arbeit in der Modellwelt den Begriff der assertorischen Anfrageformulierung ([Den95]).
Bei der folgenden Untersuchung von Benutzerschnittstellen von Informationssystemen
wollen wir unter Berücksichtigung der verschiedenen Dialogmetaphern vor allem auf die Gestaltung der Eingabe- und Ausgabemechanismen eingehen. Bei der Klassifikation der Anfragesysteme nach dem Ergebnistyp unterscheiden wir solche, die Texte und Dokumente, solche,
die einfach strukturierte Datenbanktupel, und solche, die komplexere Data-Mining-Ergebnisse
liefern.
6
Hier und im Folgenden bezeichnen wir Informationssysteme als Systeme, die die Verwaltung strukturierter, semi-strukturierter und unstrukturierter Daten und Informationen sowie den Zugriff darauf mittels einer Retrieval-Komponente erlauben.
12
KAPITEL 2. RELEVANTE ANSÄTZE FÜR WISSENSBASIERTE BENUTZERSCHNITTSTELLEN
2.1.1 Unterstützung beim Zugriff auf Dokumente
Die Benutzerunterstützung beim Zugriff auf unstrukturierte Informationen, also vor allem auf
Dokumente und Texte, ist Teil der Untersuchungen des Information Retrieval und des Text
Retrieval. Diese Ansätze erwähnen wir nur aus Gründen der Vollständigkeit. Aufgrund ihrer
Entfernung zum Gegenstand dieser Arbeit wollen nicht im Detail darauf eingehen. Einen ausführlichen Überblick geben jedoch beispielsweise Baeza-Yates und Ribeiro-Neto in [Bae99].
Zusätzlich zu klassischen Information-Retrieval-Systemen sind in den letzten Jahren vor allem Web-Retrieval-Systeme entstanden, die als Grundlage sichtbare (d.h. für die Allgemeinheit zugängliche) bzw. unsichtbare (d.h. nur einer beschränkten Öffentlichkeit zugängliche)
Informationen aus dem WWW verwenden: AskJeeves ([Jee03]), das inzwischen nicht mehr
verfügbare CHAT ([CHA02]) und andere natürlichsprachliche Zugriffssysteme verwenden dabei die Struktur von Web-Dokumenten mit Tags und Links für die Informationssuche. Im Unterschied zur vorliegenden Arbeit konzentrieren sie sich, wie alle Suchmaschinen aber auf das
Wiederfinden von explizit vorhandenen Elementen in der Informationsquelle, die vorher in
den Index aufgenommen wurden.
Chai et al. versuchen in [Cha00b] den Vergleich eines natürlichsprachlichen und eines menübasierten Systems für den Zugriff auf Informationen über verschiedene angebotene Produkte.
Das dabei eingesetzte Beratungssystem HappyAssistant verwendet ein Domänenlexikon und
eine Wissensbasis für die Beratungsregeln. Anders als AskJeeves, das ein reines Frage-undAntwortsystem ist, modelliert der HappyAssistant die Dialoge, um dem Benutzer zu ermöglichen, seine anfangs vagen Interessen mit fortschreitendem Beratungsstand genauer zu formulieren. Beim Vergleich der Paradigmen natürlichsprachlich vs. menübasiert wird deutlich, dass
vor allem für unerfahrene Benutzer der Zugriff über die natürliche Sprache der schnellere und
einfachere Weg ist.
2.1.2 Unterstützung beim Zugriff auf Datenbanktupel
Im Bereich von Benutzerschnittstellen, die den Zugriff auf Datenbanktupel ermöglichen und
erleichtern sollen, wurde eine große Menge unterschiedlicher Ansätze entwickelt. Murray et
al. schlagen in [Mur98] einen konzeptionellen Rahmen für die Beschreibung vor allem graphischer Benutzerschnittstellen für Datenbanken vor. Sie berücksichtigen dabei das zugrunde liegende Datenmodell, die verwendeten Präsentationsmethoden und die Menge der bearbeitbaren
Aufgaben. Diesem nahe liegenden Ansatz fügen wir als weiteres Merkmal die Zielgruppe zu,
so dass sich die folgende Aufstellung von Unterscheidungskriterien ergibt:
• Paradigma der Benutzerunterstützung, z.B. formale Sprache, natürliche Sprache7,
graphische Unterstützung.
• Zugrunde liegendes Datenmodell, z.B. relational, funktional, objektorientiert.
• Unterstützte Aufgaben, z.B. Datenbankabfrage, Datenbankmanipulation, Datenbankdefinition.
• Zielbenutzergruppe, z.B. Experten, Gelegenheitsnutzer, Laien.
Dabei ist im Rahmen der vorliegenden Arbeit das jeweilige Paradigma der Benutzunterstützung das entscheidende Merkmal. Aus diesem Grund verwenden wir es im Folgenden, um den
Überblick über wichtige Ansätze und Systeme für die Benutzerunterstützung bei der Arbeit
mit Datenbanken zu strukturieren. Dabei gehen wir von folgenden Paradigmen aus:
• Formale Anfragesprachen
7
Selbstverständlich wird auf der Realisierungsebene eine scheinbar natürlichsprachliche Benutzerunterstützung immer durch eine kontrollierte Sprache gelöst.
2.1 ANSÄTZE ZUR UNTERSTÜTZUNG VON ANFRAGEN AN INFORMATIONSSYSTEME
13
• Natürlichsprachliche Anfragesysteme
• Syntaktisches Editieren
• Formularbasierte Benutzerschnittstellen, Query-by-Example und Query-by-Template
• Graphische Benutzerschnittstellen
• Hybride Benutzerschnittstellen
Diese Paradigmen stellen wir im Folgenden mit ihren wichtigsten Eigenschaften und relevanten Vertretern dar.
Formale Anfragesprachen
Der traditionelle Ansatz für Schnittstellen zu Datenbanken besteht in einer Vielzahl von Anfragesprachen. Die wohl bekannteste Sprache stellt der SQL-Standard (Structured Query Language; [Dat87], [Can92]) dar, der seine Bedeutung vor allem durch die Verbreitung des relationalen Datenmodells aus [Cod70] erreichte. Dabei ist SQL nicht nur auf die reine Anfragefunktionalität beschränkt, sondern unterstützt die Definition, die Manipulation und die Überwachung (Sicherheit, Integrität) der Daten. Zu erwähnen ist an dieser Stelle der enorme
Einfluss, den SQL auf die Entwicklung von Anfragesprachen für eine große Menge von unterschiedlichen Datenmodellen (z.B. objekt-orientierte oder multidimensionale Datenmodelle)
ausüben konnte.
Neben SQL konnte sich vor allem die auf dem funktionalen Datenmodell basierende Datendefinitions- und -manipulationssprache DAPLEX durchsetzen ([Shi81]). Ähnlich wie SQL erhebt DAPLEX den Anspruch,
„to provide a ’conceptually natural’ database interface language“ ([Shi81:140]),
um Nicht-Experten die Formulierung ihrer Aufgaben zu erlauben, ohne zu erklären, wie das
gewünschte Ergebnis erzeugt wird. Die deklarative High-Level-Anfragesprache hat die Entwicklung aller späteren fortgeschrittenen Anfragesprachen vor allem objektorientierter Art beeinflusst. Weitere, weniger verbreitete Anfragesprachen für Datenbanksysteme sind SDM
([Ham81]), Galileo ([Alb85]), Napier88 ([Dea89]) und NOODL ([Bar92]).
Die meisten dieser Sprachen erheben den Anspruch, auch von Laien einsetzbar zu sein.
Diese Sprachen verlassen sich jedoch zu einem großen Teil auf das Wissen der Nutzer über die
Struktur der Datenbank und die Syntax der Befehle. Sie sind deshalb ohne vertiefte Kenntnis
dieses Interaktionsstils sehr schwer zu verwenden.
Eine zumindest nach den Aussagen von Systemanbietern mehr an der Expertise von Fachexperten ausgerichtete Möglichkeit des Datenzugriffs ist das ebenfalls von Codd geprägte OnLine Analytical Processing (OLAP; [Cod93] [Ber97]). Diese auch als Fast Analysis of Shared
Information (FASMI) bezeichnete Technologie erlaubt die schnelle Generierung deskriptiver
oder vergleichender Zusammenfassungen oder Sichten von Daten und verwendet dafür ein
multidimensionales Datenmodell. Die für OLAP und das multidimensionale Datenmodell entwickelten Anfragesprachen bestehen im Wesentlichen aus Anpassungen von SQL an die jeweiligen Ausprägungen des Datenmodells und die gegenüber dem relationalen Modell erweiterten Anfragemöglichkeiten (Aggregierungsfunktionen, Roll-Up, Drill-Down). In Ermangelung eines Standards existieren eine Vielzahl von Anfragesprachen, die vor allem durch die
Anbieter von OLAP-Systemen geprägt werden, z.B. MDSQL (Multidimensional Query Language) von Platinum Technologies, MDX (Multidimensional Expressions) von Microsoft und
RISQL (Red Brick Intelligent SQL) von IBM Informix. Blaschka et al. geben in [Bla99] einen
Überblick über die wichtigsten multidimensionalen Datenmodelle und die jeweiligen Anfragesprachen.
14
KAPITEL 2. RELEVANTE ANSÄTZE FÜR WISSENSBASIERTE BENUTZERSCHNITTSTELLEN
Zur Verbesserung der Nutzerfreundlichkeit von formalen Sprachen wurden verschiedene
Ansätze entwickelt, die eine einfacher zu bedienende Benutzerschnittstelle und meist die
Übersetzung der damit formulierten Operationen und Anfragen auf formale Sprachen (meist
SQL) realisieren. Auf diese Ansätze gehen wir in den folgenden Abschnitten ein.
Natürlichsprachliche Anfragesysteme
Natürlichsprachliche Benutzerschnittstellen zu Datenbanken (Natural Language Interfaces to
Databases, NLIDB) erlauben ihren Benutzern den Zugriff auf Informationen in einer Datenbank durch die Eingabe von Anfragen in einer natürlichen Sprache (z.B. Englisch). Da auch
die Ergebnisse der Anfrage natürlichsprachlich aufbereitet werden und in einigen Systemen
sogar eine Diskursmodellierung verwendet wird, erfolgt also die gesamte Nutzerinteraktion
dialogähnlich. Androutsopoulos et al. geben in [And95] einen fundierten Überblick über
NLIDB-Systeme.
Wie zu Beginn des Kapitel 2 geschildert, stellt das Paradigma der natürlichsprachlichen Interaktion einen der ersten Ansätze der Benutzerunterstützung dar. Erste prototypische NLIDBSysteme, wie zum Beispiel LUNAR ([Woo72]), ein domänenspezifischer Ansatz für den Zugriff auf Datenbanken mit chemischen Analysen von Mondgestein, reichen bis in die späten
60er Jahre zurück. Die in den folgenden Jahren entwickelten Systeme zeichneten sich durch
eine zunehmende Domänenunabhängigkeit und Flexibilität bezüglich des zugrunde liegenden
Datenbanksystems aus: LADDER ([Hen78]) und CHAT-80 ([War82]) erlauben die Kopplung
der natürlichsprachlichen Anfragekomponente an verschiedene Datenbanken und Janus
([Bob90]) sogar an Datenbanken und Expertensysteme.
Trotz der Entstehung zahlreicher NLIDB-Systeme in den 80er Jahren konnten diese nicht
die erhoffte und teilweise auch vorhergesagte kommerzielle Verbreitung erreichen. Sie wurden
immer noch mehr als Forschungsprototypen anstelle von Standardkomponenten von Datenbanksystemen betrachtet. Dies lässt sich zum Teil auch auf die Entwicklung von Alternativen,
wie die in den folgenden Abschnitten geschilderten graphischen Benutzerschnittstellen, und
auf einige intrinsische Probleme zurückführen. Durch neue Ergebnisse bei der Verarbeitung
natürlicher Sprache, die Entwicklung von Architekturen für die Abbildung von NLIDB-Systemen auf Agententechnologien und die Kombination von Sprache und Graphik zur Nutzung der
Vorteile beider Modalitäten hat die Forschung auf diesem Gebiet jedoch neuen Auftrieb erhalten ([And95]).
Bezüglich ihrer Architektur lassen sich bei NLIDB-Systemen im Wesentlichen drei Ansätze
unterscheiden:
• Pattern-Matching- oder Keyword-Spotting-Systeme, bei denen aus Mustern von Schlüsselwörtern in der Anfrage auf deren Semantik geschlossen wird, zeichnen sich vor allem
durch ihre einfache Realisierung aus, weil auf eine komplexe Analyse der Anfrage (Parsing) verzichtet wird. Bei Anfragen jedoch, die die Muster von Schlüsselwörtern durchbrechen, führt diese Einfachheit zu groben Fehlinterpretationen. Ein typisches Beispiel
für NLIDB-Systeme, die diesen Ansatz realisieren, ist SAVVY ([Joh85]).
• Bei syntaxbasierten Systemen wird die Benutzerfrage syntaktisch analysiert und der daraus entstehende Syntaxbaum auf einen Ausdruck in der Datenbank-Anfragesprache (z.B.
SQL) abgebildet. Zur Beschreibung möglicher syntaktischer Strukturen von Benutzerfragen wird eine Grammatik verwendet. Die Abbildung auf Datenbank-Anfragen erfolgt
durch feste Regeln. Die Ermittlung geeigneter Regeln, die die Abbildung auf Ausdrücke
der formalen Anfragesprachen erlauben, stellt das Hauptproblem bei der Entwicklung
syntaxbasierter NLIDB-Systeme dar. LUNAR ([Woo72]) ist ein typisches Beispiel für
ein solches System.
2.1 ANSÄTZE ZUR UNTERSTÜTZUNG VON ANFRAGEN AN INFORMATIONSSYSTEME
15
• NLIDB-Systeme, die eine semantische Grammatik verwenden, analysieren ebenfalls die
Eingabe syntaktisch und bilden den Syntaxbaum auf eine Datenbank-Anfrage ab. Im Unterschied zu den syntaxbasierten Systemen entsprechen die Kategorien der Grammatik
aber nicht notwendigerweise rein syntaktischen Konzepten, wie Verb oder Nomen, sondern können bereits neben syntaktischen auch semantische Informationen über die Anwendungsdomäne enthalten (siehe Abbildung 5). Dadurch lassen sich semantische Constraints leichter realisieren. Mit einer geeigneten Wahl von Kategorien kann zudem die
Abbildung auf die zugrunde liegende Datenbank und deren Anfragesprache erleichtert
werden. Durch die feste Einbindung von Wissen über die Anwendungsdomäne wird die
Übertragung auf andere Domänen jedoch deutlich erschwert. Semantische Grammatiken
werden unter anderem verwendet in PLANES ([Wal78]), LADDER ([Hen78]) und REL
([Tho75]).
S
Specimen_question
Contains_info
Specimen_spec
which rock
contains
Substance
magnesium
Abbildung 5: Ein beispielhafter Syntaxbaum einer semantischen Grammatik nach [And95].
Androutsopoulos et al. beschreiben in [And95] die Vorteile von NLIDB-Systemen gegenüber anderen Ansätzen:
• Der Benutzer ist nicht gezwungen, eine weitere künstliche Sprache zu erlernen.
• Vor allem für Fragestellungen, die Negationen8 oder Universalquantoren9 enthalten, ist
die natürlichsprachliche Formulierung von Fragen besser geeignet als die Eingabe über
graphische und formularbasierte Schnittstellen. Da durch natürliche Sprache auch Iterationen und Rekursionen abgedeckt werden, sind NLIDB-Systeme, sofern sie dies unterstützen, auch ausdrucksstärker als Anfragesysteme mit formalen Sprachen wie SQL.
• Die meisten NLIDB-Systeme sehen eine Diskursmodellierung vor und erlauben damit
die Verwendung von kurzen, unterspezifizierten Fragen, deren Bedeutung durch den
Diskurskontext vervollständigt wird.
Dem werden unter anderem die folgenden Nachteile gegenüber gestellt:
• Die linguistische Abdeckung eines NLIDB-Systems ist nicht erkennbar. Benutzern fällt
es schwer zu verstehen, welche Arten von Fragen vom System verstanden werden können und welche nicht.
• Aufgrund dieser Intransparenz wird auch die Unterscheidung von linguistischen und begrifflichen Schwächen erschwert. Wenn eine Frage vom System nicht oder falsch beantwortet wurde, ist nicht klar, ob dies auf eine mangelnde linguistische oder begriffliche
Abdeckung zurückzuführen ist.
8
z.B. Welche Abteilung hat keine Programmierer?
9
z.B. Welche Firma beliefert jede Abteilung?
16
KAPITEL 2. RELEVANTE ANSÄTZE FÜR WISSENSBASIERTE BENUTZERSCHNITTSTELLEN
• Durch die Fähigkeit der Systeme, natürliche Sprache zu verarbeiten, vermuten Benutzer
weitere intelligente Eigenschaften, wie Allgemeinwissen und Schlussfolgerungsfähigkeiten, die aber in den meisten Systemen nicht vorhanden sind.
Bell und Rowe verglichen in einem Experiment die Verwendbarkeit von NLIDB-Systemen
mit der anderer Ansätze ([Bel92]). Die Ergebnisse dieser Studie fassen wir am Ende dieses
Abschnitts zusammen.
Syntaktisches Editieren
Die syntaktische Anfragebearbeitung stellt einen assertorischen Ansatz für die visuelle Unterstützung textbasierter Anfrageformulierung dar ([Den95]). Dies lässt sich sowohl für formale
als auch für natürlichsprachliche Anfragen einsetzen: Für formale Sprachen schlagen Larson
und Wallick in ([Lar85]) ein System vor, das die Anfrageformulierung visuell durch die Darstellung von Syntaxdiagrammen zusammen mit dem Entity-Relationship-Diagramm unterstützt. Die Anfrage wird durch die Verknüpfung von Elementen des Syntaxdiagramms und
Elementen des Datenbankschemas komponiert und kann auch in textueller Form vom Benutzer verändert werden. IQL von Ramos kombiniert syntaktisches Editieren mit graphischer Formulierung von SQL-Anfragen ([Ram92]). In einem Menü ist die Menge der verfügbaren Operationen (z.B. SELECT, JOIN, GROUP BY) erkennbar, die auf visuellen Repräsentationen von
Relationen anwendbar sind. Der Benutzer kann Attribute, die bei Projektionen und Selektionen
berücksichtigt werden sollen, durch Mausklick spezifizieren. Der Formulierungsaufwand
steigt hier jedoch überproportional mit der Komplexität der Anfragen.
Auch bei der Formulierung natürlichsprachlicher Anfragen gibt es Ansätze zur Benutzerunterstützung mittels syntaktischen Editierens: NLMENU erlaubt die Konstruktion von Anfragen
über die Auswahl von Operationen, Prädikaten usw. aus Menüs ([Ten83]). Dies hat den Vorteil, dass nur Fragen und Anfragen, die auch tatsächlich vom System bearbeitbar sind, eingegeben werden können. Der Benutzer kann durch die Menüs navigieren um die Menge der bearbeitbaren Fragen und Anfragen zu erkennen. Die Menge und Komplexität möglicher Menüs ist
aber begrenzt durch Anforderungen der Übersichtlichkeit.
Formularbasierte Benutzerschnittstellen, Query-by-Example und Query-by-Template
Bei der ebenfalls assertorischen Anfrageformulierung über Beispiele (Query-by-Example) gibt
der Benutzer ein Beispiel für ein Ergebnis ein, das er auf die Anfrage erwartet. Die RetrievalKomponente sucht dann in der Datenbank für die Daten, die auf das gegebene Beispiel passen.
Vor allem bei relationalen Datenbanken ist dies ein erfolgreicher Ansatz, weil die Tabellenstruktur der Datenbank gut mit den Tabellenskeletten der Benutzerschnittstelle zur Deckung
gebracht werden kann. Die Benutzerschnittestelle von QBE von Zloff besteht vor allem aus
solchen Tabellenskeletten, die die Tabellen in der Datenbank darstellen ([Zlo97]). Der Benutzer füllt die entsprechenden Spalten mit typischen Werten oder Beispielen aus, um die Ergebnisfelder sowie die Werte für die Selektionskriterien und die Verknüpfungsbedingungen zu
kennzeichnen. Diese Art von Unterstützung für die Anfrageformulierung ist leicht für einfache
Anfragen einsetzbar; komplexere Anfragen erfordern aber vertieftes Verständnis.
Eine Variante von Query-by-Example stellen formularbasierte Benutzerschnittstellen dar.
Bei diesem Ansatz wird dem Benutzer ein Formular bestehend aus einer Liste von suchbaren
Feldern präsentiert. Dieses Vorgehen entspricht der Detail-Suche bei verschiedenen Internetund Intranet-Suchmaschinen. Wir verzichten deshalb an dieser Stelle auf weitere Erläuterungen.
Sengupta und Dillon schlagen in [Sen97] die Query-by-Template-Methode (QBT) vor, die
eine Verallgemeinerung des auf relationale Datenbanken fokussierten Query-by-Example darstellt. Die generelle Grundlage der Benutzerschnittstelle besteht dabei in einem visuellen Template, das eine Instanz der Datenbank repräsentiert: Bei relationalen Datenbanken besteht das
2.1 ANSÄTZE ZUR UNTERSTÜTZUNG VON ANFRAGEN AN INFORMATIONSSYSTEME
17
Template aus der bereits oben erwähnten Tabelle. Bei einer Gedichtdatenbank nennt [Sen97]
ein kurzes Gedicht als Template und bei einer bibliographischen Datenbank einen beispielhaften Eintrag. Damit lassen sich die geschilderten Vorzüge von QBE, also die Einfachheit, die
Äquivalenz des Datenmodells mit der Visualisierung, die Abgeschlossenheit von Anfrageformulierung und Ergebnisausgabe in derselben Form und die Vollständigkeit auf QBT im Allgemeinen übertragen.
Graphische Benutzerschnittstellen
Graphische Editoren unterstützen den Benutzer bei der Anfragformulierung durch die Darstellung des Datenbankschemas und die direkte Manipulierbarkeit der Objekte. Operationen können entweder über Menüs oder über visuelle Techniken spezifiziert werden ([Den95]). Im Bereich graphischer Benutzerschnittstellen gibt es Ansätze, die sowohl assertorisches als auch
prozedurales Vorgehen unterstützen.
Die Anfrageeditoren beruhen auf einem semantischen Datenmodell für die Visualisierung
des Datenbankschemas. Durch die Anzeige der einzelnen Datenbankrelationen zusammen mit
ihren Attributen wird die Auswahl der Elemente, die in der Anfrage enthalten sein sollen, über
Zeige-und-Klick-Operationen unterstützt. Papantonakis und King schlagen in [Pap95] mit
GQL eine graphbasierte graphische Anfragesprache als Benutzerschnittstelle vor. Die Darstellung besteht dabei aus einem Graph, der das Datenbankschema10 repräsentiert und in dem die
Entitäten und deren Attribute als Knoten eingetragen sind. Zusätzlich zum Fenster mit dem
Datenbankschema gibt es ein Fenster, in dem die Datenbank-Anfrage unter Verwendung von
Operanden, die per drag-and-drop aus dem Datenbankfenster geholt werden, und Operatoren,
die in einer Werkzeugleiste verfügbar sind, formuliert wird. Die Ergebnisse auf eine Anfrage
werden dann in einem weiteren Fenster textuell dargestellt.
Hybride Benutzerschnittstellen
In Ergänzung zu den reinen Formen von Benutzerschnittstellen für Datenbanken entstehen vor
allem in jüngerer Zeit auch verschiedene hybride Ansätze, also solche, die die Vorteile verschiedener Paradigmen kombinieren: Adam und Gangopadhyay schlagen in [Ada97] ein
Front-End für relationale Datenbanken vor, das eine natürlichsprachliche Anfrageformulierung auf der Basis von SQL-Formularen benutzt. Dabei wird die natürlichsprachliche Anfrage
zunächst bottom-up durchsucht, um über einen Index der Bedeutung jedes Formulars ein geeignetes Formular zu identifizieren. Anschließend wird die natürlichsprachliche Anfrage des
Benutzers noch einmal top-down analysiert, um mittels einer Menge von Grammatikregeln,
die mit dem zuvor ausgewählten Formular verbunden sind, die relevanten Informationen zu
extrahieren. Für objektorientierte Datenbanken entwickelten Doan et al. in [Doa95] einen Ansatz, der die Formulierung von Anfragen alternativ in der formalen Anfragesprache DAPLEX
und formular- und graphbasiert erlaubt sowie jederzeit den Wechsel zwischen den Paradigmen
unterstützt.
Vergleich der verschiedenen Ansätze
Tabelle 1 ordnet die oben erwähnten Ansätze bezüglich des Paradigmas der Benutzerunterstützung und des unterstützten Datenmodells ein. In der Literatur geben Catarci et al. einen Überblick und eine grobe Klassifikation für graphische Benutzerschnittstellen für Datenbanken
([Cat95]). Sie unterscheiden dabei auf erster Ebene zwischen formularbasierten, diagrammbasierten, iconbasierten und hybriden Ansätzen und führen auch eine vergleichende UsabilityStudie durch. Bei einem von Bell und Rowe durchgeführten Experiment zum Vergleich der
Benutzerfreundlichkeit von formalen Anfragesprachen, formularbasierten Benutzerschnittstel10
GQL beruht auf dem funktionalen Datenmodell nach [Pou90].
18
KAPITEL 2. RELEVANTE ANSÄTZE FÜR WISSENSBASIERTE BENUTZERSCHNITTSTELLEN
len und NLIDB-Systemen wurden 50 Personen mit unterschiedlichem Erfahrungshorizont vor
die Aufgabe gestellt, verschiedene Anfragen an Datenbanken zu stellen. Dabei konnte keine
der drei Benutzerschnittstellen als klarer Gewinner identifiziert werden. Bei einigen Typen
von Anfragen schienen einzelne Ansätze besser geeignet als die anderen, in den meisten aber
war das Ergebnis bei allen Ansätzen gleich oder zumindest ähnlich ([Bel92]).
Formale
Sprache
Natürlichsprachlich
Syntakt.
Editieren
Formularbasiert
Graphisch
Hybrid
SQL [Dat87],
SDM
[Ham81] etc.
LUNAR
[Woo72]
IQL [Ram92]
QBT [Sen97]
GQL [Pap95]
[Ada97]
Relational
Objektorientiert
DAPLEX
[Shi81]
-
-
-
-
[Doa95]
-
-
-
-
Multidimensional
MDX (Plati- num),
MDSQL
(Microsoft),
RISQL (IBM)
Tabelle 1: Einordnung der Ansätze bezüglich des Paradigmas der
Benutzerunterstützung und des unterstützten Datenmodells.
2.1.3 Unterstützung beim Zugriff auf Data Mining-Ergebnisse
Im Gegensatz zu den oben beschriebenen Methoden der Benutzerunterstützung für den Zugriff
auf Datenbanken, die stets nur Datenbanktupel als Ergebnis liefern, wollen wir uns im Folgenden mit Ansätzen auseinandersetzen, die auf die Anfragen komplexere Aussagen oder Muster
auf den Daten produzieren. Auch diese Ansätze lassen sich, ähnlich wie die oben beschriebenen, bezüglich der folgenden Kriterien unterscheiden:
• Paradigma der Benutzerunterstützung, z.B. formale Sprache, natürliche Sprache, graphische Unterstützung (prozedural, assertorisch).
• Zugrunde liegendes Datenmodell, z.B. relational, funktional, objektorientiert.
• Schwerpunkt der Unterstützung, z.B. gesamter KDD-Prozess, nur Anfrage-Formulierung.
• Zielbenutzergruppe, z.B. Experten, Gelegenheitsbenutzer, Laien.
Auch hier wollen wir die Ansätze im Folgenden aufgrund des Paradigmas der Benutzerunterstützung unterscheiden.
Formale Anfragesprachen
Bei der Unterstützung durch formale Sprachen muss zwischen Konzepten zur Formulierung
von Data-Mining-Anfragen und Ansätzen, deren Fokus die Filterung einer Menge von bereits
entdeckten Data-Mining-Ergebnissen darstellt11, unterschieden werden.
Klemettinen et al. stellen in [Kle94] einen frühen Ansatz für die Unterstützung des Information Retrieval auf einer Menge von Regeln dar, die als Ergebnisse des Data Mining geliefert
wurden. Sie verwenden Templates zur Beschreibung der Form der Regeln. Dabei unterschei-
11
Diese Idee wird in der einschlägigen Literatur häufig auch als Rule Mining oder Rule Querying bezeichnet, da die existierenden Ansätze vor allem die Filterung von Regeln unterstützen (z.B. [Imi99]).
2.1 ANSÄTZE ZUR UNTERSTÜTZUNG VON ANFRAGEN AN INFORMATIONSSYSTEME
19
den sie zwischen inkludierenden Templates für die Spezifikation interessanter Regeln und exkludierenden Templates für die Spezifikation generell uninteressanter Regeln.
Im Bereich der Sprachen für die Formulierung von Data-Mining-Anfragen hat sich wie
schon bei den Sprachen für Datenbank-Anfragen SQL als allgegenwärtige Basis durchsetzen
können: Meo et al. beispielsweise erweitern in [Meo96] den Standard-Umfang von SQL um
den Operator MINE RULE, der jedoch auf die von Agrawal et al. in [Agr93] vorgeschlagenen
Assoziationsregeln auf Warenkorbdaten beschränkt ist. Wie in Beispiel 1 gezeigt, erlaubt
MINE RULE die Spezifikation der Kardinalitäten der beiden Seiten der Regel, sowie die Angabe von Minimalforderungen an Konfidenz und Support.12 Darüber hinaus können die Standard-SQL-Primitive wie GROUP BY, CLUSTER, WHERE und FROM verwendet werden. Durch
die Verwendung von eigenen Tabellen, die die Hierarchie beschreiben, und eingebettete SQLAnfragen lassen sich auch taxonomische Informationen bei der Anfrageformulierung verwenden. Die operationale Semantik von MINE RULE wird beschrieben durch eine erweiterte relationale Algebra, durch die sich die Transformation der Datentabelle für die Entdeckung von Assoziationsregeln nachvollziehen lässt.
Beispiel 1:
MINE-RULE-Operator. Die folgende, unter Verwendung des MINERULE-Operators formulierte Data-Mining-Anfrage sucht nach allen
Regeln in der Relation „Tab_Behandlungen“, die beliebig viele Elemente
in der Vorbedingung und genau ein Element in der Nachbedingung
haben. Als minimale Konfidenz wird ein Wert von 0,3 gefordert. Für die
Verwaltung der entdeckten Regeln wird die Tabelle „Tab_Assoziationen“
angelegt:
MINE RULE Tab_Assoziationen AS
SELECT DISTINCT 1...n item AS BODY,
1...1 item AS HEAD,
SUPPORT, CONFIDENCE
FROM Tab_Behandlungen
EXTRACTING RULES WITH CONFIDENCE: 0.3
Die von Han et al. in [Han96] vorgeschlagene Data Mining Query Language (DMQL) erlaubt im Gegensatz zum MINE-RULE-Operator bereits den Zugriff auf verschiedene Regeltypen13 (generalisierende, charakterisierende und diskriminierende Regeln, Klassifikations- und
Assoziationsregeln). Bei den einzelnen Regeltypen können die jeweils benötigten Schwellwerte für die Filterung nicht-signifikanter Ergebnisse angegeben werden. Neben einer genauen
Spezifikation der Menge der für die Lösung der Data-Mining-Problemstellung relevanten Attribute, erlaubt DMQL auch die Verwendung von taxonomischem Hintergrundwissen für die
Formulierung generalisierter Anfragen und die Abstraktion von Ergebnissen. Mechanismen
zur Abstraktion der Ergebnisse werden allerdings nicht beschrieben.
Zwischen den einzelnen Sprachprimitiven von DMQL besteht eine starke Interdependenz.
Die Struktur einer konkreten Data-Mining-Anfrage ist damit immer sehr stark von den Ausprägungen der beteiligten Primitive (z.B. der Spezifikation des zu betrachtenden Regeltyps) abhängig. Ein uniformeres syntaktisches Netzwerk wird spätestens dann notwendig, wenn die
12
Die Konfidenz einer Regel ist definiert als das Verhältnis der Anzahl der Fälle, die beide Seiten einer
Regel erfüllen, zur Anzahl der Fälle, die nur die linke Seite erfüllen. Der Support einer Regel ist definiert
als die Anzahl der Fälle, die die linke Seite einer Regel erfüllen.
13
Han et al. beschreiben in [Han96] die Regeltypen interessanterweise als „kinds of knowledge to be
discovered“.
20
KAPITEL 2. RELEVANTE ANSÄTZE FÜR WISSENSBASIERTE BENUTZERSCHNITTSTELLEN
bisher noch begrenzte Anzahl von ansprechbaren Data-Mining-Aussagetypen erweitert wird.
Beispiel 2 zeigt die Formulierung einer einfachen Data-Mining-Anfrage in DMQL.
Beispiel 2:
DMQL-Anfrage. Die folgende DMQL-Anfrage sucht, ähnlich wie die in
Beispiel 1 gezeigte Anfrage, nach allen Assoziationsregeln in der Relation „Tab_Behandlungen“. Bedingung für die Regeln ist aber das Enthaltensein eines der Attribute Geschlecht, Alter, Diagnose oder Klinik. Als
Minimal-Konfidenz wird auch hier ein Wert von 0,3 gefordert:
find association rules
related to Geschlecht, Alter, Diagnose, Klinik
from Tab_Behandlungen
with confidence threshold = 0.3
Der Idee hybrider Ansätze, wie wir sie auch schon in Abschnitt 2.1.2 bei der Benutzerunterstützung für den Zugriff auf Datenbanken beschrieben haben, folgend, schlagen Han et al. bereits die Verwendung von DMQL zur Unterstützung von graphischen Benutzerschnittstellen
vor.
Auch Imielinski und Virmani verfolgen die Idee einer SQL-nahen, aber für den Zugriff auf
Regeln spezialisierten, formalen Sprache ([Imi96], [Imi99]). Im Gegensatz zu früheren Ansätzen unterstützen sie aber sowohl den Zugriff auf die früher entdeckten und jetzt in einer Regelbasis abgelegten Regeln (rule querying) als auch die Entdeckung neuer Regeln auf einer Datenbank (rule generation). Dafür führen sie die SelectRules- bzw. GetRules-Operatoren
ein, die sich durch eine identische Syntax auszeichnen und nur durch die Quelle der Regeln
(Regelbasis oder Datenbasis) unterscheiden. Weitere, für die Gestaltung von M-SQL entscheidende Anforderungen sind die Möglichkeiten, SQL-Ausdrücke innerhalb der Data-MiningAnfragen (ability to nest SQL) und Ergebnisse einer Anfrage als Basis für eine neue Anfrage
verwenden zu können (closure). M-SQL unterstützt die Spezifikation von Bedingungen für
• das Regelformat, d.h. die in der Vor- und Nachbedingung der Regeln enthaltenen Attribute und evtl. Attributwerte sowie -intervalle,
• die Werte von Support und Konfidenz sowie die Anzahl der Vor- und Nachbedingungen,
• Mengen von zwei oder mehreren Attributen, deren Vorkommen innerhalb einer Regel
sich gegenseitig ausschließen, und
• die in SQL formulierten, eingebetteten Datenbank-Anfragen für die Selektion der relevanten Daten.
Beispiel 3 greift die Beispiele von MINE RULE und DMQL wieder auf und illustriert die
zusätzlichen Möglichkeiten von M-SQL bei der Spezifikation der Vor- und Nachbedingungen
der gesuchten Regeln. Dabei ist M-SQL aber wieder auf einen Aussagentyp beschränkt und erlaubt darüber hinaus nur die Verwendung diskreter Attribute.
2.1 ANSÄTZE ZUR UNTERSTÜTZUNG VON ANFRAGEN AN INFORMATIONSSYSTEME
Beispiel 3:
21
M-SQL-Anfrage. Die folgende M-SQL-Anfrage sucht nach allen Regeln
in der Relation „Tab_Behandlungen“, deren Vorbedingung genau die
Attribute Geschlecht und Alter und deren Nachbedingung entweder die
Attribute Diagnose oder Klinik enthalten. Als Minimal-Konfidenz wird
wieder ein Wert von 0,3 gefordert:
GetRules (Tab_Behandlungen)
where Body is {(Geschlecht=*), (Alter=*)}
and Consequent in {(Diagnose=*), (Klinik=*)}
and Confidence >= 0.3
Im direkten Vergleich zu DMQL bietet M-SQL damit zwar umfangreichere Möglichkeiten
für die Beschreibung der gesuchten Regeln, ist aber durch die fehlende Verwendbarkeit von taxonomischem Hintergrundwissen und die Beschränkung auf nur einen Aussagentyp im Nachteil. Aufgrund ihres formalen, SQL-nahen Charakters sind die beschriebenen Ansätze für die
Verwendung durch Endbenutzer ohne Wissen über Datenbank-Anfragesprachen nur begrenzt
geeignet.
Abweichend von diesen drei Ansätzen gehen Shen et al. in [She96] aus holistischer Sicht
von den folgenden Annahmen aus:
• Induktives Lernen ist unabdingbar für die automatische Generierung von Hypothesen
auf einem Datenbestand.
• Deduktive Datenbanktechnologien stellen ein nahe liegendes Werkzeug für den Nachweis der Korrektheit von bestehenden Hypothesen.
• Menschliche Intuition (evtl. inspiriert durch die Ergebnisse maschineller Entdeckungsprozesse) wird schließlich benötigt, um die vielversprechendsten Hypothesen zu generieren und zu selektieren.
Sie stellen deshalb einen Ansatz vor, der induktive Lernmethoden und deduktive Datenbanktechnologie im Kontext der Wissensentdeckung in Datenbanken durch die Verwendung
von Meta-Regeln (metaqueries) integriert. Metaqueries sind dabei Prädikate zweiter Ordnung
oder Templates, die den gesuchten Typ von Mustern beschreiben. Die Anfragen können als
eine zweiteilige Spezifikation gesehen werden: die linke Seite enthält ein Constraint, wie die
Daten vorzubereiten sind, und die rechte Seite eine Aktion, die auf den vorbereiteten Daten
ausgeführt werden soll. Bei den Aktionen kann dabei zwischen der Berechnung von Regeln,
dem Plotten der Daten, der Klassifikation der Daten und dem Finden von Clustern gewählt
werden. Metaqueries können entweder vom Benutzer formuliert oder automatisch generiert
werden.
Formularbasierte Prozessunterstützung
Neben dem von Fayyad et al. in [Fay96b] vorgestellten Prozessmodell für das Data Mining
wird mit dem Cross Industry Standard Process for Data Mining (CRISP-DM), der von einem
internationalen Konsortium von industriellen Anwendern, Tool-Herstellern und Forschungspartnern entwickelt wurde, erstmals versucht, ein durchgängiges Prozessmodell für die Entdeckung von Wissen in Datenbanken zu entwerfen. Abbildung 6 illustriert die sechs Kernphasen
des Prozesses ([Cha00a], [CRI01]):
• Business Understanding: Formulierung des eigentlichen Projektziels aus der Perspektive des Anwenders.
22
KAPITEL 2. RELEVANTE ANSÄTZE FÜR WISSENSBASIERTE BENUTZERSCHNITTSTELLEN
• Data Understanding: Datenauswahl gefolgt von Aktivitäten mit dem Ziel, die Daten
kennen zu lernen, Probleme der Datenqualität oder interessierende Teilmengen der Daten zu entdecken.
• Data Preparation: Aktivitäten zur Generierung der endgültigen Analysedaten. Darin
enthalten ist die Auswahl von Daten, sowohl von Variablen als auch von Datensätzen,
wie auch Transformationen und das Entfernen von Datenschmutz.
• Modeling: Auswahl und Anwendung verschiedener Verfahren sowie Festsetzung der
zugehörigen Parameter.
• Evaluation: Gründliche Beurteilung der vorhergehenden Schritte um sicherzustellen,
dass die Ergebnisse der vorgegebenen Zielsetzung gerecht werden.
• Deployment: Aufbereitung des gefundenen Wissens in einer dem Auftraggeber verständlichen Form und soweit möglich Umsetzung der Ergebnisse.
Abbildung 6: Das CRISP-DM Prozessmodell (aus [CRI01])a.
a. CRISP-DM ist das alleinige Eigentum der Partner des CRISP-DM Konsortiums: NCR Systems Engineering Kopenhagen (USA und Dänemark), DaimlerChrysler AG (Deutschland), SPSS Inc. (USA) und
OHRA Verzekeringen en Bank Groep B.V (Niederlande), Copyright © 1999-2003.
CRISP-DM liefert eine umfassende Strukturierung und detaillierte Beschreibung der Prozessschritte zusammen mit den zugehörigen Aufgaben. Bis dato konnte jedoch kein Ansatz für
eine durchgängige Softwareunterstützung des vorgeschlagenen Prozesses identifiziert werden.
Der interessanteste Ansatz im Bereich der prozessbasierten Benutzerunterstützung, der jedoch nicht ausdrücklich auf das CRISP-Modell aufbaut, stammt von Engels und wird als User
Guidance Module (UGM) bezeichnet ([Eng96], [Eng97a], [Eng97b], [Eng99]). UGM beabsichtigt eine durchgängige Unterstützung des Nutzers durch alle Phasen des KDD-Prozesses
hindurch: bei der Beschreibung und beim Reduzieren der Komplexität der Data-Mining-Aufgabe, bei der Definition einer Lösung, bei der Auswahl einer geeigneten Methode und bei der
Dokumentation und Speicherung erfolgreicher Anwendungen für die spätere Wiederverwendung.
Der Schwerpunkt der Unterstützung, wie er auch für den Rahmen der vorliegenden Arbeit
relevant ist, liegt auf der Auswahl und Anwendung geeigneter Data-Mining-Methoden und
Vorverarbeitungsschritte auf ein Problem. Dies erfolgt in Form der Überprüfung von Annah-
2.1 ANSÄTZE ZUR UNTERSTÜTZUNG VON ANFRAGEN AN INFORMATIONSSYSTEME
23
men und die Initialisierung der Parameter der Methoden. Darüber hinaus werden das Wiederauffinden und die Wiederverwendung von früheren Lösungen für ein Problem unterstützt. Für
diesen Zweck werden Teilmodule für die Benutzerschnittstelle, die Problembeschreibung und
für die Aufgabenzerlegung sowie Repositories für die Verwaltung früherer Lösungen bereitgestellt.
Typischerweise ist ein Problem durch einen Ausgangs- und einen Zielzustand definiert, wobei der Ausgangszustand durch geeignete Prozessschritte in den Zielzustand transformiert werden soll. Das Problem ist gelöst, sobald der Zielzustand vom Ausgangszustand aus erreicht
werden kann. Für die Beschreibung verwendet UGM funktionale und nicht-funktionale Anforderungen für den Zielzustand und funktionale Anforderungen für den Ausgangszustand:
• Als funktionale Anforderungen werden solche bezeichnet, die unabhängig von pragmatischen Überlegungen und von realisierungsspezifischen Anforderungen sind. Sie beschreiben also, was die Anwendung im Sinne von system- und datenunabhängigen Zielen leisten soll, z.B. ihren Fokus (explorative Analysen oder Hypothesenverifikation)
oder die gewünschte Form der Ergebnispräsentation.
• Nicht-funktionale Anforderungen dagegen beziehen sich auf alle Anforderungen, die
nicht aufgabenabhängig sind, die aber das System in einer anderen Weise beeinflussen.
Sie werden pragmatisch im Sinne von Kontexteinflüssen und Implementierungsaspekten
verstanden. Beispiele für nicht-funktionale Anforderungen sind die verfügbare CPU-Zeit
für die verschiedenen Prozessphasen und die gewünschte Genauigkeit der Lösungen.
Wie auch andere Ansätze aus dem Bereich der Wissensrepräsentation verfolgt UGM die
Idee der Komplexitätsreduktion des Ausgangsproblems durch schrittweise Zerlegung in eine
Menge von weniger komplexen Teilaufgaben. Ziel der Zerlegung ist in diesem Fall die Abbildung auf zehn primitive Aufgaben, z.B. Induktion, Fusion von Datenquellen oder Sortieren der
Daten, die von Engels als einfache Aufgaben (simple tasks) bezeichnet werden. Diese lassen
sich dann direkt auf einzelne Datenvorverarbeitungs- und Data-Mining-Methoden abbilden,
wobei für die Auswahl gegebene Eingabeconstraints (input constraints) und gewünschte Ausgabeeffekte (output effects) berücksichtigt werden. Beispiel 4 zeigt die Modellierung der Einund Ausgaben einer Methode.
Beispiel 4:
UGM-Formalisierung der Induktion. Die Induktion wird im UGMAnsatz von Engels formal mit den folgenden Eingabeconstraints beschrieben ([Eng99]):
ATT DT ≠ ∅
(1)
DT ≥ 2
(2)
Dies besagt, dass die Menge der Attribute zu jedem Datenbanktupel (Fall)
nicht-leer ist und die Anzahl der Datenbanktupel mindestens 2 beträgt.
Die Ausgabeeffekte für die Induktion lauten dann:
MODEL ≠ ∅ ∧ { dt ∈ DT ATT model ⊆ ATT dt } = DT
Nach der Induktion ist also ein Modell vorhanden, das die Daten beschreibt, und für jedes Datenbanktupel aus der Gesamtmenge gilt, dass
die Menge der im Modell enthaltenen Attribute eine Teilmenge der in den
Datenbanktupeln enthaltenen Attribute ist.
(3)
24
KAPITEL 2. RELEVANTE ANSÄTZE FÜR WISSENSBASIERTE BENUTZERSCHNITTSTELLEN
Für die Parametrisierung der einmal ausgewählten Methode steht eine Menge von Initialisierungs- und Anpassungsregeln zur Verfügung. Die Benutzerinteraktion folgt dem Prinzip
des Hierarchical Questioning: Der Benutzer definiert das Problem mittels der Beantwortung
eines Baums von Fragen zu den Daten und den Zielen der Analyse, die ihm das System stellt.
Damit soll die Verfeinerung der Eigenschaften des Problems in geeigneter Weise dargestellt
werden.
Aufgrund der Durchgängigkeit der Prozessunterstützung ist UGM ein interessanter Ansatz.
Dennoch bedarf die Einsatzfähigkeit des Werkzeugs für vollständige Data-Mining-Laien einer
weitergehenden Untersuchung.
Menü- und Listenbasierte Benutzerschnittstellen
Ein einfaches Konzept der Benutzerunterstützung verfolgt der Intelligent Miner der IBM Inc.
Ein Projekt wird dabei durch eine Baumstruktur repräsentiert, die alle verfügbaren Methoden
in einer zweistufigen Hierarchie enthält. Aus dieser kann der Benutzer die Methoden-Knoten
auswählen, die er als relevant für seine Anfrage betrachtet, und damit eine Methode instantiieren. Durch einen formularbasierten Wizzard werden dann die für die Konfiguration der Methode benötigten Daten und Parameter abgefragt. Die Bewertung der Eignung einzelner Methoden sowie deren Parametrisierung bleiben dabei vollständig dem Benutzer überlassen.
Graphische Benutzerschnittstellen
Die prozedurale Modellierung von Data-Mining-Anfragen mit Mitteln der Visuellen Programmierung (visual programming) wird vor allem von kommerziellen Data-Mining-Tools unterstützt. Der Enterprise Miner der SAS Inc. basiert dabei auf einem eigenen Prozessmodell, der
sog. SEMMA-Methodik. Diese geht aber von einer deutlich lokaleren Prozesssicht aus, als sie
vom CRISP-Modell beschrieben wird. Die fünf Hauptprozessschritte sind in diesem Fall: Ziehen von Stichproben (sample), Exploration der Daten (explore), deren Modifikation und
Transformation (modify), Modellbildung (model) und Auswertung der Ergebnisse (assess).
Die Instantiierung eines Prozesses erfolgt prozedural durch den schrittweisen Aufbau einer
Folge von Einzeloperationen wie Zugriff auf Quelldaten, Selektion einer Menge von relevanten Attributen, Anwendung einer Data-Mining-Methode oder Darstellung der Ergebnisse in einer bestimmten Form. Dabei wird der Benutzer durch eine Visualisierung des Datenflusses
durch die verschiedenen Prozessschritte unterstützt. Der Datenfluss lässt sich mittels Dragand-Drop-Operationen auf den Operationen manipulieren.
Dieser Ansatz wird in vergleichbarer Form aber mit abgewandelten Prozessbeschreibungen
auch von anderen Data-Mining-Tools wie beispielsweise Clementine von SPSS Inc. verfolgt.
Durch die Visualisierung der Anfrageformulierung erfolgt jedoch streng genommen keine Prozessunterstützung. Die Auswahl, Parametrisierung und Kombination geeigneter Vorverarbeitungs-, Data-Mining- und Ergebnispräsentationsmethoden bleibt auch bei diesen Ansätzen
weiterhin dem Benutzer überlassen, der dieser Aufgabe vor allem mit zunehmender Komplexität der Anfrage ohne Methodenkenntnis nur schwerlich gewachsen sein wird.
Weitere Ansätze zur KDD-Benutzerunterstützung
Einen wichtigen Ansatz für die Repräsentation abstrakterer Interessen stellen Adomavicius et
al. in [Ado97] vor. Wie auch Engels gehen sie von einer Dekomposition von Aufgaben aus und
entwickeln dafür den Begriff der Handlungshierarchie (action hierarchy). Im Vordergrund ihrer Betrachtungen steht dabei das Prinzip der direkten Umsetzbarkeit von Erkenntnissen in
konkrete Handlungen (actionability). Durch eine Hierarchie von Aktionen oder Aufgaben in
einer Domäne und der Assoziation der Aktionsknoten mit Regelmustern, für die eine Umsetzbarkeit in Handlungen gewährleistet ist, bzw. mit Klassen dieser Muster können die Interessen
von Benutzern konkretisiert werden. Es findet also eine interessengesteuerte Auswahl von Re-
25
2.2 ANSÄTZE ZUR UNTERSTÜTZUNG DER AUSWAHL VON METHODEN
geln statt, die allerdings auf den Aspekt der actionability beschränkt bleibt. Ergebnisse, die die
Muster erfüllen, werden dann mit den entsprechenden Mustern assoziiert und können so auch
effizient verwaltet werden. Allerdings gehen Adomavicius et al. bei der Hierarchie von Aktionen von einer einfachen Baumstruktur aus, obwohl tatsächlich ein gerichteter azyklischer
Graph (directed acyclic graph, DAG) vorliegt. Durch diese Einschränkung kann zwar problemlos in der Hierarchie nach unten abgestiegen werden, ein vollständiger Aufstieg ist aber
nicht mehr möglich.
Vergleich der verschiedenen Ansätze
Tabelle 2 ordnet die oben erwähnten Ansätze bezüglich des Paradigmas und des Fokus der Benutzerunterstützung ein. An dieser Stelle fällt auf, dass im Bereich der Benutzerunterstützung
für die Formulierung von Data-Mining-Anfragen deutlich weniger Ansätze zu finden sind, als
im Bereich der Datenbanken. Die vorhandenen Ansätze konzentrieren sich zudem auf nur vier
Paradigmen, nämlich formale Sprache sowie formularbasierte, menübasierte und graphische
Benutzerunterstützung. Ein Vergleich der Leistungsfähigkeit der unterschiedlichen Ansätze
mittels empirischer Untersuchungen steht noch aus. Ein Ansatz zur Unterstützung der Anfrageformulierung über natürliche Sprache konnte nicht gefunden werden.
Formale
Sprache
DM-Anfrage
Formularbasiert
Menübasiert
Graphisch
DMQL [Han96],
M-SQL [Imi99],
MINE RULE
[Meo96],
metaqueries [She96]
Intelligent Miner
(IBM)
-
-
-
Enterprise Miner
(SAS),
Clementine (SPSS)
UGM [Eng99]
KDD-Prozess
Tabelle 2: Einordnung der Ansätze bezüglich des Paradigmas und des
Fokus der Benutzerunterstützung.
2.2 Ansätze zur Unterstützung der Auswahl von Methoden
Benutzerunterstützung bei der Auswahl einer für die Lösung eines gegebenen Problems geeigneten Methode aus einer Menge von verfügbaren Methoden ist ein Thema, das nicht nur im
Bereich der künstlichen Intelligenz untersucht wird. Der Schwerpunkt lag dabei in früheren
Jahren im Bereich der Statistik und des Maschinellen Lernens und hat sich in den letzten Jahren auf das Data Mining erweitert.
2.2.1 Unterstützung der Auswahl von Methoden der Statistik
Der Schwerpunkt der Entwicklung von Assistenzsystemen für die Anwendung von Methoden
aus dem Bereich der Statistik lag in den 80er Jahren. Haux gibt in [Hau87] bereits einen frühen
Überblick über diese Systeme. Die meisten statistischen Expertensysteme, wie diese Assistenzsysteme im Allgemeinen auch bezeichnet werden, machen jedoch starke Einschränkungen
bezüglich der zur Verfügung stehenden Methoden: Das von Gale et al. in [Gal86] beschriebene
REX-System konzentriert sich beispielsweise auf Anwendungen der linearen Regression und
das von Hietala entwickelte ESTES konzentriert sich auf die Analyse von Zeitreihen
([Hie86]).
26
KAPITEL 2. RELEVANTE ANSÄTZE FÜR WISSENSBASIERTE BENUTZERSCHNITTSTELLEN
Nelder stellt 1987 in [Nel87] GLIMPSE als ein Expertensystem zur Benutzerunterstützung
bei der Auswahl von Methoden des bestehenden Software-Pakets GLIM (Generalized Linear
Interactive Modeling, [NAG02]) vor. Für die Formulierung der Aufgaben wird eine Kommandosprache auf hoher Ebene zur Verfügung gestellt. GLIMPSE leistet zusätzlich die Aufbereitung der Ergebnisse. Aufgaben des Benutzers (tasks) werden mit einer Komponente in GLIMBefehle übersetzt, die explizite Beschreibungen der Aufgaben im Sinne von Überprüfungen,
Ergebnissen und notwendige Aktionen enthalten. Die Menge der Aufgaben wird dabei einzelnen Aktivitäten (activities) zugeordnet, zu denen unter anderem die Eingabe von Daten (data
input), die Datenexploration (data exploration), die Modellauswahl (model selection) und die
Modellüberprüfung (model checking) gehören.
GLIMPSE berät und unterstützt den Benutzer auf verschiedenen Ebenen: Im reminder mode wird lediglich die Syntax der Anweisungen angezeigt; er eignet sich damit für erfahrene Benutzer. Im prompting mode wird eine Liste der im aktuellen Kontext verfügbaren Anweisungen angeboten und im handholding mode wird eine schrittweise Entwicklung von Anweisungen ermöglicht, ohne dass vom Benutzer die Kenntnis der zugrunde liegenden Kommandosprache verlangt wird. GLIMPSE beruht auf der Idee, die komplexe Sprache eines statistischen
Analysesystems für den Benutzer leichter handhabbar zu machen. Statistik-Kenntnisse werden
aber in gleichem Maße erwartet wie für das zugrunde liegende System GLIM.
Als Nachfolger von GLIMPSE wurde das System FAST mit einer verbesserten Benutzerschnittstelle entwickelt, das die Anbindung auch an beliebige Software-Bibliotheken erlauben
soll ([Sta94], [Sta97]). Für die Gestaltung der Beratungskomponente wurde ein endlicher Zustandsautomat verwendet. Für jede Aktivität, die FAST in neu organisierter Form von GLIMPSE erbt, enthält das System eine explizite Folge von Zielbeschreibungen. Komplexe Ziele können, auf diesen Beschreibungen basierend, auch Kontrollstrukturen für die Definition von
Schleifen oder Bedingungen enthalten. Die Kontrolle der domänenspezifischen, interaktiven
Prozeduren sorgt dafür, dass versucht wird, die Ziele abzuarbeiten. Nach einer Interaktion zwischen dem Benutzer und dem System wird ein Ziel als „versucht“ (tried) oder „erreicht“
(achieved) gekennzeichnet. Wenn die Erreichung aller Ziele versucht wurde, ist die Spezifikation der Beratungsstrategie abgeschlossen.
Einen Schritt weiter gehen Schnittstellensysteme, die die semantische Korrektheit der Anweisungen überprüfen, wie etwa das von Jida und Lemaire in [Jid85] vorgestellte System. SETUP, das von Naeve und Steinecker in [Nae86] beschrieben wird, und EXPRESS von Carlsen
und Heuch aus [Car96] betonen sogar die statistische Expertise in ihrem Ansatz. Hand beschäftigt sich in [Han94] dagegen vorwiegend mit der Zerlegung statistischer Fragen für die
Methodenauswahl.
Im Bereich kommerzieller Systeme setzt der SigmaStat-Ansatz auf die Empfehlung eines
geeigneten Tests für vordefinierte Aufgaben (z.B. Vergleich zweier Gruppen, Trendprädiktion
und Korrelation) aufgrund der Häufigkeit der Verwendung des Tests ([Sta02]). Das Web-basierte STATIBOT erlaubt die Analyse einer gegebenen Menge von Daten und die Auswahl dafür geeigneter Methoden unter interner Verwendung mehrerer Entscheidungsbäume, die um
Schleifen, Rücksprünge und Querverbindungen ergänzt werden ([Hee02]). Darüber hinaus gehend versucht das System Statex sogar die Interpretation der Ergebnisse in der Sprache des Benutzers ([AIA98]).
2.2.2 Unterstützung der Auswahl von Methoden des Maschinellen Lernens
Im Bereich des Maschinellen Lernens existieren verschiedene Ansätze, die sich mit dem Problem der Algorithmenauswahl beschäftigen. Die beiden wichtigsten sind die Ergebnisse des
Projekts Machine Learning Toolbox (MLT) mit seinem Beratungssystem Consultant und des
ESPRIT-Projekts StatLog.
2.2 ANSÄTZE ZUR UNTERSTÜTZUNG DER AUSWAHL VON METHODEN
27
Der Machine Learning Toolbox Ansatz stellt eine Sammlung von zehn verschiedenen Lernalgorithmen zur Verfügung ([Usz92], [MLT93]). Um den Einsatz der Methoden zu vereinfachen, wurde zudem das wissensbasierte Assistenzsystem Consultant entwickelt ([Cra92]). Damit soll Benutzern, die mit dem Bereich des Maschinellen Lernens nicht vertraut sind, die Verwendung dieser Technologie bei der Lösung ihrer Aufgabenstellungen erleichtert werden.
Consultant verwendet für die Entscheidung zwischen verschiedenen potenziell anwendbaren
Algorithmen eine statische Regelmenge. Dies bringt deutliche Nachteile für die Wartung mit
sich, da bei jedem Hinzufügen eines neuen Algorithmus, alle Regeln neu berechnet werden
müssen. Zudem ist dieser Ansatz ist jedoch sehr abhängig von der Technologie des Maschinellen Lernens.
Im ESPRIT-Projekt StatLog wurde die Leistungsfähigkeit von Verfahren des Maschinellen
Lernens, von neuronalen Netzten und statistischen Algorithmen bewertet. Das Ziel war zum
einen die objektive Einschätzung des Potentials von Klassifikationsalgorithmen für die Lösung
von kommerziellen und industriellen Aufgabenstellungen. Zum anderen sollten die Grundlagen für die kommerzielle Anwendung dieser und verwandter Algorithmen erweitert werden.
Neben der Einführung einer Menge von Kriterien für die Bewertung und den Vergleich der 23
Algorithmen, wurden vor allem auch die Vor- und Nachteile der Algorithmen beschrieben, sowie relevante Anwendungsbereiche zugeordnet ([Mic94]).
In diesem Rahmen beschäftigten sich vor allem Brazdil, Gama et al. in [Bra94] und
[Gam95] mit der Charakterisierung der Anwendbarkeit der Klassifikationsalgorithmen. Dabei
setzen sie in einem Meta-Lernschritt wiederum Methoden des Maschinellen Lernens für die
Organisation des Wissens über die Anwendbarkeit der Algorithmen ein. Aus den Testergebnissen sowie verschiedenen statistischen und informationstheoretischen Maßen werden Regeln
über die Anwendbarkeit abgeleitet. Wird das System auf neue Daten angewandt, werden dem
Benutzer Empfehlungen bezüglich der Eignung verschiedener Algorithmen gemacht, die nach
einem Eignungsmaß geordnet sind. Der dafür verwendete a-posteriori-Ansatz stößt bei der
praktischen Anwendung aber an seine Grenzen.
Hoppe stellt in [Hop96] verschiedene Kriterien zur Auswahl maschineller Lernverfahren
vor und führt dabei eine Menge von Dimensionen ein, die für die Beschreibung der Lernalgorithmen verwendet werden können. Eine Anwendung, Evaluierung der Ideen und ihre Implementierung in einem System stehen aber noch aus. Einen Ansatz für die Auswahl von Methoden im Bereich des Knowledge Engineering stellen Thonnat et al. in [Tho94] bereit.
2.2.3 Unterstützung der Auswahl von Methoden bei der Entdeckung von Wissen in
Datenbanken
Im Bereich der Entdeckung von Wissen in Datenbanken sind sowohl Ansätze für die Unterstützung der Auswahl von Vorverarbeitungsmethoden wie auch von Data-Mining-Methoden
zu finden.
Vorverarbeitung
Beim Ansatz von Theusinger, Engels und Lindner ([The98], [Eng98]) basiert die Auswahlentscheidung, wie auch bei anderen Ansätzen, auf Charakteristika der Daten (Metadaten), die einen vorliegenden Datensatz möglichst genau beschreiben. Für die Ermittlung der Metadaten
wurde das Data Characterisation Tool (DCT) entwickelt, das auch Teil des von Engels in
[Eng99] vorgestellten und in Abschnitt 2.1.3 erörterten UGM-Ansatzes ist. Die Vorverarbeitung der Daten besteht aus Methoden, die sich in die drei Klassen Datenbereinigung (Behandlung von Noise, Extremwerten, Redundanzen usw.), Veränderung der Dimension der Daten
(durch Generierung neuer Attribute, Filtern, Transformation usw.) und Veränderung der Datenmenge (durch Selektion, Sampling usw.) einteilen lassen. Aufgrund der Anwendbarkeitsbe-
28
KAPITEL 2. RELEVANTE ANSÄTZE FÜR WISSENSBASIERTE BENUTZERSCHNITTSTELLEN
dingungen der einzelnen Vorverarbeitungsmethoden lassen sich diese in einem Entscheidungsbaum beschreiben. Die Entscheidung wird dann durch die Metadaten der zu verarbeitenden
Daten parametrisiert. Die Metadaten werden als einfache Maße (Anzahl der Klassen, Anzahl
der numerischen Attribute usw.), informationstheoretische Maße (Attributentropie, Klassenentropie usw.) und statistische Maße (Lageparameter, also Minimum, Maximum, Mittelwert,
Quantilswert usw. sowie Streuungsparameter, also Standardabweichung, Quantilsabstand
usw.) klassifiziert. Die Bedeutung der statistischen Maße wächst dabei mit dem Anteil der numerischen Attribute in der Datenmenge.
Data Mining
Aufbauend auf die Ergebnisse von StatLog entwickelten Nakhaeizadeh und Schnabl in
[Nak97] und [Nak98] einen Ansatz zur Personalisierung der Algorithmenbewertung im Data
Mining. Im Gegensatz zu früheren Ansätzen verwenden sie dabei aus mehreren Kriterien zusammengesetzte, komplexe Maße. Schwerpunkt dabei ist die Berücksichtigung von qualitativen Eigenschaften der Data-Mining-Algorithmen und von Präferenzen von Benutzern, wie sie
beispielsweise die Erklärungskraft der Ergebnisse betreffen.
Ähnlich wie der StatLog-Ansatz rät auch der MLC++-Ansatz von Kohavi et al., alle verfügbaren Algorithmen zu bewerten, um für die vorliegende Aufgabenstellung den Algorithmus zu
wählen, der das beste Modell erzeugt ([Koh97). Die Kriterien für die Algorithmenbewertung
sind dabei Klassifikationsgenauigkeit, Verständlichkeit und Kompaktheit des Modells sowie
die Trainings- und Klassifikationsdauer. Basierend auf diesen Einflussfaktoren kann dann eine
Funktion zur Bewertung der Algorithmen entwickelt werden, auf die jedoch in der Literatur
nicht weiter eingegangen wird.
Lindner und Studer stellen in [Lin99] einen konkreteren Ansatz zur Unterstützung der Auswahl von Algorithmen beim Data Mining mit Mitteln des Case-Based-Reasoning vor. Basierend auf den Erfahrung aus dem MLT- und dem StatLog-Projekt wird die Algorithmenauswahl
anhand von Anforderungen der Aufgabenstellung (top-down), der Menge der verfügbaren Daten mit ihren charakteristischen Eigenschaften (bottom-up) und Wissen über die verfügbaren
Algorithmen getroffen. Die Erfahrungen bei der Anwendung eines bestimmten Algorithmus
auf eine bestimmte Datenmenge werden in einem Fall dokumentiert. Die Beschreibung eines
Falles besteht aus Erfahrungswerten über die Anwendung, grobe Charakteristika des Algorithmus (Interpretierbarkeit des entstehenden Modells, Trainingszeit, Testzeit) und Charakteristika
der Daten.
2.3 Zusammenfassung
In diesem Kapitel haben wir die wichtigsten Systeme für die Unterstützung von Benutzern bei
der Formulierung von Anfragen an Datenbank- und Data-Mining-Systeme gesammelt, sie
nach ihren primären Unterstützungsparadigmen klassifiziert und deren Vor- und Nachteile gegenüber gestellt. Dabei lässt sich erkennen, dass, obwohl sich für eine solche Anwendung
durchaus Vorteile aufzählen und nachweisen lassen, vor allem die Benutzerunterstützung mittels natürlicher Anfragesprachen kaum und wenn dann nur im Bereich von Datenbanksystemen vertreten ist.
Neben der Unterstützung bei der Formulierung von Anfragen war auch die Untersuchung
von Ansätzen und Systemen zur Unterstützung bei der Auswahl von Methoden der Statistik,
des Maschinellen Lernens und des Data Mining Thema dieses Kapitels. In diesem Bereich lassen sich Ansätze identifizieren, die eine konzeptionelle Basis auch für diese Arbeit darstellen
können. Dabei sind vor allem die Versuche zu erwähnen, die die verfügbaren Data-MiningMethoden auf der Basis ihrer Anwendbarkeit und weiterer Eigenschaften bewerten und in Ab-
2.3 ZUSAMMENFASSUNG
29
hängigkeit von der Beschreibung einer gegeben Problemstellung eine Auswahl vornehmen.
Dies wird dann auch Gegenstand unserer Ausführungen in Kapitel 7 sein.
30
KAPITEL 2. RELEVANTE ANSÄTZE FÜR WISSENSBASIERTE BENUTZERSCHNITTSTELLEN
KAPITEL 3 RELEVANTE ANSÄTZE ZUR BESCHREIBUNG DER
SEMANTIK VON FRAGEN
Fragen sind im alltäglichen Umgang die gebräuchlichste Art, neues Wissen zu erwerben, aber
auch bestehendes Wissen zu erweitern. Mittelstraß formuliert die Vollzugsbedingungen für
den Sprechakt Frage als
„ein Nicht-Wissen bezüglich des Fragethemas als auch ein vorgängiges anfängliches Wissen um dieses“
und weiter:
„Aus diesem Grund ist das Fragen als wissendes Nicht-Wissen immer wieder, zuerst von Sokrates, als paradigmatisch für die menschliche Erkenntnissituation angesehen worden.“ ([Mit80:686f.])
Eichler und Bünting beschreiben den Anlass für Fragen als das
„Bewußtsein des Fragenden, etwas nicht zu wissen, wohl aber zu wissen, daß da
etwas ist, und eben das wissen zu wollen“
verbunden mit der
„Annahme, der zu Fragende wisse die Antwort.“ ([Eic89:265])
Damit ist die Verwendung des Sprechakts Frage im Zusammenhang mit der Wissensentdeckung in Datenbanken also nicht nur grundsätzlich nahe liegend, sondern der direkteste Weg
zur Fokussierung auf Interessenschwerpunkte, der die menschlichen Kommunikationsgewohnheiten am genauesten abbildet.
Zu Beginn der vertieften Erörterung des Begriffs „Fragen“ folgen wir der Differenzierung
von Groenendijk und Stokhof, die drei unterschiedliche Verwendungen für den Begriff erkennen ([Gro98]):
1. Interrogativsatz: Art von Sätzen, die sich durch eine bestimmte Wortfolge, Intonation
und die Verwendung eines Fragewort und eines Fragezeichens auszeichnen.
2. Interrogativakt (interrogative act): Sprechakt, der durch die Aussprache eines Interrogativsatzes entsteht. Der Sprecher fordert damit den Adressaten auf, eine Information
einer bestimmten Art, also die Antwort, zu geben.
3. Objekt, das gefragt und das beantwortet wird: semantischer Inhalt oder Bedeutung
eines Interrogativs.
32
KAPITEL 3. RELEVANTE ANSÄTZE ZUR BESCHREIBUNG DER SEMANTIK VON FRAGEN
Walther ordnet in [Wal85] die Benennungen Fragesatz, Frage und Problem auf unterschiedlichen semiotischen Ebenen ein. Auf der in Tabelle 3 gezeigten syntaktischen Ebene ist ein
Fragesatz ein sprachlicher Ausdruck mit einer besonderen syntaktischen Form. Der Fragesatz
ist nicht identisch mit dem, was er meint (Frage auf der semantischen Ebenen) und nicht identisch mit dem bereits von Groenendijk und Stokhof erwähnten Sprechakt, der vollzogen wird,
wenn man den Fragesatz äußert. Damit wird bereits deutlich, dass, wie auch von Belnap und
Steele in [Bel76] festgestellt wird, einer Frage eine Menge untereinander gleichwertiger Fragesätze zugeordnet werden kann. Der Bezug von Fragen zu Aufgaben und Problemen wird so beschrieben:
„Man kann sagen, daß jemand, der eine Frage zum Ausdruck bringt – etwa indem
er einen Fragesatz äußert – , ein Problem entwirft und daß analog dazu, jemand,
der eine Aussage zum Ausdruck bringt, einen Sachverhalt entwirft. Eine Frage ist
ein Problementwurf.“ ([Wal85:38f.])
Auf der referentiellen Ebene wird damit einer Aussage ein Sachverhalt und einer Frage ein
Problem zugeordnet.
Syntaktische Ebene Wort
Aussagesatz
Fragesatz
Semantische Ebene Begriff
Aussage
Frage
Referentielle Ebene Gegenstand
Sachverhalt
Problem
Tabelle 3: Aufstellung der semiotischen Ebenen für ausgewählte
sprachliche Ausdrücke nach [Wal85].
Neben den Fragesätzen im engeren Sinne führt Walther auch Fragesätze im weiteren Sinne
auf, die keine Antworten erwarten und bezeichnet diese in [Wal85] als Scheinfragesätze:
1. Ausrufe: Was muss das für ein Wesen sein, das die Welt erschaffen hat?
2. Behauptungen: Habe ich Dich nicht immer schon vor ihm gewarnt?14
3. Aufforderungen: Würden Sie mir bitte das Salz reichen?
Im Folgenden werden wir von einer Untersuchungen dieser Scheinfragesätze absehen und
uns auf die Fragesätze im engeren Sinn konzentrieren.
3.1 Die erotetische Logik
Der Begriff der erotetischen Logik15 wurde 1955 für die Logik von Fragen und Antworten von
Prior und Prior in [Pri55] geprägt und sollte zunächst in Analogie zur Aussagenlogik verstanden werden. Dabei ist nach Belnap und Steele aber davon auszugehen, dass sich die Analogie
im Wesentlichen auf die Darstellung von Syntax und Semantik, nicht aber auf die Beweistheorie der Aussagenlogik bezieht ([Bel76]). Während Belnap und Steele jedoch Fragen einen
Wahrheitswert in Abhängigkeit von der Existenz wahrer Antworten zuweisen, geht Walther
davon aus, dass Fragen im Gegensatz zu Aussagen keinen Wahrheitswert haben, also weder
14
Scheinfragesätze dieser Art werden häufig auch als rhetorische Fragen bezeichnet.
15
Bei anderen Autoren, z.B. in [Mit80], wird die erotetische Logik auch als Interrogativ-Logik bezeich-
net.
33
3.1 DIE EROTETISCHE LOGIK
wahr noch falsch sind ([Wal85]). Dafür lassen Fragen nach Krifka noch bestimmte Alternativen offen, während eine Aussage alle Alternativen eliminiert ([Kri00]).
Bei einer ersten genaueren Untersuchung des Begriffs „Frage“ geht Frege bereits 1918 auf
die Unterscheidung zwischen Behauptung und Frage ein:
„Fragesatz und Behauptungssatz enthalten denselben Gedanken; aber der Behauptungssatz enthält noch etwas mehr, nämlich die Behauptung. Auch der Fragesatz enthält etwas mehr, nämlich eine Aufforderung.“ ([Fre18:62])
Darin begründet sich die später von Stenius in [Ste67] geprägte Idee der Satzradikalmethode, die davon ausgeht, dass Aussagen (Propositionen) und Interrogative ein gemeinsames Inhalts-Radikal haben und sich nur durch den Modus (deklarativ oder interrogativ) unterscheiden.
Bereits seit Aristoteles wird zwischen dialektischen und nicht-dialektischen Fragen unterschieden. In modernen Grammatiken der deutschen Sprache (z.B. [Eic89]) wird, dieser Idee
folgend, die Entscheidungsfrage16 von der Ergänzungsfrage17 differenziert:
• Entscheidungsfragen stellen einen Sachverhalt in Frage und zeichnen sich durch die
Voranstellung des finiten Verbs aus (Verb-erst-Stellungstyp, siehe Beispiel 5).
• Ergänzungsfragen dagegen verwenden ein Interrogativpronomen (W-Fragepronomen:
wer, was usw.) oder eine adverbielle Ergänzung (W-Adverb: wann, wo usw.), worauf
das Verb folgt (Verb-zweit-Stellungstyp, siehe Beispiel 5). Die Ergänzungsfrage kann
nicht mit „Ja“ oder „Nein“ beantwortet werden. Sie verlangt eine Antwort, die eine Ergänzung entweder in Form eines obligatorischen Satzgliedes (z.B. Wer hat das getan?)
oder in Form von adverbiellen Bestimmungen oder Ergänzungen (z.B. Wohin sind sie
gefahren?) liefert.
• Zusätzlich werden gemeinhin auch Alternativfragen betrachtet (siehe Beispiel 5), die die
Antwortalternativen explizit durch deren Aufzählung vorgeben und die Entscheidung für
eine davon fordern.18
Beispiel 5:
Arten von Fragen.
Entscheidungsfrage:
Ergänzungsfrage:
Alternativfrage:
Kommt Hans zum Essen?
Wer kommt zum Essen?
Kommt Hans oder kommt Max zum Essen?
Belnap und Steele greifen diese Unterscheidung auf und entwickeln darauf basierend Obund Welche-Fragen als Spezialfälle von elementaren Fragen ([Bel76]). Elementare Fragen setzen sich aus zwei Teilen zusammen:
• dem Subjekt, d.h. der Menge der (wahren und falschen) Antwortalternativen, und
• der Anforderung, die angibt, wie viele der wahren Alternativen in der Antwort gewünscht werden und welche Behauptungen über deren Vollständigkeit und Verschiedenheit gemacht werden sollen.
In Abhängigkeit von der Formulierung der Antwortalternativen lassen sich Ob- und Welche-Fragen dann folgendermaßen beschreiben:
16
auch als Ja-Nein-Frage oder Satzfrage bezeichnet.
17
auch als Bestimmungsfrage, Wortfrage oder W-Frage bezeichnet.
18
Alternativfragen werden häufig als Spezialfälle von Entscheidungsfragen betrachtet, spielen deshalb
in der vorliegenden Arbeit eine untergeordnete Rolle und werden in der Folge nicht weiter betrachtet.
34
KAPITEL 3. RELEVANTE ANSÄTZE ZUR BESCHREIBUNG DER SEMANTIK VON FRAGEN
• Ob-Fragen sind Fragen, deren Subjekte eine explizite, endliche Liste von Alternativen
präsentieren (siehe Beispiel 6).
• Welche-Fragen sind Fragen, deren Subjekte eine potenziell unendliche Menge von Alternativen präsentiert. Diese Fragen präsentieren ihre Alternativen unter Bezugnahme
auf eine Matrix (im Sinne einer offenen Formel) und eine oder mehrere Kategorienbedingungen. Durch die Einsetzung eines Wertes, der die Kategorienbedingung erfüllt, in
die Matrix wird eine Antwortalternative erzeugt (siehe Beispiel 6).
Eine direkte Antwort ist ein sprachlicher Ausdruck, der eine Frage vollständig, aber nicht
mehr als vollständig und unabhängig von ihrem Wahrheitsgehalt beantwortet. Die Menge der
direkten Antworten bestimmt sich dann aus der Menge der Alternativen, die entsprechend den
Bedingungen der Anforderungen zusammengesetzt sind.
Beispiel 6:
Ob- und Welche-Fragen. Die Ob-Frage Gibt es eine Primzahl, die kleiner ist als 5? definiert die folgende Menge von direkten Antworten: Es
gibt eine Primzahl, die kleiner ist als 5. und Es gibt keine Primzahl, die
kleiner ist als 5.
Die Welche-Frage Welche positive Zahl ist die kleinste ungerade Primzahl? dagegen präsentiert unendlich viele Alternativen unter Bezugnahme
auf die Matrix x ist die kleinste ungerade Primzahl und die Kategorienbedingung x ist eine positive ganze Zahl ([Bel76]).
Neben den elementaren Fragen führen Belnap und Steele vier weitere Arten von Fragen ein:
quasi-elementare Fragen, Warum-Fragen, zusammengesetzte Fragen und relativierte Fragen,
deren Relevanz für die vorliegende Arbeit aber gering ist. Einen erschöpfenden Überblick über
die verschiedenen Ansätze zur Beschreibung der erotetischen Logik geben Bäuerle und Zimmermann in [Bäu91].
3.2 Theorien zur Semantik von Fragen und Antworten
Bei der Beschreibung verschiedener Theorien zur Formalisierung der Semantik von Fragen
und Antworten folgen wir im Wesentlichen der Darstellung von Krifka in [Kri00]. Für die Formalisierung verwenden wir folgende Schreibweisen:
• Φ ist ein Satz.
• Die Bedeutung des Satzes Φ wird mit || Φ || bezeichnet. || Φ || kann als die Menge der
möglichen Welten I gesehen werden, in denen Φ wahr ist. Diese Menge auf der semantischen Ebene von Tabelle 3 bezeichnen wir als Propositionen oder Aussagen.
• i∈I ist eine Variable für eine mögliche Welt oder einen möglichen Zustand der Welt, der
auch im temporalen Sinne als „die Welt zu einem bestimmten Zeitpunkt“ gesehen werden kann.
• Für die Darstellung der charakteristischen Funktionen für die Abbildung auf die Menge
der Wahrheitswerte verwenden wir Lambda-Terme der Form λx [...x...], bei denen x die
Variable ist, die der Lambda-Term bindet.
Die Verwendung dieser Schreibweisen ist in Beispiel 7 mit einem Aussagesatz illustriert.
Beispiel 7:
Semantik eines Aussagesatzes. Die Bedeutung der Aussage Paris ist die
Hauptstadt von Frankreich. lässt sich folgendermaßen beschreiben:
3.2 THEORIEN ZUR SEMANTIK VON FRAGEN UND ANTWORTEN
35
|| Paris ist die Hauptstadt von Frankreich. || =
{i | Paris ist die Hauptstadt von Frankreich in i} =
λi [Paris ist die Hauptstadt von Frankreich in i]
Damit ergibt sich die Menge der Welten i, in denen die Aussage zutrifft
und angewendet auf eine bestimmte Welt i0 erhalten wir einen Wahrheitswert (wahr, wenn Paris in i0 die Hauptstadt von Frankreich ist, und falsch,
wenn nicht).
Eine Frage ist ein Sprechakt, der einen anderen Sprechakt, die Antwort, erwartet. Fragen
können daher nicht unabhängig von Antworten beschrieben werden. Für die Beantwortung
von Fragen, z.B. Was ist die Hauptstadt von Frankreich?, sind zwei Formen möglich:
• Langantworten: Vollständige Sätze (Aussagen), z.B. „Paris ist die Hauptstadt von
Frankreich.“.
• Kurzantworten: Ein oder zwei Wörter, die als Antwort verstanden werden, z.B. „Paris“.
In den folgenden Abschnitten werden wir verschiedene Theorien zu Darstellung der Semantik verschiedener Arten von Fragen darstellen. Wir stützen uns bei der Betrachtung der Semantik von Fragen und ihrer Antworten auf die Postulate von Hamblin ([Ham58]):
1. An answer to a question is a statement.
2. Knowing what counts as an answer is equivalent to knowing the question.
3. The possible answers to a question are an exhaustive set of mutually exclusive
possibilities.
Groenendijk und Stokhof diskutieren diese Postulate in [Gro98] ausführlich und kritisieren
vor allem die Annahmen, dass sich für jede Frage eine Antwort finden lässt (existence assumption) und dass es in einer bestimmten Situation zu einer Frage niemals mehr als eine wahre und
vollständige Antwort gibt (uniqueness assumption).
3.2.1 Die funktionale Theorie der Semantik
Die funktionale Theorie der Semantik geht auf die Analyse von Ginzburg in [Gin95] zurück
und basiert auf der Idee, dass die Bedeutung einer Frage sich aus der Bedeutung der Kurzantworten auf die Frage ergibt. Damit ist die Bedeutung der Frage eine Funktion, die, wenn sie
auf die Bedeutung der Kurzantwort angewendet wird, eine Proposition ergibt, die der Langantwort entspricht. Die funktionale Theorie legt also Kurzantworten als die eigentlichen Antworten zugrunde. Beispiel 8 nach [Kri00] zeigt die Ableitung der Langantwort aus der Kurzantwort und die Ermittlung der Semantik mittels der funktionalen Theorie. Der Beitrag des Frageworts besteht in einer Restriktion der Funktion, die im Sinne von Präsuppositionen19 annimmt,
dass es sich beispielsweise bei der Antwort im Falle des Frageworts „wen?“ um eine Person
und im Falle von „was?“ um einen Gegenstand handelt.
19
Eine Frage F präsupponiert eine Aussage A genau dann, wenn die Wahrheit von A eine logische Bedingung dafür ist, dass es eine wahre Antwort auf F gibt ([Bel76]).
36
KAPITEL 3. RELEVANTE ANSÄTZE ZUR BESCHREIBUNG DER SEMANTIK VON FRAGEN
Beispiel 8:
Funktionale Theorie der Semantik.
Frage:
Wen sah Goethe?
Kurzantwort: Schiller.
Langantwort: Goethe sah Schiller.
|| Wen sah Goethe? || (|| Schiller ||) =
λi[Goethe sah Schiller in i] =
|| Goethe sah Schiller. ||
Die Bedeutung der Frage ergibt sich dann als:
|| Wen sah Goethe? || ≈
|| λx[Goethe sah x] || =
λxλi[Goethe sah x in i]
Der Wertebereich der Antwort lässt sich schließlich durch das Fragewort
einschränken:
|| Wen sah Goethe? || = λx∈PERSON λi[Goethe sah x in i]
|| Was sah Goethe? || = λx∈DING λi[Goethe sah x in i]
3.2.2 Die propositionale Theorie der Semantik
Das in Abschnitt 3.2 aufgeführte zweite Postulat von Hamblin20 bildet die Grundlage für die
propositionale Theorie der Semantik, die von Harrah in [Har84] auch als Antwortmengen-Methode (set-of-answers-methodology) bezeichnet wird. Im Sinne von Hamblin argumentieren
auch Vanderveken mit
„To understand a question is to understand what counts as an answer.“ ([Van90])
sowie Belnap und Steele mit
„The meaning of a question addressed to a query system […] is to be identified
with the range of answers that the question permits.“ ([Bel76:2]).
Dieser Ansatz geht davon aus, dass Antworten Propositionen sind und Fragen damit als
Mengen von kongruenten Propositionen21 dargestellt werden können. Im Falle von Entscheidungsfragen können diese als explizite Aufzählungen und im Fall von Ergänzungsfragen als
Eigenschaften von Propositionen angegeben werden. Während die funktionale Theorie die
Kurzantworten als Grundlage verwendet, stützt sich die im Folgenden beschriebene propositionale Theorie der Semantik auf die Langantworten. Die Definition der Menge der Antworten
lässt noch Varianten zu:
• Alle möglichen oder nur wahre Antworten werden in der Antwortmenge betrachtet.
Oder:
• Die Menge der wahren Antworten kann exhaustiv als die Antwort verstanden werden
oder als Menge, aus der ausgewählt werden kann.
20
21
„Knowing what counts as an answer is equivalent to knowing the question.“ ([Ham58])
Eine Proposition ist kongruent zu einer Frage, wenn sie ein Element der Fragebedeutung ist. Eine
nicht kongruente Proposition zur Frage Wen sah Goethe? wäre Es regnet!.
3.2 THEORIEN ZUR SEMANTIK VON FRAGEN UND ANTWORTEN
37
Bei der propositionalen Theorie wird das Fragewort als restringierter Existenzquantor betrachtet. Die Beispiele 9 und 10 nach [Kri00] stellen die Ermittlung der Semantik von Entscheidung- und Ergänzungsfragen mittels der propositionalen Theorie der Semantik dar.
Beispiel 9:
Propositionale Theorie der Semantik: Entscheidungsfrage.
Frage:
Sah Goethe Schiller?
Antwortalternativen: {Goethe sah Schiller, Goethe sah Schiller nicht}
|| Sah Goethe Schiller? || =
{λi[Goethe traf Schiller in i],
λi[Goethe traf Schiller nicht in i]}
Beispiel 10: Propositionale Theorie der Semantik: Ergänzungsfrage.
Frage:
Wen traf Goethe?
Antwortalternativen: {Goethe traf Schiller, Goethe traf Herder, Goethe
traf Wieland, ...}
|| Wen sah Goethe? || =
{p | ∃x∈PERSON und p = λi [Goethe sah x in i]} =
{λi[Goethe sah x in i] | x∈PERSON}
Bäuerle und Zimmermann geben in [Bäu91] einen fundierten Überblick über die Antwortmengen-Methode und stellen darin vor allem die „Affinität der Methode zu einer formalen Semantik, die auf mengentheoretischen Konzepten beruht“ ([Bäu91:341]) heraus.
3.2.3 Die Konstruktion von komplexen Fragebedeutungen
Bei Ermittlung der Semantik von zusammengesetzten Elementen, z.B. komplexen Fragen,
wird durchgängig das von Frege in [Fre18] entwickelte Kompositionalitätsprinzip22 verwendet:
Die Bedeutung eines komplexen Ausdrucks ist abhängig von der Bedeutung seiner
unmittelbaren syntaktischen Teile und der Art und Weise, wie sie zusammengefügt
sind.
Im Sinne einer kompositionalen Interpretation bedeutet dies, dass die Bedeutung einer Frage auf die Bedeutung der Teilsätze zurückgeführt wird.23 Krifka leitet in [Kri00] daraus eine
allgemeine Kompositionalitätsregel ab: die Bedeutung einer komplexen Konstituente errechnet sich damit, indem die Elemente in den Bedeutungen der Teilausdrücke in jeder möglichen
Weise kombiniert und die Resultate wieder in einer Menge zusammenfasst werden.
22
Das Kompositionalitätsprinzip von Frege wird auch als „zentrale These der Semantik“ oder „Frege’sches Prinzip“ bezeichnet.
23
Fuhrmann erwähnt in [Fuh98] in diesem Zusammenhang auch das mereologische Frege-Prinzip, das
besagt, dass der Sinn eines Teilausdrucks eines komplexen Ausdrucks in einer Teil-Ganzes-Beziehung
zum Sinn des komplexen Ausdruck steht.
38
KAPITEL 3. RELEVANTE ANSÄTZE ZUR BESCHREIBUNG DER SEMANTIK VON FRAGEN
3.2.4 Exhaustive und nicht-exhaustive Semantik
Hamblin geht in [Ham58] davon aus, dass die Menge der Antworten zu einer Frage nicht-exhaustiv verstanden wird, dass also bei der Frage „Wer geht?“ die Antwort „Goethe geht.“
vollständig ist und nicht ausschließt, dass auch andere Personen gehen.
Bei einer exhaustiven Interpretation wäre die Antwort „Goethe geht“ dagegen unvollständig, wenn weitere Personen gehen. Groenendijk und Stokhof schlagen deshalb vor, dass eine
Fragen die Menge aller möglichen Welten partitioniert, d.h. in nicht überlappende und die
Menge aller Welten ausschöpfenden Zellen zerlegt ([Gro84]). Es ist bleibt aber fragwürdig, ob
Antworten immer exhaustiv verstanden werden können (selbst wenn sie nicht durch Zusätze
wie „zum Beispiel“ als unvollständig markiert werden), wie Beispiel 11 zeigt. Die beiden Ansätze sind in den Tabellen 4 und 5 graphisch aufbereitet.
Goethe und Schiller gehen.
Goethe geht.
Schiller geht.
Niemand geht.
Tabelle 4: Nicht-exhaustive Interpretation nach Hamblin.
Goethe und Schiller gehen.
Goethe geht.
Schiller geht.
Niemand geht.
Tabelle 5: Exhaustive Interpretation nach Groenendijk und Stokhof.
Beispiel 11:
Probleme der exhaustiven Interpretation.
Frage:
Wo kann ich in Berlin die New York Times kaufen?
Antwort: Am Bahnhof Friedrichstraße.
Als Kompromisslösung zwischen den beiden Ansätzen schlägt Krifka in [Kri00] vor, Fragen nicht generell als exhaustiv zu definieren, sie aus Gründen der pragmatischen Informationsmaximierung aber exhaustiv zu verstehen.24
Nach dieser Untersuchung von unterschiedlichen Ansätzen zur Beschreibung der Semantik
von Fragen wenden wir uns nunmehr dem Einsatz von Fragen als „wissendes Nicht-Wissen“
beim Wissenserwerb zu.
3.3 Fragen als Instrumente des Wissenserwerbs
Im Bereich des Textverstehens führt Ram in [Ram91] den Begriff der Wissensziele (knowledge goals) ein, also die Ziele einer Person bei der Lektüre von Texten, sich bestimmte Wissenselemente für die Lösung von bestimmten Denkaufgaben anzueignen. Fragen bilden die
Grundlage für die Erreichung dieser Wissensziele und entstehen aus der Interaktion zwischen
Interessen und Zielen des Menschen und Information aus der Umgebung. Vor allem, wenn das
Modell des Menschen über eine Domäne in irgendeiner Weise inadäquat oder unvollständig
erscheint, werden Wissensziele definiert, um diese Unzulänglichkeiten zu korrigieren. Im De24
im Sinne von: Make your contribution as informative as is required!
39
3.3 FRAGEN ALS INSTRUMENTE DES WISSENSERWERBS
tail beschreibt Ram drei Arten, wie durch Lücken im Domänenwissen des Menschen Fragen
entstehen können:
• Neuartige Situation: Die Person hat keinen anwendbaren Fall und kein Schema für die
vorliegende Situation zur Verfügung.
• Fehlindiziertes Wissen: Die Person hat zwar einen anwendbaren Fall oder ein Schema
zur Verfügung, kann darauf aber nicht zugreifen, weil die Kriterien, unter denen der Fall
oder das Schema abgelegt wurden, nicht auf die Situation passen.
• Falsches oder nur teilweise verstandenes Wissen: Frühere Erfahrungen in neuartigen
Situationen wurden nicht oder nur teilweise verstanden. Damit sind die Fälle oder die
Schemata inkorrekt oder unvollständig.
Die Wissensziele im Bereich des Textverstehens teilt Ram in die Kategorien Textziele (syntaktische und semantische Analyse des Textes), Gedächtnisziele (Assoziation zwischen neuen
und bestehenden Aspekten), Erklärungsziele (Herstellen von kausalen Zusammenhängen zwischen Elementen des Textes) und Relevanzziele (Suche nach Textaspekten, die für die eigene
Situation relevant sind) ein. Der Zweck der Textrezeption besteht für den Leser natürlich darin,
Antworten auf seine Fragen zu finden, um zu einem lückenloseren Verständnis in der durch
den Text beschriebenen Domäne zu gelangen. In dem in Abbildung 7 nach [Ram91] illustrierten Prozess der Textrezeption entstehen aber kontinuierlich neue Fragen, die das Verständnis
weiterer Texte leiten und deren Interpretation beeinflussen werden.
Neue Fragen
Text
Parser
Antworten
Fragen
Gedächtnis
Abbildung 7: Der Prozess der Textrezeption nach [Ram91].
Graesser et al. entwickeln in [Gra92a] eine Taxonomie von Fragen aufgrund von abstrakten
Kategorien ihrer Semantik und nicht aufgrund von syntaktischen oder lexikalischen Kriterien
(z.B. Art des Fragepronomens). Die theoretische Grundlage dafür bilden die von Lehnert in
[Leh78] gesammelten zwölf Fragekategorien für eine Berechnungstheorie für die Beantwortung von Fragen im Bereich der künstlichen Intelligenz. Zu den 18 von Graesser et al. gesammelten Kategorien, die sich für diese Arbeit als relevant erweisen, zählen:
• die Verifikation (Ist eine Tatsache wahr?),
• der Vergleich (Wie ähnelt Instanz X Instanz Y?),
• die Spezifikation von qualitativen und quantitativen Eigenschaften (Welche Eigenschaften hat eine Instanz?) und
• kausale Nachfolgebeziehungen (Was sind die kausalen Folgen eines Ereignisses?).
Wie auch schon Ram begeben sich Graesser et al. auf die Suche nach Mechanismen, die
Fragen erzeugen, und stoßen dabei auf vier Hauptkategorien:
• Überprüfung des gemeinsamen Standpunkts,
• Soziale Absprache von Handlungen,
• Steuerung von Konversationen und Handlungen und
40
KAPITEL 3. RELEVANTE ANSÄTZE ZUR BESCHREIBUNG DER SEMANTIK VON FRAGEN
• Korrektur von Wissensdefiziten, die auf Unvollständigkeit oder Fehlern beruhen.
Im Falle dieser letzten Kategorie wird eine Frage gestellt in der Hoffnung, durch deren Antwort Informationen für die Korrektur der Wissenslücke zu finden. Diese Kategorie, die wir
aufgrund ihrer thematischen Relevanz für die vorliegende Arbeit gesondert betrachten wollen,
lässt sich weiter in die folgenden Unterkategorien zerlegen:
• Hindernisse bei der Planung oder Problemlösung,
• Entscheidungen zwischen Alternativen, die gleichermaßen attraktiv erscheinen,
• Verständnislücken und
• Widersprüche.
Diese Vorüberlegungen werden von Graesser et al. in [Gra92b] für die Konzeption des Frage-Antwort-Systems QUEST verwendet, das sich damit den folgenden Annahmen unterwirft:
Es gibt eine begrenzte Menge von Fragekategorien (siehe oben), jede Kategorie hat eine eindeutige Menge von Fragebeantwortungsstrategien und jede Frage ist einer der oben genannten
Fragekategorien zugeordnet.
3.4 Zusammenfassung
In diesem Kapitel haben wir die Natur und das Wesen von Fragen und Antworten als Instrumente des täglichen Sprachgebrauchs betrachtet. Dafür sind wir nach einer kurzen Beschreibung der Syntax von Fragen in der deutschen Sprache auf verschiedene Methoden zur Beschreibung ihrer Semantik eingegangen. Für die Beschreibung der Semantik von komplexeren
Fragebedeutungen stellten wir das Frege’sche Kompositionalitätsprinzip vor. Den Abschluss
des Kapitels bildete eine Untersuchung von Zielen, die bei der Formulierung von Fragen allgemein und beim Lesen von Texten im Speziellen verfolgt werden.
Für die vorliegende Arbeit sind besonders die syntaktische Analyse und Klassifikation von
Fragen sowie die Methoden zur Beschreibung ihrer Semantik von Bedeutung. Diese werden
wir in den Kapiteln 5 und 6 wieder aufgreifen und bei der Konzeption der Sprache für die Formulierung von Fragen von Fachexperten als methodische Grundlage verwenden. Davor werden wir aber im nun folgenden Kapitel die Grundidee des QUESTUS-KDD-Ansatzes vorstellen.
KAPITEL 4 DER QUESTUS-KDD-ANSATZ DER WISSENSBASIERTEN
BENUTZERUNTERSTÜTZUNG
Nachdem wir in den vorhergehenden Kapitel bestehende Ansätze von wissensbasierten Benutzerschnittstellen in verschiedenen Bereichen analysiert und uns mit Syntax, Semantik und Zielen von Fragen beim Erwerb von Wissen beschäftigt haben, wollen wir in den folgenden Kapiteln unseren Ansatz vorstellen: Der Ansatz des Question-Driven User Support für Knowledge
Discovery in Databases (QUESTUS-KDD) erlaubt es Fachexperten mit geringem Datenbankund Data-Mining-Wissen, auf diese Technologien zuzugreifen und in weitgehend natürlicher
Sprache über Fragen und Antworten mit dem System zu kommunizieren.
In diesem Kapitel beschreiben wir das Konzept des QUESTUS-KDD-Ansatzes mit den Anforderungen, die in die Konzeption eingeflossen sind, dem Prozess von Anfrageformulierung
und Ergebnislieferung und dem konzeptionellen Rahmenmodell. In den darauf folgenden Kapiteln werden wir auf die wichtigsten Bestandteile des QUESTUS-KDD-Ansatzes im Detail
eingehen.
4.1 Die Anforderungen an die Realisierung des Benutzerunterstützung
Aus der Analyse bestehender Ansätze aber vor allem auch aus den Erfahrungen in verschiedenen Projekten haben sich die folgenden Anforderungen an die Realisierung der Benutzerunterstützung ergeben:
Erfassbarkeit komplexer Aussagen und Muster
Ziel bei der Konzeption der Benutzerunterstützung bei der Entdeckung von Wissen in Datenbanken ist es, dem Benutzer Hilfsmittel für die gesamte Breite und Funktionalität der zugrunde
liegenden Analysealgorithmen zur Verfügung zu stellen, soweit dies mit vertretbarem Aufwand möglich ist. Das beinhaltet, dass auch die Formulierung von Anfragen, die nur durch die
Ermittlung komplexerer Ergebnisse beantwortet werden können, unterstützt wird und auch
diese Ergebnisse wiederum in entsprechende Antworten übersetzt werden können.
Transparenz
Um den Eindruck des Systems für den Benutzer als „Black Box“ zu vermeiden und bei den
Folgen von Transformationsschritten die Gefahr einer „Stillen-Post“-Übermittlung zu reduzieren, müssen die Prozessschritte und deren Ergebnisse – soweit dies mit den Zielen des Invisible Data Mining vereinbar ist – für den Benutzer transparent gemacht werden. So müssen die
Ergebnisse interner Transformationsschritte für den Nutzer zumindest auf Anfrage möglichst
fachexpertengerecht dargestellt werden, um zum einen Verständnis und Akzeptanz des Vorgehens zu fördern und zum anderen eine Überprüfung der Korrektheit der Transformationen zu
ermöglichen.
42
KAPITEL 4. DER QUESTUS-KDD-ANSATZ DER WISSENSBASIERTEN BENUTZERUNTERSTÜTZUNG
Modularität
Durch die generelle Anforderung nach Erweiterbarkeit und Portierbarkeit des Ansatzes ergibt
sich die Notwendigkeit eines modularen Aufbau des Gesamtsystems aber vor allem auch der
Wissensbasis. Darüber hinaus wird eine weitere Modularisierung entsprechend der Allgemeingültigkeit der Konzepte notwendig: Allgemeine Konzepte wie Standardfragen oder Standardmethoden sind dabei von solchen zu trennen, die nur im Rahmen einer Anwendungsdomäne
verwendbar sind. Daraus ergibt sich die Forderung nach Modulen der Wissensbasis, die allgemeine Objekte beschreiben, und ebenfalls modularen, domänenspezifischen Erweiterungen.
Diese weiterführenden Anforderungen nehmen wir zusammen mit den in Abschnitt 1.3.1
beschriebenen Zielen als Grundlage für die Konzeption des Ansatzes.
4.2 Der Prozess der Formulierung und Beantwortung von Fragen
Für den Aufbau eines konzeptionellen Rahmens für die Unterstützung bei der Sammlung von
Informationen durch Fragen und Antworten beschreiben wir zunächst in Abbildung 8 den allgemeinen Prozess unabhängig vom technologischen Hintergrund von Datenbanken und Data
Mining.
Aufgabe
Wissensziel
Ausgangszustand
Vorwissen
(Hypothesen,
etc.)
Auswahl
Abstraktionsniveau
und Formulierung
der Frage
Erweiterung des
Wissenskontexts
Strukturieren der
neuen Fragen
Stellen
der Frage
Ja
Erklärung
plausibel?
Beantwortung
der Frage
Erklärungsversuch
Frage
beantwortet?
Nein
Ja
Nein
Abbildung 8: Der allgemeine Prozess der Formulierung und
Beantwortung von Fragen.
Aufwerfen neuer
Fragen
43
4.3 DAS QUESTUS-KDD-VERARBEITUNGSMODELL
In diesem Modell gehen wir davon aus, dass der Benutzer den Prozess des Wissenserwerbs
vor dem Hintergrund einer konkreten Aufgabe beginnt. Diese Aufgabe ist domänenabhängig
und könnte im Bereich des medizinischen Qualitätsmanagements beispielsweise die Steigerung der Effizienz therapeutischer Maßnahmen darstellen. Diese Aufgaben sind Teile des Domänenmodells, das Müller in [Mül98] aufbaut, und stellen die Grundlage für die Ableitung
von Wissenszielen dar. Im vorliegenden Fall könnte ein solches Wissensziel die Erforschung
der Ursachen von Komplikationen als effizienzreduzierende Ereignisse sein. In Kombination
mit dem Vorwissen des Experten, z.B. dass Komplikationen vor allem in einer bestimmten
Klinik auftreten und die Ursachen möglicherweise mit der Reihenfolge der Leistungserbringung zusammenhängen, definiert das Wissensziel den Ausgangszustand für einen Analysezyklus.25
Der Ausgangszustand stellt also das „wissende Nicht-Wissen“ ([Mit80], siehe auch Kapitel
3) des Experten dar. Dieses erlaubt ihm die Formulierung einer Frage auf einem geeigneten
Abstraktionsniveau. Nachdem diese gestellt und von einer unabhängigen Instanz eine Antwort
darauf geliefert wurde, ist vom Experten zu entscheiden, ob die Frage damit für ihn ausreichend beantwortet ist. Falls dem so ist, wird der Experte mit Hilfe der Antwort versuchen, den
hinterfragten Sachverhalt zu erklären. Falls eine plausible Erklärung gefunden werden kann,
wird der Experte damit seinen Wissenskontext erweitern, was sich beim erneuten Stellen einer
Frage als verändertes Vorwissen äußern wird. Reicht die Antwort nicht aus, um die Frage zu
beantworten, oder lassen sich keine plausiblen Erklärungen finden, werden neue Fragen aufgeworfen. Diese wird der Experte zunächst mental strukturieren und ordnen, bevor er eine Frage
davon auswählt und stellt.
4.3 Das QUESTUS-KDD-Verarbeitungsmodell
Wir verwenden nun das allgemeine Prozessmodell sowie das in Abbildung 2 dargestellte Ebenenmodell und fokussieren vor dem technologischen Hintergrund von Datenbanken und Data
Mining das in Abbildung 9 dargestellte QUESTUS-KDD-Verarbeitungsmodell.
KD-Antworten
KD-Fragen
q1
q5
q6
q7
Beziehung von KD-Antworten
zu KD-Fragen
a1
a2
q4
q3
q2
Prozessablauf
q8
q9
a5
a3
a6
a7
a4
a8
Verfeinerung
a9
Transformation
Rücktransformation
u1 u2 u3 u4 u5 u6
u7 u8 u9 u10 u11 u12
u13 u14 u15 u16 u17 u18
u19 u20 u21 u22 u23 u24
u25 u26 u27 u28 u29 u30
u31 u32 u33 u34 u35 u36
DM-Anfragen
r1 r2 r3 r4 r5 r6 r7 r8
r9 r10 r11 r12 r13 r14 r15 r16
r17 r18 r19 r20 r21 r22 r23 r24
r25 r26 r27 r28 r29 r30 r31 r32
r33 r34 r35 r36 r37 r38 r39 r40
r41 r42 r43 r44 r45 r46 r47 r48
r49 r50 r51 r52 r53 r54 r55 r56
r57 r58 r59 r60 r61 r62 r63 r64
DM-Ergebnisse
Abstraktion
Erzeugung von DM-Ergebnissen
aus DM-Anfragen
qi
ui
ri
ai
KD-Frage
DM-Anfrage
DM-Ergebnis
KD-Antwort
Abbildung 9: Das sprachorientierte QUESTUS-KDD-Verarbeitungsmodell.
25
Hier erkennen wir eine Parallele zu den in [Ram91] vorgeschlagenen knowledge goals (siehe dazu
auch Abschnitt 3.3).
44
KAPITEL 4. DER QUESTUS-KDD-ANSATZ DER WISSENSBASIERTEN BENUTZERUNTERSTÜTZUNG
Wie bereits in Abschnitt 1.1 beschrieben, sind in den Prozess der Entdeckung von Wissen
in Datenbanken verschiedene Experten involviert, z.B. Fachexperten und Analyseexperten, die
jedoch unterschiedliche Fachsprachen sprechen. Aus diesem Grund führen wir, wie in Abbildung 9 gezeigt, eine sprachorientierte vertikale Trennung der Ebenen durch. Die horizontale
Achse trennt damit die Sprachwelt eines Domänen- oder Fachexperten und die eines Statistikers oder Data-Mining-Experten: Wie ebenfalls schon in früheren Abschnitten beschrieben,
formuliert der Fachexperte seine Fragen üblicherweise ohne vertieftes Wissen über Daten, Statistik und Data-Mining-Methoden in der für seine Domäne typischen Fachsprache. Die obere
Sprachebene, die wir als Knowledge-Discovery-Ebene (KD-Ebene) bezeichnen, erlaubt Fachexperten die Formulierung von Fragen, die von spezieller Datenbank- und Data-Mining-Terminologie abstrahiert, und die Beantworten in derselben Sprache. Auf der unteren Sprachebene, die wir Data-Mining-Ebene (DM-Ebene) nennen, werden in einer formaleren Sprache Aufrufe von statistischen Tests oder Data-Mining-Methoden formuliert. Die vertikale Achse trennt
Fragen von Antworten auf der KD-Ebene bzw. Anfragen und Ergebnisse als Analogon auf der
DM-Ebene.
Für die Bezeichnung der Objekte auf der Frageseite der KD-Ebene führen wir den Begriff
der KD-Frage ein und definieren ihn unter Verwendung der Knowledge Discovery Question
Language (KDQL), die wir in den folgenden Kapiteln im Detail beschreiben, wie folgt:
Definition 1:
KD-Frage. Eine KD-Frage ist die auf KDQL abgebildete natürlichsprachliche Frage des Fachexperten.
KD-Fragen werden vom Fachexperten formuliert und stoßen den Beantwortungsprozess an.
Die KD-Fragen werden anschließend im QUESTUS-KDD-Ansatz analysiert und mit der KDFrage-Expansion schrittweise in neue KD-Fragen auf einem niedrigeren Abstraktionsniveau
übersetzt.
Definition 2:
KD-Frage-Expansion. Der Prozess der KD-Frage-Expansion ist die Erzeugung einer Menge von KD-Fragen, bei denen jeweils genau eines der
Elemente von KDQL durch ein spezielleres Konzept belegt ist, aus einer
KD-Frage.
Hat eine ausreichende Expansion (siehe dazu auch Abschnitt 7.2) stattgefunden, können die
expandierten KD-Fragen in eine Menge von DM-Anfragen, die auf der Frageseite der DMEbene in das Modell eingeordnet sind, übersetzt werden. Diese Übersetzung bezeichnen wir
als KD-DM-Transformation und definieren sie folgendermaßen:
Definition 3:
KD-DM-Transformation. Der Prozess der KD-DM-Transformation ist
die Erzeugung einer Menge von DM-Anfragen aus einer KD-Frage, wobei die Ergebnisse der Ausführung der DM-Anfrage geeignet sind, Hinweise für die Beantwortung der KD-Frage zu liefern.
Den Begriff der DM-Anfrage definieren wir unter Verwendung der Data Mining Algorithm
Query Language (DMAQL), die wir im Detail in Abschnitt 7.1.1 beschreiben, wie folgt:
Definition 4:
DM-Anfrage. Eine DM-Anfrage ist ein in DMAQL formulierter Ausdruck, der, unabhängig von den Anforderungen einer konkreten Implementierung eines Data-Mining-Algorithmus, alle Elemente für die korrekte und vollständige Konfiguration eines Datenanalyselaufs liefert.
4.3 DAS QUESTUS-KDD-VERARBEITUNGSMODELL
45
Aufgrund ihrer Unabhängigkeit von Implementierungen von Algorithmen müssen DM-Anfragen noch einmal transformiert werden, bevor sie von einem Data-Mining-System als Eingabe verstanden werden können.26 Diese Eingaben bezeichnen wir als DM-System-Anfragen:
Definition 5:
DM-System-Anfrage. Eine DM-System-Anfrage ist ein für eine konkrete Implementierung eines Data-Mining-Algorithmus formulierter
Ausdruck in einer implementierungsabhängigen Sprache, der alle Elemente für die korrekte und vollständige Konfiguration eines Datenanalyselaufs liefert.
Die Abbildung auf implementierungsabhängige Anfrageformulierungen geschieht im Prozess der DM-Anfrage-Spezialisierung, den wir folgendermaßen definieren:
Definition 6:
DM-Anfrage-Spezialisierung. Der Prozess der DM-Anfrage-Spezialisierung ist die Erzeugung einer implementierungsabhängigen DM-System-Anfrage aus einer DM-Anfrage.
Die dem Datenanalyseprozess zugrunde liegenden statistischen und Data-Mining-Algorithmen verwenden die DM-System-Anfragen als Spezifikation der Eingabeparameter und liefern
daraufhin eine Menge von Ergebnissen zurück, die wir als DM-System-Ergebnis bezeichnen:27
Definition 7:
DM-System-Ergebnis. Ein DM-System-Ergebnis ist die Ausgabe einer
konkreten Implementierung eines Data-Mining-Algorithmus aufgrund
der Eingabe einer DM-System-Anfrage.
Aus dieser Definition geht hervor, dass die Repräsentation des Ergebnisses (üblicherweise
in tabellarischer Form mit variierenden Spalten) noch abhängig ist von der vorliegenden Implementierung des Algorithmus. Um ein Ergebnis allgemein und implementierungsunabhängig
zu beschreiben, wird die DM-Ergebnis-Generalisierung durchgeführt. Diese definieren wir wie
folgt:
Definition 8:
DM-Ergebnis-Generalisierung. Der Prozess der DM-Ergebnis-Generalisierung ist die Erzeugung eines implementierungsunabhängigen DMErgebnisses aus einem DM-System-Ergebnis.
Resultat der DM-Ergebnis-Generalisierung ist das DM-Ergebnis.
Definition 9:
DM-Ergebnis. Ein DM-Ergebnis ist die implementierungsunabhängige
Beschreibung eines DM-System-Ergebnisses.
Um die formale Beschreibung der DM-Ergebnisse wieder in eine für den Benutzer verständliche, natürlichsprachliche Form zu bringen, setzten wir die DM-KD-Transformation ein,
die wir wie folgt definieren:
26
Die Stufe, auf der DM-System-Anfragen und DM-System-Ergebnisse zu finden sind, geht über die in
Abbildung 9 dargestellten Ebenen hinaus, da es sich hier nicht um eine neue Sprachebene, sondern um
eine Konkretisierung auf derselben Sprachebene handelt.
27
Wir verzichten im Rahmen der vorliegenden Arbeit auf eine genauere Untersuchung der Analysealgorithmen und betrachten diese stattdessen als „Black Box“.
46
KAPITEL 4. DER QUESTUS-KDD-ANSATZ DER WISSENSBASIERTEN BENUTZERUNTERSTÜTZUNG
Definition 10: DM-KD-Transformation. Der Prozess der DM-KD-Transformation ist
die Erzeugung einer KD-Antwort aus einer nichtleeren Menge von DMErgebnissen.
Das Resultat der DM-KD-Transformation und das Ziel des Fragestellers ist die Formulierung einer KD-Antwort in der Knowledge Discovery Answer Language (KDAL), die wir in
den folgenden Kapiteln im Detail beschreiben.
Definition 11: KD-Antwort. Eine KD-Antwort ist ein in KDAL formulierter Ausdruck, der einen eindeutigen Bezug zu einer KD-Frage hat und diese
vollständig beantwortet.
Die Menge der KD-Antworten lässt sich zusammenfassen und verdichten, wodurch aus
konkreten KD-Antworten, die einen direkten Bezug zu konkreten KD-Fragen haben, abstraktere KD-Antworten mit Bezug zu abstrakteren KD-Fragen werden. Hierfür führen wir die KDAntwort-Kontraktion ein.
Definition 12: KD-Antwort-Kontraktion. Der Prozess der KD-Antwort-Kontraktion
ist die Verdichtung einer nichtleeren Menge von KD-Antworten zu einer
abstrakteren KD-Antwort.
Diese Objekte und Teil-Prozesse bilden die Grundlage für die in dieser Arbeit beschriebenen Verarbeitungsschritte. Eine Einordnung der beschriebenen Objekte und Teil-Prozesse sowie ihrer Relationen liefert Abbildung 10.
1:n
KD-FrageExpansion
KDFrage
1:n
KD-DMTransformation
1:1
KDAntwort
DMAnfrage
1:1
DM-AnfrageSpezialisierung
1:n
n:1
DM-KDTransformation
DMErgebnis
DM-SystemAnfrage
1:n
1:1
DM-ErgebnisAbstraktion
DM-SystemErgebnis
n:1
KD-AntwortKontraktion
Abbildung 10: Das QUESTUS-KDD-Begriffsmodell.
4.4 Die Modellierung der Wissensbasis
Durch die wissensintensiven Verarbeitungsschritte des QUESTUS-KDD-Ansatzes ergibt sich
ein hoher Bedarf an Expertenwissen unterschiedlicher Art, das in einer komplexen Wissensbasis zur Verfügung gestellt wird. Wie in Abbildung 11 erkennbar, schlagen wir einen modularen
Aufbau dieser Wissensbasis vor, deren Module zum einen durch die Spezialisierung des Wis-
47
4.4 DIE MODELLIERUNG DER WISSENSBASIS
sens beschrieben werden und zum anderen durch die Art der zu modellierenden Objekte. Die
Spezialisierung des Wissens beschreiben wir auf den folgenden drei Ebenen:
Allgemeines Wissen
In einem allgemeinen Modul stellen wir Wissen zur Verfügung, das unabhängig von den Erfordernissen einer Domäne beschrieben werden kann. Dazu zählen die allgemeinen Elemente
der Sprache für die Formulierung von Fragen (KDQL) und Antworten (KDAL) von Fachexperten und die Beschreibungen klassischer Methoden und Algorithmen aus den Bereichen Statistik und Data Mining.
Domänenspezifisches Wissen
Die Bereitstellung von geschlossenen Modulen mit Wissen, das typisch für eine Anwendungsdomäne, z.B. das medizinische Qualitätsmanagement, ist, stellt ein wichtiges Ziel der Modularisierung dar. Diese Domänenmodule erlauben in Kombination mit den allgemeinen Modulen
die Anwendbarkeit des QUESTUS-KDD-Ansatzes in einer Domäne. Darin sind zum einen
solche Objekte enthalten, die nur in einer Domäne vorkommen, also im allgemeinen Modul
nicht enthalten sind. Zum anderen finden sich hier auch Objekte, z.B. Begriffe, die zwar auch
im allgemeinen Modul enthalten sind, sich aber in der gegebenen Domäne durch eine abweichende Interpretation auszeichnen und diese damit überschreiben. Durch den Einsatz von Domänenmodulen lässt sich die Übertragung des Ansatzes auf andere Domänen erleichtern, weil
nur die Objekte zu modellieren sind, die von der allgemeinen Modellierung abweichen.
Anwender- und unternehmensspezifisches Wissen
Auf der dritten Spezialisierungsebene erlaubt der Ansatz die Formulierung von Wissen, das –
in Abweichung oder Ergänzung des Domänenwissens – typisch für einen Anwender oder ein
Unternehmen ist, und unterstützt damit die Anpassung an anwender- oder unternehmensspezifische Gegebenheiten, wie beispielsweise besondere Bezeichnungen für Attribute.
Subordination
Data Dictionary
Unternehmen
Unternehmensspezifische
Fragen
Unternehmensspezifische
Konzepte
Unternehmensspezifische
Methoden, Algorithmen
Unternehmensspezifische
Antworten
Domäne
Domänenspezifische
Fragen
Domänenspezifische
Konzepte
Domänenspezifische
Methoden, Algorithmen
Domänenspezifische
Antworten
Allgemeine
Fragen
Allgemeine
Konzepte
Allgemeine
Methoden, Algorithmen
Allgemeine
Antworten
Fragen
Konzepte
Methoden,
Algorithmen
Antworten
Allgemein
Patientenfälle,
Behandlungsdaten
Daten
Objekte
Abbildung 11: Der modulare Aufbau der Wissensbasis
Die Menge der relevanten Objekte, die für die Modulbildung entscheidend sind, besteht aus
Fragen, Konzepten, Methoden und Algorithmen sowie Antworten, die wir im Folgenden genauer beschreiben:
48
KAPITEL 4. DER QUESTUS-KDD-ANSATZ DER WISSENSBASIERTEN BENUTZERUNTERSTÜTZUNG
Wissen über Fragen
Als Hauptmerkmal unseres Ansatzes ist die Beschreibung der Fragen von Fachexperten wichtiger Bestandteil der Wissensbasis. Auf den drei Spezialisierungsebenen werden deshalb die
Syntax sowie die allgemeinen, domänenspezifischen und etwaige unternehmens- oder anwenderspezifische Ausprägungen für die einzelnen Elemente von KDQL, die wir im folgenden
Kapitel 5 detailliert beschreiben, verwaltet. Auch die Regeln für die Verfeinerung von KDFragen (KD-Frage-Expansion, siehe dazu auch Abschnitt 7.2), soweit sie die KDQL-Elemente
betreffen, sind hier abgelegt. Auf der Domänenebene lassen sich darüber hinaus vollständige
Fragen bereitstellen, die typisch für eine Domäne sind und deshalb im Sinne von Standardfragen in der Explorationsphase einer Datenanalyse verwendet werden können.
Wissen über Konzepte
Die Wissensbasis für Konzepte enthält Wissen über wichtige Begriffe der Sprache von Fachexperten. Auf den verschiedenen Spezialisierungsebenen enthält sie:
• Räumliches Wissen, z.B. die Zuordnung von Postleitzahlen zu Regionen und die hierarchische Strukturierung von Regionen im allgemeinen Modul.
• Zeitliches Wissen, z.B. die Zuordnung von Daten zu Wochentagen und die Klassifikation von Zeitintervallen, z.B. Jahreszeiten, im allgemeinen Modul.
• Gruppierungen von Attributwerten, z.B. die Bildung aussagekräftiger Altersgruppen
wie Kind, Jugendlicher, Erwachsener im allgemeinen Modul sowie Diagnose- und Leistungsklassen im Domänenmodul.
• Synonyme Bezeichnungen für Attribute, z.B. GESVD für Gesamtverweildauer im
Domänenmodul.
• Operationalisierung von Fachbegriffen, z.B. die Umsetzung von Begriffen wie beispielsweise Behandlungsqualität in einzeln überprüfbare Kriterien auf der Domänenebene.
Auf der anwender- und unternehmensspezifischen Ebene kann der Benutzer wiederum als
relevant beurteilte Begriffe oder Gruppierungen von Daten (z.B. individuelle Altersgruppen)
zusammenstellen und pflegen.
Wissen über Methoden und Algorithmen
Zur Unterstützung der Auswahl von geeigneten Methoden und Algorithmen aus den Bereichen
Data Mining und Statistik für die Bearbeitung der KD-Fragen und die Generierung von vollständigen DM-Anfragen wird ebenfalls detailliertes Wissen benötigt. Dazu zählt im einzelnen
Wissen über:
• Methoden und Algorithmen: Sammlung der möglichen Methoden und Algorithmen
mit ihren Anwendungsbedingungen, Merkmalen und Ergebniseigenschaften.
• Parametrisierungen: geeignete Initialisierungen der relevanten Parameter der Methoden und Algorithmen und Funktionen zu ihrer inkrementellen Anpassung.
• Implementierungen: Syntax des Aufrufs konkreter Methoden und Algorithmen einer
bestimmten Implementierung.
• Interpretation von Data-Mining-Ergebnissen: z.B. Wissen über statistische „Fallen“
bei extensiver Suche im Aussagenraum, Wissen über Signifikanzniveaus, Wissen über
Scheinkorrelationen.
Dieses Wissen kann auf der anwender- und unternehmensspezifischen Ebene beispielsweise durch Benutzerpräferenzen in Bezug auf die Auswahl von Methoden (z.B. in Bezug auf Akkuratheit vs. Verständlichkeit der Ergebnisse) erweitert werden.
4.5 ZUSAMMENFASSUNG
49
Wissen über Antworten
Für die Rückübersetzung der Analyseergebnisse in Antworten in der Sprache des Fachexperten wird KDAL, die wir im Detail in Abschnitt 5.3 beschreiben, in der Wissensbasis bereitgestellt. Neben der Syntax von KDAL ist auch Wissen über die Ableitung von verbalen Beschreibungen von Data-Mining-Ergebnissen sowie über die Zusammenfassung von Antworten
auf einer höheren Abstraktionsebene formalisiert.
Wissen über Daten
Für Informationen über die Eigenschaften der zu analysierenden Daten (z.B. Daten- und Skalentypen sowie Einheiten), die ebenfalls für die Ableitung von DM-Anfragen benötigt werden,
wird auf das Data Dictionary der zugrunde liegenden Datenbank zurückgegriffen.
Anhang C gibt einen detaillierten Überblick über die Bestandteile der einzelnen Module der
Wissensbasis.
4.5 Zusammenfassung
In diesem Kapitel haben wir die konzeptionellen Grundlagen für den QUESTUS-KDD-Ansatz
gelegt: Als Orientierung für die Konzeption des Ansatzes haben wir Anforderungen an die Realisierung des Ansatzes aus der Sicht von potentiellen Nutzern formuliert. Auf der Basis eines
allgemeinen Modells für das Formulieren und die Beantwortung von Fragen haben wir in einem Verarbeitungs- und einem Begriffsmodell den konzeptionellen Rahmen für unseren Ansatz gelegt: Ausgehend von den Fragen der Fachexperten können KD-Fragen in KDQL formuliert werden. Mit Hilfe von umfangreichem Wissen über Fragestellungen und Beantwortungsmethoden leiten wir aus den KD-Fragen DM-Anfragen ab, die als Eingabe von statistischen
oder Data-Mining-Algorithmen verwendet werden. Die Resultate der Algorithmen, die wir als
DM-Ergebnisse bezeichnen, werden wieder im Rahmen von KD-Antworten in der Sprache
von Fachexperten formuliert. Das für die Transformationsschritte benötigte Wissen wird in einer modularen Wissensbasis mit drei Subordinationsebenen bereitgestellt.
Als erste Elemente des QUESTUS-KDD-Ansatzes werden wir im folgenden Kapitel die
Syntax von KDQL für die Formulierung von Fragen von Fachexperten und von KDAL für die
Formulierung von entsprechenden Antworten im Detail vorstellen.
50
KAPITEL 4. DER QUESTUS-KDD-ANSATZ DER WISSENSBASIERTEN BENUTZERUNTERSTÜTZUNG
KAPITEL 5 KDQL UND KDAL – SPRACHEN FÜR FRAGEN UND
ANTWORTEN VON FACHEXPERTEN
Fundamentaler Bestandteil des QUESTUS-KDD-Ansatzes ist die Knowledge Discovery Question Language (KDQL), die die formale Repräsentation der Fragen von Fachexperten auf der
Knowledge-Discovery-Ebene (siehe Abbildung 2) ermöglicht. Darüber hinaus erlaubt KDQL
die Spezifikation aller notwendigen Informationen für die KD-DM-Transformation. Im Folgenden erläutern wir die wichtigsten Anforderungen, die der Entwicklung zugrunde liegen, sowie die Syntax von KDQL. Im Anschluss daran beschreiben wir die Syntax der Knowledge
Discovery Answer Language (KDAL), die wir für die Formulierung von KD-Antworten einsetzen.
5.1 Die Anforderungen an eine Sprache für Fragen von Fachexperten
Durch die in Abschnitt 1.3 beschriebene Zielgruppe des QUESTUS-KDD-Ansatzes ergeben
sich spezifische Anforderungen an das Design der Sprache für die Formulierung der Fragen
der Fachexperten. Für die Analyse dieser Anforderungen und die darauf basierende Konzeption der Sprache KDQL verwenden wir einen Korpus von Fragen. Diese wurden von drei Fachexperten aus dem Bereich des medizinischen Qualitätsmanagements und zwei Fachexperten
aus dem Bereich des Qualitätsmanagements in Produktionsbetrieben bei der Datenanalyse formuliert. Das Vorgehen bei der Analyse des Korpus lässt sich mit den folgenden Schritten beschreiben:
1. Sammlung einer Menge von ca. 300 Fragen von Fachexperten in verschiedenen DataMining-Studien.
2. Klassifikation synonymer Fragen.
3. Extraktion der Hauptkomponenten und Strukturierung der Fragen.
4. Ableitungen der Anforderungen bezüglich der Frageformulierung.
5. Ableitung einer allgemeinen Fragestruktur.
Ein strukturierter Überblick über die Menge der Fragen findet sich in Anhang A.2. Wir unterscheiden im Folgenden die Anforderungen, die sich aus diesen Schritten ergeben, nach der
Terminologie, der Kontrolliertheit, der Komplexität und Adäquatheit, sowie nach linguistischen Anforderungen.
Terminologische Anforderungen
Durch die Analyse des Korpus von Fragen werden die Anforderungen bezüglich der in Fragen
von Fachexperten verwendeten Terminologie deutlich:
• Aufgrund der Annahme, dass Fachexperten im Wesentlichen weder mit Data-Miningnoch mit Datenbank-Terminologien vertraut sind, muss eine Sprache zur Formulierung
52
KAPITEL 5. KDQL UND KDAL – SPRACHEN FÜR FRAGEN UND ANTWORTEN VON FACHEXPERTEN
ihrer Fragen weitgehend frei von technologiespezifischen Konzepten, wie Bezeichnungen von Data-Mining-Methoden, Parameterkonfigurationen und Attributbezeichnungen
aus der Datenbank sein.
• Stattdessen muss die Sprache die Formulierung auch komplexerer Konzepte aus der Objektwelt des Fachexperten erlauben. Dabei handelt es sich vor allem um Hierarchien und
Gruppierungen von Datenbankobjekten (z.B. Risikopatienten, Stammdaten von Patienten), komplexe Fragegegenstände (z.B. Therapiequalität) und domänenspezifische Auffälligkeiten und Interessen (z.B. Behandlungsstandards).
• Fachexperten stellen Ihre Fragen häufig und vor allem zu Beginn einer Analysephase auf
einem abstrakten Niveau. Dabei fassen sie konkretere Einzelfragen unter einer abstrakten Frage zusammen, um einen ersten Eindruck von den Daten zu erhalten.
Anforderungen bezüglich der Benutzerführung
Neben diesen terminologischen Anforderungen, die vom Fachexperten bestimmt werden, ergeben sich auch Anforderungen, die vor allem den Aspekt der Benutzerunterstützung herausstellen. Wie schon früher betont, wird die Zielgruppe des Systems als Personenkreis angenommen, der mit den Methoden des Data Mining und den dadurch sich ergebenden sinnvollen und
weniger sinnvollen Fragestellungen an das System nicht oder nur wenig vertraut ist. Durch die
Vorgabe einer kontrollierten Sprache mit eingeschränktem Vokabular und eingeschränkter
Syntax und die konsequente Offenlegung ihrer Möglichkeiten soll deshalb verhindert werden,
dass Benutzer Fragen stellen, die zu unsinnigen Data-Mining-Anfragen führen würden. Durch
die Vorgabe der Syntax und des Vokabulars der Sprache wird also sichergestellt, dass alle Fragen, die formulierbar sind, korrekt und vollständig sowie für den Benutzer adäquat beantwortet
werden können.
Anforderungen bezüglich Komplexität und Adäquatheit
Gleichzeitig muss die Sprache zur Formulierung von Fragen von Fachexperten aber selbstverständlich komplex genug sein, um einen Großteil der Fragen und Interessen der Fachexperten
einer Domäne abzudecken. Dies schließt insbesondere die Berücksichtigung domänenspezifischer Fragestellungen und Frageformulierungen ein, vor allem auch wenn diese über einfache,
direkt aus Data-Mining-Methoden ableitbare Fragen hinausgehen.
Die Formulierung der Fragen muss in einer für den Benutzer einer bestimmten Domäne adäquaten Weise möglich sein: das bedeutet, dass alle Konzepte mit der vertrauten Semantik aus
der Begriffswelt der Domäne direkt oder indirekt für die Formulierung von Fragen zur Verfügung stehen.
Linguistische Herausforderungen
Wie schon oben erwähnt, liegt der Fokus dieses Systems vor allem auf der Benutzerunterstützung bei der Wissensentdeckung in Daten und weniger bei der Erarbeitung eines neuen linguistischen Ansatzes. Dennoch sollten Ansätze für die Lösung der grundlegendsten linguistischen Probleme, wie sie [And95] bei der Verwendung natürlichsprachlicher Benutzerschnittstellen für Datenbanken beschreibt, bereitgestellt werden. Diese sind im Einzelnen:
• Verwendung von Komposita, z.B. „Verweildauerüberschreitung“.
• Auslassungen unter Benutzung des Informationskontexts (Ellipsen), z.B. „Die Klinik mit dem höchsten Anteil von Verweildauerüberschreitungen?“.
• Verwendung von Pronomina unter Benutzung des Informationskontexts (Anaphern), z.B. „Gibt es einen Zusammenhang zwischen Alter und Verweildauer? - Ist er
stark?“
53
5.2 DIE MODELLIERUNG VON KD-FRAGEN
• Negation von Fragen, z.B. „Welche Patienten zeigen keine Auffälligkeiten?“.
• Grammatik- und Orthographie-Fehler, z.B. „Welchen Zusammenhänge gibt’s zwischen Alderund Verweildauer?“.
• Inkorrekter Gebrauch von Konjunktionen und Disjunktionen, z.B. „Welche Patienten gibt es, die die Verweildauer unter- und überschritten haben?“
Darüber hinaus bestehen selbstverständlich noch weitere linguistische Herausforderungen,
die aber an dieser Stelle und für diese Anwendung als weniger relevant betrachtet werden.
5.2 Die Modellierung von KD-Fragen
Die Knowledge Discovery Question Language (KDQL) stellt einen Ansatz für eine kontrollierte Sprache dar, die ohne großen Aufwand von Fachexperten beim Einsatz von Data-Mining-Methoden benutzbar ist. Aus diesem Grund und unter Berücksichtigung der oben skizzierten Anforderungen wurde die Syntax von KDQL in Form einer semantischen Grammatik
im Wesentlichen von natürlichsprachlichen Fragen von Fachexperten bei der Datenanalyse
übernommen. Eine KD-Frage wird durch ihre drei Hauptelemente beschrieben:
• die Fragewurzel,
• die Fragegruppe und
• den Fragekontext.
Beispiel 12 zeigt die Analyse einer einfachen Frage. Die Fragewurzel stellt dabei ein
komplexes Konstrukt der Einzelelemente Fragetyp (siehe Abschnitt 5.2.1.1), Frageobjekt
(siehe Abschnitt 5.2.1.2) und Frageargumente (siehe Abschnitt 5.2.1.3) dar, die jedoch zu
einem hohen Grade voneinander abhängig sind, so dass auf eine getrennte Modellierung verzichtet werden musste. Die Fragegruppe (siehe Abschnitt 5.2.2.1) und der Fragekontext
(siehe Abschnitt 5.2.2.2) stellen optionale Elemente dar, die aus datentechnischer Sicht auf unterschiedliche Weise der Einschränkung der Gesamtmenge der verfügbaren Daten dienen.
Beispiel 12: Analyse einer einfachen Frage. Die Frage
„Welchen Zusammenhang gibt es zwischen Alter und Verweildauer bei
Patienten mit derselben Hauptdiagnose in der Augenklinik?“
lässt sich mit KDQL folgendermaßen analysieren.
Frageteil
KDQL-Element
Welchen... gibt es
Fragetyp
Zusammenhang
Frageobjekt
zwischen Alter und Verweildauer
Frageargumente
Patienten mit derselben Hauptdiagnose
Fragegruppe
in der Augenklinik
Fragekontext
Tabelle 6: KDQL-Elemente einer einfachen Frage.
Für die Beschreibung der Modellierung von KDQL verwenden wir im Folgenden ein W3CSchema28, wie es üblicherweise für die Beschreibung der Struktur von XML29-Dokumenten
28
W3C: World Wide Web Consortium, für Details siehe [Bro01]
54
KAPITEL 5. KDQL UND KDAL – SPRACHEN FÜR FRAGEN UND ANTWORTEN VON FACHEXPERTEN
eingesetzt wird. Damit kann XML als interne Zwischenrepräsentation (lingua intermedia) für
KD-Fragen verwendet werden.30 Abbildung 12 zeigt die Struktur einer KD-Frage in der graphischen Schema-Darstellung, aus der hervorgeht, dass eine KD-Frage aus einer Fragewurzel,
einer Fragegruppe und eines Fragekontexts besteht. Alle diese Teilelemente sind weiter expandierbar (in der Abbildung durch + gekennzeichnet), die letzteren beiden sind optional (in der
Abbildung durch die durchbrochene Umrandung gekennzeichnet).
Abbildung 12: Die Struktur des Elements KD-Frage.a
a. Für die Erstellung der Abbildungen aus dem XML-Schema verwenden wir den XMLSpy Schema Editor der Altova Inc.
Zur Festlegung der jeweiligen Bedeutung wird jedes Element in Ergänzung zum W3CStandard mit einer festen Menge von Attributen beschrieben, die in Tabelle 7 aufgeführt und
erklärt sind.
Attribut
Erklärung
Elementname
eindeutige Bezeichnung des Elements
Elementtyp
Zuordnung des Elements zu einem der vier Typen
Elementvorgängertyp
erforderlicher Elementtyp des vorhergehenden Elements
Elementnachfolgertyp erforderlicher Elementtyp des nachfolgenden Elements
Spezialisierungsebene Spezialisierungsebene des Elements in der Wissensbasis (allgemein, domänenspezifisch, anwender- bzw. unternehmensspezifisch)
Weitere Attribute
z.B. Liste von Attribut-Attributwertpaaren, die für die Übertragung der kontinuierlichen Funktionen auf diskrete Aussagen (siehe dazu auch Abschnitt 6.1) benötigt werden.
Tabelle 7: Attribute für die Modellierung eines KDQL-Elements.
Die Elemente des XML-Schemas lassen sich dabei unterschiedlichen Elementtypen mit unterschiedlichen Funktionen zuordnen:
• Rahmenkonzepte dienen der Strukturierung und Modularisierung der Konzepte.
• *-Konzepte erlauben die explizite Nicht-Spezifikation einer Komponente und bewirken
damit die automatische Verwendung aller Möglichkeiten für die Komponente.
29
30
XML: Extensible Markup Language, für Details siehe [Bra98]
Für Details zur Nutzung der Vorteile von XML verweisen wir auf die Beschreibung der Implementierung des QUESTUS-KDD-Ansatzes im Knowledge Discovery Assistant (KDA) in Abschnitt 8.3.
5.2 DIE MODELLIERUNG VON KD-FRAGEN
55
• Funktionszuweisungen legen die Bedeutung eines Elements in funktionaler Weise fest
(siehe dazu auch Kapitel 6).
• DB-Referenzen verweisen direkt oder indirekt auf Objekte in der Datenbank.
Durch die Verwendung der Elementtypen und von Constraints, die die Abfolge der Elementtypen limitieren, entsteht auf übergeordneter Ebene eine Sprache zur Beschreibung gültiger KDQL-Strukturen. Die dafür ausgezeichneten Attribute aus der Modellierungssprache sind
der Elementnachfolgertyp und der Elementvorgängertyp. Die implizite Beschreibung von
wohlgeformten Strukturen wird vor allem beim Aufbau neuer und bei der Erweiterung bestehender KDQL-Strukturen als einfaches Validierungswerkzeug darstellen. Im Folgenden erläutern wir die Elemente auf den höheren Ebenen im Detail.
5.2.1 Die Fragewurzel
Das Element Fragewurzel stellt den komplexen Kern der Frage dar. Da ihre Teilelemente
zum größten Teil voneinander abhängig sind, musste auf eine feingranulare Modellierung auf
hoher Ebene verzichtet werden. Die Fragewurzel besteht aus einer komplexen Struktur, die
sich im Wesentlichen aus den voneinander abhängigen Unterelementen
• Fragetyp
• Frageobjekt
• Frageargumente
zusammensetzt. Die Fragewurzel enthält alle Informationen, die für die Spezifikation einer
vollständigen KD-Frage benötigt werden; die Modellierung erfolgt sequentiell, wie in Abbildung 13 dargestellt. Das Rahmenkonzept Fragewurzel zerfällt damit in die verschiedenen
Ausprägungen des Fragetyps.
Abbildung 13: Die Struktur des Elements Fragewurzel.
56
KAPITEL 5. KDQL UND KDAL – SPRACHEN FÜR FRAGEN UND ANTWORTEN VON FACHEXPERTEN
5.2.1.1 Der Fragetyp
Der Fragetyp ist ein Indikator, ob die gestellte Frage im grammatischen Sinne geschlossen
oder offen ist (siehe dazu auch Abschnitt 3.1). Damit enthält der Fragetyp wichtige Hinweise
auf das Muster und die Formulierung der Antwort. Darüber hinaus entscheidet der Fragetyp
über die Komplexität der Frage. Bei einer einfachen Entscheidungsfrage kann die Antwort nur
aus der Menge der vorgegebenen Alternativen ausgewählt werden. Die Beantwortung kann damit in diesem einem Schritt erfolgen. Eine Ergänzungsfrage verlangt eine auf die W-Frage bezogene Antwort in Form eines Wortes oder einer Wortgruppe. Die Auswahl der Antwort ist
nur durch die Grenzen der Sinnhaftigkeit beschränkt, besteht potentiell aber aus einer unendlichen Menge von Alternativen. Wie wir im Abschnitt 6.2.2 zeigen, werden für die Beantwortung zwei Schritte benötigt. Eine weitere Stufe leistungsfähiger sind, wie in Beispiel 13 und im
Detail in Abschnitt 6.2.3 gezeigt, die in diesem Zusammenhang neu eingeführten komplexen
Fragen, bei denen der Fokus der Frage verschoben wird: Das ursprüngliche Objekt der Frage31
in Form einer impliziten Entscheidungsfrage (konfirmativer Typ) wird ergänzt um ein weiteres
Objekt, das die Grundlage für eine Charakterisierung bildet. Damit wird zunächst eine Entscheidung über die Existenz des ursprünglichen Frageobjekts für alle Instanzen einer Klasse (im
Beispiel: Patienten) getroffen und die Menge der Instanzen, für die die Überprüfung positiv
war, dann für die Beschreibung zur Verfügung gestellt. Die bei der Beantwortung solcher komplexer Fragen zugrunde liegende mehrstufige Untersuchung erfordert drei Beantwortungsschritte.
Beispiel 13: Vergleich von Fragetypen. Gegenüberstellung einer konfirmativen,
einer deskriptiven und einer komplexen Frage:
Fragetyp
Beispiel
konfirmativ Gibt es einen Zusammenhang zwischen Alter und Verweildauer?
deskriptiv
Welchen Zusammenhang zwischen Alter und Verweildauer gibt es?
komplex
Bei welchen Patienten gibt es einen Zusammenhang zwischen Alter und Verweildauer?
Für jeden der drei verschiedenen Fragetypen stellen wir, wie in Abbildung 13 gezeigt, ein
entsprechendes Konzept bereit: TypKonfirmativ, TypDeskriptiv und TypKomplex. Zur
Unterstützung der automatischen Expansion von Fragen wird darüber hinaus das *-Konzept
TypOffen bereitgestellt.
Fragen des konfirmativen Typs
Die mit dem Element TypKonfirmativ modellierten Fragen des konfirmativen Typs sind geschlossene Fragen, die streng genommen nur die beiden Kurzantworten „ja“ und „nein“ oder
die entsprechenden Langantworten erlauben.32 Beispiel 14 zeigt eine einfache konfirmative
Frage und eine dazugehörige Antwort.
31
32
Für eine detaillierte Beschreibung des Typs Frageobjekt verweisen wir auf Abschnitt 5.2.1.2.
An dieser Stelle sei auf die Menge der Fragen in der Umgangssprache hingewiesen, die unter der Annahme, dass die Hypothese positiv beantwortet wird, eine weitergehende Frage enthalten, z.B. „Können
Sie mir sagen, wie spät es ist?“. Auf Fragen dieser Art wird in der vorliegenden Arbeit nicht eingegangen,
da sie ein weitergehende Modellierung von Mehrfachfragen erfordern.
5.2 DIE MODELLIERUNG VON KD-FRAGEN
57
Beispiel 14: Konfirmative KD-Fragen. Auf die Frage
Gibt es einen Zusammenhang zwischen Alter und Verweildauer?
lautet eine mögliche, erwartete Langantwort:
Ja, es gibt einen Zusammenhang zwischen Alter und Verweildauer!
Tabelle 8 enthält die Belegung der oben angesprochenen Attribute des Elements TypKonfirmativ; Abbildung 14 beschreibt das Element in der XML-Schema-Darstellung.33 Dieses Element stellt entsprechend seinem Typ eine Funktion für die Entscheidung bezüglich der positiven oder negativen Aussage bereit. Die Funktion beinhaltet den Vergleich des Wertes, der von
der Auswertung der inneren Bestandteile einer Frage zurückgeliefert wird, mit einem Grenzwert. Daraus wird dann die Bejahung oder Verneinung des Frageobjekts abgeleitet.
Elementname
TypKonfirmativ
Elementtyp
Funktionszuweisung
Elementfunktion
 ja, wenn F ≥ BinärGrenzwert
Ausgabe = 
 nein, wenn F < BinärGrenzwert
Elementvorgängertyp
FrageWurzel
Elementnachfolgertyp
FrageObjekt
Spezialisierungsebene
allgemein
Weitere Attribute
-
Tabelle 8: Formale Beschreibung des Elements TypKonfirmativ.
<xs:element name="TypKonfirmativ">
<xs:annotation>
<xs:documentation>Funktionszuweisung</xs:documentation>
</xs:annotation>
<xs:complexType>
<xs:sequence>
<xs:element ref="FrageObjekt"/>
</xs:sequence>
<xs:attribute name="Elementtyp" use="required" fixed="Funktionszuweisung"/>
<xs:attribute name="Elementfunktion" use="required"
fixed="BinaerGrenzwertabgleich"/>
</xs:complexType>
</xs:element>
Abbildung 14: Darstellung des Elements TypKonfirmativ im
XML-Schema.
Fragen des deskriptiven Typs
Ergänzungsfragen verwenden zur Einleitung ein Fragewort. Dieses kann entweder mit der Angabe eines Variablenbereichs komponiert sein oder aus einem selbständigen Fragepronomen
bestehen. Den ersten Typ modellieren wir im Folgenden mit dem Element TypDeskriptiv,
weil Fragen dieser Art auf eine weitergehende Beschreibung der genannten Variablen abzielen. Fragen des zweiten Typs werden unter Verwendung des Elements TypKomplex modellieren und im nächsten Abschnitt im Detail beschreiben. Die verschiedenen Arten von Ergän33
Eine Aufstellung der wichtigsten KDQL-Elemente findet sich im Anhang B.1.
58
KAPITEL 5. KDQL UND KDAL – SPRACHEN FÜR FRAGEN UND ANTWORTEN VON FACHEXPERTEN
zungsfragen nach [Kri00] und ihre Zuordnungen zu den fragetypspezifischen Elementen sind
in Tabelle 9 zusammengestellt.
Fragewörter
Beschreibung
Beispiel
Modellierung
Welcher/welche/welches
mit Angabe des Variablenbereichs
Welchen Zusammenhang
gibt es?
TypDeskriptiv
Wer/was, wen/was, wem,
wessen
kasusmarkiertes Fragewort
Wer überschreitet häufig
die Verweildauern?
TypKomplex
Wann, wo, wie, warum
adjunkttyp-spezifisches
Fragewort
Wo gibt es einen Unterschied?
Worauf, wohin, wie viel,
wieso, weshalb, warum
komplexes Fragewort
Weshalb gibt es eine Veränderung
Tabelle 9: Gegenüberstellung verschiedener Arten von Ergänzungsfragen
nach [Kri00] und deren Modellierung.
Deskriptive Fragen suchen nach einer Beschreibung des Frageobjekts, die sich, wie in Beispiel 15 gezeigt, durch eine Charakterisierung des Frageobjekts ausdrückt. Da die Menge der
möglichen Charakterisierungen vom Frageobjekt abhängt, werden diese mit dem zugehörigen
Element für das Frageobjekt34 verwaltet.
Beispiel 15: Deskriptive KD-Fragen. Auf die Frage
Welchen Zusammenhang zwischen Alter und Verweildauer gibt es?
lautet eine mögliche, erwartete Langantwort:
Es gibt einen starken, positiven Zusammenhang zwischen Alter und Verweildauer!
Die formale Beschreibung des Elements TypDeskriptiv wie auch aller weiteren Elemente
findet sich im Anhang B.1. Konfirmative und deskriptive Fragen unterscheiden sich nicht in
ihrer Transformation auf Data-Mining-Anfragen. Sie haben lediglich unterschiedliche Darstellungen der Ergebnisse zur Folge.
Fragen des komplexen Typs
Wie in Tabelle 9 gezeigt, lassen sich drei Arten von selbständigen Fragewörtern unterscheiden: kasusmarkierte Fragewörter, adjunkttyp-spezifische Fragewörter und komplexe Fragewörter. Semantisch speziellere Fragen, die kasus-markierte oder adjunkttyp-spezifische Fragewörter verwenden, können dabei durch Verwendung von Fragen mit komplexen Fragewörtern
und entsprechenden Spezifikation des Variablenbereichs erreicht werden. Somit entsteht eine
semantische Spezialisierung von einfachen Fragen mit kasus-markierten oder adjunkttyp-spezifischen Fragewörtern zu komplexen Fragen, bei denen der Variablenbereich explizit genannt
wird (siehe dazu auch Tabelle 10).
Unterschiedliche Elemente je nach der semantischen Klasse des Fragepronomens erlauben,
wie in Tabelle 11 dargestellt, die Operationalisierung durch unterschiedliche, teilweise domänenspezifische Variablenbereiche für die genauere Spezifikation des Fragefokus.
Fragen des komplexen Typs erweitern die deskriptiven Fragen um einen zusätzlichen Freiheitsgrad. Das Frageobjekt wird damit zum sekundären Gegenstand der Frage, als primärer
Gegenstand kommt der Fragefokus ins Spiel. Der Fragefokus spezifiziert die Datenbankobjek34
Wie in Beispiel 15 und in Abschnitt 5.3.2 genauer erläutert, erlaubt das Frageobjekt Zusammenhang
Beschreibungen über die Stärke und die Richtung.
59
5.2 DIE MODELLIERUNG VON KD-FRAGEN
Einfache Fragekonstruktion
(Variablenbereich implizit)
Spezialisierte Fragekonstruktion
(Variablenbereich explizit)
Wer zeigt einen Zusammenhang?
Welche Personen zeigen einen Zusammenhang?
Welche Patienten zeigen einen Zusammenhang?
Wo gibt es einen Zusammenhang?
In welchen Abteilungen gibt es einen Zusammenhang?
In welchen Kliniken gibt es einen Zusammenhang?
Wann gibt es einen Zusammenhang?
An welchen Tagen gibt es einen Zusammenhang?
Zu welchen Jahreszeiten gibt es einen Zusammenhang?
Tabelle 10: Beispiele für Fragen mit implizitem Variablenbereich und
daraus abgeleiteten expliziten Fragebereichen.
Semantische Klasse Fragewort
mögliche Variablenbereiche
(teilweise domänenspezifisch)
Personal
Wer?
Personen, Patienten, Ärzte
Lokal
Wo?
Abteilungen, Kliniken, Wohnorte
Temporal
Wann?
Tage, Jahreszeiten
Modal
Wie?
Maßnahmen, medizinische Leistungen, Behandlungsmuster
Kausala
Warum?
Ursachen
Tabelle 11: Semantische Klassen und ihre Referenzen auf mögliche
Variablenbereiche.
a. Kausale Fragen, also Warum-Fragen, können im Allgemeinen von Data-Mining-Methoden nicht beantwortet werden, weil die wahren Ursachen für Beobachtungen nicht in den
Daten zu finden sind. Sie sind deshalb nur aus Gründen der Vollständigkeit aufgeführt.
te (und damit die Relation), die die Grundlage für die Analysen sind, z.B. Behandlungsfälle
oder Abteilungen. Komplexe Fragen zielen in unserem Modell nicht auf die Enumeration der
Menge der Instanzen ab, die die im Frageobjekt formulierte Hypothese erfüllen, sondern vielmehr auf eine Charakterisierung dieser Menge. Beispiel 16 zeigt eine solche Frage und eine
passende Antwort, die eine Beschreibung der Menge der Patienten enthält, für die ein Zusammenhang vorliegt.
Beispiel 16: Komplexe KD-Fragen. Auf die Frage
Welche Patienten zeigen einen Zusammenhang zwischen Alter und Verweildauer?
lautet eine mögliche, erwartete Langantwort:
Patienten, die älter sind als 55 Jahre und gesetzlich versichert sind, zeigen einen Zusammenhang zwischen Altern und Verweildauer!
Fragen des komplexen Typs werden durch das Element TypKomplex modelliert, der, wie
in Abbildung 15 gezeigt, entsprechend den semantischen Klassen des Fragepronomens in eine
Menge von Unterelementen zerfällt: LokalFokus, PersonalFokus, TemporalFokus und
ModalFokus. Stellvertretend für die Menge der Unterelemente stellt Abbildung 16 die Modellierung des Elements PersonalFokus dar: Das Rahmenkonzept PersonalFokus kann
entweder ohne weitere Spezifikation bleiben (Wer...?) oder durch die Zuweisung eines PersonalObjekt (z.B. Patient) ergänzt werden (Welcher Patient ...?). Die darauf folgende Mo-
60
KAPITEL 5. KDQL UND KDAL – SPRACHEN FÜR FRAGEN UND ANTWORTEN VON FACHEXPERTEN
Abbildung 15: Die Struktur des Elements TypKomplex.
dellierung des Frageobjekts mit unterschiedlichen Typen wird in Abschnitt 5.2.1.2 weitergehend beschrieben.
Abbildung 16: Die Struktur des Elements PersonalFokus.
Fragen des offenen Typs
Die Anwendung der Idee des *-Konzepts erfolgt beim Fragetyp durch den TypOffen (siehe
Abbildung 17). Wie auch alle weiteren *-Konzepte steht es stellvertretend für alle Ausprägungen einer Komponente. Dieses erlaubt es, den Fragetyp nicht weiter einzuschränken, sondern
eine Allquantifizierung über die Elemente der Menge der Fragetypen vorzunehmen.35 Die Fragen mit den konkreten Ausprägungen werden im Schritt der KD-Expansion (siehe dazu auch
Abschnitt 7.2) erzeugt.
Abbildung 17: Die Struktur des Elements TypOffen.
35
Die Verwendung des *-Konzepts ist beim Fragetyp durch die Möglichkeiten natürlichsprachlicher
Formulierung stark eingeschränkt, erhält aber bei weiteren Elementen wie beim Frageobjekt eine größere
Bedeutung.
5.2 DIE MODELLIERUNG VON KD-FRAGEN
61
Weitere Fragetypen
Mehrfachfragen bzw. multiple Fragen, z.B. Wer zeigt welche Auffälligkeit? werden im Rahmen dieser Arbeit nicht betrachtet, weil sie durch hierarchische Dekomposition und Verfeinerung der Fragen abgedeckt werden, z.B. Wer zeigt Zusammenhang?, Wer zeigt Unterschied?
Auch Alternativfragen sind nicht Gegenstand dieser Arbeit, z.B. Welchen Gruppen zeigt Auffälligkeiten, die Neurologie oder die Urologie? weil sie ebenfalls durch eine Kombination anderer Fragen ersetzt werden können.
5.2.1.2 Das Frageobjekt
Den zweiten fundamentalen Bestandteil der Fragewurzel stellt das Frageobjekt dar. Im grammatischen Sinne bildet das Frageobjekt das direkte Objekt einer Frage. Im funktionentheoretischen Sinn kann es auch als Relation beschrieben werden, die durch die Menge der Frageargumente instantiiert wird. Den Einfluss des Frageobjekts bei der KD-DM-Transformation und
vor allem bei der Auswahl der Data-Mining-Methode beschreiben wir im Abschnitt 7.3 im Detail. In diesem Sinne stellt es eine Fokussierung des Suchraums in der Dimension der Data-Mining-Methoden und -Algorithmen dar. Wir unterscheiden zwei Arten von Frageobjekten:
• Allgemeine Frageobjekte, z.B. Zusammenhang, Unterschied, und
• Domänenspezifische Frageobjekte, z.B. Korrektheit der Therapeutik, Standards der
Therapeutik.
Die einzelnen Frageobjekte unterscheiden sich auch durch die Anzahl und Art der möglichen Frageargumente. Jedes Frageobjekt impliziert eine Hierarchie von Verfeinerungsstufen.
5.2.1.2.1 Allgemeine Frageobjekte
Entsprechend den statistischen Hypothesentypen Zusammenhang, Unterschied, Gemeinsamkeit und Veränderung führen wir die allgemeinen Frageobjekte ein.36 Diese sind für alle Anwendungsdomänen gleichermaßen relevant und stellen damit den invarianten Kern der Frageobjekte dar. Wir beschreiben im Folgenden die Modellierung der vier allgemeinen Frageobjekte ausgehend vom Rahmenkonzept ObjektStat, wie auch in Abbildung 18 dargestellt. Für
die Beschreibung ihrer Interpretation verweisen wir auf die Abschnitte 6.1.1 bis 6.1.4.
Abbildung 18: Die Struktur des Elements ObjektStat.
36
Im engeren Sinn werden in der Statistik (z.B. in [Bor93]) vor allem Zusammenhangs- und Unterschiedhypothesen unterschieden. Die daraus abgeleiteten Gemeinsamkeits- und Veränderungshypothesen
verdienen aufgrund ihrer Präsenz in den Fragen von Fachexperten aber eine eigenständige Modellierung.
62
KAPITEL 5. KDQL UND KDAL – SPRACHEN FÜR FRAGEN UND ANTWORTEN VON FACHEXPERTEN
Zusammenhang
Tabelle 12 stellt unter Verwendung der Backus-Naur-Form (BNF)37 die drei grundsätzlichen
Arten von Objekten des Typs Zusammenhang gegenüber, die sich in Art und Anzahl der benötigten Frageargumente unterscheiden. Neben dem allgemeinen Zusammenhang, der eine
wechselseitige Wirkung vorsieht, und dem gerichteten Zusammenhang, der einem einseitigen
Einfluss gleichkommt, besteht auch die Möglichkeit rekursiv auf andere Frageobjekte zurückzugreifen, um statistische Hypothesen darauf zu bilden und zu prüfen.
Typ
KDQL (in BNF)
Allgemein Zusammenhang zwischen ⟨Eigenschaftsliste⟩
Beispiel
Zusammenhang zwischen Alter und Verweildauer
Gerichtet
Einfluss von ⟨Eigenschaftsliste⟩ auf
⟨Eigenschaftsliste⟩
Einfluss von Alter auf Verweildauer
Rekursiv
Zusammenhang zwischen ⟨Objektliste⟩
Zusammenhang zwischen der Veränderung zwischen
2001 und 2002 bezüglich der Verweildauer und der
Veränderung zwischen 2001 und 2002 bezüglich des
Alters
Tabelle 12: Typen des Elements Zusammenhang.
Die in dieser und den folgenden Tabellen verwendeten nicht-terminalen Symbole ⟨Eigenund ⟨Zeitliste⟩ spezifizieren dabei die unterschiedlichen Arten
von Frageargumenten, die in Abschnitt 5.2.1.3 genauer beschrieben werden.
schaftsliste⟩, ⟨Fallliste⟩, ⟨Objektliste⟩
Unterschied
Auch für das Element Unterschied lassen sich verschiedene Arten beschreiben: zum einen
ein Unterschied, der nicht weiter spezifiziert wird, also in allen verfügbaren Eigenschaften zu
suchen ist, zum anderen eine Unterschied in Bezug auf eine oder mehrere bestimmte und explizit genannte Eigenschaften. Die dritte Art erlaubt wiederum die Suche nach Unterschieden
zwischen anderen Frageobjekten, was einem rekursiven Aufruf des Frageobjekts entspricht.
Die drei Arten von Unterschieden sind in der Tabelle 13 gegenübergestellt.
Typ
KDQL (in BNF)
Allgemein Unterschied zwischen ⟨Fallliste⟩
Beispiel
Unterschied zwischen Risikopatienten und NichtRisikopatienten
Spezifisch Unterschied zwischen ⟨Fallliste⟩ bezüg- Unterschied zwischen Risikopatienten und Nichtlich ⟨Eigenschaftsliste⟩
Risikopatienten bezüglich der Verweildauer
Rekursiv
Unterschied zwischen ⟨Objektliste⟩
Unterschied zwischen dem Zusammenhang zwischen
Alter und Verweildauer und dem Zusammenhang
zwischen Geschlecht und Verweildauer
Tabelle 13: Typen des Elements Unterschied.
Gemeinsamkeit
Das inverse Konzept zum Unterschied stellt die Gemeinsamkeit dar. Wie auch beim Element
Unterschied lassen sich drei Arten von Gemeinsamkeiten beschreiben, die in Tabelle 14 gegenübergestellt sind.
37
Auf dieser Beschreibungsebene ziehen wir aus Gründen der Übersichtlichkeit die Backus-Naur-Form
der Schema-Darstellung vor.
63
5.2 DIE MODELLIERUNG VON KD-FRAGEN
Typ
KDQL (in BNF)
Beispiel
Allgemein Gemeinsamkeit bei ⟨Fallliste⟩
Gemeinsamkeit bei Risikopatienten und NichtRisikopatienten
Spezifisch Gemeinsamkeit bei ⟨Fallliste⟩ bezüglich ⟨Eigenschaftsliste⟩
Gemeinsamkeit bei Risikopatienten und NichtRisikopatienten bezüglich der Verweildauer
Rekursiv
Gemeinsamkeit bei ⟨Objektliste⟩
Gemeinsamkeit bei dem Zusammenhang zwischen
Alter und Verweildauer und dem Zusammenhang
zwischen Geschlecht und Verweildauer
Tabelle 14: Typen des Elements Gemeinsamkeit.
Veränderung
Einen Unterschied einer Eigenschaft zwischen zwei oder mehreren zeitlich bestimmten Fallgruppen bezeichnen wir generell mit dem Element Veränderung. Tabelle 15 zeigt die drei
möglichen Arten dieses Elements auf.
Typ
KDQL (in BNF)
Beispiel
Allgemein Veränderung zwischen ⟨Zeitliste⟩
Veränderung zwischen 2001 und 2002
Spezifisch Veränderung zwischen ⟨Zeitliste⟩
bezüglich ⟨Eigenschaftsliste⟩
Veränderung zwischen 2001 und 2002 bezüglich der
Verweildauer
Veränderung zwischen ⟨Zeitliste⟩
bezüglich ⟨Objektliste⟩
Veränderung zwischen 2001 und 2002 bezüglich dem
Unterschied zwischen Risikopatienten und NichtRisikopatienten
Rekursiv
Tabelle 15: Typen des Elements Veränderung.
5.2.1.2.2 Domänenspezifische Frageobjekte
Im Gegensatz zu den allgemeinen Frageobjekten erlauben die domänenspezifischen Frageobjekte die Berücksichtigung von Konzepten, die sich aus der Domäne heraus ergeben.38 Sie
stellen damit den variablen, d.h. erweiterbaren Anteil der Frageobjekte dar und sind vor allem
Gegenstand der Domänenanpassung. Darüber hinaus kann das Bedürfnis entstehen, ihre Menge durch das Entstehen neuartiger Fragestellungen des Fachexperten geeignet zu erweitern.
Domänenspezifische Frageobjekte sind also Konzepte mit Bedeutungen, die spezifisch für
die jeweilige Anwendungsdomäne sind. Für die Beantwortung von Fragen mit domänenspezifischen Frageobjekten werden Indikatoren verwendet, die Teil des Domänenwissens sind. Für
die Beschreibung der domänenspezifischen Frageobjekte im medizinischen Qualitätsmanagement greifen wir die Darstellung der Themenhierarchie aus Anhang A.1 auf. Zu den einzelnen
Themen auf der jeweiligen untersten Ebene lassen sich spezifische Fragestellungen, zu deren
Beantwortung datenbasierte Hinweise verwendet werden können, finden und formalisieren.
Dabei können zwei grundsätzliche Arten von Strukturen der Unterfragen unterschieden werden:
• Frage-expandierende Strukturen, bei denen die Elemente der KD-Frage in jedem Expansionsschritt sukzessive spezifiziert oder verfeinert werden, und
38
Obwohl die domänenspezifischen Frageobjekte von den Begriffen her teilweise domänenübergreifend sind, z.B. „Einhaltung von Standards“, werden sie domänenabhängig interpretiert und bedürfen damit
auch einer domänenabhängigen Operationalisierung.
64
KAPITEL 5. KDQL UND KDAL – SPRACHEN FÜR FRAGEN UND ANTWORTEN VON FACHEXPERTEN
• Konzept-expandierende Strukturen, bei denen ein Konzept schrittweise verfeinert und
schließlich auf domänenspezifisch operationalisierbare Teilkonzepte abgebildet wird.
Im Folgenden sei dies für einen Ausschnitt der Themen stellvertretend für die Gesamtmenge gezeigt:
Frage-expandierende Unterfragestrukturen
Das Thema „Standards der Therapeutik“ (1.2.2 in Anhang A.1) lässt sich folgendermaßen expandieren:
Standards der Therapeutik
Standards der Therapeutik bezüglich Verweildauern
Standards der Therapeutik bezüglich Leistungen
Standards der Therapeutik bezüglich der Verteilung von Leistungen
Standards der Therapeutik bezüglich der Abfolgen von Leistungen
Dabei stellt das Konzept Standards der Therapeutik das eigentliche Frageobjekt dar, das
durch das Frageargument (bezüglich Verweildauern usw.) als weitere Beschränkung des Frageraums sukzessive erweitert wird. Der Fragetyp (siehe Abschnitt 5.2.1.1) sowie weitere
KDQL-Elemente (siehe Abschnitt 5.2.2 und Abschnitt 5.2.2.2) können wie beschrieben verwendet werden.
Konzept-expandierende Unterfragestrukturen
Das Thema „Korrektheit der Therapeutik“ (1.2.1.1 in Anhang A.1) dient vor allem der Unterscheidung von erfolgreichen und weniger erfolgreichen therapeutischen Aufenthalten. Für die
Untersuchung des Themas ist es deshalb wichtig, Komplikationen im klinischen Ablauf zu erkennen. Dies erfolgt durch die Verwendung von Heuristiken, die auf das Auftreten oder das
Nicht-Auftreten von Komplikationen hinweisen. Abbildung 19 zeigt die Operationalisierung
des Begriffs der Korrektheit der Therapeutik.
Korrektheit der
Therapeutik
Geringes Maß an
Korrektheit der
Therapeutik
Überschreiten der
Verweildauerobergrenze
Zwei Operationen
in Folge
Aufenthalt in der
Intenivstation
Baldige
Wiederaufnahme
Hohes Maß an
Korrektheit der
Therapeutik
Einhalten der
Verweildauerobergrenze
Nur eine Operation
Keine baldige
Wiederaufnahme
Abbildung 19: Ausschnitt aus der Operationalisierung des Themas
„Korrektheit der Therapeutik“.
Bei dem ebenfalls in Anhang A.1 dargestellten Thema „Technische Differenziertheit der
Dokumentation“ (1.3.1.2.1.1.3 in Anhang A.1) handelt es sich um ein allgemeines Konzept,
65
5.2 DIE MODELLIERUNG VON KD-FRAGEN
das sich jedoch durch stark domänenspezifische Indikatoren auszeichnet. Im Kontext der medizinischen Dokumentation lässt sich das Thema, wie in Abbildung 20 gezeigt, operationalisieren.
Technische
Differenziertheit der
Dokumentation
Anteil unspezifisch
dokumentierter
Med. Leistungen
Anteil unspezifisch
dokumentierter
Diagnosen
Abbildung 20: Ausschnitt aus der Operationalisierung des Themas
“Technische Differenziertheit der Dokumentation“.
Beide Arten, die Strukturen der Unterfragen aufzubauen, werden verwendet, um domänenspezifische Frageobjekte zu verfeinern.
Zusammen mit den allgemeinen Frageobjekten unterstützen die domänenspezifischen Frageobjekte die Auswahl einer für die Beantwortung der Frage geeigneten Methode. Für die weitergehende Einschränkung des Suchraums werden die Frageargumente benötigt.
5.2.1.3 Die Frageargumente
Frageargumente spezifizieren die Menge der Argumente, die die Grundlage für das Frageobjekt bilden, und stellen damit die Beziehung zur Datenbasis her. Darüber hinaus erlauben die
Frageargumente die Beschränkung des Suchraums in der Dimension der Daten im Sinne einer
Projektion und Selektion. Betrachtet man das Frageobjekt aus der relationalen Sicht, so werden
die Variablen der Relation durch die Frageargumente belegt.
Die Frageargumente sind Konzepte aus dem Datenmodell, das den Analysen zugrunde
liegt, also Attribute, Attributwerte und Fälle sowie deren Abstraktionen zu Attributgruppen,
Attributwertgruppen und Fallgruppen. Abbildung 21 zeigt das Modell der Frageargumente und
Abbildung 22 stellt zur Illustration einen Teil des Domänenmodells für das medizinische Qualitätsmanagement dar. Die einzelnen Frageargumente können durch die booleschen Operatoren und, oder und entweder...oder verknüpft werden. Die Frageargumente können unterschiedliche Funktionen innerhalb einer Frage annehmen. Im Folgenden unterscheiden wir nach der
Art der Argumente:
• Eigenschaftsargumente,
• Gruppenargumente und
• Objektargumente.
Tabelle 16 enthält eine Übersicht über die verfügbaren Frageargumente und entsprechende
Beispiele.
5.2.1.3.1 Eigenschaftsargumente
Eigenschaftsargumente spezifizieren Referenzen39 auf die Datenbankattribute, die im funktionalen Sinne das Frageobjekt instantiieren. Sie werden aus der Menge der verfügbaren Attribute
rekrutiert und treffen in diesem Sinne eine vertikale Auswahl (Datenprojektion). Die Eigenschaftsargumente werden über das in Tabelle 16 definierte Element Eigenschaftsliste
spezifiziert.
66
KAPITEL 5. KDQL UND KDAL – SPRACHEN FÜR FRAGEN UND ANTWORTEN VON FACHEXPERTEN
Liste
KDQL (in BNF)
⟨Eigenschaftsliste⟩
⟨Eigenschaft⟩ [⟨Verknüpfung⟩
⟨Eigenschaft⟩]*
⟨Eigenschaft⟩
[⟨Attribut⟩ | ⟨Attributgruppe⟩ | ⟨Attributwert⟩ |
⟨Attributwertgruppe⟩] |
⟨AttributKennzahl⟩
Beispiel
•
Alter und Verweildauer
•
hohes Alter und lange Verweildauer
•
Persönliche Informationen und Diagnostische Informationen
⟨Fallliste⟩ [⟨Fall⟩ | ⟨Fallgruppe⟩]
[⟨Verknüpfung⟩
[⟨Fall⟩ | ⟨Fallgruppe⟩]]*
•
Risikopatienten oder Raucher und
Nicht-Risikopatienten
⟨Objektliste⟩
•
Zusammenhang zwischen Alter und Verweildauer und Zusammenhang zwischen
Sozialversicherungsart und Verweildauer
•
Patienten des Jahres 1998 und Patienten
des Jahres 2002
•
Patienten der Jahre 1998 bis 2002
•
Mittelwert der Verweildauer
⟨FrageObjekt⟩
[⟨Verknüpfung⟩
⟨FrageObjekt⟩]*
⟨Zeitliste⟩ [⟨ZeitFallgruppe⟩
[⟨Verknüpfung⟩
⟨ZeitFallgruppe⟩]*] |
[⟨ZeitFallgruppe⟩ bis
[⟨ZeitFallgruppe⟩]]
⟨Attribut
Kennzahl⟩
⟨Modalwert⟩ | ⟨Median⟩ | ⟨Mittel⟩ | ...
⟨Verknüp
fung⟩
und | oder | entwederOder
Tabelle 16: Modellierung des Elements Frageargumente.
Beispiel 17: Einfache Frage mit Eigenschaftsargumenten.
Welchen Zusammenhang gibt es zwischen Alter und Verweildauer?
Als Eigenschaftsargumente gelten solche, die direkt auf Attribute und Attributwerte in der
Datenbank abbildbar sind, sowie derer Abstraktionen zu Attributgruppen und Attributwertgruppen. Abbildung 21 zeigt die Modellierung von Attributwerten, Attributwertgruppen, Attributen und Attributgruppen sowie von Fällen und Fallgruppen; Abbildung 22 gibt ein Beispiel
dafür.
Gruppierung von Attributen
Kompositionen von Attributen führen wir als Attributgruppen ein. Diese sind definiert als eine
Menge von Attributen, die aufgrund von semantischen Kriterien eine Einheit bilden. Ein Attribut kann dabei in mehreren Attributgruppen enthalten sein. So kann das Attribut Alter sowohl
in der Attributgruppe „Stammdaten“ als auch in „Anamnestische Daten“ enthalten sein. Darüber hinaus ist es auch möglich, dass nicht jedes Attribut in mindestes einer Attributgruppe enthalten ist.
39 Zwischen den Attributen in der Datenbank und den Eigenschaftsargumenten bestehen im Allgemeinen n:m-Beziehungen, da Datenbankattribute zum einen in der Fachsprache des Fachexperten bei ihrer
Verwendung als Eigenschaftsargumente unterschiedlich bezeichnet werden können. Zum anderen kann
ein Eigenschaftsattribut auch unterschiedliche Datenbankattribute referenzieren. Dieser Abgleich ist während der vorbereitenden Phase vom Datenanalysten zu schaffen.
67
5.2 DIE MODELLIERUNG VON KD-FRAGEN
Attributgruppe
Fallgruppe
n:m
n:m
Attribut
Fall
1:n
Attributwertgruppe
1: n
Datenbankobjekte
n:1
Kompositionen der
Datenbankobjekte
Attributwert
Abbildung 21: Das Modell der Eigenschaftsargumente und der Gruppenargumente.
Attributgruppen
Persönliche Daten
...
Alter
Jung
(0 - 45 Jahre)
0
...
45
Geschlecht
Alt
(46 - 95 Jahre)
46
...
95
Attribut
Attributwertegruppen
W
M
Attributwerte
Abbildung 22: Ausschnitt aus dem Domänenmodell.
Gruppierung von Attributwerten
Attributwerte können zu Attributwertgruppen zusammengefasst werden. Eine Attributwertgruppe stellt also eine Menge von n Attributen dar. Im Falle von Attributen mit einem metrischen oder ordinalen Skalentyp kann die Attributwertgruppe als Intervall, das durch den maximalen und den minimalen Attributwert definiert wird, beschrieben werden. Zwischen benachbarten Intervallen darf es keine Überschneidungen geben. Für Attribute mit nominalen Skalen,
die also keine implizite Ordnung tragen, kann die Attributwertgruppe nur durch die Aufzählung der Attributwerte beschrieben werden. Dabei ist aber wiederum auf die Disjunktheit der
Attributwertgruppen zu achten. Wenn für ein Attribut Attributwertgruppen eingeführt wurden,
muss jeder einzelne Attributwert in genau einer Attributwertgruppe enthalten sein.
Kennzahlen auf Attributwerten
Eine weitere Form der Abstraktion erlaubt die Verwendung von Kennzahlen zur Beschreibung
univariater Häufigkeitsverteilungen der Menge der Attributwerte zu einem Attribut, wie z.B.
die Bildung des Mittelwerts oder der Standardabweichung. Da die Verwendbarkeit einer
Kennzahl für die Attributwerte vom Skalentyp des Attributs abhängig ist, müssen minimale
Skalentypen definiert sein, die die Anwendung einer Kennzahl für ein Attribut erlauben.40 Für
diesen Zweck wird das Element AttributKennzahl eingeführt, das in Tabelle 17 im Detail
beschrieben ist.
68
KAPITEL 5. KDQL UND KDAL – SPRACHEN FÜR FRAGEN UND ANTWORTEN VON FACHEXPERTEN
KDQL (in BNF)
vorausgesetzter minimaler
Skalentyp für ⟨Attribut⟩
⟨Modalwert⟩
Modalwert von ⟨Attribut⟩
Nominal
⟨Median⟩
Median von ⟨Attribut⟩
Ordinal
⟨Mittel⟩
Durchschnittswert von
⟨Attribut⟩
Metrisch
⟨Minimum⟩
Minimum von ⟨Attribut⟩
Ordinal
⟨Maximum⟩
Maximum von ⟨Attribut⟩
Ordinal
⟨Standardabweichung⟩
Standardabweichung von
⟨Attribut⟩
Metrisch
⟨Varianz⟩
Varianz von ⟨Attribut⟩
Metrisch
Kennzahltyp Kennzahl
Mittelwerte
Streuungswerte
Tabelle 17: Modellierung des Elements AttributKennzahl.
5.2.1.3.2 Gruppenargumente
Gruppenargumente spezifizieren Teilmengen der Daten, z.B. verschiedene Patientengruppen
in einer Datenbankrelation von Patientendaten, um sie zueinander in Relation zu setzen. Die
Gruppenargumente treffen also eine Auswahl aus der Menge der verfügbaren Datensätze (horizontale Auswahl, Datenselektion). Die Spezifikation von Gruppenargumenten erfolgt über
Fallgruppen, also Abstraktionen über den einzelnen Fällen in einer Datenbankrelation (siehe
dazu auch Abbildung 21). Diese werden vorab entweder
• durch die Spezifikation der Eigenschaften der Fälle, die in der Fallgruppen enthalten sein
sollen (implizite Fallgruppenbildung), gebildet oder
• durch die Enumeration von Fällen, die zu einer Fallgruppe gehören sollen, falls die Definition über die Eigenschaften nicht möglich ist (explizite Fallgruppenbildung).
Die Gruppenargumente werden über das in Tabelle 16 definierte Element Fallliste spezifiziert. Dadurch werden Fragen wie die in Beispiel 18 dargestellte möglich.
Beispiel 18: Einfache Frage mit Gruppenargumenten.
Welchen Unterschied gibt es zwischen Risikopatienten und Nicht-Risikopatienten?
Dabei ist die Fallgruppe Risikopatienten definiert als die Menge der Patienten, die älter als 60 Jahre sind, die schon einmal einen Herzinfarkt hatten und die Raucher sind. Die Fallgruppe Nicht-Risikopatienten wird
durch das Komplement gebildet.
Einen Spezialfall der Gruppenargumente stellen die Zeitgruppenargumente dar, die vor allem für das Frageobjekt Veränderung benötigt werden. Sie werden stets über eine zeitliche
Eigenschaft definiert und dazu verwendet, einzelne Fälle einem Zeitintervall zuordnen zu können, z.B. Klinikaufenthalte, die im Jahr 2002 beendet wurden. Die Zeitgruppenargumente werden über das in Tabelle 16 definierte Element Zeitliste spezifiziert.
40
Hier und im Folgenden verwenden wir die in [Wit91] beschriebene aufsteigende Hierarchie der Skalentypen: nominal - ordinal - metrisch.
5.2 DIE MODELLIERUNG VON KD-FRAGEN
69
5.2.1.3.3 Objektargumente
In Ergänzung zu den beiden datenorientierten Frageargumenten Eigenschaftsargumente
und Gruppenargumente führen wir den dritten Typ von Frageargumenten Objektargumente ein. Dieser erlaubt einen rekursiven Aufruf von Frageobjekten. Damit werden sowohl
statistische Frageobjekte, wie z.B. Zusammenhang, als auch domänenspezifische Frageobjekte, wie z.B. Korrektheit der Therapeutik, mit ihren jeweiligen Argumenten als Frageargumente
möglich. Beispiel 19 zeigt eine solche Frage mit einer rekursiven Verwendung von Frageobjekten.
Beispiel 19: Einfache Frage mit Objektargumenten.
Welchen Zusammenhang gibt es zwischen der Veränderung der Verweildauer zwischen 1998 und 2002 und der Veränderung des Privatversicherten-Anteils zwischen 1998 und 2002?
Die Verwendung von Objektargumenten ist jedoch nur für statistische Frageobjekte notwendig und sinnvoll. Zudem soll nicht mehr als eine Rekursionsstufe erlaubt werden, um die
Komplexität der Fragen zu begrenzen und ihre Verständlichkeit sicherzustellen.
5.2.2 Die optionalen Frageelemente
Die im vorhergehenden Abschnitt beschriebene Fragewurzel bestehend aus Fragetyp, Frageobjekt und Frageargumenten kann durch zwei optionale Elemente ergänzt werden, die vor allem eine Datenvorverarbeitung durch Gruppierung und Selektion realisieren: die Fragegruppe
und der Fragekontext.
5.2.2.1 Die Fragegruppe
Das Element Fragegruppe realisiert eine Abstraktion über die einzelnen Datenobjekte und
erlaubt die implizite Gruppierung von Datenobjekten durch Spezifikation des Attributs über
dessen Attributwerte die Gruppen gebildet werden. Damit wird es möglich, nur Datenobjekte
miteinander in Beziehung zu setzen, d.h. als eine Grundgesamtheit für Data-Mining-Analysen
zu betrachten, die in Bezug auf ein oder mehrere Attribute eine homogene Gruppe bilden.
Beim medizinischen Qualitätsmanagement beispielsweise ist die Hauptdiagnose, die für jeden
Patienten gestellt wurde, ein solches Kriterium. Nur innerhalb von Patientengruppen, die aufgrund derselben Hauptdiagnose behandelt werden, sind Vergleiche sinnvoll möglich.
Wie auch der im folgenden Abschnitt beschriebene Fragekontext, definiert die Fragegruppe eine Menge von Fällen innerhalb derer die Antworten gesucht werden. Fachexperten
bezeichnen diese Gruppen üblicherweise über das Gruppierungskriterium, also z.B. die Hauptdiagnose. Die einzelnen Gruppen, die aus der Gruppierung entstehen, sind dann aber durch bestimmte Ausprägungen zu dieser Eigenschaft charakterisiert. Die folgenden drei in Tabelle 18
beschriebenen Typen von Fragegruppen lassen sich unterscheiden:
• Allgemeine Fragegruppe: Es wird keine einschränkende Gruppierung vorgenommen;
alle verfügbaren Fälle werden zusammen zur Beantwortung herangezogen.
• Explizit definierte Fragegruppe: Der Fachexperte benennt die Gruppierungskriterien
explizit in der Frage.
• Implizit definierte Fragegruppe: Standardkriterien für die Gruppierungen, die Teil des
Domänenwissens sind und vorab vom Fachexperten erhoben wurden, werden angewandt. Dies reduziert den Aufwand für den Fachexperten, bei jeder Frageformulierung
70
KAPITEL 5. KDQL UND KDAL – SPRACHEN FÜR FRAGEN UND ANTWORTEN VON FACHEXPERTEN
die Gruppen zu spezifizieren, die innerhalb einer Domäne als statisch angesehen werden
können.
Typ
KDQL (in BNF)
Beispiel
Allgemein
-
innerhalb aller Fälle
Explizit definiert
in Gruppen mit derselben
⟨Eigenschaft⟩
in Gruppen mit derselben Hauptdiagnose
Implizit definiert
in interessanten Gruppen
in interessanten Gruppen
Tabelle 18: Modellierung des Elements Fragegruppe.
5.2.2.2 Der Fragekontext
Da in vielen Fällen nicht die vollständige Menge der Daten, die für die Beantwortung einer
Frage zur Verfügung stehen, für den Fachexperten von Interesse ist, sondern nur unterschiedliche Ausschnitte daraus, führen wir den Fragekontext ein. Dieser erlaubt die explizite Spezifikation eines Ausschnitts aus der Gesamtmenge der Daten durch die Angabe eines Selektionskriteriums und eines zugehörigen Ausprägung. Im datentechnischen Sinne erfolgt damit eine
Selektion der Fälle, die die in die Beantwortung der Fragestellung einbezogen werden sollen.
Auch für den Fragekontext erlauben wir drei Arten der Spezifikation, die in Tabelle 19 beschrieben sind:
• Allgemeiner Fragekontext: Es wird kein einschränkender Kontext gewählt und damit
keine Datenselektion vorgenommen; alle verfügbaren Fälle werden für die Beantwortung der Frage verwendet.
• Explizit definierter Kontext: Der Fachexperte benennt die kritischen Ausprägungen zu
den interessanten Eigenschaften.
• Implizit definierter Kontext: Standardkriterien für die Kontextbildung, die wiederum
Teil des Domänenwissens sind und vorab vom Fachexperten erhoben wurden, werden
angewandt. Damit ist auch hier eine Reduktion des Formulierungsaufwands bei Standardfragen möglich.
Typ
KDQL (in BNF)
Beispiel
Allgemein
-
in den Gesamtdaten
Explizit definiert
in einer Datenmenge bestimmt durch
⟨Eigenschaft⟩ ⟨Ausprägung⟩
in einer Datenmenge bestimmt durch das Jahr
2001
Implizit definiert
in interessante Datenmengen
in interessanten Datenmengen
Tabelle 19: Modellierung des Elements Fragekontext.
Mit den beiden optionalen Elementen Fragegruppe und Fragekontext beschließen wir die
Darstellung der Knowledge Discovery Question Language für die Beschreibung der Syntax
von KD-Fragen. Die aus Beispiel 12 bekannte Frage lässt sich unter Verwendung des beschriebenen XML-Schemas mit KDQL wie in Abbildung 23 gezeigt darstellen
Bevor wir uns im Kapitel 6 der Beschreibung der Operationalisierung von KD-Fragen zuwenden, wollen wir noch einen kurzen Blick auf das Pedant zu den KD-Fragen, also auf die
KD-Antworten und ihre Syntax werfen.
5.3 DIE MODELLIERUNG VON KD-ANTWORTEN
71
<KD-Frage>
<FrageWurzel>
<TypDeskriptiv>
<ObjektStat>
<Zusammenhang>
<ZusammenhangGerichtet>
<AbhängigArgument>
<EigenschaftArgument ArgumentTyp="Attribut">
Alter
</EigenschaftArgument>
</AbhängigArgument>
<UnabhängigArgument>
<EigenschaftArgument ArgumentTyp="Attribut">
Verweildauer
</EigenschaftArgument>
</UnabhängigArgument>
</ZusammenhangGerichtet>
</Zusammenhang>
</ObjektStat>
</TypDeskriptiv>
</FrageWurzel>
<FrageGruppe>
<GruppeArgument>
<Attribut>Hauptdiagnose</Attribut>
</GruppeArgument>
</FrageGruppe>
<FrageKontext>
<Attributwertpaar>
<Attribut>Klinik</Attribut>
<Attributwert>Augenklinik</Attributwert>
</Attributwertpaar>
</FrageKontext>
</KD-Frage>
Abbildung 23: XML-Darstellung der Frage aus Beispiel 12.
5.3 Die Modellierung von KD-Antworten
Der Begriff der Antwort erfährt im Vergleich zur Frage in der einschlägigen Literatur eine wesentlich geringere Aufmerksamkeit. Dies ist sicherlich dem Umstand zuzuschreiben, dass eine
Antwort nur Teil des Sprechakts Frage im linguistischen Sinne bzw. das Komplement zum
Satztyp Frage im normalen Sprachgebrauch ist. Antworten werden also als spezielle Propositionen mit einem Bezug zu einer Frage verstanden. Durch diese nicht zu unterschätzende Abhängigkeit von der zu beantwortenden Frage wird nicht nur der Typ, sondern auch die Struktur
einer Antwort bereits zu einem hohen Grad durch die Formulierung der Frage vorgegeben.
Beispiel 20 erläutert dies anhand von zwei verschiedenen Arten von Fragen.
72
KAPITEL 5. KDQL UND KDAL – SPRACHEN FÜR FRAGEN UND ANTWORTEN VON FACHEXPERTEN
Beispiel 20: Antworten. Auf Entscheidungs- oder Satzfragen wie
Gibt es einen Zusammenhang zwischen Alter und Verweildauer?
muss notwendigerweise die minimale41 Antwort
Ja, es gibt einen Zusammenhang zwischen Alter und Verweildauer!
heißen, während ein Beispiel für eine angemessene Antwort auf die
Ergänzungs- oder Wortfrage
Welchen Zusammenhang gibt es zwischen Alter und Verweildauer bei den
Patienten mit derselben Hauptdiagnose der Augenklinik?
nur
Es gibt einen starken, positiven Zusammenhang zwischen Alter und Verweildauer bei den Patienten mit derselben Hauptdiagnose in der Augenklinik!
lauten kann.
Analog zum Aufbau von KD-Fragen stellen wir die folgenden vier Hauptelemente von KDAntworten fest:
• das Antwortobjekt,
• die Antwortargumente,
• die Antwortgruppe und
• den Antwortkontext.
Die Antwortgruppe und der Antwortkontext entsprechen der Fragegruppe (siehe Abschnitt
5.2.2.1) und dem Fragekontext (siehe Abschnitt 5.2.2.2) und werden deshalb im Folgenden
nicht weiter betrachtet. Für die Beschreibung von KD-Antworten führen wir die Knowledge
Discovery Answer Language (KDAL) ein, die eine ähnliche Syntax wie KDQL aufweist. Auch
in diesem Fall lässt sich die komplexe Antwortwurzel, wie in Beispiel 20 dargestellt, zerlegen
in den Antworttyp, das Antwortobjekt und die zusätzliche Antwortobjektbeschreibung sowie
die Antwortargumente.
Beispiel 21: Analyse einer Antwort. Die in Beispiel 20 beschriebene Antwort lässt
sich mit den folgenden Elementen von KDAL beschreiben:
Antwortteil
KDAL-Element
Es gibt
Antworttyp
einen starken, positiven
Antwortobjektbeschreibung
Zusammenhang
Antwortobjekt
zwischen Alter und Verweildauer
Antwortargumente
bei den Patienten mit derselben Hauptdiagnose Antwortgruppe
in der Augenklinik.
Antwortkontext
Tabelle 20: KDAL-Elemente einer einfachen Antwort.
Da die Formulierung von Antworten im Generellen und KD-Antworten im Speziellen, wie
41
Das Phänomen, dass mit der Frage „Gibt es einen Zusammenhang?“ eigentlich die Frage „Welchen
Zusammenhang gibt es?“ impliziert wird, dass also die Existenz eines Zusammenhangs bereits unterstellt
wird – in der Linguistik als Präsupposition bezeichnet – soll hier nicht weiter berücksichtigt werden. Die
minimale Antwort wird dann also auch die maximale sein.
5.3 DIE MODELLIERUNG VON KD-ANTWORTEN
73
schon früher erwähnt, einen hohen Grad an Abhängigkeit von den entsprechenden Fragen bzw.
KD-Fragen haben, können die Elemente Antwortobjekt, Antwortargumente, Antwortgruppe und Antwortkontext direkt von der KD-Frage übernommen werden.42 Die zusätzlichen Informationen, die durch die KD-Antwort geliefert werden, sind:
• bei konfirmativen KD-Fragen im Antworttyp (z.B. Ja, es gibt...!),
• bei deskriptiven KD-Fragen in der Antwortobjektbeschreibung (z.B. einen starken, positiven Zusammenhang) und
• bei komplexen KD-Fragen in der Antwortfokusbeschreibung (z.B. Patienten, die
älter sind als 55 Jahre...) enthalten.
Im Folgenden soll die Formulierung von KD-Antworten zu den unterschiedlichen Typen
von KD-Fragen detaillierter untersucht werden.
5.3.1 KD-Antworten zu konfirmativen KD-Fragen
Wie in Abschnitt 5.2.1.1 angedeutet, stellt der konfirmative Typ von Fragen ein boolesches
Prädikat dar, das entscheidet, ob die Hypothese, die in der KD-Frage formuliert ist, in den Daten bestätigt oder widerlegt werden kann. Die dazugehörigen KD-Antworten, die wir in positiv
und negativ konfirmativ unterscheiden, sehen daher, wie in Tabelle 21 gezeigt, sehr einfach
aus. Diese erste Möglichkeit der Formulierung von KD-Antworten wurde bereits früher in Beispiel 14 gezeigt.
Antworttyp
KDAL (in BNF)
positiv konfirmativ
Ja, es gibt ⟨Antwortobjekt⟩ ⟨Antwortargumente⟩ ⟨Antwortgruppe⟩ ⟨Antwortkontext⟩.
negativ konfirmativ
Nein, es gibt kein ⟨Antwortobjekt⟩ ⟨Antwortargumente⟩ ⟨Antwortgruppe⟩ ⟨Antwortkontext⟩.
deskriptiv
Es gibt ⟨Antwortobjektbeschreibung⟩ ⟨Antwortobjekt⟩ ⟨Antwortargumente⟩ ⟨Antwortgruppe⟩ ⟨Antwortkontext⟩.
komplex
Bei ⟨Antwortfokus⟩ ⟨Antwortgruppe⟩ ⟨Antwortkontext⟩, bei denen ⟨Antwortfokusbeschreibung⟩ ist, gibt es ⟨Antwortobjektbeschreibung⟩ ⟨Antwortobjekt⟩ ⟨Antwortargumente⟩.
Tabelle 21: Arten von KD-Antworten.
5.3.2 KD-Antworten zu deskriptiven KD-Fragen
Die wichtigste zusätzliche Information, die von KD-Antworten zu deskriptiven Fragen geliefert werden, ist die Beschreibung des Frageobjekts, die wir als Antwortobjektbeschreibung bezeichnen. Diese stammt von der Beschreibung des Ergebnisses der Hypothesenüberprüfung und ist damit vom Typ der Hypothese abhängig. Dabei ergeben sich unterschiedliche
Beschreibungsmaße. Im Falle einer Zusammenhangshypothese sind dies beispielsweise
• die Stärke, zum Beispiel der Betrag eines Korrelationskoeffizienten, und
• die Richtung, das heißt die Art und Weise, wie sich Veränderungen der Größen der Faktoren zueinander verhalten.
Die numerischen Beschreibungen für die einzelnen Beschreibungsmaße können nach
[Wit91] und [Käp02] gruppiert und versprachlicht werden. Eine vollständige Übersicht über
42
Obwohl beispielsweise Antwortargumente identisch mit Frageargumenten sind, verwenden wir für
sie eigenständige Bezeichnungen, da sie im Rahmen einer Antwort Teile einer vollständigen Aussage sind.
74
KAPITEL 5. KDQL UND KDAL – SPRACHEN FÜR FRAGEN UND ANTWORTEN VON FACHEXPERTEN
die Beschreibungsmaße für alle Elemente und die Möglichkeiten der Gruppierung und Versprachlichung liefert Anhang D. Die Formulierung von KD-Antworten zu deskriptiven KDFragen wurde bereits in Beispiel 15 dargestellt.
5.3.3 KD-Antworten zu komplexen KD-Fragen
Bei komplexen Fragen wird neben dem Frageobjekt auch der Fragefokus untersucht. Die Beantwortung der Frage muss dementsprechend, wie in Abschnitt 6.2.3 detailliert beschrieben, in
mehreren Schritten durchgeführt werden. Als Ergebnis einer solchen Beantwortungsfolge ergibt sich damit zum einen die Beschreibung des Antwortobjekt, die Antwortobjektbeschreibung, und zum anderen die Charakterisierung der Menge der Elemente aus dem Antwortfokus, für die die Hypothese bestätigt werden konnte. Diese bezeichnen wir als Antwortfokusbeschreibung. Beispiel 16 illustriert die Formulierung von KD-Antworten zu komplexen Fragen.
5.4 Zusammenfassung
In diesem Kapitel haben wir die syntaktischen Aspekte der Knowledge Discovery Question
Language (KDQL) für die Formulierung von Fragen von Fachexperten und der Knowledge
Discovery Answer Language (KDAL) für die Formulierung der entsprechenden Antworten beschrieben. Damit sind der Ausgangspunkt und das Ziel eines Analyseschrittes definiert. Beide
Sprachen spiegeln die Anforderungen von Fachexperten bei der Datenanalyse wider und abstrahieren beispielsweise weitestgehend von Data-Mining- und Datenbankterminologie. Aufgrund des Abgleich mit der Grammatik der natürlicher Sprache bei der Konzeption von KDQL
kann von einem hohen Grad von Vollständigkeit der Abdeckung mit den tatsächlichen Fragen
von Experten ausgegangen werden. Die beiden Sprachen bestehen aus allgemeinen und domänenspezifischen Teilen und sind aufgrund ihrer deklarativen Beschreibung als XML-Sprachen
leicht wart- und erweiterbar. KDQL und KDAL stehen damit für den Einsatz in der prototypischen Realisierung unseres Ansatzes im Knowledge Discovery Assistant (KDA) zur Verfügung (siehe dazu auch Kapitel 8). Im nun folgenden Kapitel werden wir uns detailliert mit der
Operationalisierung von KD-Fragen auseinandersetzen, um Ihre Bedeutung zu beschreiben.
KAPITEL 6 DIE OPERATIONALISIERUNG VON KD-FRAGEN
Für die Beschreibung der Semantik von Fragen existieren, wie in Abschnitt 3.2 dargestellt,
zwei verschiedene Ansätze: die funktionale Theorie beschreibt die Semantik von Fragen als
eine Funktion auf der Menge der Kurzantworten, während die propositionale Theorie Fragen
als Mengen von kongruenten Propositionen beschreibt. Unter Verwendung der propositionalen
oder Antwortmengen-Theorie und des in Abschnitt 3.2.3 erwähnten Kompositionalitätsprinzips von Frege ließe sich postulieren:
Die Bedeutung einer KD-Frage ist die Menge ihrer KD-Antworten.
Da sich KD-Antworten, wie in Abschnitt 5.2 dargestellt, ähnlich wie KD-Fragen über eine
Menge von Elementen beschreiben lassen, die für jede Instanz einer KD-Antwort durch bestimmte Ausprägungen befüllt sind, lässt sich weitergehend fordern:
Die Menge der KD-Antworten zu einer KD-Frage ist das kartesische Kreuzprodukt
der Mengen aller Möglichkeiten, die einzelnen Elemente einer KD-Antwort zu füllen.
Die propositionale Theorie lässt sich jedoch nur als Grundidee auf den hier vorliegenden
Fall anwenden: Bei den Frage-Antwort-Kombinationen, für die die semantischen Theorien
entwickelt wurden, lässt sich davon ausgehen, dass der Gefragte die Antwort zum Zeitpunkt
der Fragestellung weiß und nur formulieren muss. Diese Annahme ist sicherlich bei Fragen im
alltäglichen Gebrauch43 gültig, trifft hier jedoch nicht zu. Um Antworten auf die vom Fachexperten gestellten Fragen zu liefern, werden im Kontext unserer Ansatzes verschiedene Methoden und Algorithmen angewendet, deren Ergebnisse als Bestandteile von Antworten gesehen
werden. KD-Fragen spezifizieren also indirekt und aufgrund der flexiblen Abbildungsmechanismen (siehe Kapitel 7) mit einer gewissen Dynamik Experimente, die auf den Daten ausgeführt werden sollen. Damit kann KDQL als Kommandosprache auf hoher Ebene verstanden
werden. Die Bedeutung eines Ausdrucks in KDQL und damit einer KD-Frage stellt sich also
als ihre Operationalisierung dar.
Im Folgenden gilt es zu untersuchen, wie sich die Operationalisierung einer KD-Frage im
Detail beschreiben lässt, um die Bedeutung der KD-Frage verstehen zu können. Dabei gehen
wir von der grundsätzlichen Annahme aus, dass die Bedeutung von Attributen, Attributwerten
und Fällen, die als Frageargumente für KD-Fragen verwendet werden können, der Semantik
ihrer Datenbankeinträge entspricht.44
43
44
Dies gilt auch für fragegesteuerte Information-Retrieval-Systeme und Suchmaschinen.
Daraus ergibt sich die Anforderung an den Benutzer, dass er mit der Bedeutung der in der Datenbank
enthaltenen Attribute usw. vertraut ist, die wir im Abschnitt 9.3 im Rahmen der Evaluierung des Ansatzes
noch detaillierter beschreiben werden.
76
KAPITEL 6. DIE OPERATIONALISIERUNG VON KD-FRAGEN
Wie wir in Kapitel 7 zeigen werden, hängt die Art der Beantwortung einer KD-Frage davon
ab, welche statistischen oder Data-Mining-Methoden zur Verfügung stehen und ausgewählt
werden. Aus diesem Grund lässt sich die Semantik der KD-Fragen nicht unabhängig davon beschreiben. Wir werden deshalb im Folgenden von einem Grundvorrat an Methoden ausgehen,
den wir als Standard definieren und für die Beschreibung der Semantik verwenden.
Ausschlaggebend für die Auswahl der Methode ist das Frageobjekt.45 Aus diesem Grund
werden wir die Darstellung der KD-Antwortmengen zu KD-Fragen zunächst an den Frageobjekten orientieren.
6.1 Die Operationalisierung des Frageobjekts
Das Frageobjekt ist das primäre Auswahlkriterium für die Methode aus dem Bereich Statistik
oder Data-Mining, die zur Beantwortung der KD-Frage verwendet wird. Im Folgenden gehen
wir zunächst auf die Bedeutung der allgemeinen Frageobjekte (siehe auch Abschnitt 5.2.1.2.1)
und der domänenspezifischen Frageobjekte (siehe auch Abschnitt 5.2.1.2.2) ein. Dabei formulieren wir zunächst eine Hypothese, die wir als theoretische Grundlage für die Frage betrachten, und wählen eine Methode aus dem Standardvorrat, die für die Überprüfung der Hypothese
geeignet ist. Da die einzelnen Methoden unterschiedliche Bewertungsmaße liefern, müssen mit
den Methoden Beschreibungen dieser Maße und Kriterien, z.B. Grenzwerte, für die Entscheidungsfunktionen geliefert werden. Eine detaillierte Beschreibung der Methoden zur Hypothesenverifikation liefert Wittenberg in [Wit91].
Die allgemeinen Typen der Frageobjekte enthalten keine expliziten Eigenschaften, die
überprüft werden sollen. Stattdessen werden Hypothesen für alle relevanten Eigenschaften
mithilfe der entsprechenden statistischen Tests generiert und überprüft. Die Spezialisierung eines statistischen Elements durch eine Eigenschaft bewirkt eine Eingrenzung auf eine Hypothese und damit einen statistischen Test. In Ergänzung zu den statistischen Tests lassen sich für
den Nachweis der statistischen Elemente auch andere, „klassischere“ Data-Mining-Methoden,
also beispielsweise Verfahren der Regelinduktion (z.B. diskriminierende Regeln für den Nachweis von Unterschieden, Assoziationsregeln für Zusammenhänge) anwenden.46
6.1.1 KD-Fragen nach einem Zusammenhang
Basierend auf statistischen Zusammenhangshypothesen (z.B. „zwischen Fehlzeiten und Stress
am Arbeitsplatz besteht ein positiver Zusammenhang“), löst dieses Frageobjekt die Suche nach
zwei oder mehr Variablen aus, zwischen denen ein statistischer Zusammenhang besteht, wie es
z.B. in der folgenden Frage ausgedrückt wird:
Gibt es einen Zusammenhang zwischen Alter und Verweildauer?
Abbildung 24a illustriert die Idee eines Zusammenhangs, bei der eine Ausprägung einer Eigenschaft in verschiedenen, nicht vorab definierten Fallgruppen, eine bestimmte Ausprägung
einer anderen Eigenschaft bewirkt.
Dieses Verständnis geht auf die Hypothese zurück, dass sich die beiden Variablen annähernd über die in Gleichung 4 gezeigte Regressionsgerade beschreiben lassen.47
45
Die Frageargumente können beispielsweise aufgrund ihres Skalentyps die Verwendung bestimmter
Methoden verbieten. Ihr Einfluss ist damit aber nur sekundär.
46
47
Eine Übersicht über die Analysemethoden liefert Anhang D.1.
Für die Untersuchung von Zusammenhängen, die sich nicht linear beschreiben lassen, werden komplexere Hypothesen mit komplexeren Überprüfungsmethoden benötigt.
77
6.1 DIE OPERATIONALISIERUNG DES FRAGEOBJEKTS
Patient B
Verweildauer
Alter
Verweildauer
<
NichtRisikopatienten
Risikopatienten
Patient A
Alle Patienten
Alle Patienten
c) Gemeinsamkeit
Risikopatienten
NichtRisikopatienten
1999
Alle Patienten
<
Verweildauer
=
Verweildauer
Verweildauer
Verweildauer
d) Veränderung
<
2000
Verweildauer
Alter
Verweildauer
b) Unterschied
Verweildauer
a) Zusammenhang
2001
Alle Patienten
Abbildung 24: Visualisierung der allgemeinen Frageobjekte.
a = x 1 b + x 2 , mit a und b sind metrische Variablen
(4)
Um diese Hypothese zu überprüfen, lässt sich unter der Annahme zweier metrischer Attribute Pearson’s r als Maß verwenden, „das Enge und Richtung eines bivariaten Zusammenhangs auch im Vergleich mit anderen bivariaten Korrelationen in einem einzigen Kennwert zu
charakterisieren erlaubt“ ([Wit91:132]).48 Dieser Wert wird im Falle eines konfirmativen Fragetyps für die Entscheidung verwendet, ob ein Zusammenhang zwischen zwei Variablen at1
und at2 gegeben ist, und im Falle eines deskriptiven Fragentyps, wie der Zusammenhang beschrieben werden kann.
|| Zusammenhang || (at1, at2)
= Pearson_R (at1, at2)
(5)
Die Bedeutung des Frageobjekts Zusammenhang und damit des Antwortobjekts lässt sich
dann als das Ausmaß der Korrelation oder konkret als der Wert von Pearson’s r zwischen den
beiden Variablen beschreiben.
6.1.2 KD-Fragen nach einem Unterschied
Basierend auf statistischen Unterschiedshypothesen, nach denen sich zwei oder mehrere Populationen bezüglich einer oder mehrerer abhängiger Variablen unterscheiden (z.B. „Studierende
der Sozialwissenschaften und der Naturwissenschaften unterscheiden sich in ihrem politischen
Engagement“), erlaubt dieses Frageobjekt die Suche nach diskriminierenden Merkmalen zwischen zwei oder mehr Fallgruppen. Wie in Abbildung 24b gezeigt, wird bei einem spezifischen
48
Für ordinalskalierte Variablen lässt sich Spearman’s Rangkorrelationskoeffizient Rho analog verwenden. Für eine detaillierte Beschreibung der beiden Tests verweisen wir auf [Wit91] und [Bor93].
78
KAPITEL 6. DIE OPERATIONALISIERUNG VON KD-FRAGEN
Unterschied davon ausgegangen, dass sich eine Eigenschaft unterschiedlich in verschiedenen,
aber vorab (explizit) definierten Fallgruppen verhält.
Als Beispiel für eine KD-Frage nach einem Unterschied verwenden wir im Folgenden:
Gibt es einen Unterschied bezüglich der Verweildauer zwischen Risikopatienten
und Nicht-Risikopatienten?
Damit formuliert die Frage die in Gleichung 6 gezeigte Hypothese, die davon ausgeht, dass
sich der Mittelwert der Verweildauer in den beiden Populationen Risikopatienten und NichtRisikopatienten unterscheidet:
µ p1 ( a ) – µ p2 ( a ) > 0 ,
(6)
mit a p1, a p 2 sind Wertemengen einer Variablen a aus zwei Populationen p1, p2 mit p 1 ≠ p 2 .
Auch im Falle des Unterschieds legen wir ein Standardverfahren zur Auswertung zugrunde:
wir verwenden Student’s t-Test49 für metrische Variablen, wie beispielsweise die Verweildauer, der die Existenz von signifikanten Mittelwertunterschieden einer Variablen at in zwei Populationen DT1 und DT2 überprüft. Als zusätzlichen Parameter nehmen wir ein mittleres Signifikanzniveau von 95% an, das im Laufe der Analyse angepasst werden kann.50 Mit dem t-Test
wird getestet, ob der errechnete d.h. empirische t-Wert bei der zuvor festgelegten Irrtumswahrscheinlichkeit51 α größer als der theoretische t-Wert ausfällt. In diesem Fall ist davon auszugehen, dass der Unterschied der Mittelwerte signifikant ist. Damit lässt sich die Bedeutung des
Frageobjekts Unterschied mit Gleichung 7 darstellen:
|| Unterschied || (at, DT1, DT2) =
α | T-Testemp(at, DT1, DT2) > T-Testthe(α) und α ist min.
(7)
Die Bedeutung des Frageobjekts Unterschied und damit auch wiederum des Antwortobjekts
entspricht also der minimalen Irrtumswahrscheinlichkeit α, mit der ein statistischer Unterschied nachgewiesen werden kann, oder dem maximalen Signifikanzniveau.
6.1.3 KD-Fragen nach einer Gemeinsamkeit
Als Inversion von statistischen Unterschiedhypothesen in dem Sinne, dass zwei oder mehrere
Populationen Gemeinsamkeiten bezüglich einer oder mehrerer abhängiger Variablen aufweisen (z.B. „Studierende der Informatik und der Elektrotechnik zeigen ein gleich stark ausgeprägtes politisches Engagement“), macht diese Frageobjekt die Suche nach gemeinsamen charakterisierenden Merkmalen von zwei oder mehr Fallgruppen möglich. Bei diesem Frageobjekt steht also die Hypothese zur Untersuchung an, ob sich eine Eigenschaft (Attribut) in verschiedenen, aber vorab (explizit) definierten Fallgruppen gleich verhält (siehe auch Abbildung
24c). Gemeinsamkeiten werden also als das Fehlen eines Unterschieds interpretiert. Ein Beispiel für eine KD-Frage nach einer Gemeinsamkeit stellt sich dann als Inversion der KD-Frage
aus Abschnitt 6.1.2 dar:
Gibt es eine Gemeinsamkeit bezüglich der Verweildauer zwischen Risikopatienten
49
Für eine detaillierte Beschreibung verweisen wir auch hier auf [Wit91] und [Bor93].
50
Für nominal- und ordinalskalierte Variablen verwenden wir analog den Chi²-Test.
51
Die Irrtumswahrscheinlichkeit, fälschlicherweise die Nullhypothese zu verwerfen, stellt das Komplement zum Signifikanzniveau dar. Eine Irrtumswahrscheinlichkeit von 1 % entspricht also einem Signifikanzniveau von 99%.
6.1 DIE OPERATIONALISIERUNG DES FRAGEOBJEKTS
79
und Nicht-Risikopatienten?
Damit ist auch die dieser KD-Frage zugrunde liegende Hypothese invers zur oben beschriebenen Unterschiedshypothese und ergibt sich, wie in Gleichung 8 gezeigt, als Gleichheit der
Mittelwerte der zu untersuchenden Variablen in zwei verschiedenen Populationen.
µ ( a p1 ) – µ ( a p2 ) = 0 ,
(8)
mit a p1, a p 2 sind Wertemengen einer Variablen a aus zwei Populationen p1, p2 mit p 1 ≠ p 2 .
Damit lässt sich wieder Student’s t-Test anwenden. Die Bedeutung einer KD-Frage nach einer Gemeinsamkeit wird damit wie in Gleichung 9 dargestellt beschrieben. In diesem Fall gilt
jedoch in Abweichung zur Unterschiedshypothese: Die Hypothese wird angenommen, wenn
der empirische t-Wert kleiner oder gleich dem theoretischen t-Wert ist.
|| Gemeinsamkeit || (at, DT1, DT2) =
α | T-Testemp(at, DT1, DT2) ≤ T-Testthe(α) und α ist min.
(9)
Die Bedeutung des Frageobjekts Gemeinsamkeit entspricht also der minimalen Irrtumswahrscheinlichkeit α, mit der ein statistischer Unterschied nicht mehr nachgewiesen werden
kann.
6.1.4 KD-Fragen nach einer Veränderung
Basierend auf statistischen Veränderungshypothesen, dass sich Ausprägungen einer abhängigen Variablen im Verlauf der Zeit verändern, löst das Frageobjekt die Suche nach unterschiedlichen Werten eines Attributs zu unterschiedlichen Zeiten aus, also z.B. „Wiederholte Werbung für ein Produkt erhöht die Bereitschaft, das Produkt zu kaufen“. Abbildung 24d illustriert
die Annahme, dass in verschiedenen Fallgruppen, die (explizit) durch eine zeitliche Eigenschaft charakterisiert sind, die Ausprägungen einer anderen Eigenschaft mit zunehmender oder
abnehmender zeitlicher Eigenschaft zu- oder abnehmen oder sich andere zeitliche Muster bilden. Als Beispiel für eine KD-Frage nach einer Veränderung verwenden wir im Folgenden die
Frage:
Gibt es eine Veränderung bezüglich der Verweildauer zwischen 2001 und 2002?
Im Falle von einfachen Hypothesen zu Veränderungen einer Variablen zwischen zwei oder
mehr Zeitpunkten lassen sich statistischen Hypothesen gemeinhin genauso formulieren wie für
Unterschiedhypothesen. Die Veränderung kann damit als eine gleichgerichtete, auf- oder absteigende Folge von Unterschieden einer Variablen interpretiert werden. Dies lässt sich mit der
in Gleichung 10 formulierten Hypothese darstellen.
µ ( a t 1 ) – µ ( a t2 ) < 0, ... , µ ( a t n – 1 ) – µ ( a t n ) < 0 oder
µ ( a t 1 ) – µ ( a t2 ) > 0, ... , µ ( a t n – 1 ) – µ ( a t n ) > 0
(10)
mit a t1, a t2, ..., a t n sind Wertemengen der Variablen a zu Zeitpunkten t 1 < t 2 < ... t n
Für den Fall von zwei Vergleichszeitpunkten t1 und t2 lässt sich mit Hilfe dieser Hypothese
und Student’s t-Test zu ihrer Überprüfung die Bedeutung der Frage wie in Gleichung 11 dargestellt beschreiben.52
80
KAPITEL 6. DIE OPERATIONALISIERUNG VON KD-FRAGEN
|| Veränderung || (at, t1, t2) =
α | T-Testemp(at, t1, t2) > T-Testthe(α) und α ist min.
(11)
Die Bedeutung des Frageobjekts Veränderung und des korrespondierenden Antwortobjekts
entspricht also der minimalen Irrtumswahrscheinlichkeit α, mit der ein statistischer Unterschied zwischen den beiden Zeitpunkten nachgewiesen werden kann, oder dem maximalen Signifikanzniveau.
6.1.5 KD-Fragen mit domänenspezifischen Frageobjekten
Die Bedeutung der domänenspezifischen Frageobjekte lässt sich nicht allgemein beschreiben
sondern muss im Kontext der Domäne betrachtet werden. Darüber hinaus ist sie stark abhängig
von den jeweils gewählten Operationalisierungen, wie sie beispielsweise Abbildung 19 in Abschnitt 5.2.1.2.2 zeigt. In diesem Fall lässt sich die Semantik des Frageobjekts „Korrektheit der
Therapeutik“ auf einer Menge von Datensätzen DT durch eine gewichtete Summe der Ergebnisse aus den i einzelnen Operationalisierungsmöglichkeiten Opi darstellen. Da die einzelnen
Operationalisierungen jeweils prozentuale Anteile liefern, mit denen die Merkmale erfüllt werden, lässt sich daraus leicht ein Ergebniswert für die Bewertung der Korrektheit der Therapeutik ermitteln. Dies wird in Gleichung 12 dargestellt.
|| Korrektheit der Therapeutik || (DT) =
∑i αi Opi
(12)
Für weitere domänenspezifische Frageobjekte bietet sich ein analoges Vorgehen an.
6.2 Die Operationalisierung des Fragetyps
Wie oben beschrieben, wird also vor allem durch das Frageobjekt ein Algorithmus zur Beantwortung der Frage ausgewählt. Je nach Art des Algorithmus werden verschiedene Werte geliefert, die für die Beschreibung des Ergebnisses und damit für die genaue Formulierung der Antwort verwendet werden können. Die Art der Formulierung der Antwort wird durch den Fragetyp festgelegt, dessen Bedeutung im Folgenden näher untersucht werden soll.
6.2.1 Konfirmative KD-Fragen
Konfirmative KD-Fragen erwarten als Entscheidungsfragen eine Ja/Nein-Antwort. Sie stellen
damit ein boolesches Prädikat dar, das beschreibt, ob die Hypothese, die in der Frage formuliert ist, im statistischen Sinne in den Daten bestätigt oder widerlegt werden kann. Wie in Algorithmus 1 skizziert, stellen konfirmative Fragen den einfachsten Typ von Fragen dar und
können im Unterschied zu den folgenden Typen in einem Schritt beantwortet werden, da die
Entscheidung über Annahme oder Ablehnung der Hypothese gemeinhin noch als Bestandteil
des Hypothesentests gesehen wird:.
Die Ergebnisbewertung, die von der Analysemethode geliefert wird, muss also in eine diskrete Entscheidung umgesetzt werden. Dies geschieht durch den Vergleich der Ergebnisbewertung mit einem methodenspezifischen Grenzwert, der als Metadatum zu jeder Methode
modelliert wird. Der dafür benötigte Grenzwert kann an dieser Stelle nicht global spezifiziert
werden, sondern muss von der Realisierung des jeweiligen Frageobjekts bereitgestellt werden.
Im Falle von Pearson’s r, das für die Analyse von Zusammenhängen zwischen metrischen At52
Im Falle von mehr als zwei Vergleichszeitpunkten ist der t-Test wiederholt anzuwenden.
6.2 DIE OPERATIONALISIERUNG DES FRAGETYPS
81
Ausgangsbasis: Konkrete Hypothese im Frageobjekt (z.B. Zusammenhang)
Schritte:
1. Überprüfung der Hypothese
Ergebnis:
Bestätigung oder Widerlegung der Hypothese
Algorithmus 1: Vorgehen bei der Beantwortung einer konfirmativen
Frage
tributen eingesetzt wird, wurde dieser Grenzwert empirisch auf 0,20 festgelegt, im Falle des tTests muss das Signifikanzniveau, auf dem die Hypothese verifiziert werden konnte, bei 5%
oder darunter liegen. Die Bedeutung des konfirmativen Fragetyps stellt sich damit als die in
Gleichung 13 dargestellte Funktion der Analysemethode M und des von ihr zurückgelieferten
Ergebniswertes R dar. Die Menge der möglichen Welten wird dabei, wie in Abschnitt 3.2 beschrieben, in die geteilt, in denen der Ergebniswert den von der Analysemethode abhängigen
Grenzwert θkonfirmativ erfüllt oder überschreitet, und in die, in denen der Ergebniswert den
Grenzwert θkonfirmativ unterschreitet. Im ersten Fall kann die Hypothese bestätigt und die KDFrage positiv beantwortet werden, im zweiten Fall wird die Hypothese widerlegt und die KDFrage negativ beantwortet.
|| Gibt es ... || (R,M) =
{λi[R ≥ θkonfirmativ(M) in i],
λi[R < θkonfirmativ(M) in i]}
(13)
6.2.2 Deskriptive KD-Fragen
Deskriptive KD-Fragen leisten im Sinne von Ergänzungsfragen mit ihren KD-Antworten mehr
als nur die Dichotomisierung des Ergebniswertes. Sie liefern eine genauere Beschreibung des
Frageobjekts mit den Mitteln, die die jeweilige Analysemethode, die für die Beantwortung verwendet wird, zur Verfügung stellt. Wie in Algorithmus 2 gezeigt, werden für die Beantwortung von deskriptiven KD-Fragen zwei Verarbeitungsschritte benötigt.
Ausgangsbasis: Konkrete Hypothese im Frageobjekt (z.B. Zusammenhang)
Schritte:
1. Überprüfung der Hypothese
2. Bewertung der Aussage
Ergebnis:
Deskription des Ergebnisses der Überprüfung
Algorithmus 2: Vorgehen bei der Beantwortung einer deskriptiven
Frage
Um die Bewertung der Aussage durch eine verbale Beschreibung und damit die Entscheidung zwischen verschiedenen Charakterisierungen leisten zu können, ist die Diskretisierung
eines kontinuierlichen Wertes im Sinne einer sprachlichen Beschreibung notwendig. Durch die
Abhängigkeit der Beschreibungsmöglichkeiten von der Analysemethode M müssen diese wiederum zusammen mit der Methode modelliert werden. Durch Gleichung 14 lässt sich die Partitionierung des Raums der Antworten in Abhängigkeit vom Ergebniswert R, der Methode M
und einer Menge von n Intervallgrenzwerten θdeskriptiv,j für die Auswahl von n+1 geeigneten
Antwortbeschreibungen darstellen.
82
KAPITEL 6. DIE OPERATIONALISIERUNG VON KD-FRAGEN
|| Welchen ... gibt es || (R,M) =
{λi[R < θdeskriptiv,0 (M) in i],
{λi[R ≥ θdeskriptiv,1 (M) in i],
λi[R ≥ θdeskriptiv,2 (M) in i],
...,
λi[R ≥ θdeskriptiv,n (M) in i]}
(14)
Entsprechend der Entscheidung für eine Beschreibungskategorie können die entsprechenden verbalen Beschreibungen ausgewählt werden. Im Falle von Zusammenhangshypothesen,
die mit Pearson’s r überprüft wurden, stehen die in Tabelle 22 aufgeführten Intervalle mit ihren verbalen Beschreibungen zur Verfügung.53
Wertebereich
Beschreibung
-1.00 ≤ |Pearson_R(x,y)| < -0.90 sehr stark, negativ
-0.90 ≤ |Pearson_R(x,y)| < -0.70 stark, negativ
-0.70 ≤ |Pearson_R(x,y)| < -0.50 mittel, negativ
-0.50 ≤ |Pearson_R(x,y)| < -0.20 gering, negativ
-0.20 ≤ |Pearson_R(x,y)| <
0.00 sehr gering, negativ
0.00 < |Pearson_R(x,y)| ≤
0.20 sehr gering, positiv
0.20 < |Pearson_R(x,y)| ≤
0.50 gering, positiv
0.50 < |Pearson_R(x,y)| ≤
0.70 mittel, positiv
0.70 < |Pearson_R(x,y)| ≤
0.90 stark, positiv
0.90 < |Pearson_R(x,y)| ≤
1.00 sehr stark, positiv
Tabelle 22: Gruppierung und Übersetzung von Korrelationskoeffizienten
wie beispielsweise Pearson’s r in verbale Beschreibungen (nach
[Wit91]).
Für die anderen statistischen Hypothesen, bei denen das Ziel der Untersuchung das Signifikanzniveau bzw. die Irrtumswahrscheinlichkeit ist, mit der die Hypothese nachgewiesen werden kann, verwenden wir die in Tabelle 23 aufgeführte Klassifikation der Irrtumswahrscheinlichkeit α.
Wertebereich
Beschreibung
5% <
α ≤ 100% nicht signifikant
1% <
α ≤ 5%
signifikant
0,1% <
α ≤ 1%
sehr signifikant
0% <
α ≤ 0,1% höchst signifikant
Tabelle 23: Gruppierung und Übersetzung der Irrtumswahrscheinlichkeit
α (nach [Wit91]).
53
Die beiden Bewertungsmaße Stärke (ausgedrückt durch den Betrag von R) und Richtung (ausgedrückt durch das Vorzeichen von R), die hier aus Gründen der Übersichtlichkeit kombiniert dargestellt
werden, ließen sich auch durch getrennte Beschreibungen formulieren.
6.3 DIE KONSTRUKTION KOMPLEXER BEDEUTUNGEN VON KD-FRAGEN
83
6.2.3 Komplexe KD-Fragen
In einer weiteren Komplexitätsstufe erlauben komplexe KD-Fragen zunächst die Überprüfung
in einer von den konfirmativen KD-Fragen bekannten Form und im Erfolgsfall die Charakterisierung der überprüften Gesamtheit. Dafür benötigt der komplexe Fragetyp ein mehrstufiges
Vorgehen. Dieses basiert auf der im Frageobjekt formulierten allgemeinen Hypothese und dem
Typ der Objekte, für die die Hypothese zu überprüfen ist. Algorithmus 3 stellt dieses Vorgehen
im Detail dar.
Ausgangsbasis: Konkrete Hypothese im Frageobjekt (z.B. Zusammenhang), Objekttyp für Hypothesenüberprüfung (z.B. Patient)
Schritte:
1. Bildung von Clustern des Objekttyps
2. Überprüfung der Hypothese innerhalb der Cluster
3. Auswahl der Cluster, in denen die Hypothese bestätigt wurde
Ergebnis:
Beschreibung der Cluster, für die die Hypothese bestätigt wurde
Algorithmus 3: Vorgehen bei der Beantwortung einer komplexen Frage
Dabei ist wieder von der ausgewählten Methode M und dem von ihr gelieferten Ergebniswert
RDT auszugehen, der mit einem Schwellwert θkonfirmativ verglichen wird. Die Bedeutung der
Frage lässt sich dann mit Hilfe einer Konjunktion der Attribut-Attributwertpaare beschreiben,
die für alle Datensätze dt aus der Gesamtheit der untersuchten Datensätze DT erfüllt ist. Gleichung 15 illustriert diesen Sachverhalt. Dabei extrahiert die Funktion val(at(dt)) den Attributwert im Datensatz dt zum Attribut at.
|| Bei welchen ... gibt es ...|| (RDT,M) =
∪ { atn ;awn } ∀d t ∈ DT, val ( atn ( dt ) )
= aw n ∧ λi [ R DT ≥ θ konfirmativ ( M ) in i ]
(15)
n
Durch eine Verbalisierung der Konjunktion der Attribut-Attributwertpaare lassen sich Antworten auf komplexe KD-Fragen formulieren.
6.3 Die Konstruktion komplexer Bedeutungen von KD-Fragen
Durch die oben durchgeführte Analyse der Semantik von Fragetyp und Frageobjekt können
wir jetzt die Konstruktion komplexer Bedeutungen von vollständigen KD-Fragen untersuchen.
Dabei verwenden wir das Prinzip der semantischen Kompositionalität in dem Sinne, dass die
Bedeutung eines komplexen Ausdrucks eine Funktion der Bedeutungen seiner Teilausdrücke
ist. Zur Ermittlung der Bedeutung einer vollständigen KD-Frage werden also die oben dargestellten Bedeutungen der einzelnen KD-Elemente zu einer Funktion zusammengesetzt. Den
einzelnen Elementen kommen dabei die in Tabelle 24 dargestellten unterschiedlichen Rollen
zu.
Dem Grundsatz der Komposition folgend stellen die Beispiele 22 und 23 die Bedeutung einer konfirmativen Frage nach einem Zusammenhang und einer deskriptiven Frage nach einem
Unterschied dar.
84
KAPITEL 6. DIE OPERATIONALISIERUNG VON KD-FRAGEN
KDQL-Element
Verwendung
Fragetyp
Entscheidungsfunktion
Frageobjekt
Evaluierungsfunktion
Frageargumente Eingabewerte für Evaluierungsfunktion,
Projektion der Datensätze
Fragegruppe
Selektion der Datensätze
Fragekontext
Selektion der Datensätze
Tabelle 24: Verwendung der KDQL-Elemente bei der Ermittlung der
Semantik.
Beispiel 22: Die Bedeutung einer konfirmativen KD-Frage nach einem Zusammenhang. Für die Beschreibung der Bedeutung einer solchen KD-Frage
verwenden wir die Frage:
Gibt es einen Zusammenhang zwischen Alter und Verweildauer?
Durch Einsetzen der Gleichung 5 für die Formalisierung der Bedeutung
des Frageobjekts Zusammenhang in die Gleichung 13 für die Formalisierung der Bedeutung des konfirmativen Fragetyps lässt sich die folgende
Gleichung 16 aufstellen. Dafür werden die beiden Attribute Alter und
Verweildauer als Eingabewerte verwendet.54
|| Gibt es einen Zusammenhang || (Alter, VD) =
(16)
{λi[|Pearson_R(Alter, VD)| ≥ θkonfirmativ(Pearson_R) in i],
λi[|Pearson_R(Alter, VD)| < θkonfirmativ(Pearson_R) in i]} =
{λi[|Pearson_R(Alter, VD)| ≥ 0,20 in i],
λi[|Pearson_R(Alter, VD)| < 0,20 in i]} =
{λi[Ja, es gibt einen Zusammenhang zwischen Alter und
Verweildauer in i],
λi[Nein, es gibt keinen Zusammenhang zwischen Alter und
Verweildauer in i]}
Durch Einsetzen des konfirmativen Grenzwerts für Pearson’s r, der bei
0,20 festgelegt wurde, lässt sich die Bedeutung der Frage über die Menge
der Antwort beschreiben. Diese besteht in den beiden Möglichkeiten, dass
der Grenzwert von Pearson’s r überschritten wird, dass also mindestens
ein geringer Zusammenhang nachgewiesen werden konnte, oder dass der
Grenzwert nicht überschritten wird. In diesem Fall liegt kein Zusammenhang vor und die Frage würde negativ beantwortet werden.
Beispiel 23: Die Bedeutung einer deskriptiven KD-Frage nach einem Unterschied.
Hierfür verwenden wir die Frage
54
Zusätzlich angegebene Fragegruppen oder Fragekontexte würden eine Selektion der zur Verfügung
stehenden Datensätze bewirken.
85
6.4 ZUSAMMENFASSUNG
Welchen Unterschied gibt es bezüglich der Verweildauer zwischen
Gruppe 1 und Gruppe 2?
Wiederum setzen wir die Beschreibung des Frageobjekts aus Gleichung 7
in die Beschreibung des Fragetyps aus Gleichung 14 ein und erhalten damit die folgende Gleichung 17.
|| Welchen Unterschied gibt es || (VD, Gruppe1, Gruppe2) =
(17)
{λi[ 0% ≤ α < 0,1% in i],
λi[ 0,1% ≤ α < 1% in i],
λi[ 1% ≤ α < 5% in i],
λi[ 5% ≤ α < 100% in i]} =
{λi[Es gibt einen höchst signifikanten Unterschied bezüglich der Verweildauer zwischen Gruppe 1 und Gruppe 2 in i],
λi[Es gibt einen sehr signifikanten Unterschied bezüglich der Verweildauer zwischen Gruppe 1 und Gruppe 2 in i],
λi[Es gibt einen signifikanten Unterschied bezüglich der Verweildauer
zwischen Gruppe 1 und Gruppe 2 in i],
λi[Es gibt keinen signifikanten Unterschied bezüglich der Verweildauer
zwischen Gruppe 1 und Gruppe 2 in i]}
Durch Einsetzen der Grenzwerte für die Beschreibung der Signifikanz
bzw. der Irrtumswahrscheinlichkeit des Ergebnisses aus Tabelle 23 erhalten wir die Menge der vier möglichen Antworten und damit im Sinne der
Antwortmengentheorie die Bedeutung der Frage.
6.4 Zusammenfassung
Nach der Beschreibung der Syntax von KD-Fragen im vorhergehenden Kapitel haben wir in
diesem Kapitel ein Vorgehen für die Beschreibung der Semantik von KD-Fragen entworfen:
Unter Verwendung der Antwortmengentheorie gehen wir davon aus, dass die Bedeutung einer
Frage allgemein durch die Menge der Antworten darauf beschrieben werden kann. Dieser Idee
folgend, haben wir für die Ermittlung der möglichen Antworten zunächst das Frageobjekt aus
und anschließend den Fragetyp von KD-Fragen zusammen mit ihren Einflüssen auf die Menge
der Antworten analysiert. Durch die Kombination der Einflüsse nach dem Frege’schen Kompositionalitätsprinzip können daraus dann Beschreibungen der Antwortmengen von vollständigen KD-Fragen abgeleitet werden.
Die Sprache für KD-Fragen mit ihrer Syntax und ihre Semantik ist damit als Ausgangspunkt des Analyseprozesses umfassend beschrieben. Wir wenden uns jetzt dem Einsatz der
KD-Fragen und ihre pragmatischen Verarbeitung zu. Im folgenden Kapitel werden wir deshalb
im Detail die Expansion und die schrittweise Transformation von KD-Fragen bis hin zur Generierung von vollständigen Aufrufen von Analysealgorithmen in der Form von DM-Anfragen
beschreiben.
86
KAPITEL 6. DIE OPERATIONALISIERUNG VON KD-FRAGEN
KAPITEL 7 DIE ABBILDUNG VON KD-FRAGEN AUF DM-ANFRAGEN
Die Abbildung der Fragen von Fachexperten auf Data-Mining-Anfragen zu unterstützen, ist
ein wichtiger Bestandteil des QUESTUS-KDD-Ansatzes. Dies bedeutet, dass KD-Fragen in
der KD-Expansion zunächst verfeinert und die verfeinerten KD-Fragen in der KD-DM-Transformation dann auf DM-Anfragen abgebildet werden müssen. Dafür wird umfangreiches Expertenwissen benötigt und in der bereits in Abschnitt 4.4 beschriebenen Wissensbasis über
Methoden und Algorithmen aus den Bereichen Data Mining und Statistik bereitgestellt. Diese
umfasst unter anderem Wissen darüber, welche Fragestellungen mit welcher Methode beantwortbar sind, unter welchen Voraussetzungen welche Methoden anwendbar sind und wie Werte für die Parametrisierung der Algorithmen zu bestimmen sind.
Diese Abbildung von KD-Fragen auf DM-Anfragen besteht aus zwei Teilabbildungen: die
bereits in Abschnitt 4.3 erwähnte KD-Frage-Expansion, die die KD-Fragen in verfeinerte KDFragen auflöst, und anschließend die ebenfalls in Abschnitt 4.3 definierte KD-DM-Transformation, die als eigentlicher Kernprozess der Abbildung betrachtet werden kann. Letztere stellt
damit den Übergang zwischen der Sprache auf der Benutzerebene, die wir auch als KD-Ebene
bezeichnen, und der Sprache auf der DM-Ebene dar. Die KD-DM-Transformation wählt wiederum in mehreren Schritten für die konkret formulierte KD-Frage zunächst geeignete DataMining-Methoden, dann Konfigurationen von Data-Mining-Methoden und zuletzt Data-Mining-Algorithmen mit geeigneten Konfiguration aus. Dabei werden neben den in der Frage
formulierten Interessen auch generellen Präferenzen des Benutzers in Form von globalen Parametereinstellungen sowie datenbankbezogene Parameter berücksichtigt. Das Ergebnis der KDDM-Transformation stellt dann eine implementierungsunabhängige DM-Anfrage sein, die in
einem weiteren Schritt in eine implementierungsabhängige DM-System-Anfrage transformiert
werden kann. Für Details zur Beschreibung der beiden Abbildungsschritte verweisen wir auf
[Kok00].
Bevor wir jedoch in den Abschnitten 7.2 und 7.3 zu einer genaueren Beschreibung der einzelnen Abbildungsschritte kommen, ist es notwendig, einen Blick auf die Objekte zu werfen,
die während der Abbildung oder als ihr Ziel relevant sind.
7.1 Die Modellierung relevanter Objekte für die Abbildung
Im Folgenden beschreiben wir die für die Abbildungen benötigte Modellierung von DM-Anfragen, von Data-Mining-Methoden und von Data-Mining-Algorithmen. Dabei unterscheiden
wir zwischen dynamischen Objekten, die im Rahmen der Transformation einer KD-Frage entstehen (DM-Anfrage), und statischen Objekten, die für die Realisierung der Transformation
benötigt werden und bereits vor dem Beginn der Abbildung in der Wissensbasis enthalten sind
(Data-Mining-Methode, Data-Mining-Algorithmus).
88
KAPITEL 7. DIE ABBILDUNG VON KD-FRAGEN AUF DM-ANFRAGEN
7.1.1 Die Modellierung von DM-Anfragen
Alle Informationen, die zum Aufruf eines Data-Mining-Laufs benötigt werden, sind entweder
explizit oder als Referenzen im Objekttyp DM-Anfrage zusammengefasst. Eine DM-Anfrage
ist dabei im Gegensatz zur DM-System-Anfrage unabhängig von konkreten Implementierungen von Data-Mining-Algorithmen. Die DM-Anfragen werden als persistente Objekte in einer
Datenbank gehalten, so dass jederzeitiger ein späterer Zugriff möglich ist.
Zur formalen Beschreibung der Objekte vom Typ DM-Anfrage entwickeln wir die Data
Mining Algorithm Query Language (DMAQL). Eine DM-Anfrage in DMAQL besteht aus den
folgenden Elementen:
• Anfrage-Algorithmus-Konfiguration (AAKonf): Konfiguration des Data-Mining-Algorithmus, der für die Anfrage verwendet wird.
• Anfrage-Algorithmus-Konfiguration Argumente (AAKonfArgs): Argumente, die
die ausgewählte Konfiguration instantiieren.
• Anfrage globale Parameter (AGP): globale Parameter für die Anfrage.
• Anfrage-Daten (AD): Daten, die die Basis für die Anfrage bilden.
AAKonf spezifiziert eine bestimmte Art und Weise, wie ein Data-Mining-Algorithmus zu
verwenden ist. Diese Konfiguration stellt allerdings nicht nur eine Parametrisierung dar, sondern entspricht stets auch einer bestimmten Klasse von Fragestellungen, die damit bearbeitet
werden können, und damit einer Art gedanklichem Lösungsplan. Zu beachten ist, dass mit der
Angabe der AAKonf auch implizit ein zugeordneter Data-Mining-Algorithmus und eine zugeordnete Data-Mining-Methode angegeben sind.
Im zweiten Element AAKonfArgs werden die benötigten Argumente für die Konfiguration
des Data-Mining-Algorithmus (AAKonf) angegeben. Die Werte werden dabei aus den in der
aktuellen KD-Frage enthaltenen Frageargumenten abgeleitet.
Im Element AGP werden die globalen Parametersätze angegeben. Sie enthalten Präferenzen
des Benutzers, wie beispielsweise die minimal geforderte Konfidenz von Regeln. Die Parametersätze sind global in dem Sinne, dass sie nicht nur auf die aktuelle KD-Frage bezogen sind,
sondern fragenunabhängig sind und damit eine Art globalen Kontext darstellen. Die Parameter
dienen als eine Art Einstellungsparameter des Data-Mining-Algorithmus, beeinflussen und parametrisieren also dessen Verhalten und Ergebnisse. Im Gegensatz zu den in den Argumenten
zur Algorithmus-Konfiguration (AAKonfArgs) enthaltenen Parametern können sie eher als
eine Art Feineinstellung des Ablaufs angesehen werden.
Das Element AD dient der Angabe bzw. Eingrenzung der Datensätze, die die Basis für die
Datenanalyse darstellen. Dabei werden drei Informationen bereitgestellt: die Angabe der Relation, die die Daten enthält, die Angabe der darin relevanten Attribute und die Angabe der interessierenden Datensätze. Die Relation kann dabei auch implizit gegeben sein. Die Attributauswahl stellt im datenbanktechnischen Sinne eine Projektion, die Datensatzauswahl eine Selektion dar.
Damit lässt sich folgende Grammatik für die Sprache DMAQL in Backus-Naur-Form
(BNF) angeben:
⟨DM-Anfrage⟩ ::==
(⟨AAKonf⟩, ⟨AAKonfArgs⟩, ⟨AGP⟩, ⟨AD⟩)
⟨AAKonfArgs⟩ ::==
((⟨AAKonfArg⟩)*)
7.1 DIE MODELLIERUNG RELEVANTER OBJEKTE FÜR DIE ABBILDUNG
89
⟨AAKonfArg⟩ ::==
([⟨AList⟩ | ⟨Attribut⟩])
⟨AGP⟩ ::==
((⟨Parameter⟩ = ⟨Wert⟩)*)
⟨AD⟩ ::==
(⟨ADRelation⟩,
⟨ADProjektion⟩,
⟨ADSelektion⟩)
Beispiel 24 zeigt eine DM-Anfrage in natürlichsprachlicher und formaler DMAQL-Darstellung.
Beispiel 24: DM-Anfrage. In formaler DMAQL-Darstellung lässt sich eine DMAnfrage wie folgt darstellen:
AAKonf:
AAKonfArgs:
AGP:
AD:
Apriori_2a
((Alter),
(Verweildauer))
(MinSupp=0.02)
(Patienten_Relation, (),
(Klinik=Augenklinik, Jahr=2002))
In natürlichsprachlicher Formulierung liest sich diese DM-Anfrage wie
folgt:
Ausführung der Data-Mining-Methode „Induktion von Regeln“
über den Algorithmus „Apriori“ in der Konfiguration „Apriori_2a“
mit den weiteren Bedingungen „Alter im WENN-Teil und Verweildauer
im DANN-Teil“,
einem „Mindestsupport von 2 %“ und
Beschränkung der Suche auf „Datensätze zur Augenklinik 2002“
in der Relation „Patienten_Relation“.
7.1.2 Die Modellierung von Data-Mining-Methoden
Bei der stufenweisen Abbildung von KD-Fragen auf DM-Anfragen stellen Data-Mining-Methoden die erste wichtige Zwischenstufe dar. Wir unterscheiden dabei im Folgenden Data-Mining-Methoden von Data-Mining-Algorithmen: Der Begriff der Data-Mining-Methode wird in
der Literatur uneinheitlich gebraucht, teilweise mit dem Analysemodell ([Fay96b]) oder DataMining-Algorithmus ([Klo00]) gleichgesetzt und teilweise auch als Data-Mining-Operationen
(data mining operations, [Agr96]) bezeichnet. Im Kontext der vorliegenden Arbeit bezeichnen
wir mit Data-Mining-Methoden Verfahren zur Erstellung von Modellen, deren Instantiierungen mit Hilfe des Data Mining gesucht werden, also z.B. die Induktion von Regeln. Eine Übersicht über die Menge der verfügbaren Data-Mining-Methoden bietet beispielsweise [Fay96b].
90
KAPITEL 7. DIE ABBILDUNG VON KD-FRAGEN AUF DM-ANFRAGEN
Zur Beschreibung von Data-Mining-Methoden stellen wir einen umfangreichen Katalog
von Charakteristika vor, der in Tabelle 25 dargestellt ist. Die darin enthaltenen Kriterien lassen
sich in die folgenden Klassen einteilen:
• Ergebnisbezogene Charakteristika.
• Suchmethodenbezogene Charakteristika.
• Direkt datenbankbezogene Charakteristika: Metadaten, die im Allgemeinen aus einem Data Dictionary direkt übernommen werden können, z.B. die Skalentypen der Attribute.
• Indirekt datenbankbezogene Charakteristika: Eigenschaften, die über die gesamte
Datenbank hinweg bestimmt werden, z.B. die Datenqualität oder Verteilungsannahmen.
• Direkt benutzerbezogene Charakteristika: Anforderungen, die vom Benutzer außerhalb der KD-Fragen explizit formuliert werden.
• Indirekt benutzerbezogene Charakteristika: Anforderungen, die sich aus den KDFragen ableiten lassen, z.B. das Frageobjekt.
• Prozessbezogene Charakteristika: Eigenschaften, die sich im Verlauf des Prozesses
der Entdeckung von Wissen in Datenbanken verändern, z.B. die Analysestufe.
Charakteristikum
Wertemenge
Generelle Charakteristika
Disziplin
Statistik, Maschinelles Lernen, Soft Computing, Visualisierung
Ergebnisbezogene Charakteristika
Ergebnistyp I
einzelne Aussagen, Ergebnisstrukturen (z.B. Bayes-Netze), Induktion
von Modellen
Ergebnistyp II
Zusammenhangs-, Unterschieds- und Veränderungshypothesen
Ergebnistyp III
numerische (z.B. Funktionen), nicht numerische bzw. logische Muster
(z.B. Regeln).
Ergebnis- bzw. Aussage- bzw.
Modellkomplexität
achsenorthogonal separierende, lineare, nicht-lineare sowie nicht-funktionale (Nearest Neighbor) Modellstrukturen
Zeitbezogenheit der Ergebnisse
Methoden, die mit zeitinvarianten Daten arbeiten; Methoden, die mit
zeitvarianten Daten arbeiten
Nutzungsform der Ergebnisse
deskriptiv, prädiktiv
Suchmethodenbezogene Charakteristika
Suchmethode I
datenorientiert, hypothesenorientiert, wissensintensiv, wissenslos
Suchmethode II
Methoden, die für vorgegebene Modellstrukturen Parameter schätzen;
Methoden, die auch neue Modellstrukturen hypothetisieren und überprüfen
Suchmethode III
exhaustiv, heuristisch
Suchmethode IV
optimierend, nicht optimierend
Suchmethode V
inkrementell, nicht inkrementell
Tabelle 25: Charakteristika zur Klassifikation von Data-MiningMethoden.
7.1 DIE MODELLIERUNG RELEVANTER OBJEKTE FÜR DIE ABBILDUNG
Überwachtheit
überwachtes, unüberwachtes Lernen
Größe des Suchraumes
selektiv, konstruktiv
Art der Voraussetzungen
parametrische, nicht-parametrische Verfahren
Direkt datenbankbezogene Charakteristika
Datenvolumen
gering, mittel, hoch
Anzahl der involvierten Variablen
univariate, bivariate, multivariate Analysen
Skalentyp der abhängigen Attribute
nominal, ordinal, metrisch
Skalentyp der unabhängigen Attribute
nominal, ordinal, metrisch
Anzahl der Werte der abhängigen
Attribute
wenige, mittel, viele
Anzahl der Werte der unabhängigen
Attribute
wenige, mittel, viele
Indirekt datenbankbezogene Charakteristika
Datenqualität
gering, mittel, hoch
Datendynamik
gering, mittel, hoch
Verteilungsannahmen
erfüllt, nicht erfüllt
Direkt benutzerbezogene Charakteristika
Suchstrategie
datengetrieben, hypothesengetrieben, fragengetrieben
Konstruktivität
selektiv, konstruktiv
Genauigkeit
gering, mittel, hoch
Verständlichkeit des Ergebnisses
gering, mittel, hoch
Explizitheit des Ergebnisses
gering, mittel, hoch
Antwortzeit
kurz, mittel, lang
Indirekt benutzerbezogene Charakteristika.
Frageobjekt
Zusammenhang, Einfluss, Gemeinsamkeit, Unterschied, Veränderung
Autonomie
gering, mittel, hoch
Aufgabenart
deskriptiv, prädiktiv
Anzahl der abhängigen Attribute
0, 1, n
Anzahl der unabhängigen Attribute
0, 1, n
Prozessbezogene Charakteristika
Analysestufe
deskriptiv, explorierend, konfirmativ
Unterstützter Iterationsschritt
1, 2, …
Tabelle 25: Charakteristika zur Klassifikation von Data-MiningMethoden.
91
92
KAPITEL 7. DIE ABBILDUNG VON KD-FRAGEN AUF DM-ANFRAGEN
Die Modellierung von Data-Mining-Methoden erfolgt anhand einer Teilmenge der dargestellten Charakteristika, die für die Auswahl relevant ist (siehe auch Anhang D.1). Die in der
Beschreibung der Data-Mining-Methoden enthaltenen Informationen werden im zweiten
Schritt der KD-DM-Transformation (siehe Abschnitt 7.3.2) zur Einschränkung einer Menge
von Kandidaten für die Auswahl der geeigneten Data-Mining-Methode verwendet. Die jeweiligen Ausprägungen der einzelnen Data-Mining-Methoden werden dabei als Auswahlkriterien
angesehen und entsprechend benutzt. Die Kriterien sind eingeteilt in harte Kriterien, die als
Filterbedingung benutzt werden, und weiche Kriterien, die eine Priorisierung der gefundenen
Kandidaten bewirken.
7.1.3 Die Modellierung von Data-Mining-Algorithmen
Neben den Data-Mining-Methoden sind Data-Mining-Algorithmen wichtige Objekte bei der
Abbildung der KD-Fragen auf DM-Anfragen. Wir verstehen Data-Mining-Algorithmen dabei
im Gegensatz zu Data-Mining-Methoden als konkrete Berechnungsvorschriften, die die Erstellung von Modellen, wie sie durch die zugeordnete Data-Mining-Methode vorgeben sind, erlauben. Im Kontext der vorliegenden Arbeit werden Data-Mining-Algorithmen damit als die Realisierungen von Data-Mining-Methoden gesehen: beispielsweise realisiert der Algorithmus
C4.5 in diesem Sinne die Methode Entscheidungsbauminduktion. Data-Mining-Algorithmen
haben oft spezielle Anwendungsbedingungen, wie beispielsweise die Erfordernis numerischer
Attributtypen, und oft bestimmte Parametrisierungsmöglichkeiten zur Beeinflussung des Algorithmenablaufs oder der Art der Ergebnisse. Da sich diese Anforderungen auch bei verschiedenen Data-Mining-Algorithmen zur selben Data-Mining-Methode unterscheiden können, ist
eine Modellierung der Data-Mining-Algorithmen als eigenständiger Objekttyp und die Berücksichtigung bei der Transformation von KD-Fragen in DM-Anfragen angebracht und notwendig.
Wie die Data-Mining-Methoden sind auch die Data-Mining-Algorithmen mit einer Menge
von Kriterien modelliert, die die Grundlage für die Auswahl darstellen. Dabei werden die folgenden Kategorien von Kriterien, die eine Teilmenge der Kategorien aus Abschnitt 7.1.2 bilden, verwendet:
• Ergebnisbezogene Charakteristika, z.B. Robustheit gegen Verunreinigungen, Genauigkeit.
• Suchmethodenbezogene Charakteristika, z.B. Parametrisierbarkeit, Skalierbarkeit,
Effizienz.
• Indirekt datenbankbezogene Charakteristika, z.B. Inkrementalität.
• Indirekt benutzerbezogene Charakteristika, z.B. Antwortzeit.
Die Kriterien werden wieder in harte Kriterien und weiche Kriterien unterteilt. Erstere müssen mit den Wertebelegungen bei der aktuellen Transformation unbedingt übereinstimmen, damit der Algorithmus überhaupt zur Auswahl in Betracht gezogen wird; es sind also KO-Kriterien bzw. Filterbedingungen. Die weichen Kriterien dagegen dienen zur Priorisierung der sich
bei der Berücksichtigung der harten Kriterien ergebenden Kandidaten. Zusätzlich werden für
jeden Algorithmus eine Menge von Parametern verwaltet, die vom Algorithmus als Einschränkung auf der Menge der Ergebnisse verstanden werden können (z.B. minimaler Support), sowie Funktionen zur ergebnisgesteuerten Anpassung der Parameter.
7.2 DIE VERFEINERUNG VON KD-FRAGEN
93
7.2 Die Verfeinerung von KD-Fragen
Aus den in KDQL repräsentierten KD-Fragen auf der KD-Ebene entsteht mittels der KD-Frage-Expansion eine Formulierung von verfeinerten KD-Fragen mit dem Ziel, dass diese direkt
als Eingabe für die eigentliche Transformation in DM-Anfragen, die KD-DM-Transformation,
verwendet werden können.
Bei der KD-Frage-Expansion werden die den Objekten vom Typ KD-Frage zugeordneten,
notwendigen Objekte der Type Frageargumente und Fragegruppe, die in Form von elementaren oder komplexen (hierarchisch zusammengesetzten) Domänenbegriffen vorliegen, in Listen
von Attributen oder Bedingungen auf den Werten von Attributen übersetzt. Die entstehenden
Attributlisten oder Attributwertbedingungen enthalten dabei stets ein oder mehrere Elemente,
dürfen also nicht leer sein.
Für die KD-Frage-Expansion wird umfangreiches domänenspezifisches Wissen benötigt,
das zur Vereinfachung der Wartbarkeit und zur Schaffung von Transparenz in deklarativen
Datenstrukturen verwaltet wird. Dazu zählen:
• Begriffstaxonomien der Domäne: Typischerweise Bestandteilhierarchien (part-of)
oder Ober-/Unterbegriffshierarchien (is-a).
• Domänenbegriffe als Attributgruppen: Definitionen von Domänenbegriffen über Attributgruppen, z.B. Persönliche Informationen durch die Attributgruppe {Alter, Wohnstaat, Geburtsstaat}.
• Domänenbegriffe als Attributwertgruppen: Definitionen von Domänenbegriffen über
Attributwertgruppen, z.B. jung über die Attributwertgruppe {10,11,12,13,14,15,16,17}
oder [10-17] mit dem zugehörigen Attribut Alter.
• Domänenbegriffe als Fallgruppen: Definitionen von Domänenbegriffen über Fallgruppen, z.B. Risikopatient über die Liste von Attribut-Attributwertpaaren {{Raucher, ja},
{Alter,[55-999]}}.55
• Domänenbegriffe als Attribute: Abbildung von Domänenbegriffen auf zugehörige Attribute.
• Domänenbegriffe als Attribut-Attributwertpaare: Abbildung von Domänenbegriffen
auf zugehörige Attribut-Attributwertpaare.
Diese Domänenbegriffe werden auf die folgenden zwei Arten als Parameter eingesetzt:
• Projektionsparameter schränken die Relation der zu analysierenden Daten vertikal ein,
indem eine bestimmte Teilmenge aus den Attributen der ausgewählten Datenbankrelation und damit eine Teilmenge der Datenbankspalten ausgewählt werden. Hierfür werden
die aus Abschnitt 5.2.1.3.1 bekannten Frageargumente vom Typ Eigenschaftsargumente
verwendet. Bei der KD-Frage-Expansion entsteht eine Liste von ein oder mehreren Attributen. Diese sind ein wichtiger Bestandteil bei der KD-DM-Transformation und dienen
zur Befüllung der notwendigen Argumente der Data-Mining-Methoden-Konfigurationen
und Data-Mining-Algorithmus-Konfigurationen. Nur solche Konfigurationen, bei denen
alle notwendigen Argumente belegt werden können, werden in den Auswahlprozessen
der einzelnen Schritte der KD-DM-Transformation weiter verwendet.
• Selektionsparameter schränken die Relation der zu analysierenden Daten horizontal
ein, indem eine bestimmte Teilmenge der Datensätze ausgewählt wird. Dies geschieht
55
In gewissem Sinne können Fallgruppen als Verallgemeinerung von Attributwertgruppen verstanden
werden: Attributwertgruppen lassen sich wie Fallgruppen repräsentieren, nämlich als Liste von AttributAttributwertpaaren oder Attribut-Attributwertintervallpaaren; beide werden zur Selektion einer Teilmenge
der Datensätze der zu analysierenden Daten verwendet.
94
KAPITEL 7. DIE ABBILDUNG VON KD-FRAGEN AUF DM-ANFRAGEN
typischerweise über die Festlegungen eines Kriteriums in Form von einem oder mehreren Attribut-Attributwertpaaren. Hierfür werden die aus Abschnitt 5.2.1.3.2 bekannten
Frageargumente vom Typ Gruppenargumente verwendet. Bei der KD-Frage-Expansion
entsteht eine Liste von ein oder mehreren Attribut-Attributwertpaaren.56 Diese Liste
spielt bei der KD-DM-Transformation eine analoge Rolle wie die Projektionsparameter:
Sie dienen als Befüllung der notwendigen Argumente der Data-Mining-Methoden- und
Data-Mining-Algorithmus-Konfigurationen.
Als Ergebnis der KD-Frage-Expansion entstehen aus einer KD-Frage eine oder mehrere
verfeinerte KD-Fragen, in denen alle Frageargumente direkt auf Datenbankattribute abbildbar
sind. Diese KD-Fragen dienen als Eingaben für die weitere Transformation in DM-Anfragen.
Diese wird als KD-DM-Transformation bezeichnet und im folgenden Abschnitt beschrieben.
Davor illustriert Beispiel 25 die KD-Expansion für eine abstrakte KD-Frage.
Beispiel 25: Expansion einer KD-Frage. Abbildung 25 (mit verkürzt formulierten
Fragen) veranschaulicht die Entstehung einer Menge von konkreten KDFrage aus der abstrakten KD-Frage
Welchen Einfluss der Stammdaten auf die Verweildauer gibt es in Gruppen mit demselben Geschlecht?
(Die Frageargumente, die im jeweils nächsten Schritt expandiert werden,
sind dabei kursiv dargestellt.)
KD-Frage:
Einfluss
der Stammdaten auf die Verweildauer
nach Geschlecht
KD-Frage:
Einfluss
von Alter und Geburtsland auf die Verweildauer
nach Geschlecht
KD-Frage:
Einfluss
von Alter auf die Verweildauer
nach Geschlecht
KD-Frage:
Einfluss
von Geburtsland auf die Verweildauer
nach Geschlecht
KD-Frage:
KD-Frage:
Einfluss
von Alter auf die Verweildauer
bei Männern
Einfluss
von Alter auf die Verweildauer
bei Frauen
Abbildung 25: Ausschnitt aus einem bei der KD-Frage-Expansion entstehenden Fragebaum.
56
Im datenbanktechnischen Sinne und unter Verwendung von SQL kann dies als Selektion mittels einer Konjunktion von WHERE-Statements betrachtet werden.
7.3 DIE ÜBERSETZUNG VON KD-FRAGEN IN DM-ANFRAGEN
95
7.3 Die Übersetzung von KD-Fragen in DM-Anfragen
In der KD-DM-Transformation findet die Abbildung der KD-Fragen auf DM-Anfragen statt.
Als Vorbedingung dafür nehmen wir an, dass bereits eine vollständige KD-Frage-Expansion
für die betreffende Frage stattgefunden hat, dass also bereits alle Frageargumente und Fragegruppen direkt auf Datenbankattribute und -attributwerte abbildbar sind.
Die KD-DM-Transformation erfolgt dann in mehreren aufeinander folgenden Schritten.
Aus der vollständig expandierten KD-Frage, globalen Parametereinstellungen sowie datenbankbezogenen Parametern werden mit Hilfe des Abbildungswissens stufenweise die Bestandteile einer vollständigen, autonomen DM-Anfrage abgeleitet:
1. Ermittlung von Kandidaten für die Bestimmung der Data-Mining-Methode aus dem Frageobjekt.
2. Einschränkung der Menge der Kandidaten von Data-Mining-Methoden unter Verwendung der globalen und datenbankbezogenen Parametersätze.
3. Auswahl von möglichen Konfigurationen der gewählten Data-Mining-Methoden anhand
der Frageargumente.
4. Auswahl der Menge der Kandidaten von Data-Mining-Algorithmen anhand der gewählten Konfiguration der Data-Mining-Methoden und unter Verwendung der globalen und
datenbankbezogenen Parameter.
5. Spezifikation der Datenbasis anhand von Fragegruppe und Fragekontext.
6. Formulierung der DM-Anfrage unter Verwendung der Datenbasis und der gewählten
Konfiguration des Data-Mining-Algorithmus.
7. Ermittlung der implementierungsabhängigen DM-System-Anfrage unter Verwendung
der DM-Anfrage und einer gegebenen Algorithmenimplementierung.
Die folgenden Abschnitte stellen die einzelnen Prozessschritte im Detail dar. Der Gesamtprozess der KD-DM-Transformation ist in Abbildung 26 dargestellt.
7.3.1 Die Ermittlung von Kandidaten von Data-Mining-Methoden
Grundlage der Ermittlung von Kandidaten für die Bestimmung der Data-Mining-Methode ist
zum einen das in der zu bearbeitenden KD-Frage formulierte Frageobjekt und zum anderen die
in Tabelle 25 dargestellte Beschreibung der bekannten Data-Mining-Methoden. Durch einen
Abgleich lässt sich eine Menge von Kandidaten ermitteln, die in der Beschreibung als geeignet
für die Beantwortung einer Frage mit dem gegebenen Frageobjekt gekennzeichnet sind. Abbildung 27 gibt einen Überblick über die Zuordnung von Methoden zu den vier allgemeinen Frageobjekten. Beispiel 26 illustriert diesen Auswahlprozess und ist Grundlage für die Beispiele
27 bis 30 zur Verdeutlichung der weiteren Schritte im Prozess der KD-DM-Transformation.
Beispiel 26: Ermittlung von Kandidaten von Data-Mining-Methoden. Die folgende KD-Frage wurde zur Beantwortung ausgewählt, nachdem sie im
Prozess der KD-Expansion vollständig expandiert wurde (das Beispiel
aus Abbildung 25 wurde hierfür um den Fragekontext „in der Augenklinik 2002“ angereichert).
Welchen Einfluss von Alter auf die Verweildauer gibt es bei männlichen
Patienten in der Augenklinik 2002?
96
KAPITEL 7. DIE ABBILDUNG VON KD-FRAGEN AUF DM-ANFRAGEN
Frageobjekt
Globale und
datenbankbezogene
Parameter
Frageargumente
Globale und
datenbankbezogene
Parameter
1. Auswahl von Kandidaten
aus Data-Mining-Methoden
2. Einschränkung der
Kandidatenmenge
3. Auswahl von
Konfigurationen der DataMining-Methoden
4. Auswahl von Kandidaten
aus Data-Mining-Algorithmen
und deren Konfiguration
6. Formulierung der
DM-Anfrage
Fragegruppe
5. Spezifikation der
Datenbasis
Fragekontext
Abbildung 26: Der Prozess der KD-DM-Transformation.
Allgemeines
Frageobjekt
Zusammenhang
Unterschied
Gemeinsamkeit
Veränderung
Wenn-Dann-Regeln
Diskriminierende
Regeln
Charakteristische
Regeln
Zeitreihenanalyse
Korrelationsanalyse
Diskriminantenanalyse
Clustering
Trendanalyse
Statistische
Zusammenhangstests
Statistische
Unterschiedstests
Statistische
Unterschiedstests
Statistische
Unterschiedstests
Abbildung 27: Überblick über die Zuordnung von Data-Mining-Methoden zu den allgemeinen Frageobjekten.
7.3 DIE ÜBERSETZUNG VON KD-FRAGEN IN DM-ANFRAGEN
97
Die Frage stellt damit den Ausgangspunkt für die KD-DM-Transformation dar. Zu dem in der Frage formulierten Frageobjekt Einfluss (entspricht
einem gerichteten Zusammenhang) möge sich die folgende Menge57 von
Data-Mining-Methoden ergeben, die als Kandidaten für die Beantwortung
weiter bearbeitet werden:
Lkand =
{Assoziationsregeln, statistische Abhängigkeitstests,
Neuronale Netze, Wenn-Dann-Regeln}.
7.3.2 Die Einschränkung der Kandidaten von Data-Mining-Methoden
In der Liste möglicher Data-Mining-Methoden zur aktuellen Frage aus dem vorhergehenden
Prozessschritt spiegelt sich lediglich die grundsätzliche Eignung wider. Weitere Eigenschaften
der Methoden sind aber noch nicht berücksichtigt worden. Dies geschieht nun über einen Abgleich mit dem Parameterkontext, d.h. der Sätze von Parametereinstellungen, die einerseits
vom Benutzer stammen und sich andererseits aus den Eigenschaften der Daten ergeben. Hierzu verwenden wir wieder die aus dem Abschnitt 7.1.2 bekannte, detaillierte Beschreibung der
Data-Mining-Methoden. Wie schon erwähnt, verwenden wir einen Teil der Kriterien als harte
Kriterien, die in jedem Fall erfüllt sein müssen, damit die zugehörige Methode in die weitere
Auswahl kommt.58 Der andere Teil der Kriterien wird als weiche Kriterien betrachtet: er dient
zum Vergleich, welche Methoden besser oder schlechter geeignet sind, also einer Priorisierung.
Die Ermittlung der momentanen Vergleichswerte zu den einzelnen Kriterien kann auf die
folgenden zwei Arten erfolgen. Bei direkten Kriterien existiert ein dem Kriterium genau entsprechender Benutzerparameter oder Datenbankparameter; dieser wird dann zum Abgleich benutzt. Im Fall von indirekten Kriterien wird eine dem Kriterium fest zugeordnete Funktion aufgerufen, die den Vergleichswert in geeigneter Weise aus den Parametersätzen von Benutzer
und Datenbank ermittelt (z.B. die Überprüfung von Verteilungsannahmen).59
Die Einschränkung der Kandidatenmenge erfolgt in zwei Schritten:
1. Zunächst wird für alle Kandidaten von Data-Mining-Methoden überprüft, ob die harten
Kriterien erfüllt sind. Durch diese Filtermenge entsteht eine reduzierte oder gleich große
Kandidatenmenge.
2. Mittels der Werte für die weichen Kriterien und deren Gewichtung lässt sich dann jedem
Kandidaten ein Prioritätswert zuordnen. Damit erhalten wir aus der ursprünglichen,
keine inhaltliche Ordnung enthaltenden Menge von Kandidaten, eine geordnete Liste
von Kandidaten.
Beispiel 27 beschreibt die Einschränkung der Kandidatenmenge ausgehend von der in Beispiel 26 formulierten KD-Frage.
57
Als Symbol für die ungeordnete Menge verwenden wir „{}“.
58
Die harten Kriterien lassen sich auch als inverse KO-Kriterien verstehen.
59
Die Informationen, ob zu einem Kriterium ein fest zugeordneter Parameter oder eine Berechnungsvorschrift existiert, werden als Metadaten zu den Kriterien aus Tabelle 25 verwaltet.
98
KAPITEL 7. DIE ABBILDUNG VON KD-FRAGEN AUF DM-ANFRAGEN
Beispiel 27: Einschränkung der Kandidatenmenge. Wir nehmen an, dass der Benutzer dem System eine Präferenz für Ergebnisse bekannt gegeben hat, bei
denen das Wissen explizit dargestellt wird (hartes, direktes Kriterium
Explizitheit des Ergebnisses = hoch). Weiterhin nehmen wir an, dass die
Verteilung der Attributwerte des Attributs Verweildauer nicht der Normalverteilung entspricht (hartes, indirektes Kriterium Verteilungsannahme = nicht erfüllt), was durch eine entsprechende Funktion aus den
Daten ermittelt wurde. In diesem Fall lässt sich die Menge der Kandidaten
Lkand =
{Assoziationsregeln, statistische Abhängigkeitstests,
Neuronale Netze, Wenn-Dann-Regeln}.
auf die eingeschränkte Menge
Lkand,2 =
{Assoziationsregeln, Wenn-Dann-Regeln}
reduzieren, weil statistische Abhängigkeitstests nur unter der Annahme
von normalverteilten Variablen sinnvoll anwendbar sind und neuronale
Netze das ermittelte Wissen in den Gewichten verbergen und nicht explizit machen.
Im zweiten Schritt werden die weichen Kriterien überprüft. Da der Benutzer eine Präferenz für leicht verständliche Ergebnisse hat, werden WennDann-Regeln (weiches, direktes Kriterium Verständlichkeit = hoch) höher
bewertet als Assoziationsregeln (Verständlichkeit = mittel). Damit ergibt
sich die geordnete Liste60 der Kandidaten mit
Lkand,3 =
(Wenn-Dann-Regeln, Assoziationsregeln).
7.3.3 Die Auswahl von Konfigurationen der Data-Mining-Methoden
Die Data-Mining-Methoden und die später noch zu bestimmenden Data-Mining-Algorithmen
können im Allgemeinen in vielfacher Weise parametrisiert werden. Dabei nehmen wir an, dass
sich zwei verschiedene Arten von Parametrisierung unterscheiden lassen, die wir Makroparametrisierung und Mikroparametrisierung bezeichnen wollen.
• Mikroparametrisierung: In diesem einfacheren Fall werden lediglich Feineinstellungen vorgenommen, die aber das Verhalten der Methode nicht grundlegend beeinflussen,
wie zum Beispiel die Angabe eines minimalen Konfidenzwertes bei der Regelinduktion
• Makroparametrisierung: In diesem Fall kann sich durch die Wahl der Parameter der
Ablauf und das Ergebnis der Anwendung von Data-Mining-Methoden und -Algorithmen
stark unterscheiden. Dadurch können grundlegend verschiedene Konfigurationen von
Data-Mining-Methoden entstehen. Dabei kann jede solche Konfiguration als eine bestimmte eigenständige Art von Problembearbeitung oder Lösungsidee verstanden werden. Umgekehrt betrachtet kann über die dahinter stehende Lösungsidee erst eine Konfiguration definiert werden. In formaler Form lässt sich eine Konfiguration über das Paradigma eines programmiersprachlichen Prozeduraufrufs beschreiben, wobei der Typ der
60
Als Symbol für die geordnete Liste verwenden wir „()“.
7.3 DIE ÜBERSETZUNG VON KD-FRAGEN IN DM-ANFRAGEN
99
jeweiligen Parameter über Rollen angegeben wird. Beispiele für Konfigurationen in diesem Sinne sind:
• Wenn-Dann-Regelinduktion(): Ein zur Data-Mining-Methode Regelinduktion
gehöriger Algorithmus, der später im Prozess zu bestimmen ist, wird ohne weitere
Argumente aufgerufen. Damit werden alle Regeln, die gewissen Auffälligkeitskriterien61 entsprechen, auf den Daten gesucht. Alle Attribute auf der gegebenen Datenrelation werden dabei gleichberechtigt behandelt.
• Wenn-Dann-Regelinduktion(abhängige_Attribute, unabhängige_Attribute):
Ein zu derselben Data-Mining-Methode gehöriger Algorithmus wird aufgerufen,
und es werden zwei Sätze von Attributen benannt, die die Rollen abhängiges und
unabhängiges Attribut einnehmen sollen. Dies hat zur Folge, dass nur solche Regeln generiert werden, die im WENN-Teil eines der Attribute aus der Liste abhängige_Attribute und im DANN-Teil eines aus der Liste unabhängige_Attribute enthalten.62
Für die Auswahl einer bestimmten Konfiguration der Data-Mining-Methoden, die im vorhergehenden Prozessschritt ausgewählt wurden, werden nun die Frageargumente als weitere
Bestandteile der in der KD-Frage formulierten Interessen des Benutzers verwendet. Dabei
werden den einzelnen Frageargumenten Rollen zugeordnet, die sie innerhalb der Frage einnehmen und die für die Auswahl der geeigneten Konfiguration verwendet werden. Zusätzlich wird
unterschieden, wie viele Argumente derselben Rolle zugeordnet werden können, beispielsweise zwei abhängige Argumente, und ob es sich bei den Argumenten um Eigenschaftsargumente
oder Gruppenargumente handelt. Die Konfigurationen von Data-Mining-Methoden lassen sich
in BNF wie folgt beschreiben:
⟨DM-Methode_Konfiguration⟩ ::==
⟨DM-Methode⟩ (⟨Argumentrolle⟩∗)
Jede Konfiguration einer Data-Mining-Methode wird also durch die Methode selbst und
eine Aufzählung der Rollen der möglichen Argumente definiert, z.B.
Wenn-Dann-Regelinduktion(abhängige_Argumente)
Wenn-Dann-Regelinduktion(unabhängige_Argumente
abhängige_Argumente)
wobei im ersten Fall nur der DANN-Teil der gesuchten Regeln mit der Liste der abhängigen Attribute und im zweiten Fall sowohl der WENN- als auch der DANN-Teil spezifiziert
wird.
Durch einen Abgleich der in der KD-Frage gegebenen Argumente und ihrer Rollen mit den
verfügbaren Konfigurationen der Data-Mining-Methoden wird zu jedem Kandidaten aus der
Liste der Data-Mining-Methoden aus dem vorgehenden Prozessschritt die passende Konfiguration gesucht. Hieraus ergibt sich nun die gewünschte Liste der Methoden-Konfigurationen.
Sie ist entsprechend der Priorisierung der Liste der Data-Mining-Methoden geordnet. Beispiel
28 führt die Auswahl der Konfigurationen der Data-Mining-Methoden auf der Basis der vorhergehenden Beispiele fort.
61
62
z.B. Support und Konfidenz
Wie sich diese Rollenzuordnung in den Aufrufen weiterhin auswirkt, wird stets über die weitere Konfiguration der zugehörigen Data-Mining-Algorithmen und die Realisierung mittels der einzelnen Implementierungen der Algorithmen, die am Ende des Transformationsprozesses in den DM-System-Anfragen
ausgewählt werden, bestimmt.
100
KAPITEL 7. DIE ABBILDUNG VON KD-FRAGEN AUF DM-ANFRAGEN
Beispiel 28: Auswahl einer Konfiguration der Data-Mining-Methode. Wiederum
ausgehend von der KD-Frage aus Beispiel 26 und der aus dem Beispiel 27
bekannten, geordneten Liste von Data-Mining-Methoden lassen sich die
folgenden Konfigurationen zu den Data-Mining-Methoden Wenn-DannRegelinduktion und Assoziationsregeln finden:
1. Wenn-Dann-Regelinduktion(unabhängige_Argumente
abhängige_Argumente),
bei der die Verweildauer als abhängiges und Alter als unabhängiges Argument eingeordnet werden, und
2. Assoziationsregeln(Fokus_Argumente),
bei der beide Argumente gleichwertig für die Fokussierung der Assoziationsregeln mit Hilfe der Liste Fokus_Argumente verwendet werden.63
7.3.4 Die Ermittlung von Kandidaten von Data-Mining-Algorithmen
Nachdem die möglichen Lösungspläne zur gegebenen Fragestellung in Form von abstrakten
Aufrufen der Konfigurationen von Data-Mining-Methoden identifiziert wurden, sind im
nächsten Schritt ein geeigneter Data-Mining-Algorithmus und eine oder mehrere Konfigurationen davon auszuwählen. Das Vorgehen hierbei kann mit der Auswahl einer Menge von DataMining-Methoden als Kandidaten für die Beantwortung einer KD-Frage (siehe Abschnitt
7.3.1) verglichen werden. Die Auswahl von geeigneten Data-Mining-Algorithmen erfolgt wie
die oben beschriebene Auswahl der Data-Mining-Methoden. Die Kriterien sind dabei zu den in
Abschnitt 7.3.1 formulierten Kriterien für die Beschreibung der Data-Mining-Methoden nicht
vollständig disjunkt, weil sich die Menge der weichen Kriterien für die Data-Mining-Methoden in einigen Fällen auch als Priorisierung für die Data-Mining-Algorithmen verwenden lassen.
Wurden in Abhängigkeit von den Data-Mining-Methoden sowie globalen und datenbankbezogenen Parametern geeignete Algorithmen gewählt und entsprechend ihrer Eignung priorisiert, werden noch in demselben Schritt Konfigurationen dazu bestimmt. Die Parameter, die
eine Konfiguration beschreiben, werden dabei direkt von der Konfiguration der Data-MiningMethode übernommen. Damit entsteht eine geordnete Liste von Konfigurationen von DataMining-Algorithmen, für die jetzt eine Entscheidung bezüglich ihrer Bearbeitung zu treffen ist.
Dabei sind die folgenden Alternativen denkbar:
• Vollständige Ausführung: Alle Konfigurationen zu allen gewählten Data-Mining-Algorithmen werden ausgeführt. Da die Ergebnisse zum Vergleich durch den Benutzer nebeneinander gestellt werden, erhöht sich der Aufwand bei der Analyse und Interpretation
der Ergebnisse.
• Vollständige Ausführung und anschließende Auswahl: Das System führt alle Algorithmen aus und entscheidet sich dann a posteriori anhand des Ergebnisses (Performanz,
Fehlermaße) für einen Algorithmus, dessen Ergebnisse präsentiert werden. Durch diese
Verlagerung der Auswahl auf die Nachbereitung der Ergebnisse entsteht neuer Berechnungsaufwand und die Transparenz für den Benutzer reduziert sich.
63
Hierbei liegt die Annahme zugrunde, dass der Algorithmus zur Generierung von Assoziationsregeln
nur auf den Attributen der gewählten Datenbankrelation arbeitet, die im Argument Fokus_Attribute angegeben sind. Dies entspricht im datenbanktechnischen Sinne einer Projektion auf die Datenrelation.
7.3 DIE ÜBERSETZUNG VON KD-FRAGEN IN DM-ANFRAGEN
101
• Auswahl durch den Benutzer: Der Benutzer entscheidet durch direkte Interaktion, welcher Algorithmus ausgeführt werden. Damit wird vom Benutzer wieder methodisches
Wissen über Data-Mining-Algorithmen gefordert, was mit der Zielsetzung des Invisible
Data Mining konfligiert.
• Auswahl durch das System: Aufgrund der Priorisierungen entscheidet sich das System
führt den am besten bewerteten Algorithmus und führt ihn aus.
Im Rahmen der vorliegenden Arbeit werden die Informationen über die Priorisierung der
Data-Mining-Algorithmen als ausreichend betrachtet, um die Auswahl zu steuern. Es wird also
genau ein Element aus der Liste der Konfigurationen von Data-Mining-Algorithmen verwendet, nämlich das höchst priore. Beispiel 29 stellt die Auswahl der Konfigurationen der DataMining-Algorithmen auf der Basis der vorgehenden Beispiele dar.
Beispiel 29: Auswahl des Data-Mining-Algorithmus. Wir verwenden im Folgenden
die im Beispiel 28 ermittelten Konfigurationen von Data-Mining-Methoden als Ausgangspunkt:
Wenn-Dann-Regelinduktion(unabhängige_Argumente
abhängige_Argumente) und
Assoziationsregeln(Fokus_Argumente).
Zur Methode Wenn-Dann-Regelinduktion stehen die folgenden
Mengen von Data-Mining-Algorithmen zur Verfügung:
1. {AIS, SETM, Apriori, AprioriTid}
und zur Methode Assoziationsregeln:
2. {PART, PRISM}64.
Aufgrund der oben erwähnten Kriterien und der globalen und datenbezogenen Anforderungen, die Antwortzeiten bei hoher Skalierbarkeit möglichst gering ausfallen sollen (Kriterien Antwortzeit=gering, Skalierbarkeit=hoch), wird die folgende Ordnung der Algorithmen berechnet:
(Apriori, AprioriTid, PRISM, AIS, SETM, PART)
Aufgrund der Annahme, dass nur der am besten bewertete Algorithmus
ausgeführt werden soll, fällt die Wahl auf den Apriori-Algorithmus
([Agr94]). Dieser Algorithmus erlaubt die Spezifikation einer Mindestanforderung bezüglich des Supports (z.B. 2%), der für die gefundenen Regeln gelten soll. Damit ist das Ergebnis dieses Prozessschrittes:
Apriori ((Alter), (Verweildauer), (MinSupp=0,02)).
64
Für Details zu den Algorithmen verweisen wir auf die Literatur: Apriori ([Agr94]), AprioriTid
([Agr94]), AIS ([AIS93b]), PART ([Wit99]), PRISM ([Cen87]) und SETM ([Hou93]).
102
KAPITEL 7. DIE ABBILDUNG VON KD-FRAGEN AUF DM-ANFRAGEN
7.3.5 Die Spezifikation der Datenbasis
Die Daten, die als Grundlage für das Data Mining verwendet werden soll, lassen sich über drei
Angaben spezifizieren:
• Datenrelation,
• Informationen zur Auswahl von Attributen (Projektion) und
• Information zur Auswahl von Datensätzen (Selektion).
Die Datenrelation wird als implizit gegebenes Argument betrachtet, das bei der Erstellung
der DM-Anfrage nicht extra ermittelt zu werden braucht. Die Projektionsinformationen werden mit der Auswahl der Argumentlisten zu den Data-Mining-Methoden und -Algorithmen
spezifiziert. Die Selektionsinformationen können aus der bislang noch nicht berücksichtigten,
verfeinerten Fragegruppe und dem Fragekontext der KD-Frage übernommen werden: Beide
enthalten Attribut-Attributwertpaare, die als Selektionskriterien für die Datensätze verwendet
werden. Die Konjunktion dieser einzelnen Bedingungen ergibt insgesamt die gewünschte Selektionsinformation zu den zu analysierenden Daten. Beispiel 30 illustriert die Spezifikation
der Datenbasis.
Beispiel 30: Spezifikation der Datenbasis. Aus der aus Beispiel 26 bekannten KDFrage lässt sich die Datenbasis wie folgt spezifizieren:
(Patienten_Relation, (), (Klinik=Augenklinik,
Jahr=2002)).
7.3.6 Die Formulierung der DM-Anfrage
Mit Hilfe der vorhergehenden Prozessschritte lässt sich jetzt die vollständige DM-Anfrage zusammensetzen. Dafür werden die in Abschnitt 7.1.1 vorgestellte Syntax und die bislang ermittelten Elemente verwendet. Beispiel 24 stellt die vollständige DM-Anfrage dar, die sich aus
den Beispielen 26 bis 30 ergibt.
7.3.7 Die Ermittlung der implementierungsabhängigen DM-System-Anfrage
Mit der entstandenen DM-Anfrage sind alle Informationen zur Durchführung von Data-Mining-Läufen in einer implementierungsunabhängigen Form gegeben. Welche Implementierungsfunktion zu welcher Algorithmenkonfiguration genau aufzurufen ist, ist in der Wissensbasis niedergelegt, in der zu jeder Data-Mining-Algorithmus-Konfiguration eine bestimmte
Zeichenkette angegeben ist. Diese beschreibt den konkreten Aufruf in der Form des Namens
der aufzurufenden Prozedur und der Angabe der Namen der zu übergebenden Parameter.
Durch die Implementierungsunabhängigkeit der in der DM-Anfrage enthaltenen Informationen und den Zwischenschritt der DM-Anfrage-Spezialisierung wird eine Modularisierung in
dem Sinne erreicht, dass verhältnismäßig leicht neue Bibliotheken zur Realisierung von DataMining-Algorithmen als Implementierungsmodule eingebracht werden können.
7.4 Der Prozess der Beantwortung von KD-Fragen
Nachdem wir in den vorhergehenden Abschnitten die Transformation einer KD-Frage in eine
DM-Anfrage aus der lokalen Sicht betrachtet haben, schlagen wir nun einen globalen Prozess
für die Beantwortung von KD-Fragen vor. Dieser Prozess ist auf der Basis des allgemeinen
103
7.4 DER PROZESS DER BEANTWORTUNG VON KD-FRAGEN
Prozesses für die Formulierung und Beantwortung von Fragen aus Abschnitt 4.2 entstanden
und in Abbildung 28 vollständig dargestellt.
Eingabe einer
Frage und
Formalisierung
Präsentation der
KD-Antwort
Überprüfung von
Subsumptionsbeziehungen
Vorhandene
KD-Fragen
Auswahl von
"Beantworten"
DM-KDTransformation
Überprüfung
früherer
KD-Antworten
KD-Frage
transformierbar?
In Abhängigkeit von der
Überprüfung früherer
Beantwortung und der
Aktualität der Daten
In Abhängigkeit
von der gewählten
Implementierung
der Algorithmen
Historie von
Beantwortungen
Nein
Bedingte oder
vollständige KDExpansion
Ja
Anpassung der
Konfigurationsparameter
Nein
In Abhängigkeit von
den Anforderungen
des Benutzers
Ergebnisse
anforderungsgemäß?
Ja
KD-DMTransformation
Analyse der
DM-Ergebnisse
DM-AnfrageSpezialisierung
DM-ErgebnisGeneralisierung
Ausführung der
DM-SystemAnfrage
In Abhängigkeit
von der gewählten
Implementierung
der Algorithmen
Zu
analysierende
Daten
Abbildung 28: Der Prozess der Beantwortung von KD-Fragen.
Der Prozess, den wir im Folgenden nur skizzieren wollen, beginnt aus der Sicht des QUESTUS-KDD-Ansatzes mit der Eingabe einer Frage in natürlicher Sprache durch den Benutzer
und der Übersetzung der Frage in die formale KDQL-Repräsentation mit den im Abschnitt
8.3.1.2 beschriebenen Methoden. Diese neue KD-Frage wird in den Kontext der bestehenden
Fragen durch Überprüfung der Subsumtionsbeziehungen, die wir an dieser Stelle jedoch nicht
weiter vertiefen wollen, eingebettet: Ziel dieser Überprüfung ist die Feststellung, ob die neue
Frage eine oder mehrere bestehende Fragen umfasst, also allgemeiner ist als diese (Überordnung), oder ob sie in einer oder mehreren bestehenden Fragen bereits enthalten ist, also spezieller ist als diese (Unterordnung). Auch die Möglichkeiten, dass die neue Frage mit den bestehen Fragen disjunkt ist (Beiordnung) oder aber dass sie zu einer bestehenden Frage äquivalent
ist (Gleichordnung), sind hier zu überprüfen. Mit diesen Informationen kann die neue Frage an
eine geeignete Stelle im Fragenbaum eingeordnet werden.
Durch direkte Interaktion oder Automatismen, die z.B. für jede neu eingegebene Frage aktiv werden, kann eine Frage zur Beantwortung ausgewählt werden. Um die Effizienz der Fragebeantwortung zu gewährleisten, wird dabei zunächst überprüft, ob die gewählte KD-Frage
oder eine oder mehrere ihrer Unterfragen bereits früher beantwortet wurden. Für diese Ent-
104
KAPITEL 7. DIE ABBILDUNG VON KD-FRAGEN AUF DM-ANFRAGEN
scheidung wird eine Historie der Beantwortungsschritte verwendet. Zudem muss entschieden
werden, ob die KD-Frage in der gegebenen Form transformierbar ist (siehe Abschnitt 7.3),
oder ob zunächst eine KD-Frage-Expansion (siehe Abschnitt 7.2) stattfinden muss. Dies geschieht wieder unter Verwendung von historischen Informationen über bereits beantwortete
und damit expandierte KD-Fragen, die über den benötigten Umfang der Expansion entscheiden. Sobald die Frage ausreichend expandiert wurde, kann die in Abschnitt 7.3 ausführlich beschriebene KD-DM-Transformation beginnen. In Abhängigkeit von der verfügbaren Implementierung wird das Ergebnis der Transformation, die DM-Anfrage, in eine DM-System-Anfrage übersetzt und diese auf den zu analysierenden Daten ausgeführt.
Da die Repräsentation der Menge der DM-System-Ergebnisse noch in einem implementierungsabhängigen Format vorliegt, muss im nächsten Schritt eine Transformation der Ergebnisse in eine implementierungsunabhängige Repräsentation vorgenommen werden. Dies ermöglicht dann die Formulierung von DM-Ergebnissen. Sollten die gefundenen Ergebnisse nicht
den Erwartungen des Benutzers entsprechen, weil entweder zu viele Ergebnisse oder solche
mit geringer Aussagekraft gefunden wurde, müssen die Konfigurationsparameter der Data-Mining-Algorithmen angepasst (d.h. relaxiert oder verschärft) und die Transformation zusammen
mit den nachfolgenden Prozessschritten wiederholt werden. Andernfalls können die DM-Ergebnisse mittels einer DM-KD-Transformation in KD-Antworten in der Knowledge Discovery
Answer Language (siehe Abschnitt 5.3) formuliert werden.
7.5 Zusammenfassung
In diesem Kapitel haben wir die verschiedenen Prozesse für die Abbildung von KD-Fragen auf
DM-Anfragen und DM-System-Anfragen untersucht. Der Fokus lag dabei auf den beiden
Kernprozessen: der KD-Frage-Expansion für die Verfeinerung von abstrakten KD-Fragen und
der KD-DM-Transformation für die eigentliche Abbildung. Die DM-Anfragen als das Ziel der
Abbildung wurden syntaktisch beschrieben. Data-Mining-Methoden und -Algorithmen wurden mit ihren charakteristischen Anwendungsbedingungen, Merkmalen und Ergebniseigenschaften, die als wichtige Entscheidungskriterien in den Abbildungsprozess einfließen, modelliert. Als Ausblick haben wir den gesamten Prozess der Beantwortung von KD-Fragen skizziert und damit die Betrachtung des QUESTUS-KDD-Ansatzes aus der prozesstechnischen
Sicht vervollständigt.
Um die in diesem und den vorhergehenden Kapiteln beschriebenen Elemente unseres Ansatzes von ihrer theoretischen Beschreibung in eine praktische Umsetzung zu überführen, wurde der QUESTUS-KDD-Ansatz zu großen Teilen als Komponenten des Knowledge Discovery
Assistant (KDA) implementiert. Im nun folgenden Kapitel werden wir einige Details dieser
Implementierung beschreiben.
KAPITEL 8 DER KNOWLEDGE DISCOVERY ASSISTANT
Ausgehend von dem in den vorhergehenden Kapiteln beschriebenen Ansatz und auf der Basis
früherer Arbeiten von Timm ([Tim97]), Müller ([Mül98]), Hausdorf ([Hau98]), Hogl
([Hog98]) und Kokowski ([Kok00]) wurde der Knowledge Discovery Assistant (KDA) konzipiert und weitestgehend implementiert. Eine umfassende und detaillierte Beschreibung des aktuellen Standes der Implementierung des KDA liefert Käppel in [Käp02].
Der KDA stellt ein wissensbasiertes Assistenzsystem für die Entdeckung von Wissen in
Datenbanken dar, das von seinem Benutzer nur ein geringes Maß an Vorwissen über Datenanalyse und Data Mining erfordert. Zudem bietet der KDA die Möglichkeit, durch Methoden
der Fokussierung, der Abstraktion und der Bewertung die Menge der Ergebnisse auf ein für die
Benutzer überschaubares Maß zu reduzieren. Damit lässt sich zum einen vermeiden, dass relevantes Wissen aufgrund der Überhäufung mit Ergebnissen übersehen wird. Zum anderen kann
die Umsetzung der Ergebnisse gefördert werden, weil nur wirklich relevante weil umsetzbare
Erkenntnisse präsentiert werden. Ein weiteres Designziel für den KDA ist die einfache Erweiterbarkeit, zum Beispiel um neue Data-Mining-Methoden, Data-Mining-Algorithmen und deren Implementierungen, und die einfache Übertragbarkeit, z.B. auf neue Domänen.
In diesem Kapitel beschreiben wir zunächst die Gesamtarchitektur des KDA und die Konzeption der graphischen Benutzerschnittstelle. Im dritten Teil des Kapitels gehen wir dann auf
die Realisierung der Konzepte aus dem QUESTUS-KDD-Ansatz für den Umgang mit Fragen
und Antworten ein und beschreiben in diesem Zusammenhang die wichtigsten Methoden.
8.1 Die Gesamtarchitektur des Knowledge Discovery Assistant
Die Grobstruktur des KDA leitet sich im Wesentlichen aus dem in Abbildung 2 dargestellten
Sprachebenenmodell, auf dem wir, wie in Abschnitt 1.3 beschrieben, die Knowledge-Discovery-Ebene, die Data-Mining- und die Datenbank-Ebene unterscheiden. Diesen Ebenen entsprechen die in Abbildung 29 dargestellten Module, die wir als Knowledge-Discovery-Agent (KDAgent), Data-Mining-Agent (DM-Agent) und Datenbank-Agent (DB-Agent) bezeichnen und
im Folgenden kurz erläutern:
8.1.1 Der Knowledge-Discovery-Agent
Der Knowledge-Discovery-Agent als zentrales Modul realisiert im Wesentlichen die im
QUESTUS-KDD-Ansatz konzipierten Methoden. Er lässt sich weiter in drei Komponenten
zerlegen:
• KD-Frage-Manager: Er beinhaltet die Methoden für die Eingabe von natürlichsprachlichen Fragen, für deren Formalisierung und die Verwaltung der KD-Fragen (siehe dazu
auch Abschnitt 8.3.1), für die Verfeinerung von KD-Fragen (KD-Expansion, siehe Abschnitt 7.2) und die Übersetzung in DM-Anfragen und DM-System-Anfragen (KD-DM-
106
KAPITEL 8. DER KNOWLEDGE DISCOVERY ASSISTANT
Abbildung 29: Die Gesamtarchitektur des Knowledge Discovery Assistant.
Transformation, siehe Abschnitt 7.3). Letztere werden an den Data-Mining-Agenten zur
Ausführung übergeben.
• KD-Antwort-Manager: Er leistet die Verarbeitung von DM-System-Ergebnissen, die
vom Data-Mining-Agenten geliefert werden. Dazu zählen die Übertragung in DM-Ergebnisse (DM-Ergebnis-Generalisierung), die Rückübersetzung zu KD-Antworten (DMKD-Transformation) und die Verdichtung von KD-Antworten (KD-Antwort-Kontraktion, siehe Abschnitt 7.4).
• Komponente zur Interessantheitsbewertung65: Sie unterstützt die Bearbeitung der
DM-Ergebnisse durch strukturierte Bewertungen ihrer Interessantheit anhand von hierarchisch geordneten Facetten wie z.B. Validität, Neuheit, Nützlichkeit und Verständlichkeit. Für genauere Information zur Bewertung der Interessantheit verweisen wir auf
[Mül98].
8.1.2 Der Data-Mining-Agent
Der Data-Mining-Agent leistet die effiziente Verarbeitung von DM-System-Anfragen, die
vom Knowledge-Discovery-Agenten geliefert werden, durch geeignete Implementierungen
von Data-Mining-Algorithmen. Diese werden als eigenständige Module in den KDA integriert
(siehe dazu Abbildung 30) und zur Laufzeit des KDA geladen werden. Ziel bei der bisherigen
Realisierung war es jedoch, die Implementierung eigener Algorithmen nur auf die grundlegendsten zur beschränken und stattdessen Schnittstellen zu Tools und Bibliotheken von anderen Anbietern66 zu schaffen.67 Die Ergebnisse der Data-Mining-Algorithmen werden als DMSystem-Ergebnisse an den Knowledge-Discovery-Agenten zurückgeliefert.
65
66
Diese Komponente wird von Müller in [Mül98] als Interestingness Engine bezeichnet.
Eine solche frei verfügbare Bibilothek von Data-Mining-Algorithmen ist beispielsweise das WEKA
Toolkit zum Maschinellen Lernen der Universität Waikato, Neuseeland ([Wit99]).
8.1 DIE GESAMTARCHITEKTUR DES KNOWLEDGE DISCOVERY ASSISTANT
107
Abbildung 30: Die modulare Integration von Algorithmen in den DataMining-Agenten.
8.1.3 Der Datenbank-Agent
Der Datenbank-Agent stellt eine einheitliche Schnittstelle für verschiedene Datenbanksysteme
als Quellen für die zu analysierenden Daten und als Senken für die Ergebnisse zur Verfügung.
Dies wird durch eine ODBC-Konfigurationsschnittstelle realisiert, die Möglichkeiten zur Anpassung an verschiedene Datenquellen bzw. Datensenken bietet. Damit lassen sich Datenbanken wie Microsoft Access, Microsoft SQL Server, Oracle Server, MySQL oder Postgress einfach anbinden. Abbildung 31 zeigt die Konfigurationsfenster des KDA für die Wahl der relevanten Datenquellen aus einer Datenbank.
Abbildung 31: Die Konfiguration der Datenquellen im Datenbank-Agenten.
67
Über eine COM-Schnittstelle können entsprechende Module in den Sprachen C++, Visual Basic, Java, Lisp usw. integriert werden. Bedingung ist dabei die Unterstützung von COM, d.h. die von der verwendeten Sprache erzeugten Klassenbibliotheken müssen durch die standardisierte Interface Description
Language (IDL) beschrieben werden.
108
KAPITEL 8. DER KNOWLEDGE DISCOVERY ASSISTANT
8.1.4 Die Berichtsgeneratoren
Um eine schnelle und verteilte Nutzung der Ergebnisse des Data Mining zu ermöglichen, werden die Ergebnisse in einer für die Einbindung in das Intranet des Kunden geeigneten Darstellung abgelegt. Abbildung 32 zeigt eine solche Darstellung aus einem beispielhaften KDD-Projekt. Darüber hinaus lassen sich Berichte im Rich Text Format (RTF) generieren. Weitere Generatoren für spezifische Darstellungsformate (Latex, PDF usw.) lassen sich modular integrieren.
Abbildung 32: Die Darstellung der Ergebnisse in einem Bericht im
HTML-Format.
8.2 Die graphische Benutzeroberfläche
Die graphische Benutzeroberfläche wurde mit Hilfe von Microsoft Visual Basic für WindowsSysteme entwickelt. Sie besteht, wie im Screenshot in Abbildung 33 und in der Darstellung der
Fensterstruktur in Abbildung 34 gezeigt, aus dem KDA-Hauptfenster, das sich aus der Menüleiste sowie den folgenden drei Unterkomponenten zusammensetzt:
• Struktur der Fragen in der linken Hälfte,
• Detailansicht der KD-Fragen im rechten oberen Bereich und
• Detailansicht der KD-Antworten im rechten unteren Bereich.
Die Strukturansicht wird durch einen interaktiven Strukturbrowser (wie z.B. aus dem Microsoft Windows-Explorer bekannt) realisiert, der den Zugriff auf die in einem KDD-Projekt
enthaltenen KD-Fragen erlaubt. In diese Struktur können die KD-Fragen ausgewählt, verschoben und über Kontextmenüs bzw. die Menüleiste zur Expansion oder zur Beantwortung ausgewählt werden. Auf die gleiche Weise lässt sich die Eingabe neuer Fragen in die Struktur auslösen, die in einem eigenen Fenster (siehe Abbildung 37) durchgeführt und in Abschnitt 8.3.1.1
genauer beschrieben wird.
109
8.2 DIE GRAPHISCHE BENUTZEROBERFLÄCHE
Abbildung 33: Die graphische Benutzerschnittstelle des KDA.
Verwaltung
Taxonomie
Verwaltung
globaler
Datenquellen
Verwaltung
Projektdatenquellen
Verwaltung
KDD-Projekte
KDA
Hauptfenster
Eingabe
neue Frage
Optionen und
Benutzerpräferenzen
Browser
Analysedaten
Strukturansicht
KD-Fragen
Detailansicht
KD-Frage
Detailansicht
KD-Antwort
Verwaltung
Fragetyp
Verwaltung
Frageobjekt
Textuelle
Darstellung der
KD-Antwort
Verwaltung
Frageargumente
Verwaltung
Fragegruppe
Grafische
Darstellung der
KD-Antwort
Verwaltung
Fragekontext
Tabellarische
Darstellung der
KD-Antwort
MainForm
SubForm
Form
Abbildung 34: Die Fensterstruktur des KDA.
110
KAPITEL 8. DER KNOWLEDGE DISCOVERY ASSISTANT
Die Detailansicht der KD-Fragen dient zum einen dazu, dem Benutzer ein Feedback und
damit Transparenz über die vom System vorgenommene Formalisierung der von ihm eingegebenen Frage zu geben. Zum anderen bietet sie für Benutzer, die bereits eine gewisse Vertrautheit mit dem System besitzen, einen schnellen Überblick über die Details der Frage zusammen
mit einer direkten Möglichkeit, die einzelnen Elemente der KD-Frage zu manipulieren.
Das Unterfenster für die KD-Antworten erlaubt dem Benutzer verschiedene Sichten auf die
vom System ermittelte Antwort. Dabei sind in der aktuellen Realisierung die in Abbildung 33
gezeigte Textansicht, mit der natürlichsprachlichen Formulierung, sowie eine tabellarische und
eine graphische Darstellung, in der die Antworten als Business Charts visualisiert werden, verfügbar.
Über die Menüstruktur des KDA sind verschiedene Hilfsfenster aufrufbar:
• Verwaltung der Taxonomie: In diesem Fenster lassen sich verschiedene Begriffe aus
der Anwendungsdomäne, die durch die Attribute der Datenbank oder abstrakte Konzepte
vorgegeben werden, ergänzen, hierarchisch anordnen und durch Synonyme beschreiben
(siehe Abbildung 35). Damit wird eine direkte Manipulation der Wissensbasis unterstützt.
• Verwaltung der Datenquellen: Die Anbindung der Datenbanken, die die zu analysierenden Daten enthalten (Projektdatenquellen) und weiterer strukturierter Informationsquellen als Bestandteile der Wissensbasis (globale Datenquellen, z.B. Kataloge für die
Übersetzung medizinischer Leistungscodes), wird in zwei weiteren Fenstern unterstützt
(siehe Abbildung 31).
• Verwaltung der KDD-Projekte: Hiermit lassen sich ein Überblick über die existierenden KDD-Projekte gewinnen, neue Projekte anlegen sowie existierende verändern oder
löschen.
• Optionen und Benutzerpräferenzen: Über dieses Fenster können die in den Abschnitten 7.3.1 bis 7.3.4 beschriebenen Benutzerpräferenzen eingeben und verwaltet werden.
Darüber hinaus können vom Benutzer verschiedene Optionen, beispielsweise für die
Konfiguration der Benutzeroberfläche, gewählt werden.
8.3 Die Realisierung des QUESTUS-KDD-Ansatzes
Die in dieser Arbeit beschriebenen Ansätze stellen den Kern des in Abschnitt 8.1.1 beschriebenen Knowledge-Discovery-Agenten dar. Ihre Realisierung ist Gegenstand des folgenden Abschnitts, in dem wir zunächst die Eingabe und Verwaltung von Fragen untersuchen und dann
auf ihre Verarbeitung zum Zwecke der Beantwortung eingehen.
8.3.1 Die Eingabe und Verwaltung der KD-Fragen
Für jede KD-Frage, die ein Element im Fragebaum darstellt, wird die Klasse KDQuestionItem instantiiert. Das KDQuestionItem enthält dabei im Attribut SourceData eine Referenz auf die Teilmenge der Daten, die für die Beantwortung der Frage relevant sind. Wenn die
KD-DM-Transformation abgeschlossen ist, werden die Daten dynamisch erzeugt, um die Speicheranforderung des Gesamtsystems gering zu halten. Weiterhin können durch die dynamische Erzeugung andere Daten zur Verfügung gestellt werden, z.B. DM-Ergebnisse zu anderen
KD-Fragen als Quelldaten für Meta-Mining-Methoden. Neben der Filterung durch die im Rahmensystem implementierten Methoden der Interessantheit ist es zusätzlich möglich, Sortierungen von KD-Fragen innerhalb eines Teilbaums entsprechend ihrer Interessantheit erzeugen.
8.3 DIE REALISIERUNG DES QUESTUS-KDD-ANSATZES
111
Abbildung 35: Die Verwaltung taxonomischer Informationen im KDA.
8.3.1.1 Die Abbildung von natürlichsprachlichen Fragen auf KD-Fragen
Die Eingabe einer natürlichsprachlichen Frage und ihre Formalisierung mit KDQL erfolgt in
einem aus mehreren Schritten bestehenden, interaktiven Prozess, der darauf ausgerichtet ist,
einen möglichst hohen Grad an Transparenz der Verarbeitungsschritte für den Benutzer herzustellen. Dieser Prozess ist in Abbildung 36 dargstellt und wird im Folgenden beschrieben:
1. Im ersten Schritt gibt der Benutzer seine natürlichsprachliche Frage in ein dafür vorgesehenes Textfeld ein (siehe Abbildung 37).
2. Anschließend wird die eingegebene Frage auf der Basis von KDQL analysiert. Dafür
wird in der aktuellen Realisierung ein einfacher, XML-basierter Parsing-Algorithmus in
Kombination mit einem in [Käp02] beschriebenen Algorithmus zur fehlertoleranten
Erkennung von Schlüsselwörtern (z.B. die aus der Begriffstaxonomie bekannten Domänenkonzepte) eingesetzt. Ergebnis dieses Schritts ist dann eine Liste der KDQL-Sätze,
die die höchste Übereinstimmung mit der eingegeben Frage aufweisen.
3. Aus dieser Kandidatenliste von KDQL-Sätzen werden unter Verwendung der XMLBeschreibung von KDQL wieder natürlichsprachliche Fragen generiert und dem Benutzer mit einer Bewertung ihres Überstimmungsgrades mit der eingegebenen Frage präsentiert (siehe Abbildung 37).
4. Der Benutzer hat jetzt die Möglichkeit, die am besten bewertete Frage direkt zu übernehmen oder eine der übrigen Fragen aus der Liste auszuwählen. Für den Fall, dass die vom
Benutzer intendierte Frage nicht richtig erkannt wurde und damit keine Frage aus der
Auswahlliste passend ist, kann der Benutzer entweder versuchen, die Frage neu einzuge-
112
KAPITEL 8. DER KNOWLEDGE DISCOVERY ASSISTANT
ben und dabei zu modifizieren, oder er kann die Frage über ihre einzelnen KDQL-Elemente bestimmen.
5. Im Erfolgsfall wird die vom Benutzer gewählte Frage als KD-Frage instantiiert
(KDQuestionItem), in den Fragebaum übernommen und steht zur Beantwortung
bereit.
Eingabe
EnterUserQuestion
Natürlichsprachliche
Frage
Natürlichsprachliche Fragen
Externe Präsentation
Interne Repräsentation
Analyse
ParseUserQuestion
Synthese
Präsentation
GenUserText
KDQL-Modelle der
natürlichsprachlichen Frage
Bestätigung
Auswahl
InitKDQuestionItem
KD-Frage
KDQuestionItem
KD-Expansion
KD-DM-Transformation
KDExpand
KDDMTransform
DM-Anfrage
DMQueryItem
Abbildung 36: Die Eingabe von Fragen und Generierung von Feedback
an den Benutzer.
Abbildung 37: Die Eingabe einer neuen natürlichsprachlichen Frage in
den KDA.
8.3.1.2 Die Methoden für die Konfiguration von KD-Fragen
Methoden und Attribute für den einfacheren Umgang mit Benutzerfragen werden in den folgenden Unterpunkten erläutert. Dabei sind insbesondere die Methoden zur Initiierung der natürlichsprachlichen Verarbeitung dokumentiert:
8.3 DIE REALISIERUNG DES QUESTUS-KDD-ANSATZES
113
• EnterUserQuestion initialisiert die interaktive Frageneingabe, wie in Abschnitt
8.3.1.1 beschrieben, und fordert den Benutzer auf, eine natürlichsprachliche Eingabe
vorzunehmen. Anschließend wird die Frage weiterverarbeitet.
• ParseUserQuestion nimmt als Parameter einen Text als Benutzereingabe in natürlicher Sprache, um mit diesem das aktuelle KDQuestionItem zu konfigurieren. Nach
Ablauf des Vorgangs – eine gültige und bestätigte Benutzereingabe vorausgesetzt – sind
die einzelnen KDQL-Elemente konfiguriert, sodass die Beantwortung der Frage durch
KD-Expansion und KD-DM-Transformation stattfinden kann.
• GenUserText erzeugt einen für den Benutzer lesbare Formulierung der aktuellen Frage.
Im Fall, dass noch kein Frageobjekt ausgewählt wurde, wird dies angezeigt. Ansonsten
wird eine Frage, die zum Frageobjekt passt mit den bisher eingegebenen Argumenten besetzt. So kann während der Konfiguration einer Frage der aktuelle Zustand leichter vom
Benutzer beobachtet werden.
• InitKDQuestionItem instantiiert eine neue KD-Frage als KDQuestionItem.
8.3.2 Die Verarbeitung von KD-Fragen
Nachdem eine neue KD-Frage instantiiert wurde, steht sie für die Expansion und Beantwortung zur Verfügung. Für die Realisierung der KD-Expansion (wie in Abschnitt 7.2 beschrieben) und der KD-DM-Transformation (wie in Abschnitt 7.3 beschrieben), sowie der Generierung von KD-Antworten stellen wir die folgende Menge von Methoden bereit.
8.3.2.1 Die Methoden zur KD-Expansion und KD-DM-Transformation
Die Struktur der im KDA gespeicherten Fragen ist eine Hierarchie. Diese Methoden, deren
Ziel die direkte oder indirekte Veränderung der Fragehierarchie ist, werden im Folgenden vorgestellt:
• KDExpand erzeugt die Expansion eines Frageknotens um eine Ebene. Dabei werden die
in XML spezifizierten Elemente automatisch in den Unterfragen übernommen und entsprechend konfiguriert. Im Gegensatz dazu erzeugt AnswerAll die Expansion und Beantwortung aller untergeordneten Fragen.
• GenChildKDQuestionItem erzeugt eine neue Unterfrage zur aktuellen KD-Frage, die
jedoch noch nicht spezifiziert ist. Die Methode hat das optionale Attribut ArgumentMode, welches festlegt, ob die Gruppierung oder die Argumente von der aktuellen Frage
übernommen werden sollen. Diese Angabe erleichtert die KD-Expansion von abstrakten
Fragen. Je nachdem, ob ein Frageargument oder ein Gruppierungsargument expandiert
werden soll, kann mit ArgumentMode das andere Element übernommen werden.
• CollapseKDQuestionItem bewirkt, dass alle Unterfragen der aktuellen KD-Frage
gelöscht werden. Diese Methode wird zum einen bei erneuter Beantwortung, zum anderen beim impliziten Löschen durch Manipulation der Fragen sowie bei explizitem Löschen von Unterfragen aufgerufen.
• RemoveKDQuestionItem entfernt ein KDQuestionItem wieder aus der Fragestruktur. Diese Methode wird implizit bei einer Neubeantwortung von expandierenden Fragen
verwendet, aber auch explizit durch Löschen einer Frage seitens des Benutzers. Schließlich wird die Methode noch bei der Terminierung des darüber liegenden KDQuestionItem benötigt, welche durch Terminierung des QuestionTree rekursiv ausgelöst wurde.
114
KAPITEL 8. DER KNOWLEDGE DISCOVERY ASSISTANT
• IsTransformable? überprüft, ob die gegebene KD-Frage vollständig expandiert ist
und damit direkt beantwortet werden kann.
• KDDMTransform realisiert die Übersetzung der in einem KDQuestionItem verwalteten KD-Frage in eine DM-Anfrage, die als DMQueryItem verwaltet wird.
• DMQuerySpecialization schließlich übersetzt die aktuelle DM-Anfrage bei einer gegebenen Implementierung in eine DM-System-Anfrage.
8.3.2.2 Die Methoden zur Beantwortung von KD-Fragen
Die im folgenden Abschnitt erläuterten Methoden und Attribute befassen sich mit der Beantwortung von Frage, die sich aus dem Finden der Antwort und der Generierung einer natürlichsprachlichen Formulierung der Antworten zusammensetzt. Im Folgenden beschreiben wir Elemente, die das Verhalten bei der Beantwortung von KD-Fragen beeinflussen.
• AnswerKDQuestionItem leitet die Beantwortung der aktuellen KD-Frage ein. Dazu
gehören Abfragen, die sicherstellen, dass nur Fragen beantwortet werden, die auch beantwortbar und zur Beantwortung gekennzeichnet sind. Optional kann spezifiziert werden, ob Warnungen, z.B. beim Überschreiben einer bereits beantworteten Frage, ausgegeben werden sollen.
• AnswerAllKDQuestionItem verwendet die Methode AnswerKDQuestionItem auf,
beantwortet und expandiert jedoch rekursiv jedes neu entstehende KDQuestionItem.
Dabei werden entstehende Warnungen unterdrückt, sodass eine weitgehend autonome
Beantwortung einer Menge von Fragen möglich ist. AnswerAllKDQuestionItem arbeitet auch am Wurzelknoten des Fragebaums.
• Answered? gibt an, ob eine Frage in der gegebenen Daten- und Präferenzumgebung bereits früher beantwortet wurde. Das Prädikat findet vorwiegend interne Verwendung, der
Einsatz ist aber auch bei Data-Mining-Methoden, die auf die Antwort anderer Data-Mining-Methoden aufbauen, möglich.
• DMKDTransform überführt eine Menge von DM-Ergebnissen in eine verdichtete KDAntwort.
• GenerateKDAnswerItem generiert schließlich die natürlichsprachliche Formulierung
einer KD-Antwort, die als KDAnswerItem verwaltet wird.
• RemoveKDAnswerItem löscht alle vorhandenen KD-Antworten zur aktuellen KD-Frage und löst dann das Aktualisierungsereignis des QuestionTree aus. Die Methode
wird entweder manuell vom Benutzer oder durch Neubeantwortung einer Frage ausgelöst.
8.4 Zusammenfassung
In diesem Kapitel haben wir den Knowledge Discovery Assistant (KDA) als Rahmen für die
prototypische Realisierung der in dieser Arbeit beschriebenen Konzepte eingeführt. Der KDA
unterstützt auf der Benutzerseite die Eingabe natürlichsprachlicher Fragen und stellt die vom
System ermittelten Antworten in unterschiedlichen Sichten dar. Dabei wird dem Benutzer
durch verschiedene Mechanismen Transparenz über die Bearbeitungsschritte des Systems und
Möglichkeiten zur Interaktion und Manipulation gegeben. Auf der datenanalytischen Seite erlaubt der KDA die flexible Anbindung von Datenbanken in verschiedenen Formaten sowie die
schnelle und modulare Integration von Data-Mining-Methoden. Durch die Realisierung über
eine COM-Schnittstelle können auch Analysemethoden von Drittanbietern integriert werden.
8.4 ZUSAMMENFASSUNG
115
Der KDA verwaltet eine KD-Frage mit Hilfe eines KDQuestionItem, das sich durch verschiedene Methoden manipulieren lässt. Dazu zählen Methoden für die Abbildung von natürlichsprachlichen Fragen auf KD-Fragen, Methoden für die Konfiguration von KD-Fragen auf
der einen Seite und Methoden zur KD-Expansion und KD-DM-Transformation sowie zur Beantwortung von KD-Fragen auf der anderen Seite. Dadurch ist ein Großteil der in den vorhergehenden Kapiteln beschriebenen Ansätze realisiert.
Nach dieser Überprüfung der praktischen Umsetzbarkeit des Ansatzes werden wir im folgenden Kapitel die Möglichkeiten und Grenzen einer Evaluierung anhand von formaleren Kriterien beschreiben.
116
KAPITEL 8. DER KNOWLEDGE DISCOVERY ASSISTANT
KAPITEL 9 DIE EVALUIERUNG DES QUESTUS-KDD-ANSATZES
Um die Güte des QUESTUS-KDD-Ansatzes beurteilen zu können, wollen wir ihn einer genaueren Untersuchung einiger formaler Kriterien unterwerfen. Dabei wollen wir zeigen, dass
die Arbeit mit natürlichsprachlichen Formulierungen von Fragen anstelle von formalen Formulierungen von Data-Mining-Aufrufen nicht nur auf den ersten Blick intuitiver erscheint,
sondern tatsächlich Vorteile für den Benutzer, den wir mit diesem Ansatz fokussieren, mit sich
bringt. Dieser Nutzen kann sich in verschiedenen Dimensionen zeigen, z.B. der Einarbeitungszeit, der Benutzerakzeptanz und der Effizienz der Lösung von Analyseaufgaben.
Im Folgenden führen wir als Grundlage für die Evaluierung einen Katalog von Kriterien
ein. Diese werden wir anschließend, soweit es der Rahmen dieser Arbeit erlaubt, untersuchen
bzw. den Weg für ihre weiterführende Untersuchung skizzieren. Der Fokus dabei liegt auf dem
Kriterium der Vollständigkeit, das uns und anderen Interessierten gerade in Bezug auf die Formulierungsmöglichkeiten von Fragen entscheidend erscheint. Auf diese Untersuchungen aufbauend entwickeln wir dann ein Anforderungsprofil für die Nutzer des Ansatzes bzw. – im inversen Sinn betrachtet – das Leistungsspektrum der Benutzerunterstützung. Zum Abschluss
des Kapitels beschreiben wir die Einbettung des Ansatzes in die Analyseprozesse der Anwendungsdomäne und damit die Möglichkeiten einer Optimierung des Geschäftsprozesses.
9.1 Die Kriterien für die Evaluierung
Aufgrund der Neuheit des Ansatzes und des damit verbundenen Fehlens von konkreten Evaluierungskriterien für die Benutzerunterstützung bei der Entdeckung von Wissen in Datenbanken
ist es zunächst erforderlich, den Blick auf verwandte Aufgabenfelder zu richten:
• Bewertung von intelligenten Benutzerschnittstellen ([Gra92b]).
• Bewertung von natürlichsprachlichen Schnittstellen, v.a. NLIDB ([And95]).
• Bewertung von kontrollierten Sprachen ([Cer94], [Rui94]).
Daraus und in Kombination mit den aus [DIN91] bekannten sechs DIN-Standard-Qualitätsmerkmalen für Software (Funktionalität, Zuverlässigkeit, Benutzbarkeit, Effizienz, Änderbarkeit und Übertragbarkeit) ergeben sich die folgenden Kriterien für die Evaluierung unseres Ansatzes:
Benutzbarkeit
Mit diesem Kriterium wird der Aufwand beschrieben, der für die Benutzung des Systems erforderlich ist. Dies geschieht im Allgemeinen durch eine individuelle Beurteilung der Benutzung durch eine festgelegte oder vorausgesetzte Zielgruppe und erstreckt sich auf die Unterkriterien Verständlichkeit, Erlernbarkeit und Bedienbarkeit ([DIN91]).
118
KAPITEL 9. DIE EVALUIERUNG DES QUESTUS-KDD-ANSATZES
Änderbarkeit und Portierbarkeit
Die in der [DIN91] beschriebenen Kriterien Änderbarkeit und Übertragbarkeit bzw. Portierbarkeit werden zusammengefasst, da Portierungen im Folgenden als Spezialfall von Änderungen gesehen werden. Im Rahmen der Bewertung des Kriteriums ist zu überprüfen, inwieweit
Änderungen und Portierungen mit einer bestimmten Auftretenshäufigkeit lokal durchgeführt
werden können bzw. globale Anpassungen vorgenommen werden müssen. Der Aufwand für
Änderungen und Portierungen sollte im umgekehrten Verhältnis zur Häufigkeit ihres Auftretens stehen.
Adäquatheit
Mit diesem Kriterium wird bewertet, inwieweit der Ansatz geeignet ist, Benutzer aus der gegebenen Zielgruppe geeignet zu unterstützen. Adäquatheit geht dabei über den Begriff der formalen Adäquatheit68 hinaus und beinhaltet vor allem die terminologische und die erkenntnistheoretische Adäquatheit. Damit soll der Grad der Abdeckung der relevanten natürlichsprachlichen Formulierungen durch die vorgeschlagene Sprache überprüft werden.69 Weiterhin ist zu
prüfen, ob das Gesamtsystem die Formulierung von Fragen in KDQL, die einer Abbildung der
Struktur der Fragen beim Experten auf die Struktur von KDQL gleichkommt, expertengerecht
unterstützt. Die beim QUESTUS-KDD-Ansatz verwendeten Strukturen von Fragen, die Bezeichnung und Operationalisierung von Fachbegriffen und die natürlichsprachliche Formulierung der Antworten in einer bestimmten Anwendungsdomäne müssen weitgehend den tatsächlichen Konzepten der Domäne entsprechen. Teilaspekte der Adäquatheit sind die Ausdrucksfähigkeit und die Effizienz der Formulierung.
Korrektheit
Das Kriterium Korrektheit stellt einen Teilaspekt der formalen Adäquatheit dar, erfährt aber
aufgrund seiner besonderen Bedeutung eine eigenständige Erwähnung: Die Minimalanforderung an informationsverarbeitende Systeme jedweder Art besteht in der Korrektheit der durchgeführten Verarbeitungsschritte. Im vorliegenden Fall wird die klassische Korrektheitsanforderung, wie sie beispielsweise Balzert in [Bal96] beschreibt und wie sie die durch die Konsistenz zwischen Spezifikation und Implementierung der im Programmcode realisierten Algorithmen definiert wird, jedoch erweitert: Korrektheit im vorliegenden Fall der Benutzerunterstützung ist ein Kriterium bei der Eingabe und der Verarbeitung der Anfragen und bei der Aufbereitung der Ergebnisse. Dabei bildet die algorithmische Korrektheit nur einen Teilaspekt.
Ebenso bedeutend für den Gesamterfolg ist die Korrektheit des in den Wissensbasen formalisierten Wissens. Dabei handelt es sich aber im Gegensatz zu algorithmischen Korrektheit
größtenteils nicht um ein (formal) verifizierbares Kriterien, da Wissen zumindest in einigen
Definition zwar einen Wahrheitsanspruch erhebt, für die Überprüfung bislang aber die Methoden fehlen.
Vollständigkeit
Auch die Vollständigkeit stellt einen Teilaspekt der formalen Adäquatheit dar. Abgesehen von
formaler Vollständigkeit70, die im Allgemeinen schwerer zu erreichen und nachzuweisen ist
als die Korrektheit, ist bei der vorliegenden Problemstellung vor allem die vollständige Abde68
im Sinne von Korrektheit und Vollständigkeit der Syntax und Semantik formaler Systeme
69
Das Ziel einer vollständigen Abdeckung kann dabei aus plausiblen Gründen immer nur annähernd erreicht werden.
70
Mittelstraß unterscheidet drei Arten von Vollständigkeit: semantische Vollständigkeit, wenn jede
wahre Aussage aus einem System ableitbar ist, syntaktische Vollständigkeit, wenn das System maximal
widerspruchsfrei ist, und klassische (bzw. deduktive) Vollständigkeit, wenn zu jeder nicht selbst ableitbaren Aussage ihr Negat aus einem System ableitbar ist ([Mit96]).
9.2 DIE ANWENDUNG DER EVALUIERUNGSKRITERIEN
119
ckung der Anwendungsdomäne von Bedeutung, die jedoch nur empirisch verifizierbar ist. Balzert beschreibt das Kriterium Vollständigkeit als den Grad, indem der Ansatz dem Benutzer
alle benötigten Funktionen und Daten selbst zur Verfügung stellt, um damit die geforderten
Ziele zu erreichen ([Bal96]).
Redundanzfreiheit
Die Vermeidung von Redundanzen, wie sie ein wichtiges Thema bei der Gestaltung von formalen Sprachen ist und beispielsweise in [Rui94] beschrieben wird, ist auch relevant für die
Evaluierung des vorliegenden Ansatzes. Da jedoch Redundanzen an einigen Stelle auch erwünscht und notwendig sind, beispielsweise bei der Möglichkeit semantisch äquivalente Benutzerfragen unterschiedlich zu formulieren, ist die Redundanzfreiheit nur in sehr eingeschränkten Bereichen zu überprüfen. Dies ist vor allem für die in unserem Ansatz verwendeten
Sprachen KDQL und DMAQL der Fall.
Tabelle 26 ordnet den verschiedenen Verarbeitungsschritten im QUESTUS-KDD-Ansatz
die jeweils relevanten Evaluierungskriterien zu. Neben diesen Kriterien, die den in dieser Arbeit konzipierten Ansatz für die Benutzerunterstützung betrachten, lassen sich bei der Betrachtung des Gesamtansatzes, der auch die Data-Mining-Methoden und ihre Implementierungen
einschließt, weitere Kriterien (z.B. Korrektheit und Vollständigkeit der Ergebnisberechnung)
finden. Diese sind jedoch aus dem Blickwinkel der Benutzerunterstützung, die mit unserem
Ansatz ja vorwiegend verfolgt werden soll, nicht weiter relevant. Auch rein software-technische Kriterien wie Effizienz und Zuverlässigkeit ([DIN91]) sind für die Beurteilung der Implementierung wichtig, werden aber aufgrund ihres prototypischen Charakters hier nicht weiter
betrachtet.
9.2 Die Anwendung der Evaluierungskriterien
Im Folgenden wollen wir versuchen, die oben beschriebenen Evaluierungskriterien auf den
QUESTUS-KDD-Ansatz anzuwenden. Da eine umfassende Untersuchung aller Kriterien, die
vor allem auch einiger empirischer Studien bedarf, über den Rahmen dieser Arbeit hinausgehen würde, zeigen wir hier an einigen Stellen nur die Wege auf, die für die weitergehende Evaluierung zu wählen sind.
Benutzbarkeit
Das Interaktionsmodell des QUESTUS-KDD-Ansatzes entspricht weitgehend einem sehr natürlichen Vorgehen von Menschen bei der Suche nach Informationen, nämlich dem Stellen
von Fragen und dem Erhalten von Antworten. Auch die Strukturierung von Fragen über verschiedene Abstraktionsstufen hinweg kommt dem alltäglichen Vorgehen sehr nahe. Diese Paradigmen wurden im Zuge von Befragungen von ausgewählten Experten aus dem Bereich des
medizinischen Qualitätsmanagements aber auch aus dem Bereich des Qualitätsmanagements
bei Produktionsprozessen wieder erkannt und nach vorläufigen Aussagen für verständlich befunden.
Die prinzipielle Bedienbarkeit der Benutzerschnittstelle ist stark von der Bewertung ihrer
Adäquatheit abhängig, da der Großteil der Möglichkeiten von Benutzerinteraktionen über die
Formulierung von Fragen und Antworten realisiert sind. Lediglich der Zugang zur Anbindung
von neuen Objekten, wie Daten, Methoden und Algorithmen, sowie einige weitere Konfigurationseinstellungen, die jedoch nur in ausgezeichneten und seltenen Fällen benötigt werden, erfolgen über die üblichen Menüstrukturen. Aus diesem Grund ist eine weitergehende Untersuchung der Implementierung des Ansatzes im Knowledge Discovery Assistant mit Usability-
120
KAPITEL 9. DIE EVALUIERUNG DES QUESTUS-KDD-ANSATZES
Verarbeitungsschritt
Kriterium
Eingabe von natürlichsprachlichen Fra- Benutzbarkeit
gen und Formulierung von KD-Fragen
Adäquatheit
Abbildung von KD-Fragen auf DMAnfragen
Abbildung von DM-Ergebnissen auf
KD-Antworten
Generierung von KD-Antworten
Beispielhafte Fragestellung
Kann der Fachexperte das System benutzen?
Versteht die Benutzerschnittstelle die Formulierungen der Benutzerfragen?
Redundanzfreiheit
Lässt KDQL redundante (d.h. semantisch äquivalente) Formulierungen zu?
Änderbarkeit
Mit welchem Aufwand lässt sich die Menge der
formulierbaren Fragen erweitern?
Portierbarkeit
Mit welchem Aufwand lässt sich das System auf
eine andere Anwendungsdomäne übertragen?
Funktionalität
Werden aus KD-Fragen ausführbare DM-Anfragen erzeugt?
Wartbarkeit
Mit welchem Aufwand lässt sich die Menge der
Data-Mining-Methoden und -Algorithmen erweitern?
Korrektheit
Werden für eine gegebene KD-Frage korrekte
(oder zumindest sinnvolle) DM-Anfragen geliefert?
Vollständigkeit
Werden für eine gegebene KD-Frage alle sinnvollen DM-Anfragen geliefert?
Redundanzfreiheit
Lässt DMAQL redundante (d.h. semantisch äquivalente) Formulierungen zu?
Funktionalität
Werden aus DM-Ergebnissen verständliche KDAntworten erzeugt?
Korrektheit
Werden für eine gegebene Menge von DM-Ergebnissen korrekte (oder zumindest sinnvolle) KDAntworten geliefert?
Vollständigkeit
Werden für eine gegebene Menge von DM-Ergebnissen alle sinnvolle KD-Antworten geliefert?
Benutzbarkeit
Kann der Fachexperte das System benutzen?
Adäquatheit
Versteht der Benutzer die Formulierungen der
KD-Antworten?
Änderbarkeit
Mit welchem Aufwand lässt sich die Menge der
Formulierungen von KD-Antworten anpassen und
erweitern?
Tabelle 26: Zuordnung der relevanten Evaluierungskriterien zu den
Verarbeitungsschritten
Tests zwar sinnvoll aber nur zweitrangig. Die Häufigkeit von Fehlern bei der Interaktion mit
dem System bedarf weitergehender empirischer Tests. Durch die umfangreichen Mechanismen zur Schaffung von Transparenz über die Vorgänge im System stellen wichtige Hilfsmittel
für die frühzeitige Erkennung von Fehlern dar. Zudem bieten sie Ansatzpunkte für entsprechende Korrekturmöglichkeiten.
Die Erlernbarkeit der Benutzerunterstützung durch den QUESTUS-KDD-Ansatz wird
durch seine Verständlichkeit erleichtert, da das Prinzip der Interaktion dem Benutzer aus seinem Kommunikationsverhalten heraus bekannt ist. Dennoch muss noch durch längerfristige
empirische Untersuchungen nachgewiesen werden, dass vor allem die Sprache KDQL den
121
9.2 DIE ANWENDUNG DER EVALUIERUNGSKRITERIEN
Formulierungsgewohnheiten der Experten entspricht und dass damit ohne explizite Erklärung
von Syntax und Semantik von KDQL neue Fragen formuliert werden können.
Dateninhalte
Methoden
Datenstruktur
Methoden
Informationsgrundlage
Anwendungsdomäne
Technologie
Anwendung
Häufigkeit
Algorithmen
Aufwand
Änderbarkeit und Portierbarkeit
Die Änderbarkeit und die Portierbarkeit des Ansatzes sind auf verschiedenen Stufen erfüllt.
Wir unterscheiden dabei, wie in Abbildung 38 gezeigt, technologische und anwendungsorientierte Stufen von Änderungen und Portierungen.
Abbildung 38: Das Stufenmodell für Änderbarkeit und Portierbarkeit.
Im Bereich der Technologie kann im einfachsten Fall die Menge der bestehenden Auswertungsalgorithmen verändert oder erweitert werden. Die zweite Stufe der technologischen Erweiterung besteht dann in der Einführung neuer Auswertungsmethoden, die zwangsläufig auch
die Einführung neuer Algorithmen zur Implementierung der Methoden erfordert. Als weitere
Stufe wäre ein Wechsel der Informationsgrundlage, also beispielsweise von Datenbanken auf
Informationssysteme mit weniger stark strukturierten Inhalten denkbar. Ein Wechsel der Informationsgrundlage hat damit auch den Wechsel der Analysemethoden (z.B. von Data-MiningMethoden zum Methoden des Information Retrieval) zur Folge. Dieser generelle Paradigmenwechsel steht nicht im Fokus des in dieser Arbeit beschriebenen Ansatzes, ist aber im Rahmen
künftiger Erweiterungsschritte durchaus denkbar.
Die einfachste Stufe aus Sicht der Anwendung, die in der Praxis auch die häufigste ist, besteht in der Verwendung neuer Daten, wobei sich hier im Detail noch einmal zwischen dem
bloßen Austausch der Dateninhalte innerhalb derselben Datenbankstruktur mit identischen Attributen und dem teilweisen oder vollständigen Austausch der Datenbankstruktur unterscheiden lässt. Ein Wechsel der Anwendungsdomäne, beispielsweise vom medizinischen Qualitätsmanagement zur Controlling von Produktionsdaten, wird nicht nur die Einbindung neuer Datenbanken nach sich ziehen, sondern hat auch die Neuformulierung der domänenabhängigen
Bestandteile der Fragensprache zur Folge. Durch den modularen Aufbau der Wissensbasis und
die Kapselung des domänenspezifischen Wissens in einem Modul kann der Aufwand für die
Integration des neuen Wissens aber lokal gehalten werden (siehe dazu auch Abschnitt 4.4).
Adäquatheit
Die Ausdrucksfähigkeit als Teilaspekt der Adäquatheit lässt sich zum einen in Bezug auf die
Formulierbarkeit von syntaktisch und semantisch unterschiedlichen Fragen und zum anderen
in Bezug auf die Formulierbarkeit von semantisch äquivalenten aber syntaktisch unterschiedlichen Fragen untersuchen. Der erste Fall weist dabei eine starke Interdependenz zur Analyse
der Vollständigkeit auf und wird dementsprechend dort behandelt. Im zweiten Fall muss die
Möglichkeit von synonymen Frageformulierungen auf Satzebene untersucht werden. Da in
KDQL für semantisch äquivalente Fragen nur eine einzige Formulierung zugelassen wird,
werden die synonymen Frageformulierungen bereits auf der Ebene der Frageneingabe erkannt
und auf ihre eindeutigen KDQL-Formulierungen abgebildet (siehe Abschnitt 8.3.1.1). Durch
122
KAPITEL 9. DIE EVALUIERUNG DES QUESTUS-KDD-ANSATZES
eine Vergrößerung der Menge von synonymen Formulierungen lässt sich die Ausdrucksfähigkeit des Ansatzes in dieser Beziehung weiter erhöhen.
Die terminologische Adäquatheit, also die möglichst hohe Übereinstimmung der Konzepte
aus der Sprachwelt des Benutzers mit den im Ansatz vorgeschlagenen Konzepten, wurde bei
der Konzeption über den schon früher erwähnten Korpus von Fragen, die in verschiedenen Datenanalyse-Szenarien gesammelt wurden, weitgehend erreicht. Dasselbe Vorgehen wurde auch
für das Ziel der erkenntnistheoretischen Adäquatheit angewendet. Durch weiterführende, empirische Untersuchungen ließe sich aber an dieser Stelle weitere Gewissheit schaffen.
Korrektheit
Die algorithmische Korrektheit, d.h. die Korrektheit der im QUESTUS-KDD-Ansatz entwickelten und in den KDA integrierten Methoden und Algorithmen wurden bereits mit Verfahren
des Software Testing nach Balzert ([Bal96]) und durch die Anwendung auf ausgezeichnete
Testfälle überprüft. Die Korrektheit der Wissensbasis bedarf noch einer weitergehenden Evaluierung, in deren Verlauf neben empirischen Untersuchungen auch formale Evaluierungsmethoden, wie sie etwa Herrmann in [Her97] und Sommer in [Som97] beschreiben, zur Anwendung kommen könnten. Bei der Begutachtung des Abbildungswissens ist jedoch darauf zu
achten, dass Interpretationsspielräume existieren, die z.B. bei der Verwendbarkeit einer bestimmten Data-Mining-Methode für eine gegebene Frage auftreten können. An diesen Stellen
besteht dann die Notwendigkeit einer weitergehenden Personalisierung bzw. Domänenanpassung.
Vollständigkeit
Ein entscheidendes Kriterium für die Evaluierung von kontrollierten Sprachen im Allgemeinen
und des QUESTUS-KDD-Ansatzes im Speziellen stellt ihre Vollständigkeit dar. Im vorliegenden Fall lässt sich das Kriterium über die in Abbildung 39 dargestellten vier Abbildungen betrachten und mit vier Teiluntersuchungen überprüfen:
N: Natürlichsprachliche
Fragen
Abbildung f1:
Formalisierung
F: KD-Fragen
Abbildung f2:
Verwendung
Abbildung f3:
Beantwortung
A: DM-Anfragen
Abbildung f4:
Muster finden
M: Muster
Abbildung 39: Die Abbildungen zur Überprüfung der Vollständigkeit.
• Formalisierung von natürlichsprachlichen Fragen durch KD-Fragen: Auf der Ebene der natürlichsprachlichen Fragen ist zum einen zu untersuchen, ob jede KD-Frage
123
9.2 DIE ANWENDUNG DER EVALUIERUNGSKRITERIEN
durch eine natürlichsprachliche Frage erreicht wird. Um die Anwendbarkeit des QUESTUS-KDD-Ansatzes nachzuweisen, ist die Untersuchung, ob für jede natürlichsprachliche Frage71 eine entsprechende Formalisierung durch KDQL möglich ist, jedoch von
größerer Bedeutung. Kann also durch die Abbildung f1 aus (18) für jede natürlichsprachliche Frage aus der Menge N eine adäquate Formalisierung aus der Menge der KD-Fragen F gefunden werden?
f 1 :F → N
(18)
Diese Frage, die genau genommen die Surjektivität der Funktion f1 untersucht, lässt sich
über eine genauere Betrachtung von KDQL beantworten: Wie in Abschnitt 5.2 beschrieben, setzt sich eine in KDQL formulierte KD-Frage aus bis zu fünf Elementen zusammen. Diese Elemente lassen sich entweder durch Schlüsselelemente aus der natürlichen
Sprache besetzen (z.B. konfirmativer Fragetyp, Zusammenhang), stellen indirekt Verweise auf Objekte in der Datenbank dar (z.B. Argumente) oder sind Operationalisierungen von Domänenkonzepten (z.B. Korrektheit der Therapeutik).
Im ersten Schritt ist zu untersuchen, ob natürlichsprachliche Fragen durch die Menge der
KDQL-Elemente vollständig beschrieben werden können und ob also die möglichen Belegungen jedes KDQL-Elements den aus der natürlichen Sprache bekannten Belegungen
entsprechen. Für diese Belegung der einzelnen KDQL-Elemente muss im zweiten Schritt
durch Untersuchungen mit Hilfe der in Tabelle 27 beschriebenen Disziplinen die vollständige Modellierung nachgewiesen werden.
Typ
KDQL-Element
Anzahl
möglicher Belegungen
Überprüfung der
Vollständigkeit durch
Schlüsselelemente
der natürlichen
Sprache
Fragetyp
3
Linguistik
Allgemeine
Frageobjekte
4
Statistik
Objektargumente
4
Statistik
Fragegruppe
Anzahl der
Datenbankattribute
Datenbanktheorie,
Datenbankmodellierung
Fragekontext
Anzahl der
Datenbankattribute
Datenbanktheorie,
Datenbankmodellierung
Eigenschaftsargumente
Anzahl der
Datenbankattribute
Datenbanktheorie,
Datenbankmodellierung
Verweise auf
Objekte der
Datenbank
Operationalisierungen
Gruppenargumente Anzahl der
modellierten Gruppen
Datenbankmodellierung,
Domänenmodellierung
Domänenspezifische Frageobjekte
Domänenmodellierung
Anzahl der
operationalisierten
Konzepte
Tabelle 27: Überprüfung der Vollständigkeit der Abbildung von
natürlichsprachlichen Fragen
• Verwendung von DM-Anfragen durch KD-Fragen: Auf der Ebene der KD-Fragen ist
zu überprüfen, ob alle Interessen in Fragen formuliert werden können, die auch als DM71
Wir beschränken uns dabei natürlich auf solche natürlichsprachliche Fragen, die von Fachexperten
zum Zwecke der Datenanalyse gestellt werden.
124
KAPITEL 9. DIE EVALUIERUNG DES QUESTUS-KDD-ANSATZES
Anfrage formuliert werden können. Deckt also die Menge der mit KDQL formulierbaren
KD-Fragen F die Menge der verfügbaren DM-Anfragen A vollständig ab? Oder im relationentheoretischen Sinn: Ist die auch Abbildung f2 aus (19), die die Menge der Fragen
auf die Menge der verwendeten Anfragen abbildet, surjektiv?
f 2 :F → A
(19)
Für den Nachweis ist zu zeigen, dass alle Elemente, die bei der Formulierung von DMAnfragen relevant sind (siehe Abschnitt 7.3), durch einzelne Elemente aus KD-Fragen
angesprochen werden können. Dies zeigen wir mit Hilfe von Tabelle 28, in der wir den
Objekttypen auf der DM-Ebene die KDQL-Elemente auf der KD-Ebene gegenüberstellen. Die vollständige Abbildung im Detail ist dann noch für die Regelbasis, die bei der
Ermittlung eines Data-Mining-Algorithmus aus dem Frageobjekt und bei der Ermittlung
von Werten für die Parametrisierung der Algorithmen verwendet wird, zu zeigen. Da alle
weiteren Objekttypen direkt oder indirekt über die Frage angesprochen werden, ist für
diese keine weitere Untersuchung notwendig.
DM-Objekttyp
Erreichbarkeit über
Überprüfung in
DM-Methode
Frageobjekt, Eigenschaftsargumente,
Objektargumente
Wissensbasis für die Auswahl von DM-Methoden (siehe Abschnitte 7.3.1-7.3.3)
DM-Algorithmus
DM-Methode, Eigenschaftsargumente, Wissensbasis für die Auswahl von DM-AlgoObjektargumente
rithmen (siehe Abschnitt 7.3.4)
Argumente
Eigenschaftsargumente
Analysedaten
Fragegruppe
Fragekontext
Gruppenargumente
Parameter
Regelbasis für die Instantiierung der
Anfrageparameter
Frageformulierungen
Regelbasis für die Instantiierung der Anfrageparameter
Tabelle 28: Überprüfung der Vollständigkeit der Abbildung von KDFragen
• Beantwortung von KD-Fragen durch DM-Anfragen: Umgekehrt ist auf der Ebene
der DM-Anfragen zu überprüfen, ob die Menge der durch DM-Anfragen formulierten
verfügbaren Konfigurationen von Data-Mining-Algorithmen A die Beantwortung der
mit KDQL formulierbaren KD-Fragen F vollständig abdeckt. Oder im relationentheoretischen Sinn: ist die Abbildung f3 aus (20), die die Menge der DM-Anfragen A auf die
Menge der KD-Fragen F, die von den Algorithmen beantwortet werden, abbildet, surjektiv?
f 3 :A → F
(20)
Dieser Nachweis, dass also durch die Menge der erzeugbaren DM-Anfragen tatsächlich
Hinweise zur Beantwortung aller KD-Fragen gegeben werden können, erfordert einen
Rückgriff auf empirische Untersuchungen, die über den Rahmen dieser Arbeit hinausgehen. Eine solche Studie sollte sich vor allem an Experten der Anwendungsdomäne richten, die Ergebnisse aber mit den Ansichten von Experten der Datenanalyse abgleichen.
• Finden von Mustern durch DM-Anfragen: Wenn Data Mining auch als die Entdeckung von interessanten Mustern in Daten bezeichnet wird72, stellt sich weiterhin die
9.2 DIE ANWENDUNG DER EVALUIERUNGSKRITERIEN
125
Frage nach der algorithmischen Abdeckung: Werden alle interessanten Muster in Daten
als Ergebnisse von DM-Anfragen gefunden? Auch für die Abbildung f4, die nach (21)
für eine DM-Anfrage A eine Menge von Mustern M als Ergebnisse liefert, gilt demnach
die Forderung nach Surjektivität, d.h. jedes mögliche Muster sollte Ergebnis mindestens
einer DM-Anfrage sein.
f 4 :A → M
(21)
Dies erfordert die grundlegende Annahme, dass für alle interessanten Muster in Daten
geeignete Data-Mining-Algorithmen existieren und diese in das vorliegende System integriert sind. Wenn nun sichergestellt ist, dass alle verfügbaren DM-Algorithmen in allen
Konfigurationen erzeugt werden können, kann auch davon ausgegangen werden, dass
alle interessanten Muster gefunden werden.
Im Hintergrund der oben genannten Teiluntersuchungen soll die Konzentration auf das Arbeitsgebiet der Benutzerunterstützung stehen. Aus diesem Grund verzichten wir auf weitere
grundlegende Fragen, z.B. nach der generellen Vollständigkeit der bis heute entwickelten
Data-Mining-Algorithmen in Bezug auf die Menge potentiell interessanter Muster. Diese sind
zwar von großem wissenschaftlichem Interesse, können für den Zweck der Benutzerunterstützung jedoch nachrangig behandelt werden.
Redundanzfreiheit
Für die Überprüfung von Redundanzen – seien sie absichtlich oder unabsichtlich entstanden –
greifen wir noch einmal auf die im vorhergehenden Abschnitt beschriebenen und in Abbildung
39 dargestellten Abbildungen zurück. War die Surjektivität der Abbildungen das Merkmal für
die Vollständigkeit, so verwenden wir jetzt die Injektivität der genannten Abbildungen als
Merkmal, um mögliche Redundanzen in den Abbildungen zu überprüfen.
• Formalisierung von natürlichsprachlichen Fragen durch KD-Fragen: Hier kann
keine injektive Abbildung (f1 in Abbildung 39) vorliegen, da sich eine in KDQL formalisierte Frage auf verschiedene Arten formulieren lässt. Redundanz an dieser Stelle ist also
gegeben und notwendig.
• Verwendung von DM-Anfragen durch KD-Fragen: Bei dieser Abbildung (f2 in Abbildung 39) entstehen bewusst Redundanzen: Durch die in Abschnitt 7.2 beschriebenen
Mechanismen bei der Verfeinerung von abstrakten KD-Fragen entsteht eine Menge von
Unterfragen, die auf DM-Anfragen abgebildet werden. Die in Abschnitt 7.3 beschriebene Auswahl eines geeigneten Data-Mining-Algorithmus zum Frageobjekt ist dagegen
durch das gewählte Vorgehen der abschließenden Kürzung der Kandidatenliste auf die
Länge eins eindeutig.
• Beantwortung von KD-Fragen durch DM-Anfragen: Hier kann nicht von einer eindeutigen Abbildung (f3 in Abbildung 39) ausgegangen werden, weil gleiche Muster von
verschiedenen DM-Anfragen gefunden und damit deren Ergebnisse auch verschiedenen
KD-Fragen zugeordnet werden können. Diesem Phänomen lässt sich durch aufwändige
Maßnahmen zur Redundanzfilterung auf der Ebene der Ergebnisse begegnen.
• Finden von Mustern durch DM-Anfragen: Wie schon erwähnt, erlaubt diese Abbildung (f4 in Abbildung 39) ebenfalls Redundanzen, da ein Muster von mehreren DM-Anfragen als Ergebnis geliefert werden kann.
72
„Knowledge discovery in databases is the non-trivial process of identifying valid, novel, potentially
useful, and ultimately understandable patterns in data.“ [Fay96b:6]
126
KAPITEL 9. DIE EVALUIERUNG DES QUESTUS-KDD-ANSATZES
Bei allen diesen Abbildungen sind also Redundanzen möglich oder gewünscht. Dies gilt jedoch nicht für die Formulierung von natürlichsprachlichen Fragen in KDQL. Hier ist zu fordern, dass semantisch äquivalente Fragen auch auf identische KD-Fragen abgebildet werden.
Wie bereits erwähnt, können diese Ansätze für die Überprüfung der Evaluierungskriterien
nur erste Schritte darstellen. Schon an dieser Stelle schlagen wir deshalb im Sinne zukünftiger
Arbeiten vor allem eine umfassende empirische Untersuchung der vorgestellten Konzepte vor.
9.3 Die Anforderungen an den Benutzer
Den in Abschnitt 1.3.1 beschriebenen Ziele der Arbeit und den in Abschnitt 4.1 beschriebenen
Anforderungen, die an die Realisierung der Benutzerschnittstelle gestellt werden, stellen wir
im Folgenden die Anforderungen gegenüber, die ein Benutzer erfüllen sollte, um mit dem System erfolgreich arbeiten zu können.
• Verfügbare Daten: Eine grundlegende Anforderung an den Benutzer ist ein Überblick
über die verfügbaren Daten. Zwar ist es denkbar, domänenspezifische Standardfragen
auf Standarddatenbeständen zu generieren und dem Benutzer vorzuschlagen. Dennoch
erschließt sich dem Benutzer der Umfang der möglichen Fragen und damit das Potenzial
der Analysen erst, wenn er die Daten kennt. Wichtig ist dabei vor allem die Kenntnis der
durch die Daten modellierten Objekte (z.B. Patienten, Patientenaufenthalte in der Klinik
usw.) und die modellierenden Attribute (z.B. Krankversicherungsart eines Patienten,
Dauer des Aufenthalts in der Klinik usw.).
• Datenbankmodellierung: Die Struktur der für die Analysen bereitstehenden Daten (Datenbankmodell) sollte durch Vorverarbeitungsschritte bereinigt, fusioniert und homogenisiert sein. Damit kann der Benutzer die der ursprünglichen Modellierung zugrunde liegenden Strukturen vernachlässigen.
• Attributbenennungen: Die Benennungen der den Analysen zugrunde liegenden Attribute verändern sich in der Praxis häufig mit Anpassungen der Datenbankstruktur. Zudem
sind die in der Datenbankmodellierung verwendeten Benennungen häufig durch Abkürzungen (z.B. GesVD für „Gesamtverweildauer“) oder technische Formulierungen (z.B.
ObjID als allgemeine Bezeichnung des eindeutigen Identifikationsschlüssels der in einer
Relation modellierten Objekte) geprägt. Durch die Verwendung von synonymen Bezeichnungen (siehe Abschnitt 4.4), die fehlertolerante Erkennung von Benennungen und
einer optionalen listenbasierte Auswahl (siehe Abschnitt 8.3.1) werden diese Schwierigkeiten aber umgangen. Damit kann die Anforderung an den Benutzer diesbezüglich auf
die grobe Kenntnis der natürlichsprachlichen Attributbenennungen begrenzt werden.
• Daten- und Skalentypen der Attribute: Metadaten der Attribute, wie Daten- und Skalentypen, werden bei der Vorverarbeitung gesammelt, im QUESTUS-KDD-Ansatz verwaltet und beispielsweise bei der Auswahl von Data-Mining-Methoden berücksichtigt.
Der Benutzer wird damit nicht konfrontiert.
• Semantik der Attribute: Die Bedeutung der Datenbankattribute lässt sich nur schwer
durch Metadaten ausdrücken, ihre Modellierung liegt damit bislang nicht im Fokus des
QUESTUS-KDD-Ansatzes. Stattdessen wird davon ausgegangen, dass dem Benutzer
die Semantik eines Attributs, das in Form eines KDQL-Fragearguments in einer Frage
verwendet wird, bekannt ist.
• Data-Mining-Methoden: Die Auswahl von Data-Mining-Methoden, die für die gegebenen Mengen an Fragestellungen und Daten geeignet sind, stellt bislang eine der größten
127
9.3 DIE ANFORDERUNGEN AN DEN BENUTZER
Herausforderungen für die Anwender von Data-Mining-Systemen dar. Nicht weniger
aufwändig gestaltet sich die Interpretation der Ergebnisse. Der QUESTUS-KDD-Ansatz
realisiert eine wissensbasierte Auswahl von Data-Mining-Methoden und -Algorithmen,
deren Ergebnisse zusammen in der Lage sind, eine gegebene Frage auf gegebenen Daten
korrekt und vollständig zu beantworten (siehe auch Abschnitt 7.3). Zudem wird die Interpretation der Ergebnisse durch die Rückübersetzung in natürlichsprachliche Antworten unterstützt. Damit kann der Benutzer von der Last der Methodenauswahl, die normalerweise hohe Anforderungen bezüglich der Vertrautheit des Benutzers mit Datenbanken
und Data Mining erfordert, und der Interpretation ihrer Ergebnisse weitestgehend befreit
werden.
• Frageformulierungen: Die komplexeste Aufgabe stellt die Abbildung der Fragen im
Kopf des Fachexperten auf Fragen im QUESTUS-KDD-Ansatz, also die Formulierung
von KD-Fragen durch den Fachexperten dar. Dies wird wiederum durch die Verwaltung
synonymer Fragenformulierungen, die fehlertolerante Eingabe von Fragen, die listenbasierte Manipulation und die Möglichkeit der Überprüfung der Korrektheit der Formulierungen durch die Schaffung von Transparenz über Transformationen unterstützt. Dennoch lässt es sich an dieser Stelle nicht vermeiden, vom Benutzer Kenntnis und Verständnis der Grundmuster der formulierbaren Fragen zu fordern.
• KDD-Prozess: Der QUESTUS-KDD-Ansatz konzentriert sich auf den für den Fachexperten relevanten Teil der Analyse. Er baut darauf auf, dass die Daten in einem Vorverarbeitungsschritt in eine adäquate Form gebracht und Metadaten über die Attribute sowie
relevantes Domänenwissen erfasst und formalisiert wurden. Auf dieser Basis wird vom
Fachexperten keine Kenntnis des KDD-Prozesses gefordert, die Data-Mining-Analysen
können interaktiv und ohne weitere Kenntnis des KDD-Prozess durchgeführt werden.
Abbildung 40 klassifiziert den Umfang der oben beschriebenen Anforderungen an den Benutzer und stellt sie in einem Anforderungsprofil dar.
gering
hoch
Gefordertes Wissen über
Verfügbare Daten
Datenbankmodellierung
Attributbezeichnungen
Semantik der Attribute
Daten- und Skalentypen
Data-Mining-Methoden
Frageformulierungen
KDD-Prozess
Abbildung 40: Die Anforderungen an die Benutzer des QUESTUSKDD-Ansatzes.
Schwierigkeiten bei der Formulierung von Fragen durch Fachexperten treten in den folgenden Fällen auf:
• Abstraktionsniveau: Die Fragen sind zu abstrakt für die automatische Beantwortung:
• Wird auf ökonomische Aspekte Rücksicht genommen?
• Wird in Abteilungen bewusst nach Guidelines vorgegangen?
128
KAPITEL 9. DIE EVALUIERUNG DES QUESTUS-KDD-ANSATZES
• Wo können Einsparungspotenziale abgeleitet werden?
Dieses Problem beruht darauf, dass die Grenzen des Systems für den Benutzer nicht erkennbar sind: Er kann nicht entscheiden, welche Fragen sich mit dem vorhandenen Hintergrundwissen und den Methoden und Algorithmen beantworten lassen und welche
nicht. Damit kann er auch das Abstraktionsniveau seiner Fragen nicht einschätzen.
• Formulierung: Die Fragen entsprechen nicht den Formulierungsanforderungen. Um sie
durch unseren Ansatz bearbeitbar zu machen, müssen sie umformuliert werden:
• Kommen in bestimmten Abteilungen häufiger Komplikationen vor?
Die entsprechende beantwortbare Frage lautet:
Gibt es Unterschiede bezüglich der Verteilung von Komplikationen zwischen den
Abteilungen?
• Bei welchen Diagnosen gibt es Hinweise, dass sich die Verteilung der Überschreitungen der Verweildaueruntergrenze nach Geschlecht unterscheiden?
Die entsprechende beantwortbare Frage lautet:
Gibt es Unterschiede bezüglich der Verteilung der Überschreitungen der Verweildaueruntergrenze zwischen männlichen und weiblichen Patienten?
• Ist die Behandlung davon abhängig, um welche Leistungsklasse73 es sich handelt?
Die entsprechende beantwortbare Frage lautet:
Gibt es eine Abhängigkeit der Behandlung von der Leistungsklasse?
• Werden Patienten mit derselben Diagnose weitgehend im selben Fachbereich behandelt?
Die entsprechende beantwortbare Frage lautet:
Gibt es Unterschiede bezüglich des Fachbereichs bei Patienten mit derselben Diagnose?
Im Falle dieser Fragen, die nicht den Formulierungsanforderungen entsprechen, ist die
Syntax von KDQL für den Benutzer nicht erkennbar. Dieses Problem lässt sich auch
durch eine kontinuierliche Erweiterung von KDQL nicht beseitigen, weil eine vollständige Abdeckung aller möglichen Formulierungen von Fragen nicht realisierbar ist. Ein
Ausweg kann deshalb nur in der Entwicklung von Methoden zur Darstellung der Grammatik von KDQL nach außen bestehen, um dem Benutzer die Umformulierung seiner
Frage zu erleichtern.
• Zusätzliche Elemente: Die Fragen enthalten zusätzliche Elemente, z.B. Bedingungen,
die nicht durch KDQL abgedeckt sind:
• Wenn Patienten mit derselben Diagnose nicht im selben klinischen Fachbereich
behandelt werden, gibt es dann Unterschiede in der Behandlungsqualität der
Fachbereiche?
Bei solchen Fragen besteht ein ähnliches Problem wie bei den vorhergehenden: Auch
hier sind die Grenzen des Umfangs von KDQL für den Benutzer nicht erkennbar. In diesem Fall ist eine Umformulierung durch den Benutzer aber nicht oder nur bedingt möglich. Nur eine strukturelle Erweiterung von KDQL kann hier Abhilfe schaffen.
73
Die Leistungsklasse im österreichischen Gesundheitssystem kann mit der Art der Krankenversicherung (privat oder gesetzlich) in Deutschland verglichen werden.
9.4 DIE INTEGRATION IN DEN GESAMTPROZESS
129
9.4 Die Integration in den Gesamtprozess
Am Beispiel des datenbasierten medizinischen Qualitätsmanagements wollen wir im Folgenden die Rolle und Einbettung des Data Mining in den Gesamtprozess (siehe auch Abbildung
41) darstellen. In diesen Prozess, den wir zunächst ohne unseren Ansatz der Benutzerunterstützung darstellen, sind innerhalb einer Klinik oder eines Klinikverbundes verschiedene Gruppen
involviert:
• Der Datenbankadministrator entwirft, implementiert und wartet die Datenstrukturen
für die Akquisition der Daten in klinischen Prozessen. Die konkrete Form der Datenverwaltung weist zum Zeitpunkt der Erhebung starke Schwankungen zwischen Ländern und
Kliniken auf. Aufgrund von Standardisierungsbemühungen, die vor allem auf die Einführung von Fallpauschalen bei der Leistungsabrechnung zurückzuführen sind, lässt sich
aber eine Tendenz zu spezialisierten Data Warehouses oder Krankenhausinformationssystemen (KIS) erkennen.
• Der medizinische Datenmanager ist auf der einen Seite im technischen Sinne für die
Verwaltung aller in einer Klinik erhobenen abrechnungs- und behandlungsrelevanten
Daten zuständig. Auf der anderen Seite unterstützt er das medizinische und administrative Personal der Klinik bei der Dokumentation sowie bei der zielgruppenspezifischen
Aufbereitung der Daten, wie sie für die Verwaltung einer Station und für die Abrechnung von Behandlungsleistungen benötigt werden. Damit stellt der medizinische Datenmanager das Bindeglied zwischen den Management-, Controlling- und Qualitätsmanagement-Instanzen einer Klinik sowie dem medizinischen Personal und der technischen Datenbankadministration dar.74
• Der Datenanalyst nimmt in einem Prozess ohne weitgehende Benutzerunterstützung für
das Data Mining aufgrund seiner grundlegenden Kompetenzanforderungen eine eigenständige Rolle ein. Zusammen mit dem Datenbankadministrator und dem medizinischen
Datenmanager leistet er durch die Anwendung seines methodischen Wissens technische
Unterstützung bei der Durchführung von Analysen für das Qualitätsmanagement in der
Klinik.
• Das Qualitätsmanagement gibt den Fokus dieser Analysen vor: Dieser entsteht üblicherweise aus Aufgaben und Zielen der Klinikverwaltung (z.B. Verkürzung der mittleren Verweildauer unter Beibehaltung der Behandlungsqualität), die beim Qualitätsmanager konkretere Fragestellungen (z.B. Welche Unterschiede bezüglich der Behandlungsqualität gibt es bei Patienten, die die Verweildauernormen überschreiten, und bei solchen, die diese unterschreiten?) auslösen.
Die beiden letztgenannten Gruppen, also Qualitätsmanager und Datenanalyst, führen bislang zusammen die Data-Mining-Analysen, vor allem die Kernprozessschritte aus dem
CRISP-Modell business understanding, modeling und evaluation, durch (siehe dazu auch Abschnitt 2.1.3).75
Ziel des QUESTUS-KDD-Ansatzes ist, wie bereits früher erwähnt, eine systemische Unterstützung für eine Vereinfachung dieses Prozesses. Um die sprachliche Diskrepanz zwischen
dem Qualitätsmanager als Fragesteller und dem Datenanalysten als Methodenlieferanten zur
reduzieren und vor allem auch, um den Bedarf an teuren Datenanalyse-Experten zumindest für
74
Der Ausbildungsgang zum „Medizinischen Daten-Manager“ wird derzeit bei den Tiroler Landeskrankenanstalten (TILAK) vorbereitet.
75
Neben komplexen Data-Mining-Analysen sind natürlich auch Standardberichte und OLAP-Anfragen
zur Datenanalyse denkbar. Wichtige Hilfsmittel für alle genannten Verfahren sind Methoden der Statistik
und der Visualisierung.
130
KAPITEL 9. DIE EVALUIERUNG DES QUESTUS-KDD-ANSATZES
Verwaltungsdirektor
Aufgaben/
Ziele
Datenbankadministrator
Medizinischer
Datenmanager
Qualitätsmanager
Datenanalyst
Medizinisches
Personal
Interessen
Ergebnisse
Data Mining
Business
Understanding
Datensammlung
Evaluation
Modeling
KIS
OLAP
Berichtswesen
Statistik und Visualisierung
Feedbackschleife
Datenbank
Einfluss
Datenfluss
(Teil-)Prozess
Person/Rolle
Abbildung 41: Der Ausgangsprozess des datenbasierten medizinischen
Qualitätsmanagements.
grundlegende Data-Mining-Analysen zu reduzieren, schlagen wir deshalb einen vereinfachten
Prozess unter Verwendung des KDA als Implementierung des QUESTUS-KDD-Ansatzes vor.
Dieser Prozess ist in Abbildung 42 dargestellt und zeichnet sich vor allem durch eine reduzierte Rolle des Datenanalysten aus, die hier durch die im QUESTUS-KDD-Ansatz bereitgestellte
umfangreiche Benutzerunterstützung für die Kernphasen der Entdeckung von Wissen in Datenbanken ersetzt wird. Hauptaufgabe des Datenanalysten ist jetzt die Konfiguration des KDA,
also die Eingabe und Wartung des für die Benutzerunterstützung benötigten Wissens im Bereich Data Mining.
Die Ergebnisse des erfolgreichen Data Mining, z.B. Hinweise für Kapazitätsplanungen,
qualitätsrelevante Faktoren, Behandlungsrichtlinien (guidelines) oder sogar neues oder überarbeitetes medizinisches Wissen, lassen sich in einer Ergebnisdatenbank ablegen. Auf dieser Basis können dann verschiedene zielgruppengerechte Darstellungen der Ergebnisse in unterschiedlichen Formaten, z.B. für die Präsentation im Intranet oder für gedruckte Berichte, generieren (siehe Abschnitt 8.1.4). Damit lassen sich Antworten auf die Fragen des Qualitätsmanagers finden, die wiederum für die Lösung der von der Klinikverwaltung gestellten Aufgaben
und die Erreichung ihrer Ziele umgesetzt werden können. Das medizinische Personal erhält
darüber hinaus Hinweise auf die Qualität ihrer Leistungen und Hinweise für mögliche Verbesserungen.
131
9.5 ZUSAMMENFASSUNG
Verwaltungsdirektor
Aufgaben/
Ziele
Qualitätsmanager
Datenanalyst
Datenbankadministrator
Medizinischer
Datenmanager
Fragen
Konfiguration
Medizinisches
Personal
QUESTUS-KDD im KDA
Medizinisches
Wissen
Business
EvaluaUnder- Modeling
tion
standing
Datensammlung
KIS
Behandlunsrichtlinien
Qualitätsrelevante
Faktoren
Pläne
OLAP
Ergebnisdatenbank
Berichtswesen
Statistik und Visualisierung
Abbildung 42: Der Prozess des datenbasierten medizinischen Qualitätsmanagements unter Verwendung des KDA.
9.5 Zusammenfassung
In diesem Abschnitt haben wir versucht, die theoretische Güte und die praktische Anwendbarkeit des Ansatzes nachzuweisen. Aufgrund der Menge und Komplexität der einzelnen Evaluierungskriterien ließ sich dieses Vorhaben aber nur in einem ersten Ansatz durchführen und der
Weg für ein weiteres Vorgehen nur skizzieren. Besonderer Wert bei den Untersuchungen wurde auf die Überprüfung der Vollständigkeit der im QUESTUS-KDD-Ansatz enthaltenen Sprachen und Abbildungen gelegt, da es sich hierbei aus Sicht vieler Experten aus den Bereichen
Benutzerunterstützung und Datenanalyse um das entscheidende Kriterium handelt.
Ein vollständiger Nachweis der Verwendbarkeit des Ansatzes in der Praxis konnte in dieser
Arbeit nicht geleistet werden, da dieser eine umfassende empirische Untersuchung sowie weiterführende Usability-Test erfordert. Dazu müsste eine Vielzahl von Meinungen von verschiedenen Anwendern eingeholt werden. Bei einer kleinen Stichprobe sind jedoch bereits Ergebnisse des QUESTUS-KDD-Ansatzes in Form von DM-Anfragen, die auf Benutzerfragen basieren, mit dem Vorgehen von Data-Mining-Experten verglichen worden.
132
KAPITEL 9. DIE EVALUIERUNG DES QUESTUS-KDD-ANSATZES
KAPITEL 10 ZUSAMMENFASSUNG, DISKUSSION UND AUSBLICK
Die vorliegende Arbeit bewegt sich in einem Bereich, der von verschiedenen Disziplinen der
Informatik berührt wird. Zum einen sind dies Aufgabenstellungen aus dem Bereich der Linguistik und der erotetischen Logik, die vor allem bei der Analyse der Fragen von Fachexperten
und der Konzeption von KDQL zu finden sind. Von höherer Relevanz, weil in beinahe allen
Komponenten des Ansatzes präsent, sind die Bereiche wissensbasierte Systeme und Knowledge Engineering: Dies betrifft vor allem den Aufbau der Wissensbasis sowie den Erwerb und
die Formalisierung des Abbildungswissens. Als Anwendungsgebiet der Benutzerunterstützung
stehen Methoden und Algorithmen der Statistik und des Data Mining im Vordergrund. Und als
Grundthema des Ansatzes kommt der Bereich intelligenter Benutzerschnittstellen zum Tragen.
Im Folgenden fassen wir die wichtigsten Leistungen unseres Ansatzes noch einmal zusammen, hinterfragen kritisch seine Vor- und Nachteile und geben einen Ausblick auf mögliche
Erweiterungen des Ansatzes und zukünftige Arbeiten in diesem Bereich.
10.1 Zusammenfassung
Wir haben in dieser Arbeit den QUESTUS-KDD-Ansatz für die Unterstützung von Fachexperten bei der Entdeckung von Wissen in Datenbanken entwickelt. Der Idee des Invisible Data
Mining folgend erlaubt unser Ansatz die Spezifikation von Data-Mining-Anfragen ohne vertiefte Kenntnis von Methoden und Algorithmen. Damit lassen sich Data-Mining-Analysen
durch Fachexperten in Form von Fragen in natürlicher Sprache spezifizieren. Die Fragen werden über mehrere wissensbasierte Transformationsschritte in ausführbare Data-Mining-Anfragen überführt, deren Ergebnisse wieder in die Fachsprache des Experten zurückübersetzt werden können.
Im Detail lassen sich die folgenden Leistungen beschreiben:
• Mit der Knowledge Discovery Questions Language (KDQL) wurde erstmals eine kontrollierte Sprache für Fragen von Fachexperten vorgestellt, die aufgrund ihrer Nähe zu
natürlichsprachlichen Formulierungen nicht das Erlernen neuer Konzepte und Strukturen
vom Benutzer fordert. Damit können abstrakte Benutzerinteressen in Form von Fragen
formuliert und damit als Grundlage für die Spezifikation von Data-Mining-Analysen
verwendet werden.
• Unter Einsatz von umfangreichem Wissen über Data-Mining-Methoden und -Algorithmen sowie verschiedenen Arten von taxonomischem Wissen können die Fragen in DataMining-Anfragen übersetzt werden. Dabei werden abstrakte Fragen zunächst mittels der
Taxonomien expandiert und konkretisiert. Auf einem bestimmten Konkretisierungsniveau können diese dann verwendet werden, um zunächst eine Data-Mining-Methode und
dann einen Data-Mining-Algorithmus auszuwählen, sowie die weiteren Elemente einer
Data-Mining-Anfrage zu bestimmen. Im letzten Schritt kann noch die Anpassung auf
134
KAPITEL 10. ZUSAMMENFASSUNG, DISKUSSION UND AUSBLICK
verschiedene Implementierungen des Algorithmus mit entsprechend variierender Aufrufsyntax erfolgen.
• Das für den QUESTUS-KDD-Ansatz benötigte Wissen über Fragen, Antworten, Methoden und Konzepte wurde in einer modularen Wissensbasis beschrieben. Durch die Modellierung auf verschiedenen Spezialisierungsstufen lässt sich die Portierung des Ansatzes beispielsweise auf andere Domänen erleichtern.
Diese Ergebnisse der Arbeit wurden prototypisch als Komponenten in ein bestehendes
Data-Mining-Werkzeug integriert und einer ersten Evaluierung in der Praxis unterworfen.
10.2 Diskussion
Die Grundidee, zwei so komplexe wie unterschiedliche Welten wie die Gedankenwelt von Fachexperten mit den formalen Beschreibungen von Data-Mining-Methoden zu kombinieren,
bleibt eine grundsätzliche Herausforderung. Der Ansatz unterscheidet sich von bestehenden
Ansätzen zwar deutlich in Bezug auf die Komplexität der Benutzerunterstützung beim Data
Mining und die Sprachebene, auf der die Interaktion verläuft. Dennoch erscheint es möglich,
dass sich im real-world-Einsatz weitere grundsätzliche Fragen ergeben.
Der Prozess der Formulierung von Fragen durch Fachexperten könnte in diesem Sinne einer
weitergehenden Untersuchung bedürfen. Dabei ist zu klären, inwieweit sich die Fragen aus der
natürlichen Sprache tatsächlich auf die KDQL-Formulierungen abbilden lassen und ob die bislang vorgeschlagenen Mittel dafür ausreichen. Dabei steht auch zur Diskussion ob durch die
vorgestellten Methoden zur Schaffung von Transparenz für den Benutzer genügen, um Ambiguitäten und andere linguistischen Schwierigkeiten beim Umgang mit natürlicher Sprache zu
vermeiden sowie den Umfang der linguistischen Abdeckung zu verdeutlichen. Vorwiegend ist
hierbei zu untersuchen, ob sich dem Benutzer die Menge der formulierbaren Fragen erschließt
und ob andererseits aus dem System heraus klar wird, warum Fragen, die die Grenzen des Systems überschreiten, nicht verarbeitet werden können. So ist es möglich, dass ausgehend von einer Frage, die vom System nicht beantwortet werden kann, andere Fragen aber, die der Benutzer als gleich komplex einschätzen würde, gegen die Erwartungen des Benutzers verstanden
werden können (falsch-negative Erwartungen). Das gleiche gilt im umgekehrten Fall, wenn
Fragen, von deren Beantwortbarkeit der Benutzer durch den Vergleich mit scheinbar ähnlichen
Fragen ausgeht, nicht beantwortet werden können (falsch-positive Erwartungen).
Durch die umfangreichen internen Transformationsschritte ergibt sich ein weiteres Risiko,
das sich auch als „Gefahr der stillen Post“ bezeichnen lässt: Bei jedem Transformationsschritt
wird eine kleine syntaktische oder semantische Ungenauigkeit in der eingegebenen Frage verstärkt, ohne dass dies für den Benutzer transparent wird. Erst am Ende der Transformationskette wird ein Ergebnis präsentiert, das jedoch von dem Ergebnis, das zur Ausgangsfragestellung
zu erwarten war, abweicht. Im einfacheren Fall ist diese Abweichung erkennbar, dann kann
der Benutzer entsprechende Maßnahmen zur Korrektur ergreifen. Im schlimmeren Fall nimmt
der Benutzer die Abweichung unbewusst hin und zieht falsche Schlüsse aus dem Ergebnis. Da
diese Effekte nur durch kontinuierlichen, expliziten Vergleich der Transformationsergebnisse
mit den Erwartungen des Benutzers behoben werden können, werden Feedback-Mechanismen
notwendig, die der Idee des Invisible Data Mining jedoch zuwider laufen.
Der QUESTUS-KDD-Ansatz unterstützt eine stärkere Integration der Kernprozesse des
CRISP-DM-Modells (Business Understanding, Modeling und Evaluation). Durch diese Konzentration auf die zentralen Schritte wird jedoch keine Prozessunterstützung im eigentlichen
Sinne geleistet. Zu prüfen ist deshalb auch, ob für die Komplexität der Analysen, die von den
Fachexperten in einer vorkonfigurierten Umgebung selbst durchgeführt werden sollen, eine
10.3 AUSBLICK
135
Konzentration auf die eigentliche Analysephase ausreichend ist, oder ob der Ansatz durch eine
weitergehende Prozessunterstützung zu erweitern ist.
Als ein grundsätzliches Problem bei der Entdeckung von Wissen in Datenbanken ist der
Grad der Fokussierung auf die Interessen des Benutzers anzusehen: Einerseits bewahrt die
Konzentration auf die Benutzerinteressen, die durch unseren Ansatz unterstützt wird und sich
in verschiedenen Einschränkungen des Suchraums manifestiert, vor großen Mengen von potentiell uninteressanten Ergebnissen. Andererseits besteht die Gefahr, dass durch eine zu fokussierte Suche wirklich interessante weil unerwartete Ergebnisse, die damit jedoch außerhalb
des spezifizierten Fokus liegen, nicht gefunden werden. Einen möglichen Ausweg aus diesem
Dilemma könnte das Zusammenspiel mit den von Müller in [Mül98] beschriebenen Methoden
zur Bewertung der Interessantheit von Data-Mining-Ergebnissen bieten.
10.3 Ausblick
Zum Abschluss dieser Arbeit wollen wir den Blick auf einige Arbeitsgebiete lenken, die im
Sinne einer Erweiterung unseres Ansatzes ein lohnendes Ziel darstellen könnten. Als erster
Ansatzpunkt kann der Umfang der Benutzerunterstützung von der syntaktischen auf die Überprüfung der semantischen Korrektheit bzw. Sinnhaftigkeit der Fragen ausgedehnt werden.
Durch eine weitergehende Beschreibung der Semantik von Belegungen für KDQL-Elemente,
z.B. von Frageargumenten kann erreicht werden, dass der Benutzer bei der Formulierung von
Fragen weiter unterstützt werden kann. Durch Kennzeichnung des Attributs Verweildauer als
Zeitintervall und des Attributs Aufnahmedatum als Zeitpunkt lässt sich beispielsweise sicherstellen, dass Attribute die in diesem Sinne nicht vom gleichen Typ sind, nicht gleiche Rollen
innerhalb einer Frage einnehmen können.
Aufgrund ihrer großen Bedeutung verdient auch die Erweiterung der Wissensbasis besondere Aufmerksamkeit. Da die Modellierung einer Domäne durch ihre jeweilige Dynamik nie
als abgeschlossen betrachtet werden können, werden Möglichkeiten benötigt, Erweiterungen
durch den Fachexperten in adäquater Weise selbst vornehmen zu lassen. Vor allem beim Auftreten von konzeptionellen Lücken z.B. bei der Formulierung einer Frage müssen die fehlenden Begriffe dem System auf der Basis von primitiven Konzepten und schon bekannten Begriffen „gelehrt“ werden. Die Optimierung und Erweiterung der Wissensbasis in Bezug auf
neue Analysemethoden und -algorithmen wird dagegen im Aufgabenbereich eines entsprechenden Datenanalysten bleiben. Dennoch kann auch hier über eine stärkere Unterstützung bei
der Formalisierung des entsprechenden Wissens nachgedacht werden. Die Erweiterung von
KDQL kann unter Einsatz der in Abschnitt 5.2 beschriebenen Knotentypen und einer Metabeschreibungssprache auf dieser Ebene in einem entsprechenden Editor unterstützt werden.
Ein weiteres zukünftiges Arbeitsgebiet kann die Erweiterung des Interaktionszyklus darstellen: Während der Fachexperte bislang selbst von der Ziel- über die Maßnahmen- auf die Fragenebene absteigen muss, um die Analysen zu spezifizieren, könnte die Benutzerunterstützung
künftig höher z.B. auf der Zielebene angesiedelt werden. Aus der Basis, der vom Benutzer formulierten Aufgaben, z.B. Senkung der mittleren Verweildauer der Patienten, ließen sich dann
vom System Fragen ableiten, z.B. Welchen Zusammenhang gibt es zwischen Therapien und
der Verweildauer?, die dann als Eingaben für den QUESTUS-KDD-Ansatz verwendet werden
können.
Portierungen des Ansatzes können in verschieden Dimensionen vorgenommen werden: Abgesehen von Domänenportierungen, die teilweise schon realisiert wurden, sind hier auch tiefer
greifende Schritte möglich. So wurde der QUESTUS-KDD-Ansatz zwar mit dem Fokus der
Benutzerunterstützung für das Data Mining entwickelt, könnte aber auch für andere Quellen
von Ergebnissen adaptierbar sein. Zum einen ist hier eine Integration des Zugriffs auf andere
136
KAPITEL 10. ZUSAMMENFASSUNG, DISKUSSION UND AUSBLICK
hochstrukturierte Datenquellen wie beispielsweise OLAP-Würfel denkbar. Zum anderen ließe
sich über die Formulierung von Fragen in einer KDQL-ähnlichen Sprache auf die Inhalte von
Hypertext-basierten Informationssystemen, wie sie am Bayerischen Forschungszentrum für
Wissensbasierte Systeme zum Zwecke der Wissenssicherung aufgebaut werden, zugreifen.
Die Erfahrungen, die wir bei der Analyse des Stands der Technik im Theoretischen als auch
bei der Durchführung von Data-Mining-Projekten im Praktischen gemacht haben, zeigen, dass
eine Benutzerunterstützung vor allem für Fachexperten als die eigentlichen Endkunden des
Data Mining dringend erforderlich aber bisher kaum realisiert ist. Dies ist sicherlich weniger
auf fehlendes Problembewusstsein als vielmehr auf die Komplexität der Aufgabe zurückzuführen. Dennoch vertreten wir die Auffassung, dass ohne adäquate Benutzerunterstützung die Zugangsschwellen zum Data Mining zu hoch bleiben werden. Nur durch konsequente Bemühungen in diese Richtung können die Technologie des Data Mining einer weiteren Verbreitung
und das in den vorhandenen Datenbeständen enthaltene Wissen einer tiefer greifenden Nutzung zugeführt werden.
ANHANG A EMPIRISCHE GRUNDLAGEN
A.1 Die Themenhierarchie im Bereich des medizinischen
Leistungscontrollings
Abbildung 43 stellt die Hierarchie der im Bereich des medizinischen Qualitätsmanagements
relevanten Themen strukturiert da. Die Codierung der einzelnen Themen ist Grundlage für die
Beschreibung der domänenspezifischen Frageobjekte in Abschnitt 5.2.1.2.2.
A.2 Der Fragekorpus
Die folgenden Fragen wurden aus verschiedenen Data-Mining-Studien von Fachexperten gesammelt und strukturiert. Sie dienen als Grundlage für die Konzeption der Knowledge Discovery Question Language (KDQL) in Kapitel 5.
A.2.1 Allgemeine Fragen
•
•
•
•
•
Welche Auffälligkeiten gibt es in <Kontext>?
Welche Auffälligkeiten gibt es im <Bereich>?
Welche Auffälligkeiten gibt es in <Gruppe>?
Was kann zu <Objekten> in Zusammenhang mit <Attribut> gesagt werden?
Was kann zu <Attribut1> von <Objekten> in Zusammenhang mit <Attribut2> gesagt
werden?
A.2.2 Fragen nach Einfluss
A.2.2.1 Geschlossene bzw. konfirmative bzw. hypothesentestende Fragen
•
•
•
•
Hat <Einflussfaktor> Einfluss auf <Ziele>?
Hat <Einflussfaktor> Einfluss auf <Ziele> im <Bereich>?
Hat <Einflussfaktor> positiven Einfluss auf <Ziele> im <Bereich>?
Hat <Einflussfaktor> negativen Einfluss auf <Ziele> im <Bereich>?
A.2.2.2 Deskriptive Fragen
• Welchen Einfluss hat <Einflussfaktor> auf <Ziele>?
• Welchen Einfluss hat <Einflussfaktor> auf <Ziele> im <Bereich>?
138
ANHANG A. EMPIRISCHE GRUNDLAGEN
1 Medizinisches Leistungscontrolling
1.1 Medizinisches Leistungscontrolling für Diagnostik
1.1.1 Adäquatheit der Diagnostik
1.1.1.1 Qualität der Diagnostik
1.1.1.1.1
Korrektheit der Diagnostik
1.1.1.1.2
Vollständigkeit der Diagnostik
1.1.1.1.3
Differenziertheit der Diagnostik
1.1.1.2 Belastung des Patienten bei der Diagnostik
1.1.1.3 Kosten der Diagnostik
1.1.2 Diagnose-Standards
1.2 Medizinisches Leistungscontrolling für Therapeutik
1.2.1 Adäquatheit der Therapeutik
1.2.1.1 Qualität der Therapeutik
1.2.1.1.1
Korrektheit der Therapeutik
1.2.1.1.2
Vollständigkeit der Therapeutik
1.2.1.1.3
Differenziertheit der Therapeutik
1.2.1.2 Belastung des Patienten bei der Therapeutik
1.2.1.3 Kosten der Therapeutik
1.2.2 Standards der Therapeutik
1.3 Medizinisches Leistungscontrolling für Verwaltung
1.3.1 Dokumentation
1.3.1.1 Medizinische Aspekte der Dokumentation
1.3.1.1.1
Medizinische Adäquatheit der Dokumentation
1.3.1.1.1.1
Medizinische Qualität der Dokumentation
1.3.1.1.1.1.1
Medizinische Korrektheit der Dokumentation
1.3.1.1.1.1.2
Medizinische Vollständigkeit der Dokumentation
1.3.1.1.1.1.3
Medizinische Differenziertheit der Dokumentation
1.3.1.1.1.2
Belastung des Patienten durch Dokumentation
1.3.1.1.1.3
Medizinische Kosten der Dokumentation
1.3.1.1.2
Medizinische Standards der Dokumentation
1.3.1.2 Technische Aspekte der Dokumentation
1.3.1.2.1
Technische Adäquatheit der Dokumentation
1.3.1.2.1.1
Technische Qualität der Dokumentation
1.3.1.2.1.1.1
Technische Korrektheit der Dokumentation
1.3.1.2.1.1.2
Technische Vollständigkeit der Dokumentation
1.3.1.2.1.1.3
Technische Differenziertheit der Dokumentation
1.3.1.2.1.2
Belastung des Patienten durch Dokumentation
1.3.1.2.1.3
Technische Kosten der Dokumentation
1.3.1.2.2
Technische Standards der Dokumentation
1.3.2 Planung
1.3.2.1 Adäquatheit der Planung
1.3.2.1.1
Qualität der Planung
1.3.2.1.1.1
Korrektheit der Planung (Planungssicherheit)
1.3.2.1.1.2
Vollständigkeit der Planung
1.3.2.1.1.3
Differenziertheit der Planung
1.3.2.1.2
Belastung des Patienten
1.3.2.1.3
Kosten der Planung
1.3.2.2 Planungsstandards
Abbildung 43: Die Themenhierarchie des Medizinischen Leistungscontrollings.
A.2.2.3 Offene explorative Fragen
• Welcher <Einflussfaktor> beeinflusst <Ziele> im <Bereich>?
• Welcher <Einflussfaktor> beeinflusst <Ziele> im <Bereich> positiv?
• Welcher <Einflussfaktor> beeinflusst <Ziele> im <Bereich> negativ?
A.2.3 Fragen nach Unterschied
A.2.3.1 Geschlossene bzw. konfirmative bzw. hypothesentestende Fragen
• Ist <Kennzahl> bei <Gruppe1> <Relation <=>> <Gruppe2>?
• Liegt <Kennzahl> in <Gruppe> über <Kennzahl> in Gesamtdaten?
A.2 DER FRAGEKORPUS
139
• Unterscheiden sich <Gruppe1> von <Gruppe2> bzgl. der Verteilung von <Kennzahl>?
A.2.3.2 DeskriptiveFragen
• Welche Patientengruppen weisen signifikante Unterschiede in der Verteilung von <Attribut> auf?
• Welche Patientengruppen nach <Attribut1> weisen signifikante Unterschiede in der Verteilung von <Attribut2> auf?
A.2.3.3 Offene explorative Fragen
• Wie unterscheiden sich <Gruppe1> von <Gruppe2>?
• Wie unterscheidet sich <Kennzahl> in <Gruppe> von <Kennzahl> in Gesamtdaten?
• Wie unterscheiden sich <Gruppe1> von <Gruppe2> bzgl. <Kennzahl>?
A.2.4 Fragen nach Veränderung
A.2.4.1 Geschlossene bzw. konfirmative bzw. hypothesentestende Fragen
• Hat sich <Kennzahl> verändert?
• Hat sich <Kennzahl> zwischen <Zeitpunkt1> und <Zeitpunkt2> verändert?
A.2.4.2 Deskriptive Fragen
•
•
•
•
Wie hat sich <Kennzahl> verändert?
Wie hat sich <Kennzahl> zwischen <Zeitpunkt1> und <Zeitpunkt2> verändert?
Wie hat sich <Kennzahl1> im Vergleich zu <Kennzahl2> entwickelt?
Wie hat sich <Kennzahl1> im Vergleich zu <Kennzahl2> zwischen <Zeitpunkt1> und
<Zeitpunkt2> entwickelt?
A.2.4.3 Offene explorative Fragen
• Welche <Kennzahl> hat sich verändert?
140
ANHANG A. EMPIRISCHE GRUNDLAGEN
ANHANG B MODELLIERUNG RELEVANTER OBJEKTE
B.1 Modellierung relevanter KDQL-Elemente
Im Folgenden beschreiben wir die wichtigsten KDQL-Elemente mit der in Tabelle 7 (im Abschnitt 5.2) dargestellten Form. Darüber hinaus stellen wir jeweils die Elemente im XMLSchema dar.
TypKonfirmativ
Elementname
TypKonfirmativ
Elementtyp
Funktionszuweisung
Elementfunktion
 ja, wenn F ≥ BinaerGrenzwert
Ausgabe = 
 nein, wenn F < B inaerGrenzwert
Elementvorgängertyp FrageWurzel
Elementnachfolgertyp FrageObjekt
Spezialisierungsebene allgemein
Weitere Attribute
-
Tabelle 29: Formale Beschreibung des Elements TypKonfirmativ.
<xs:element name="TypKonfirmativ">
<xs:annotation>
<xs:documentation>Funktionszuweisung</xs:documentation>
</xs:annotation>
<xs:complexType>
<xs:sequence>
<xs:element ref="FrageObjekt"/>
</xs:sequence>
<xs:attribute name="Elementtyp" use="required" fixed="Funktionszuweisung"/>
<xs:attribute name="Elementfunktion" use="required" fixed="BinaerGrenzwertabgleich"/>
</xs:complexType>
</xs:element>
Abbildung 44: Darstellung des Elements TypKonfirmativ im
XML-Schema.
142
ANHANG B. MODELLIERUNG RELEVANTER OBJEKTE
TypDeskriptiv
Elementname
TypDeskriptiv
Elementtyp
Funktionszuweisung
Elementfunktion
gestufte Entscheidungsfunktion anhand der
Kategorien aus Anhang D.3
Elementvorgängertyp FrageWurzel
Elementnachfolgertyp FrageObjekt
Spezialisierungsebene allgemein
Weitere Attribute
-
Tabelle 30: Formale Beschreibung des Elements TypDeskriptiv.
<xs:element name="TypDeskriptiv">
<xs:annotation>
<xs:documentation>Funktionszuweisung</xs:documentation>
</xs:annotation>
<xs:complexType>
<xs:sequence>
<xs:element ref="FrageObjekt"/>
</xs:sequence>
<xs:attribute name="Elementtyp" use="required" fixed="Funktionszuweisung"/>
<xs:attribute name="Elementfunktion" use="required" fixed="Beschreibungsfunktion"/>
</xs:complexType>
</xs:element>
Abbildung 45: Darstellung des Elements TypDeskriptiv im
XML-Schema.
TypKomplex
Elementname
TypKomplex
Elementtyp
Funktionszuweisung
1. Clusterbildung
2. binäre Entscheidungsfunktion wie bei
TypKonfirmativ
Elementfunktion
Elementvorgängertyp FrageWurzel
Elementnachfolgertyp *Fokus
Spezialisierungsebene allgemein
Weitere Attribute
-
Tabelle 31: Formale Beschreibung des Elements TypKomplex.
143
B.1 MODELLIERUNG RELEVANTER KDQL-ELEMENTE
<xs:element name="TypKomplex">
<xs:annotation>
<xs:documentation>Funktionszuweisung</xs:documentation>
</xs:annotation>
<xs:complexType>
<xs:choice>
<xs:element ref="LokalFokus"/>
<xs:element ref="PersonalFokus"/>
<xs:element ref="TemporalFokus"/>
<xs:element ref="ModalFokus"/>
</xs:choice>
<xs:attribute name="Elementtyp" use="required" fixed="Funktionszuweisung"/>
<xs:attribute name="Elementfunktion" use="required" fixed="Clusterfunktion"/>
</xs:complexType>
</xs:element>
Abbildung 46: Darstellung des Elements TypKomplex im XMLSchema.
TypOffen
Elementname
TypOffen
Elementtyp
*-Konzept:
TypKonfirmativ,
TypDeskriptiv,
TypKomplex
Elementvorgängertyp FrageWurzel
Elementnachfolgertyp
FrageObjekt
FrageObjektOffen
Spezialisierungsebene allgemein
Weitere Attribute
-
Tabelle 32: Formale Beschreibung des Elements TypOffen.
144
ANHANG B. MODELLIERUNG RELEVANTER OBJEKTE
<xs:element name="TypOffen">
<xs:annotation>
<xs:documentation>*-Konzept: Konfirmativ, Deskriptiv,Komplex</
xs:documentation>
</xs:annotation>
<xs:complexType>
<xs:choice>
<xs:element ref="FrageObjekt"/>
<xs:element ref="FrageObjektOffen"/>
</xs:choice>
<xs:attribute name="Elementtyp" use="required" fixed="*-Konzept"/>
<xs:attribute name="*-Nachfolger1" use="optional" fixed="TypKonfirmativ"/>
<xs:attribute name="*-Nachfolger2" use="optional" fixed="TypDeskriptiv"/>
<xs:attribute name="*-Nachfolger3" use="optional" fixed="TypKomplex"/>
</xs:complexType>
</xs:element>
Abbildung 47: Darstellung des Elements TypOffen im XMLSchema.
Frageobjekt
Elementname
FrageObjekt
Elementtyp
Rahmenkonzept
Elementvorgängertyp Fragetyp
Elementnachfolgertyp
ObjektStat
ObjektDomaene
Spezialisierungsebene allgemein
Weitere Attribute
-
Tabelle 33: Formale Beschreibung des Elements FrageObjekt.
<xs:element name="FrageObjekt">
<xs:annotation>
<xs:documentation>Rahmenkonzept</xs:documentation>
</xs:annotation>
<xs:complexType>
<xs:choice>
<xs:element ref="ObjektStat"/>
<xs:element ref="ObjektDomaene"/>
</xs:choice>
<xs:attribute name="Elementtyp" use="required" fixed="Rahmenkonzept"/>
</xs:complexType>
</xs:element>
Abbildung 48: Darstellung des Elements FrageObjekt im XMLSchema.
145
B.1 MODELLIERUNG RELEVANTER KDQL-ELEMENTE
Zusammenhang
Elementname
Zusammenhang
Elementtyp
Funktionszuweisung
Elementfunktion
Funktion wird über den ausgewählten Algorithmus realisiert
Elementvorgängertyp ObjektStat
ZusammenhangAllgemein,
Elementnachfolgertyp ZusammenhangGerichtet,
ZusammenhangRekursiv
Spezialisierungsebene allgemein
Weitere Attribute
-
Tabelle 34: Formale Beschreibung des Elements Zusammenhang.
<xs:element name="Zusammenhang">
<xs:annotation>
<xs:documentation>Funktionszuweisung</xs:documentation>
</xs:annotation>
<xs:complexType>
<xs:choice>
<xs:element ref="ZusammenhangArgumente"/>
<xs:element ref="ZusammenhangGerichtet"/>
<xs:element ref="ZusammenhangRekursiv"/>
</xs:choice>
<xs:attribute name="Elementtyp" use="required" fixed="Funktionszuweisung"/>
</xs:complexType>
</xs:element>
Abbildung 49: Darstellung des Elements Zusammenhang im
XML-Schema.
Unterschied
Elementname
Unterscheid
Elementtyp
Funktionszuweisung
Elementfunktion
Funktion wird über den ausgewählten Algorithmus realisiert
Elementvorgängertyp ObjektStat
UnterschiedAllgemein,
Elementnachfolgertyp UnterschiedSpezifisch,
UnterschiedRekursiv
Spezialisierungsebene allgemein
Weitere Attribute
-
Tabelle 35: Formale Beschreibung des Elements Unterschied.
146
ANHANG B. MODELLIERUNG RELEVANTER OBJEKTE
<xs:element name="Unterschied">
<xs:annotation>
<xs:documentation>Funktionszuweisung</xs:documentation>
</xs:annotation>
<xs:complexType>
<xs:sequence>
<xs:element ref="UnterschiedAllgemein"/>
<xs:element ref="UnterschiedSpezifisch"/>
<xs:element ref="UnterschiedRekursiv"/>
</xs:sequence>
<xs:attribute name="Elementtyp" use="required" fixed="Funktionszuweisung"/>
</xs:complexType>
</xs:element>
Abbildung 50: Darstellung des Elements Unterschied im XMLSchema.
Gemeinsamkeit
Elementname
Gemeinsamkeit
Elementtyp
Funktionszuweisung
Elementfunktion
Funktion wird über den ausgewählten Algorithmus realisiert
Elementvorgängertyp ObjektStat
GemeinsamkeitAllgemein,
Elementnachfolgertyp GemeinsamkeitSpezifisch,
GemeinsamkeitRekursiv
Spezialisierungsebene allgemein
Weitere Attribute
-
Tabelle 36: Formale Beschreibung des Elements Gemeinsamkeit.
<xs:element name="Gemeinsamkeit">
<xs:annotation>
<xs:documentation>Funktionszuweisung</xs:documentation>
</xs:annotation>
<xs:complexType>
<xs:sequence>
<xs:element ref="GemeinsamkeitAllgemein"/>
<xs:element ref="GemeinsamkeitSpezifisch"/>
<xs:element ref="GemeinsamkeitRekursiv"/>
</xs:sequence>
<xs:attribute name="Elementtyp" use="required" fixed="Funktionszuweisung"/>
</xs:complexType>
</xs:element>
Abbildung 51: Darstellung des Elements Gemeinsamkeit im
XML-Schema.
B.2 MODELLIERUNG RELEVANTER ALLGEMEINER OBJEKTE
147
Veränderung
Elementname
Veraenderung
Elementtyp
Funktionszuweisung
Elementfunktion
Funktion wird über den ausgewählten Algorithmus realisiert
Elementvorgängertyp ObjektStat
VeraenderungAllgemein,
Elementnachfolgertyp VeraenderungSpezifisch,
VeraenderungRekursiv
Spezialisierungsebene allgemein
Weitere Attribute
-
Tabelle 37: Formale Beschreibung des Elements Veraenderung.
<xs:element name="Veraenderung">
<xs:annotation>
<xs:documentation>Funktionszuweisung</xs:documentation>
</xs:annotation>
<xs:complexType>
<xs:sequence>
<xs:element ref="VeraenderungAllgemein"/>
<xs:element ref="VeraenderungSpezifisch"/>
<xs:element ref="VeraenderungRekursiv"/>
</xs:sequence>
<xs:attribute name="Elementtyp" use="required" fixed="Funktionszuweisung"/>
</xs:complexType>
</xs:element>
Abbildung 52: Darstellung des Elements Veraenderung im
XML-Schema.
B.2 Modellierung relevanter allgemeiner Objekte
Für die Verwendung im QUESTUS-KDD-Ansatz und vor allem für die Anwendung im Knowledge Discovery Assistant (KDA) modellieren wir die folgenden Objekte, die sich auf der KDEbene (KD-Fragen und KD-Antworten), der DM-Ebene (DM-Anfragen und DM-Ergebnisse)
sowie auf der DB-Ebene (Attribut, Attributwert, Fall, Attributgruppe, Attributwertgruppe und
Fallgruppe) des Ansatzes finden lassen.
148
ANHANG B. MODELLIERUNG RELEVANTER OBJEKTE
B.2.1 Attribut
Attribut1
Beschreibung
Wertebereich
Beispiel
AttributNR
eindeutiger Identifizierungs- und Referenzcode
natürliche Zahlen
007
AttributKurzBezeichnung
kurze, möglichst eindeutige Beschreibung
alphanumerisch
GESVD
AttributLangBezeichnung
ausführliche, möglichst
eindeutige Beschreibung
alphanumerisch
Verweildauer in Tagen
AttributDatenTyp
Beschreibung des
Datentyps
INT, FLOAT, STRING, unbekannt
INT
AttributSkalenTyp
Beschreibung des
Skalentyps
nominal, ordinal, metrisch,
unbekannt
nominal
AttributHerkunft
Herkunft des Attributs
System, Benutzer, Daten
Daten
Tabelle 38: Attribute des Objekttyps Attribut.
1. An dieser Stelle muss zwischen dem Objekttyp Attribut und den Attributen des Objekts, also seinen Eigenschaften, unterschieden werden.
B.2.2 Attributwert
Attribut
Beschreibung
Wertebereich
Beispiel
AttributwertNR
eindeutiger Identifizierungs- und Referenzcode
natürliche Zahlen
008
AttributwertKurzBezeichnung
kurze, möglichst eindeutige Beschreibung
alphanumerisch
5
AttributwertLangBezeichnung
ausführliche, möglichst
eindeutige Beschreibung
alphanumerisch
5 Tage
AttributNR
Referenz auf das
zugehörige Attribut
natürliche Zahlen
007
Tabelle 39: Attribute des Objekttyps Attributwert.
B.2.3 Fall
Attribut
Beschreibung
Wertebereich
Beispiel
FallNR
eindeutiger Identifizierungs- und Referenzcode
natürliche Zahlen
009
alphanumerisch
3 16 89 46 35 23
Liste von
Attributwerten
Tabelle 40: Attribute des Objekttyps Fall.
149
B.2 MODELLIERUNG RELEVANTER ALLGEMEINER OBJEKTE
B.2.4 Attributgruppe
Attribut
Beschreibung
Wertebereich
Beispiel
AttributgruppenNR
eindeutiger Identifizierungsund Referenzcode
natürliche Zahlen
010
AttributgruppenKurzBezeichnung
kurze, möglichst eindeutige
Beschreibung
alphanumerisch
Pers_Dat
AttributgruppenLangBezeichnung
ausführliche, möglichst eindeutige Beschreibung
alphanumerisch
Persönliche Daten
Tabelle 41: Attribute des Objekttyps Attributgruppe.
B.2.5 Attributwertgruppe
Attribut
Beschreibung
Wertebereich
Beispiel
AttributwertgruppenNR
eindeutiger Identifizierungs- und Referenzcode
natürliche Zahlen
011
AttributwertgruppenKurzBezeichnung
kurze, möglichst eindeutige Beschreibung
alphanumerisch
kurz
AttributwertgruppenLangBezeichnung
ausführliche, möglichst
eindeutige Beschreibung
alphanumerisch
kurze Verweildauer
AttributNR
eindeutiger Identifizierungs- und Referenzcode
natürliche Zahlen
007
AttributwertgruppenWertebereich
Ausschnitt aus dem Wertebereich des Attributs,
den die Attributgruppe
einnimmt.
abhängig vom AttributDatenTyp
<7
Tabelle 42: Attribute des Objekttyps Attributwertgruppe.
150
ANHANG B. MODELLIERUNG RELEVANTER OBJEKTE
B.2.6 Fallgruppe
Attribut
Beschreibung
Wertebereich
Beispiel
FallgruppenNR
eindeutiger Identifizierungs- und Referenzcode
natürliche Zahlen
012
FallgruppenKurzBezeichnung
kurze, möglichst eindeutige Beschreibung
alphanumerisch
Risk_pat
FallgruppenLangBezeichnung
ausführliche, möglichst
eindeutige Beschreibung
alphanumerisch
Gruppe der Risikopatienten
FallgruppenMenge
explizite oder implizite
Definition der zur Fallgruppe gehörigen Fälle
explizit: Aufzählung von Fällen Raucher=ja und Alter>55
implizit: Attribut-Attributwertpaare
Tabelle 43: Attribute des Objekttyps Fallgruppe.
B.2.7 DM-Anfrage
Attribut
Beschreibung
Wertebereich
Beispiel
DMAnfrageNR
eindeutiger Identifizierungs- und Referenzcode
natürliche Zahlen
013
KDFrageNR
Referenz auf die zugehörige KD-Frage
natürliche Zahlen
015
Regel, Signifikanzniveau, Korrelationskoeffizient
Apriori_2a
DMAnfrage- gewählte Konfiguration
Algorithmus- des Analysealgorithmus
Konfiguration
DMAnfrageAlgorithmus
Argumente-
Argumente für die VerAttribute
wendung durch den Algorithmus
Alter, Verweildauer
DMAnfrageDaten
Daten als Basis für die
Anfrage
Projektions- und Selektionsmerkmale
Klinik=2002
DMAnfrageParameter
globale Parameter für die
Mikorparametrisierung
des Algorithmus
abhängig vom Algorithmus
MinSupport=0.02
Tabelle 44: Attribute des Objekttyps DM-Anfrage.
151
B.2 MODELLIERUNG RELEVANTER ALLGEMEINER OBJEKTE
B.2.8 DM-Ergebnis
Attribut
Beschreibung
Wertebereich
Beispiel
DMErgebnis
NR
eindeutiger Identifizierungs- und Referenzcode
natürliche Zahlen
014
DMErgebnis
Typ
Aussagetyp
Regel, Signifikanzniveau, Korrelationskoeffizient
Apriori_2a
DMErgebnisSortierung
Sortierkriterium
[x], [|x|/|y|], ...
[x]
DMErgebnisTabelle
Tabelle der Ergebnisse
natürliche Zahlen
DMAnfrageNR
Referenz auf die DMAnfrage
Menge der DMAnfrageNRn
Tabelle 45: Attribute des Objekttyps DM-Ergebnis.
B.2.9 KD-Frage
Attribut
Beschreibung
Wertebereich
Beispiel
FrageNR
eindeutiger Identifizierungs- und Referenzcode
natürliche Zahlen
015
OberFrageNRn
Menge der Vorgänger
Menge der FrageNRn
UnterFrageNRn
Menge der Nachfolger
Menge der FrageNRn
FrageTyp
Typ der Frage
konfirmativ, deskriptiv, komplex
FrageObjekt
Frageobjekt
Zusammenhang, Unterschied,
Zusammenhang
..., domänenspezifische Objekte
FrageArgumente
Einflussfaktoren der
Frage
Attribute, Attributgruppen
Fälle, Fallgruppen
Alter (Eigenschaft),
Verweildauer (Eigenschaft)
FrageGruppe
Fragegruppe
Attribut
Hauptdiagnose
FrageKontext
Beschreibung des Kontexts in Form von FallgruppenNRn
Menge der FallgruppenNRn
012
FrageText
Natürlichsprachliche
Formulierung
alphanumerisch
Gibt es einen Zusammenhang
zwischen Verweildauer und
Alter?
konfirmativ
Tabelle 46: Attribute des Objekttyps KD-Frage.
152
ANHANG B. MODELLIERUNG RELEVANTER OBJEKTE
B.2.10 KD-Antwort
Attribut
Beschreibung
Wertebereich
Beispiel
AntwortNR
eindeutiger Identifizierungs- und Referenzcode
natürliche Zahlen
016
OberAntwort
NRn
Liste der Vorgänger
Menge der AntwortNRn
UnterAntwort Liste der Nachfolger
NRn
Menge der AntwortNRn
AntwortObjektBeschreibung
Beschreibung der Aussage
gering, mittel, stark, signifikant, stark, positiv
positiv, negativ, ...
AntwortObjekt
Objekt aus der Frage
Zusammenhang, Unterschied,
Zusammenhang
..., domänenspezifische Objekte
AntwortArgumente
Einflussfaktoren der
Frage
Attribute, Attributgruppen
Fälle, Fallgruppen
Alter (Eigenschaft),
Verweildauer (Eigenschaft)
AntwortGruppe
Antwortgruppe
Attribut
Hauptdiagnose
AntwortKontext
Beschreibung des Kontexts in Form von FallgruppenNRn
Menge der FallgruppenNRn
012
AntwortText
Natürlichsprachliche For- alphanumerisch
mulierung
Es gibt einen starken, positiven
Zusammenhang zwischen Verweildauer und Alter
Tabelle 47: Attribute des Objekttyps KD-Antwort.
ANHANG C ALLGEMEINE MODELLIERUNG DER WISSENSBASIS
Die Modularisierung der Wissensbasis erfolgte in der ersten Dimension bezüglich des Grades
der Spezialisierung des Wissens. Dabei unterscheiden wir zwischen:
• Allgemeinem Wissen,
• Domänenspezifischem Wissen und
• Unternehmens- bzw. anwenderspezifischem Wissen.
In der zweiten Dimension wurden die modellierten Objekte für die Modularisierung verwendet:
• Begriffswissen: Wissen über Begriffe und Gruppenbildungen.
• Methoden- und Algorithmenwissen: Wissen, das benötigt wird, um Fragen auf DataMining-Anfragen abzubilden.
• Fragewissen: Wissen über die Formulierung von Fragen durch Endbenutzer.
• Antwortwissen: Wissen über die Formulierung von Antworten auf die Fragen der Endbenutzer.
• Interessantheitswissen: Wissen über die Messung einzelner Facetten der Interessantheit
(siehe [Mül98]).
• Expertenwissen: Wissen, das bei den Experten bereits a priori vorhanden ist.
• Datenwissen: Wissen über Charakteristika der zu analysierenden Daten.
• Work-Flow-Wissen: Wissen über den Analyseprozess.
• Algorithmenimplementierungswissen: Wissen, das benötigt wird, um DM-Anfragen
auf DM-System-Anfragen abzubilden.
• Antwortwissen: Wissen, das benötigt wird, um DM-Anfragen in KD-Antworten zu
transformieren.
154
ANHANG C. ALLGEMEINE MODELLIERUNG DER WISSENSBASIS
Tabelle 48 beschreibt die wichtigsten Objekte der Wissensbasis und ordnet sie mit Hilfe der
beiden Modularisierungsdimensionen ein.
Allgemein
Begriffe
Unternehmensspezifisch
•
Postleitzahlen
•
Diagnosen
•
•
Orte
•
•
Nationen
Medizinische Leistungen
Abteilungsfunktionscodes
•
Krankenanstalten
•
Funktionsleistungen
•
Kostensträger
•
Aufnahmeart
•
Aufnahmetyp
•
Entlassungsart
•
Präferenzen von Methoden
•
Kalender
Gruppenbildungen:
Methoden und
Algorithmen
Domänenspezifisch
•
PLZ – Ort – Bezirk –
Bundesland
•
Nation – Nationengruppe
•
Datum – Wochentag,
Feiertag
•
Datum – Zeitintervall
(Urlaubszeit, ...)
Gruppenbildungen:
•
Alter – Altersgruppe
•
Diagnose – Diagnosekategorie
•
Medizinische Einzelleistung – Gruppierung
nach Unterorganen –
Gruppierung nach Organen – Gruppierung
nach Art (therapeutisch, diagnostisch),
Gruppierung nach OP
(operativ vs. nicht operativ)
•
Funktionsleistungen –
FL-Unterkapitel – FLKapitel – FL-Hauptkapitel
•
Methoden (Assoziationsregeln, Entscheidungsbäume, ...)
•
Methoden (Episodenanalyse, Standardbereiche, ...)
•
Algorithmen (C4.5, ...)
•
•
Anwendbarkeitsbedingungen, Ergebniseigenschaften
Anwendbarkeitsbedingungen, Ergebniseigenschaften
•
Benötigte Vorverarbeitungsschritte
Benötigte Vorverarbeitungsschritte
•
•
Parametrisierung von
Methoden
Parametrisierung von
Methoden
•
•
Hinweise zur Ergebnisinterpretation (statistische Fallen, Signifikanzniveaus, Scheinkorrelationen)
Hinweise zur Ergebnisinterpretation (statistische Fallen, Signifikanzniveaus, Scheinkorrelationen)
•
Erweiterung von
DMQL für domänenspezifische Methoden
•
•
Syntax von DMAQL
(Data Mining Query
Language)
Tabelle 48: Modularisierung des Wissens.
155
Fragen
Interessantheit
Expertenwissen
Datenwissen
Frageobjekte (Zusammenhang, Unterschied,
Gemeinsamkeit, Veränderung)
Frageobjekte, d.h. Domänenobjekte (Komplikationen, Dokumentationsqualität, Standards)
•
Verfeinerung von Fragen (Konzepthierarchien)
Verfeinerung domänenspezifischer Frageobjekte
•
Standardfragen
KDQL Syntax
•
Fragetypen
•
•
Antworten
•
•
•
Standardfragen
•
KDAL Syntax
•
Antwortobjekte
•
Abstraktion von Antworten (Konzepthierarchien)
•
Abstraktion domänenspezifischer Antwortobjekte
•
Validität
•
Validität
•
Neuheit
•
Neuheit
•
Nützlichkeit
•
Nützlichkeit
•
Verständlichkeit
•
Verständlichkeit
•
Filterung und Sortierung von Data-MiningErgebnissen auf der
Basis der Facettenbewertungen
•
Filterung und Sortierung von Data-MiningErgebnissen auf der
Basis der Facettenbewertungen
•
Trivialitäten
•
Trivialitäten
•
Standardattribute
(Wohnort, Alter)
•
Standardeigenschaften
der Attribute (Datentyp, Skalentyp, ...)
•
Gruppierung von Wertebereichen (Quantilsbildung, ...)
•
Standardattribute
(Hauptdiagnose, Verweildauer)
•
Standardeigenschaften
der Attribute (Datentyp, Skalentyp, ...)
Tabelle 48: Modularisierung des Wissens.
•
Standardfragen
•
Hypothesen über Komplikationen
•
Hypothesen über Dokumentationsqualität
•
Hypothesen über Standards
•
Regeln für die Abbildung der Attribute auf
die Standardattribute
156
ANHANG C. ALLGEMEINE MODELLIERUNG DER WISSENSBASIS
Work-Flow
Algorithmenimplementierungen
•
lokale Strategien des
Vorgehens (erst Assoziationsregeln mit restriktiven Konfidenzwerten dann Aufweichung)
•
globale Strategien des
Vorgehens (univariate
vor bivariaten vor multivariaten Analysen).
Modular strukturiert nach Toolbox:
•
Methodenspektrum der Toolbox
•
Aufrufsyntax
•
Übersetzung von DMAQL in die methodenspezifischen DM-System-Anfragen
•
Ergebnissyntax
•
Übersetzung der methodenspezifischen Ergebnisrepräsentation
Tabelle 48: Modularisierung des Wissens.
Abbildung 53 stellt stellvertretend für die anderen Module die Modellierung der Datenbank
für die Verwaltung des allgemeinen Wissens über Data-Mining-Methoden und -Algorithmen
dar.
AM_KriterienKlassen
PK
KriterienKlasse
Erklaerung
AM_MethodenKriterien
PK
KriterienName
FK1,I1
AM_MethodenKriterienWerte
PK,FK1
KriterienName
KrtierienWert
KriterienKlasse
Erklaerung
OrdnungsNR
Hart?
Bewertung
AM_MethodenKlassen
PK
AM_Algorithmen
MethodenKlasse
Erklaerung
AM_Methoden
PK
MethodenName
I1
FK1,I2
OrdnungsNR
MethodenKlasse
Disziplin
AnzAbhAtt
AnzUnabhAtt
SkalaAbhAtt
SkalaUnabhAtt
VolumenDaten
DynamikDaten
QualitaetDaten
Parametrisch?
SuchStrategie
Konstruktivitaet
Genauigkeit
Explizitheit
Antwortzeit
Autonomie
Aufgabe
AnalyseStadium
AM_AlgorithmenArgumente
PK
AlgorithmenName
PK
FK1,I1
ToolboxName
MethodenName
Erklaerung
FK1,I1
AM_AlgoKonfigurationen
PK
KonfigurationenName
FK1,I1
FK2,I2
AlgorithmenName
MethodenKonfigurationenName
Erklaerung
AM_MethKonfigurationen
PK
KonfigurationenName
FK1,I1
MethodenName
Erklaerung
ArgumentName
ArgumentDefaultWert
AlgorithmenName
Optional?
Hart?
Priorität
AM_AlgoKonfigArgumente
PK,FK1,I1
PK
KonfigurationenName
ArgumentPosition
SkalenTyp
Erklaerung
AM_MethKonfigArgumente
PK,FK1,I1
PK
Abbildung 53: Die Datenbankstruktur für die Modellierung des Wissens
über Data-Mining-Methoden und -Algorithmen.
KonfigurationenName
ArgumentPosition
Rolle
Erklaerung
ANHANG D MODELLIERUNG VON WISSEN ÜBER
ANALYSEMETHODEN
D.1 Modellierung der Analysemethoden
Die folgenden Tabellen 49 bis 51 enthalten Beschreibung der Analysemethoden mit den in Abschnitt 7.1.2 aufgestellten Kriterien.
Name
Ordnung
Methodenklasse
Disziplin
Anzahl
abhängiger
Attribute
Anzahl
unabhängiger
Attribute
Visuelle Faktorenanalyse
10
Faktorenanalyse
Visualisierung
0
viele
Feature Subset
Selection
20
Faktorenanalyse
Maschinelles
Lernen
0
viele
Statistische
Faktorenanalyse
30
Faktorenanalyse
Statistik
0
viele
Neuronale
Netze für Faktorenanalyse
40
Faktorenanalyse
Soft Computing
0
viele
Visuelle Clusteranalyse
50
Clusteranalyse
Visualisierung
0
viele
Concept Formation
60
Clusteranalyse
Maschinelles
Lernen
0
viele
Statistische
Clusteranalyse
70
Clusteranalyse
Statistik
0
viele
Kohonen Netze
80
Clusteranalyse
Soft Computing
0
viele
Visuelle Diskriminantenanalyse
90
Diskriminantenanalyse
Visualisierung
viele
viele
Suche nach
Unterschieden
100
Diskriminantenanalyse
Maschinelles
Lernen
viele
viele
Tabelle 49: Übersicht über die Modellierung der Analysemethoden
(Teil A).
158
ANHANG D. MODELLIERUNG VON WISSEN ÜBER ANALYSEMETHODEN
Statistische
Unterschiedstests
110
Diskriminantenanalyse
Statistik
viele
viele
Neuronale
Netze für Diskriminantenanalyse
120
Diskriminantenanalyse
Soft Computing
viele
viele
Visuelle Interdependenzanalyse
130
Interdependenzanalyse
Visualisierung
0
viele
Assoziationsregeln
140
Interdependenzanalyse
Maschinelles
Lernen
0
viele
Korrelationsanalyse
150
Interdependenzanalyse
Statistik
0
viele
Neuronale
Netze für Interdependenzanalyse
160
Interdependenzanalyse
Soft Computing
0
viele
Visuelle
Dependenzanalyse
170
Dependenzanalyse
Visualisierung
viele
viele
Regelinduktion
180
Dependenzanalyse
Maschinelles
Lernen
viele
viele
Statistische
Abhängigkeitstests
190
Dependenzanalyse
Statistik
viele
viele
Fuzzy Regelinduktion
200
Dependenzanalyse
Soft Computing
viele
viele
Visuelle
Dependency
Modeling
210
Dependenzanalyse
Visualisierung
1
viele
Entscheidungsbauminduktion
220
Dependency
Modeling
Maschinelles
Lernen
1
viele
Regressionsanalyse
230
Dependency
Modeling
Statistik
1
viele
Tabelle 49: Übersicht über die Modellierung der Analysemethoden
(Teil A).
159
D.1 MODELLIERUNG DER ANALYSEMETHODEN
Klassifizierende Neuronale Netze
240
Dependency
Modeling
Soft Computing
1
viele
Visuelle Prädiktion
250
Prädiktion
Visualisierung
1
1
Episodenanalyse
260
Prädiktion
Maschinelles
Lernen
1
1
Statistische
Trendanalyse
270
Prädiktion
Statistik
1
1
Prädiktive
Neuronale
Netze
280
Prädiktion
Soft Computing
1
1
Tabelle 49: Übersicht über die Modellierung der Analysemethoden
(Teil A).
Skalentyp
abhängiger
Attribute
Skalentyp
unabhängig
er Attribute
Datenvolumen
Datendynamik
Datenqualität
Suchstrategie
Visuelle Faktorenanalyse
metrisch
metrisch
gering
hoch
gering
datengetrieben
Feature Subset
Selection
nominal
nominal
gering
mittel
mittel
hypothesengetrieben
Statistische
Faktorenanalyse
metrisch
metrisch
mittel
gering
hoch
datengetrieben
Neuronale
Netze für Faktorenanalyse
metrisch
metrisch
mittel
gering
gering
datengetrieben
Visuelle Clusteranalyse
metrisch
metrisch
gering
hoch
gering
datengetrieben
Concept Formation
nominal
nominal
gering
hoch
mittel
hypothesengetrieben
Statistische
Clusteranalyse
metrisch
metrisch
mittel
gering
hoch
datengetrieben
Kohonen Netze
metrisch
metrisch
mittel
gering
gering
datengetrieben
Visuelle Diskriminantenanalyse
metrisch
metrisch
gering
hoch
gering
datengetrieben
Suche nach
Unterschieden
nominal
nominal
gering
mittel
mittel
hypothesengetrieben
Name
Tabelle 50: Übersicht über die Modellierung der Analysemethoden
(Teil B).
160
ANHANG D. MODELLIERUNG VON WISSEN ÜBER ANALYSEMETHODEN
Statistische
Unterschiedstests
metrisch
metrisch
mittel
gering
hoch
datengetrieben
Neuronale
Netze für Diskriminantenanalyse
metrisch
metrisch
mittel
gering
gering
datengetrieben
Visuelle Interdependenzanalyse
metrisch
metrisch
gering
hoch
gering
datengetrieben
Assoziationsregeln
nominal
nominal
gering
mittel
mittel
hypothesengetrieben
Korrelationsanalyse
metrisch
metrisch
mittel
gering
hoch
datengetrieben
Neuronale
Netze für Interdependenzanalyse
metrisch
metrisch
mittel
gering
gering
datengetrieben
Visuelle
Dependenzanalyse
metrisch
metrisch
gering
hoch
gering
datengetrieben
Regelinduktion
nominal
nominal
gering
mittel
mittel
hypothesengetrieben
Statistische
Abhängigkeitstests
metrisch
metrisch
mittel
gering
hoch
datengetrieben
Fuzzy Regelinduktion
metrisch
metrisch
mittel
gering
gering
datengetrieben
Visuelle
Dependency
Modeling
metrisch
metrisch
gering
hoch
gering
datengetrieben
Entscheidungsbauminduktion
nominal
nominal
gering
mittel
mittel
hypothesengetrieben
Regressionsanalyse
metrisch
metrisch
mittel
gering
hoch
datengetrieben
Tabelle 50: Übersicht über die Modellierung der Analysemethoden
(Teil B).
161
D.1 MODELLIERUNG DER ANALYSEMETHODEN
Klassifizierende Neuronale Netze
metrisch
metrisch
mittel
gering
gering
datengetrieben
Visuelle Prädiktion
metrisch
metrisch
gering
hoch
gering
datengetrieben
Episodenanalyse
nominal
nominal
gering
mittel
mittel
hypothesengetrieben
Statistische
Trendanalyse
metrisch
metrisch
mittel
gering
hoch
datengetrieben
Prädiktive
Neuronale
Netze
metrisch
metrisch
mittel
gering
gering
datengetrieben
Tabelle 50: Übersicht über die Modellierung der Analysemethoden
(Teil B).
Konstruktivität
Genauigkeit
Explizitheit
Antwortzeit
Autonomie
Analysephase
Visuelle Faktorenanalyse
selektiv
hoch
gering
kurz
hoch
1
Feature Subset
Selection
konstruktiv
gering
hoch
mittel
hoch
1
Statistische
Faktorenanalyse
konstruktiv
mittel
mittel
kurz
mittel
1
Neuronale
Netze für Faktorenanalyse
konstruktiv
hoch
gering
lang
gering
1
Visuelle Clusteranalyse
selektiv
hoch
gering
kurz
hoch
2
Concept Formation
konstruktiv
gering
hoch
mittel
hoch
2
Statistische
Clusteranalyse
konstruktiv
mittel
mittel
kurz
mittel
2
Kohonen Netze
konstruktiv
hoch
gering
lang
gering
2
Visuelle Diskriminantenanalyse
selektiv
hoch
gering
kurz
hoch
3
Suche nach
Unterschieden
selektiv
gering
hoch
mittel
hoch
3
Statistische
Unterschiedstests
selektiv
mittel
mittel
kurz
mittel
3
Name
Tabelle 51: Übersicht über die Modellierung der Analysemethoden
(Teil C).
162
ANHANG D. MODELLIERUNG VON WISSEN ÜBER ANALYSEMETHODEN
Neuronale
Netze für Diskriminantenanalyse
selektiv
hoch
gering
lang
gering
3
Visuelle Interdependenzanalyse
selektiv
hoch
gering
kurz
hoch
4
Assoziationsregeln
selektiv
gering
hoch
mittel
hoch
4
Korrelationsanalyse
selektiv
mittel
mittel
kurz
mittel
4
Neuronale
Netze für Interdependenzanalyse
selektiv
hoch
gering
lang
gering
4
Visuelle
Dependenzanalyse
selektiv
hoch
gering
kurz
hoch
5
Regelinduktion
selektiv
gering
hoch
mittel
hoch
5
Statistische
Abhängigkeitstests
selektiv
mittel
mittel
kurz
mittel
5
Fuzzy Regelinduktion
selektiv
hoch
gering
lang
gering
5
Visuelle
Dependency
Modeling
selektiv
hoch
gering
kurz
hoch
6
Entscheidungsbauminduktion
selektiv
gering
hoch
mittel
hoch
6
Regressionsanalyse
selektiv
mittel
mittel
kurz
mittel
6
Klassifizierende Neuronale Netze
selektiv
hoch
gering
lang
gering
6
Visuelle Prädiktion
selektiv
hoch
gering
kurz
hoch
7
Episodenanalyse
selektiv
gering
hoch
mittel
hoch
7
Statistische
Trendanalyse
selektiv
mittel
mittel
kurz
mittel
7
Prädiktive
Neuronale
Netze
selektiv
hoch
gering
lang
gering
7
Tabelle 51: Übersicht über die Modellierung der Analysemethoden
(Teil C).
163
D.2 ZUORDNUNG VON ANALYSEMETHODEN ZU FRAGEOBJEKTEN UND FRAGEARGUMENTEN
D.2 Zuordnung von Analysemethoden zu Frageobjekten und
Frageargumenten
Tabelle 52 gibt als Ausschnitt aus den Tabellen 49 bis 51 eine Übersicht über mögliche Analysemethoden aus den Bereichen Statistik, Data Mining und Soft Computing, beschreibt ihre Anforderungen an den Skalentyp der Attribute sowie die Möglichkeiten zur Beschreibung ihrer
Ergebnisse.
Beschreibung
Einfachtest
Methode
Frageobjekt
Disziplin
Skalentyp
Pearson’s r
(ProduktMoment-Korrelationskoeffizient)
(linearer)
Zusammenhang
Statistik
metrisch
Stärke,
Richtung
Rangkorrelation
(linearer)
Zusammenhang
Statistik
ordinal1
Stärke,
Richtung
KontingenzKoeffizient2
(linearer)
Zusammenhang
Statistik
nominal
Stärke
Assoziationsregeln
Zusammenhang
Maschinelles
Lernen
ordinal,
nominal
Support,
Konfidenz
Wenn-DannRegeln
(gerichteter)
Zusammenhang
Maschinelles
Lernen
ordinal,
nominal
Support,
Konfidenz
Neuronale
Netze
Zusammenhang
Soft Computing
metrisch
t-Test3
Unterschied
Statistik
metrisch
Signifikanzniveau
U-Test
Mann-Whitney
Unterschied
Statistik
ordinal
Signifikanzniveau
Chi²-Test
Unterschied
Statistik
nominal
Signifikanzniveau
Diskriminierende Regeln
Unterschied
Maschinelles
Lernen
ordinal,
nominal
Support,
Konfidenz
Diskriminanzanalyse
Unterschied
Statistik
metrisch
Trennungsgüte
t-Test
Gemeinsamkeit
Statistik
metrisch
Signifikanzniveau,
U-Test
Mann-Whitney
Gemeinsamkeit
Statistik
ordinal
Signifikanzniveau
Tabelle 52: Übersicht über einige Methoden für die Operationalisierung
der allgemeinen Frageobjekte.
Beschreibung
Mehrfachtest
(Richtung)
(Richtung)
164
ANHANG D. MODELLIERUNG VON WISSEN ÜBER ANALYSEMETHODEN
Chi²-Test
Gemeinsamkeit
Statistik
nominal
Signifikanzniveau
Charakterisierende Regeln
Gemeinsamkeit
Maschinelles
Lernen
ordinal,
nominal
Support,
Konfidenz
Folge von
gleichgerichteten Unterschieden auf
zeitlichen Attributen: t-Test
Veränderung
Statistik
metrisch
Signifikanzniveau
(Richtung)
Folge von
gleichgerichteten Unterschieden auf
zeitlichen Attributen: U-Test
Veränderung
Statistik
metrisch
Signifikanzniveau,
(Richtung)
Folge von
gleichgerichteten Unterschieden auf
zeitlichen Attributen: Chi²Test
Veränderung
Statistik
metrisch
Signifikanzniveau,
(Richtung)
Zeitreihenanalyse
Veränderung
Statistik
metrisch
Richtung,
Übereinstimmung
Trendanalyse
Veränderung
Data Mining
metrisch
Übereinstimmung
Tabelle 52: Übersicht über einige Methoden für die Operationalisierung
der allgemeinen Frageobjekte.
1. Bei einer ordinalen und einer metrischen Variablen könnte ein spezieller Test angewendet werden. Aus
Gründen der Übersichtlichkeit wird an dieser Stelle aber darauf verzichtet und die Rangkorrelation als
ausreichend angenommen.
2. Nur positiv definiert; nähert sich bei maximaler Abhängigkeit nur 1 an, wenn die Anzahl der Felder
gegen unendlich geht.
3. Für unabhängige Stichproben und genau 2 Populationen, die zu vergleichen sind.
D.3 VERSPRACHLICHUNG VON BESCHREIBUNGSMAßEN
165
D.3 Versprachlichung von Beschreibungsmaßen
Wahrheitswerte
Wahrheitswerte sind von der Übersetzung etwas schwierig zu handhaben, insbesondere weil
die diskrete Interpretation von (absolut) wahr und falsch hinzukommt. Irrtumswahrscheinlichkeiten von <1% können bei Antworten auf gewöhnliche Fragestellungen von wahr bzw. falsch
toleriert werden können. Genauere Anforderungen bei bestimmten Anwendungen sind denkbar.
Wahrheitswert
Übersetzung
0,00 - 0,011
falsch
0,01 - 0,10
sehr unwahrscheinlich
0,10 - 0,30
unwahrscheinlich
0,30 - 0,50
wenig wahrscheinlich
0,50 - 0,70
wahrscheinlich
0,70 – 0,90
sehr wahrscheinlich
0,90 - 0,99
außerordentlich wahrscheinlich
0,99 - 1,00
wahr
Tabelle 53: Sprachliche Ausdrücke für Wahrheitswerte (nach [Käp02]).
1. Zur Vereinfachung der Tabellen wird
außer Acht gelassen, dass sich die infinitesimale Grenze bei reellen Zahlen überschneidet, d.h. es können Intervalle [0;0.5]
sowie [0.5;1] innerhalb der gleichen
Tabelle auftreten. Da die Wahrscheinlichkeit, die Intervallgrenze zu treffen gleich
Null ist, ist diese Problematik eher von
theoretischem Interesse und wird hier
ignoriert. Tatsächlich wird der Grenzwert
bei der Implementierung zu einem angrenzenden Intervall beliebig hinzugenommen.
166
ANHANG D. MODELLIERUNG VON WISSEN ÜBER ANALYSEMETHODEN
Interessantheit
Einige Aspekte der Interessantheit werden im KDA durch Fließkommawerte im Intervall [0;1]
repräsentiert. Tabelle 54 zeigt eine Übersetzung der Interessantheitswerte in sprachliche Ausdrücke.
Interessantheit
Übersetzung
0,00 - 0,10
uninteressant
0,10 - 0,30
wenig interessant
0,30 - 0,50
interessant
0,50 - 0,85
sehr interessant
0,85 - 1,00
außerordentlich interessant
Tabelle 54: Sprachliche Ausdrücke für Interessantheitswerte (nach
[Käp02]).
Häufigkeitswerte
Häufigkeitswerte befinden sich im gleichen Intervall wie Wahrheitswerte, jedoch ist die Interpretation zeitlicher Art. Je nach Fragestellung muss diese Ausdrucksweise in der entsprechenden Antwort berücksichtigt werden. Tabelle 55 zeigt die Übersetzung von Häufigkeitswerten
in sprachliche Ausdrücke.
Häufigkeit
Übersetzung
0,00 - 0,10
sehr selten
0,10 - 0,30
selten
0,30 - 0,50
häufig
0,50 - 0,85
sehr häufig
0,85 - 1,00
außerordentlich häufig
Tabelle 55: Sprachliche Ausdrücke für Häufigkeitswerte (nach [Käp02]).
Korrelationsmaße
Korrelationsmaße sind wieder ähnlich zu Wahrheitswerten, jedoch beträgt das gültige Intervall
der Werte hier [-1;1]. Die Interpretation erfolgt als Zusammenhang, der die Eigenschaften
Stärke und Richtung besitzt. Wie in Abschnitt 6.2.2 erwähnt, erfolgt die Beschreibung von
Korrelationsmaßen, wie Pearson’s r, über die in Tabelle 56 dargestellten sprachlichen Ausdrücke.
Signifikanz
Für statistische Hypothesen, bei denen das Ziel der Untersuchung das Signifikanzniveau bzw.
die Irrtumswahrscheinlichkeit ist, mit der die Hypothese nachgewiesen werden kann, verwenden wir die in Tabelle 57 aufgeführte Beschreibung der Irrtumswahrscheinlichkeit α.
Normierte Größen
Im Gegensatz zu der direkten Ablesbarkeit der obigen Werte, müssen normierte Größen erst
vorverarbeitet werden. Bei der relativen Normierung wird davon ausgegangen, dass die betroffene Größe normalverteilt vorliegt. Daher werden zunächst der empirische Mittelwert und die
167
D.3 VERSPRACHLICHUNG VON BESCHREIBUNGSMAßEN
Korrelation Übersetzung
-1.00 - -0.90
sehr stark, negativ
-0.90 - -0.70
stark, negativ
-0.70 - -0.50
mittel, negativ
-0.50 - -0.20
gering, negativ
-0.20 - 0.00
sehr gering, negativ
0.00 - 0.20
sehr gering, positiv
0.20 - 0.50
gering, positiv
0.50 - 0.70
mittel, positiv
0.70 - 0.90
stark, positiv
0.90 - 1.00
sehr stark, positiv
Tabelle 56: Sprachliche Ausdrücke für Korrelationsmaße (nach [Wit91]).
Wertebereich
Beschreibung
5% - 100%
nicht signifikant
1% - 5%
signifikant
0,1% - 1%
sehr signifikant
0% - 0,1%
höchst signifikant
Tabelle 57: Sprachliche Ausdrücke für Maße der
Irrtumswahrscheinlichkeit (nach [Wit91]).
empirische Standardabweichung aus der vorliegenden Gesamtheit der Daten durch Gleichung
22 berechnet.
m=
1 n
∑ xi
n i =1
(22)
Zur Normierung wird nun vom entsprechenden Messwert x zuerst der Mittelwert subtrahiert
und schließlich wird durch die Standardabweichung (siehe Gleichung 23) dividiert. Es entsteht
eine standardnormalverteilte Zufallsgröße.
s2 =
1 n
(xi − m )2
∑
n − 1 i =1
(23)
Durch die Fehlerfunktion, also das Integral der Normalverteilung, wird die standardnormalverteilte Zufallsgröße in eine gleichverteilte Zufallsgröße zwischen [0;1] transformiert. Für die
Transformation erhält man schließlich die in Gleichung 24 gezeigte Gleichung.
 x −m
xi′ = erf  i

 s 
(24)
168
ANHANG D. MODELLIERUNG VON WISSEN ÜBER ANALYSEMETHODEN
Für diese gleichverteilte Zufallsgröße kann schließlich wieder eine Versprachlichung durch
eine Tabelle vorgenommen werden.
Normalmaß
Übersetzung
0,00 - 0,10
sehr klein
0,10 - 0,30
klein
0,30 - 0,40
etwas klein
0,40 - 0,60
normal
0,60 - 0,70
etwas groß
0,70 - 0,90
groß
0,90 - 1,00
sehr groß
Tabelle 58: Sprachliche Ausdrücke für normierte Größen (nach [Käp02]).
Die in diesem Abschnitt vorgestellten Übersetzungen sind in den XML-Definitionen der
zugehörigen Skalentypen eingetragen. Dadurch kann nicht nur die sprachliche Übersetzung eines bestimmten Skalentyps herausgesucht werden, es können auch neue Skalentypen ohne
Veränderungen am Code des KDA hinzugefügt werden. Für Details hierzu verweisen wir auf
[Käp02].
LITERATURVERZEICHNIS
[Ada97]
Adam, N. R., Gangopadhyay, A.: A Form-Based Natural Language Front-End to a
CIM Database, IEEE Transactions on Knowledge and Data Engineering, Vol. 9,
Nr. 2, S. 238-250.
[Ado97]
Adomavicius, G. et al.: Discovery of Actionable Patterns in Databases: The Action
Hierarchy Approach, in Proceedings of the Third International Conference on
Knowledge Discovery & Data Mining (KDD-97), AAAI Press, 1997.
[Agr93]
Agrawal, R. et al.: Mining Association Rules between Sets of Items in Large Databases, in Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, Washington D.C., 1993, S. 207-216.
[Agr94]
Agrawal, R., Srikant, R.: Fast Algorithms for Mining Association Rules, in Bocca,
J., Jarke, M. et al. (Hrsg.): 20th International Conference on Very Large Data Bases
(VLDB), Santiago, Chile, Morgan Kaufmann, 1994, S. 487-499.
[Agr96]
Agrawal, R. et al.: The Quest Data Mining System, in Proceedings of the 1996 International Conference on Data Mining and Knowledge Discovery (KDD'96), Portland, Oregon, August 1996, AAAI Press, S. 244-249.
[AIA98]
Applied Intelligence Atelier: Statex, Website: http://www.a-i-a.com/englishHomePage/statexExample.html, 1998.
[Alb85]
Albano, A. et al.: Galileo: A Strongly-Typed, Interactive Conceptual Language,
ACM Transactions on Database Systems, Vol. 10 Nr. 2, 1985.
[And95]
Androutsopoulos, I. et al.: Natural Language Interfaces to Databases – An Introduction, in Journal of Natural Language Engineering, Cambridge University Press,
1995.
[ANS92]
American National Standard Dictionary of Information Technology (ANSDIT),
Website: http://www.ncits.org/tc_home/k5htm/Ansdit.htm
[Bae99]
Baeza-Yates, R., Ribeiro-Neto, B.: Modern Information Retrieval, ACM Press, Addison Wesley Publishing Company, Reading, Massachusetts, 1999.
[Bal96]
Balzert, H.: Lehrbuch der Software-Technik – Software-Entwicklung (Band 1),
Spektrum Akademischer Verlag, 1996.
170
LITERATURVERZEICHNIS
[Bal98]
Balzert, H.: Lehrbuch der Software-Technik – Software-Management, SoftwareQualitätssicherung, Unternehmensmodellierung (Band 2), Spektrum Akademischer Verlag, 1998.
[Bar92]
Barclay, P.J., Kennedy, J.B.: Semantic integrity for persistent objects, Information
and Software Technology, Vol. 34 Nr. 8, 1992.
[Bäu91]
Bäuerle, R., Zimmermann, Th.: Fragesätze, in: Wunderlich, D., von Stechow, A.
(Hrsg.): Semantik, de Gruyter, Berlin, 1991, S. 333-348.
[Bel76]
Belnap, N., Steele, T.: The Logic of Questions and Answers, Yale University, New
Haven, 1976.
[Bel85]
Belnap, N., Steele, T.: Logik von Frage und Antwort, Vieweg, Braunschweig, 1985.
[Bel92]
Bell, J. E., Rowe, L. A.: An Exploratory Study of Ad Hoc Query Languages to Databases, in Proceedings of the 8th International Conference on Data Engineering,
IEEE Computer Society Press, 1992, S. 606-613.
[Ber97]
Berson, A., Smith S.: Data Warehousing, Data Mining & OLAP, McGraw-Hill,
New York, 1997.
[Bib93]
Bibel, W. et al.: Wissensrepräsentation und Inferenz, Vieweg, Braunschweig, 1993.
[Bis96]
Bissantz, N.: Data Mining im Controlling, Dissertation, Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, 1996.
[Bla99]
Blaschka, M. et al.: An Overview of Multidimensional Data Models for OLAP,
FORWISS Technical Report 1999-01, 1999.
[Bob90]
Bobrow, R. J. et al.: Multiple Underlying Systems: Translating User Requests into
Programs to Produce Answers, in Proceeding of the 28th Annual Meeting of the Association for Computational Linguistics, University of Pittsburgh, Pittsburgh, Pennsylvania, Juni 1990.
[Bor93]
Bortz, J.: Statistik für Sozialwissenschaftler, Springer Verlag, Heidelberg, 1993.
[Bor00]
Borgelt, Ch. et al.: Unsicheres und vages Wissen, in: Görz et al. [Gör00], S. 291347.
[Bra94]
Brazdil, P. et al.: Characterizing the Applicability of Classification Algorithms
Using Meta-Level Learning in: Kodratoff, Y. (Hrsg.): Proceedings of MLNet Workshop on Industrial Applications of Machine Learning, September 1994, Dourdan,
France, S. 127-146.
[Bra96]
Brachman, R., Anand, T.: The Process of Knowledge Discovery in Databases: A
Human-Centered Approach, in Fayyad, U. et al. [Fay96a], S. 37-58.
[Bra98]
Bray, T. et al.: Extensible Markup Language (XML) 1.0, World Wide Web Consortium, 1998.
LITERATURVERZEICHNIS
171
[Bro01]
Brown, A. et al.: A Model for W3C XML Schema, Microsoft, Hong Kong, 2001.
[Can92]
Cannan, S., Otten, G.: SQL – The Standard Handbook, McGraw-Hill, Berkshire,
England, 1992.
[Car86]
Carlsen, F., Heuch, I.: EXPRESS – An Expert System Utilizing Standard Statistical
Packages, in Proceedings of COMPSTAT 1986, Physika-Verlag, Heidelberg, 1986.
[Cat95]
Catarci, T. et al.: Visual Query Systems for Databases: A Survey, Technical Report
SI/RR-95/17, Dipartimento di Scienze dell'Informazione, Universita' di Roma „La
Sapienza“, 1995.
[Caz92]
Cazalens, S. et al.: Intelligent Access to Data and Knowledge Bases via User’s Topics of Interest, Elsevier Science Publishers B. V., Amsterdam, 1992.
[Cen87]
Cendrowska, J.: PRISM: an algorithm for inducing modular rules, International
Journal of Man-Machine Studies, Vol. 27, 1987, S. 349-370.
[Cer94]
Cercone, N. et al.: The SystemX Natural Language Interface: Design, Implementation and Evaluation, Centre for Systems Science, Simon Fraser University, Burnaby, British Columbia, 1994.
[Cha00a]
Chapman, P. et al.: CRISP-DM 1.0 – Step-by-step data mining guide, CRISP-DM
Consortium, August 2000.
[Cha00b] Chai, J. et al.: Comparative Evaluation of a Natural Language Dialog Based System
and a Menu Driven System for Information Access: A Case Study, Proceedings of
the International Conference on Multimedia Information Retrieval (RIAO 2000),
April, 2000.
[Cod70]
Codd, E. F.:, A relational model of data for large shared data banks, Communications of the ACM, Vol. 13 Nr. 6, Juni 1970.
[Cod93]
Codd, E. F. et al.: Providing OLAP to user-analysts: An IT mandate, Technical report, E. F. Codd & Associates, 1993.
[Cra92]
Craw, S. et al.: CONSULTANT: Providing Advice for the Machine Learning Toolbox, in: Bramer, M., Milne, R. (Hrsg.): Research and Development in Expert Systems, 1992, S. 5-23.
[CRC02]
Communications Research Centre: CHAT (Conversational Hypertext Access Technology), Ottawa, Kanada, Website: http://debra.dgbt.doc.ca/chat, 2002.
[CRI01]
CRISP-DM Consortium: The CRISP-DM Process Model, Website: http://
www.crisp-dm.org, 2001.
[Dat87]
Date, C. J.: A Guide to the SQL Standard, Addison-Wesley Publishing Company,
Reading, Massachusetts, 1987.
172
LITERATURVERZEICHNIS
[Dea89]
Dearle, A. et al.: Napier88 – a database programming language, Proceedings of
DBPL, 1989.
[Dem96]
Demers, N.: A Lexicalist Approach to Natural-Language Database Front-Ends, Simon Fraser University, April 1999.
[Den95]
Dennebouy, Y. et al.: SUPER: Visual Interfaces for Object+Relationship Data Models, Journal of Visual Languages and Computing, Vol. 6, Nr. 1, 1995, S. 73-99.
[Deu98]
Deutsch, A. et al.: XML-QL: A Query Language for XML – Submission to the World
Wide Web Consortium 19-August-1998, Website: http//www.w3.org/TR/NOTExml-ql, August 1998.
[DIN91]
DIN ISO 9126 – Informationstechnik – Beurteilen von Softwareprodukten, Qualitätsmerkmale und Leitfaden zu deren Verwendung, 1991.
[Die93]
Dieterich, H. et al.:. State of the Art in Adaptive User Interfaces, in: Schneider-Hufschmidt et al. [Sch93], S. 13-48.
[Doa95]
Doan, D. et al.: A Multi-Pradigm Query Interface to an Object-Oriented Database,
Interacting with Computers, Vol. 7, Nr. 1, 1995, S. 25-47.
[Don92]
Donabedian, A.: The Role of Outcomes in Quality Assessment and Assurance, Quality Review Bulletin, Vol. 18, Nr. 11, November 1992, S. 356-360.
Egg97]
Egg, M., Feldhaus, A.: Syntax and Semantics of Complex an Ambiguous wh-Questions, in Proceedings of the 2nd International Workshop on Computational Semantics, Tilburg, 1997.
[Eic89]
Eichler, W., Bünting, K.-D.: Deutsche Grammatik, athenäum, Frankfurt am Main,
1989.
[Enc97]
Encarnação, M.: Concept and realization of intelligent user support in interactive
graphics applications, Dissertation, Eberhard-Karls-Universität zu Tübingen, Tübingen, 1997.
[Eng96]
Engels, R.: Planning tasks for Knowledge Discovery in Databases; Performing
Task-Oriented User-Guidance, in Proceedings of the 2nd International. Conference
On Knowledge Discovery in Databases, American Association for Artificial Intelligence, 1996.
[Eng97a]
Engels, R. et al: Providing User-Support in Performing Knowledge Discovery in
Databases, in Proceedings of AAAI Spring Symposium on Artificial Intelligence in
Knowledge Management (AIKM'97), 1997, S. 38-39.
[Eng97b] Engels, R. et al: Providing User Support for Developing Knowledge Discovery Applications: A Midterm Report, Künstliche Intelligenz, Vol. 12, Nr. 1, 1998, S. 4045.
LITERATURVERZEICHNIS
173
[Eng97c]
Engels, R. et al.: A Guided Tour through the Data Mining Jungle, in: Pregibon, D.
et al. (Hrsg.): Proceedings of The Third International Conference on Knowledge
Discovery and Data Mining (KDD-97), AAAI Press, 1997.
[Eng98]
Engels, R., Theusinger, C.: Using a Data Metric for Preprocessing Advice for Data
Mining Applications, in Proceedings of the European Conference on Artificial Intelligence, 1998, S. 430-434.
[Eng99]
Engels, R.: Component-Based User Guidance in Knowledge Discovery and Data
Mining, Infix, Sankt Augustin, 1999.
[Fay96a]
Fayyad, U. et al. (Hrsg.): Advances in Knowledge Discovery and Data Mining,
AAAI Press, Menlo Park, Kalifornien, 1996
[Fay96b]
Fayyad, U. et al.: From Data Mining To Knowledge Discovery: An Overview, in:
Fayyad et al. [Fay96a], S. 1-34.
[Fis94]
Fischer, D.: Gestaltung wissensbasierter Systeme auf der Grundlage betrieblicher
Entscheidungssituationen, Göttinger Wirtschaftsinformatik, Band 9, Unitext-Verlag, Göttingen, 1994.
[Fre18]
Frege, G.: Der Gedanke. Eine logische Untersuchung, in Beiträge zur Philosophie
des deutschen Idealismus, Vol. 1, 1918, S. 58-77.
[Fuc96]
Fuchs, N. E. et al.: Attempto Controlled English (ACE), in CLAW96: The First International Workshop on Controlled Language Applications, Katholieke Universiteit Leuven, Belgien, März 1996.
[Fuh98]
Fuhrmann, A.: Wie zusammengesetzt ist Bedeutung?, Arbeitspapier, Fachgruppe
Philosophie, Universität Konstanz, 1998.
[Gaa92]
Gaasterland, T. et al.: An Overview of Cooperative Answering, in Journal of Intelligent Information Systems, Kluwer Academic Publishers, Vol. 1, Nr. 2, 1992, S.
123-157.
[Gam95]
Gama, J., Brazdil, P.: Characterization of Classification Algorithms, in: Pinto-Ferreira, C., Mamede, N. (Hrsg.): Progress in Artificial Intelligence, 7th Portuguese
Conference on Artificial Intelligence, {EPIA-95), Springer-Verlag, 1995, S. 189200.
[Gal86]
Gale, W.: REX Review, in: Gale, W. (Hrsg.): Artificial Intelligence and Statistics,
Addison-Wesley, 1986, S. 173-224.
[Gas93]
Gastner, R.: Automatisches Programmieren von Wartungswerkzeugen für Wissensbasen, Bayerisches Forschungszentrum für Wissensbasierte Systeme, Report-Nr.
FR-1993-003, Erlangen, 1993.
[Gin95]
Ginzburg, J.: Interrogatives. Questions, Facts and Diaglogues, in: Lappin, S.
(Hrsg.): Handbook of Contemporary Semantic Theory, Blackwell, 1995, S. 385422.
174
LITERATURVERZEICHNIS
[Gör00]
Görz, G. et al. (Hrsg.): Handbuch der Künstlichen Intelligenz, Oldenbourg Verlag
München, 3. Auflage, 2000.
[Gra92a]
Graesser, A. C. et al.: Mechanisms that Generate Questions, in: Lauer, T. W. et al.:
Questions and Information Systems, Lawrence Erlbaum Associates, Hillsdale, New
Jersey, 1992, S. 167-187.
[Gra92b]
Graesser, A. C. et al.: Answering Questions About Information in Databases in:
Lauer, T. W. et al: Questions and Information Systems, Lawrence Erlbaum Associates, Hillsdale, New Jersey, 1992, S. 229-252.
[Gro84]
Groenendijk, J., Stokhof, M.: Studies on the Semantics of Questions and the Pragmatics of Answers, Dissertation, University of Amsterdam, 1984.
[Gro98]
Groenendijk, J., Stokhof, M.: Questions, in: Van Benthem, J., Ter Meulen, A.
(Hrsg.): Handbook of Logic and Language, Elsevier Science Publishers B. V., Amsterdam, 1998, S. 1055-1124.
[Ham58]
Hamblin, C.: Questions, in Australasian Journal of Philosophy, Vol. 36, Nr. 3,
1958, S. 159-168.
[Ham73]
Hamblin, C.: Questions in Montague English, in Foundations of Language, Vol. 10,
1973, S. 41-53.
[Ham81]
Hammer, M., McLeod, D.: Database Description with SDM: A Semantic Database
Model, ACM Transactions on Database Systems, Vol. 6, Nr. 3, 1981.
[Han91]
Han, J. et al.: Concept-Based Data Classification in Relational Databases, in Workshop Notes of 1991 AAAI Workshop on Knowledge Discovery in Databases
(KDD'91), Anaheim, Kalifornien, Juli 1991, S. 77-94.
[Han94]
Hand, D.: Deconstructing Statistical Questions in Journal of the Royal Statistical
Society, 1994, S. 317-356.
[Han96]
Han, J. et al.: DMQL: A Data Mining Query Language for Relational Data Bases,
in Proceedings of the SIGMOD Workshop on Research Issues on Data Mining and
Knowledge Discovery (DMKD-96), Montreal, Canada, 1996.
[Han96]
Hannig, U. (Hrsg.): Data Warehouse und Managementinformationssysteme, Schäffer-Poeschel Verlag, Stuttgart, 1996.
[Han97]
Han, J.: OLAP Mining: An Integration of OLAP with Data Mining, Chapman &
Hall, IFIP, 1997.
[Har84]
Harrah, D.: The logic of Questions, in: Gabbay, D., Guenthner, F. (Hrsg.): Handbook of Philosophical Logic, Vol. II, Kluwer, Dordrecht, 1984, S. 715-764.
[Hau86]
Haux, R.: Expert Systems in Statistics, Fischer Stuttgart, 1986.
LITERATURVERZEICHNIS
175
[Hau98]
Hausdorf, C.: Konzeption und Realisierung eines gemischt daten- und hypothesenorietiert arbeitenden, generischen Data-Mining-Agenten, Diplomarbeit, Friedrich-Alexander-Universität Erlangen-Nürnberg, 1998.
[Hee00]
Heeb, D.: StatiBot, Website: http://www.statibot.com., 2000.
[Hei92]
Heinz, W. et al.: Comparison in NLIs – Habitability and Database Reality, in Proceedings of the 10th European Conference on Artificial Intelligence (ECAI-92),
Wiley Wien, 1992, S. 548-552.
[Hei94]
Heinsohn, J.: ALCP: Ein hybrider Ansatz zur Modellierung von Unsicherheit in termino-logischen Logiken, Dissertationen zur künstlichen Intelligenz, St. Augustin,
1994.
[Hen78]
Hendrix, G. et al.: Developing a Natural Language Interface to Complex Data,
ACM Transactions on Database Systems, Vol. 3, Nr. 2, 1978, S. 105-147.
[Her97]
Herrmann, J.: Maschinelles Lernen und Wissensbasierte Systeme, Sytematische
Einführung mit praxisorientierten Fallstudien, Springer-Verlag, Berlin, 1997.
[Hie86]
Hielata, P.: How to Assist an Inexerpereinced User in the Preliminary Analyses of
Time Series: First Version of the ESTES Expert System, in Proceedings of COMPSTAT 1986, Physika-Verlag, Heidelberg, 1986.
[Hog98]
Hogl, O.: Konzeption und Realisierung eines Data-Mining-Front-Ends zur Konkretisierung von Benutzerinteressen und eines Data-Mining-Back-Ends zur Abstraktion von Data-Mining-Ergebnissen, Diplomarbeit, Friedrich-Alexander-Universität
Erlangen-Nürnberg, 1998.
[Hog00a] Hogl, O. et al.: The Knowledge Discovery Assistant: Making Data Mining Available
for Business Users, in: Gunopulos, D. et al. (Hrsg.): Proceedings of the 2000 ACM
SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery
(DMKD-2000), Dallas, Texas, Mai 2000, S. 96-105.
[Hog01a] Hogl, O. et al.: On Supporting Medical Quality with Intelligent Data Mining, in:
Sprague, R. (Hrsg.): Proceedings of the Thirty-Fourth Annual Hawaii International
Conference on System Sciences (HICSS-01), Maui, Hawaii, IEEE Press, Januar
2001.
[Hog01b] Hogl, O. et al.: Using Questions and Interests to Guide Data Mining for Medical
Quality Management, in: Iz, P. et al. (Hrsg.): Topics in Health Information Management, Vol. 22, Nr. 1, August 2001, S. 36-50.
[Hop96]
Hoppe, T.: Kriterien zur Auswahl maschineller Lernverfahren, Informatik Spektrum, Springer Verlag, Vol. 19, 1996, S. 12-19.
[Hou93]
Houtsma, M., Swami, A.: Set-oriented Mining of Association Rules, Research Report, RJ 9567, IBM Almaden Research Center, San Jose, Kalifornien, Oktober
1993.
176
LITERATURVERZEICHNIS
[Hub97]
Huber, P. J.: From Large to Huge: A Statistician’s Reactions to KDD & DM, in Proceeding of the Third International Conference on Knowledge Discovery & Data Mining (KDD-97), AAAI Press, 1997.
[Imi96]
Imielinsky, T. et al.: DataMine: Application Programming Interface and Query
Language for Database Mining, in: Simoundis, E. et al. (Hrsg.): The Second International Conference on Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, Kalifornien, 1996, S. 256-261.
[Imi99]
Imielinsky, T., Virmani, A.: MSQL: A Query Language for Database Mining, Data
Mining and Knowledge Discovery, Vol. 3, Nr. 4, 1999, S. 373-408.
[Jee03]
Jeeves Solutions: JeevesOne Product Family Overview, Website, http://www.jeevessolutions.com/products/index.asp, 2003.
[Jid86]
Jida, J., Lemaire, J.: Expert Systems and Data Analysis Package Management, in
Proccedings of COMPSTAT 1986, Physika-Verlag, Heidelberg, 1986.
[Joh85]
Johnson, T.: Natural Language Computing: The Commercial Applications, Ovum
Ltd., London, 1985.
[Käp02]
Käppel, D.: Konzeption und Realisierung einer natürlichsprachlichen Benutzerschnittstelle für ein System zur Entdeckung von Wissen in Datenbanken, Diplomarbeit, Georg-Simon-Ohm-Fachholschule Nürnberg, 2002.
[Kea98]
Keading, A.-K. et al.: The Elicitation of Problem-Solving Scenarios as new Methodical approach for the Knowledge Acquisition in: Jamshidi, M., de Silva, C. W.
(Hrsg.): Intelligent Automation and Control, Proceeding of the World Automation
Congress (WAC’98), TSI Press, Albuquerque, 1998.
[Kle94]
Klemettinen, M. et al.: Finding Interesting Rules from Large Sets of Discovered Association Rules, Proceedings of the Third International Conference on Information
and Knowledge Management (CIKM'94), Maryland, ACM, 1994, S. 401-407.
[Klo00]
Kloesgen, W., Zytkow, J.: Machine Discovery Terminology, Website: http://orgwis.gmd.de/explora/terms.html, Juni 2000.
[Koh97]
Kohavi, R. et al.: Data Mining Using MLC++: A Machine Learning Library in
C++, in International Journal on Artificial Intelligence Tools, Vol. 6, Nr. 4, 1997,
S. 537-566.
[Kok00]
Kokowski, R.: Konzeption und Realisierung einer Komponente zur Abbildung von
Fragen in der Sprache des Endbenutzers auf Data-Mining-Anfragen für ein System
zur Entdeckung von Wissen in Datenbanken, Diplomarbeit, Friedrich-AlexanderUniversität Erlangen-Nürnberg, 2000.
[Kri00]
Krifka, M.: Syntax und Semantik von Fragen und Antworten, Vorlesungsskript, WS
2000/2001, Institut für deutsche Sprache und Linguistik, Humboldt-Universität zu
Berlin.
LITERATURVERZEICHNIS
177
[Lar84]
Larson, J., Wallick, J. B.: An Interface for Novice and Infrequent Database Management System Users, AFIPS Conference Proceedings, National Computer Conference, Vol. 53, 1984, S. 523-529.
[Lat89]
Latocha, P.: Exploration von Aussagenräumen – Ein semantischer Ansatz, GMDStudien Nr. 164, Gesellschaft für Mathematik und Datenverarbeitung mbH, 1989.
[Leh78]
Lehnert, W.: The Process of Question Answering, Lawerence Eichbaum Associates,
Hilsdale, New Jersey, 1978.
[Lin99]
Lindner, G., Studer, R.: AST: Support for Algorithm Selection with a CBR Approach, in Principles of Data Mining and Knowledge Discovery, 1999, S. 418-423
[Liu96]
Liu, B. et al.: Finding Interesting Patterns Using User Expectations, Technical Report: TRA7/96, Department of Information Systems and Computer Science, National University of Singapore, Singapur, 1996.
[Liu97]
Liu, B. et al.: Using General Impressions to Analyze Discovered Classification Rules, American Association for Artificial Intelligence, 1997.
[Men99]
Meng, F., Chu, W.: Database Query Formation from Natural Language using Semantic Modeling and Statistical Keyword Meaning Disambiguation, Technical Report CSD-TR 990003, Computer Science Department, University of California, Los
Angeles, 1999.
[Meo96]
Meo, R. et al.: A new sql-like operator for mining association rules, Proceedings of
the 22nd International Conference on Very Large Data Bases (VLDB’96), Bombay,
Indien, 1996, S. 122-133.
[Mic94]
Michie, D. et al. (Hrsg.): Machine Learning, Neural and Statistical Classification,
Ellis Horwood, Chicester, 1994.
[Mil91]
Miller, J. et al.: Introduction, in: Sullivan [Sul91], S. 1-10.
[Mit96]
Mittelstraß, J. (Hrsg.): Enzyklopädie Philosophie und Wissenschaftstheorie, Bibliographisches Institut, Mannheim, 1980.
[MLT93] MLT Consortium: Final public report Esprit II Project 2154, Technical Report,
1993.
[Mül98]
Müller, M.: Interessantheit bei der Entdeckung von Wissen in Datenbanken, Dissertation, Friedrich-Alexander-Universität Erlangen-Nürnberg, Erlangen, 1998.
[Mur98]
Murray, N., et al.: A Framework for Describing Visual Interfaces to Databases,
Journal of Visual Languages and Computing, Vol. 9, Nr. 4, 1998, S. 429-456.
[Nae87]
Naeve, P., Steinecker, J.: SETUP – Statistisches Expertensystem mti TWAICE und
P-STAT, Bericht Nr. 172 der Fakultät der Wirtschaftswissenschaften, Universität
Bielefeld, 1987.
178
LITERATURVERZEICHNIS
[NAG02] Numerical Algorithms Group: GLIM 4, The Generalised Linear Interactive Modelling Package, Website: http://www.nag.co.uk/stats/GDGE_soft.asp.[Nak97]Nakhaeizadeh,G., Schnabl, A.: Development of Multi-Criteria Metrics for Evaluation of
Data Mining Algorithms, in: Heckerman, D. et al. (Hrsg.): Proceedings of The Third
International Conference on Knowledge Discovery and Data Mining (KDD-97),
AAAI Press, 1997.
[Nak98]
Nakhaeizadeh, G.; Schnabl, A.: Towards the Personalization of Algorithms Evaluation in Data Mining, in: Agrawal, R. et al. (Hrsg.): Proceedings of The Fourth
International Conference on Knowledge Discovery and Data Mining, New York,
1998, S. 289-293.
[Nau97]
Nauer, E. et al.: Using of multiple data source for information filtering: first approaches in the MedExplore project, in 5th DELOS Workshop on Filtering and Collaborative Filtering, Budapest, Ungarn, November 1997.
[Nel87]
Nelder, J.: AI and Generalized Linerar Modelling: An Expert System for GLIM, in:
Phelps, B. (Hrsg.): Interactions in Artificial Intelligence and Statistical Methods,
Gower, Aldershot, 1987.
[Nel00]
Nelken, R., Nissim, F.: Querying Temporal Databases Using Controlled Natural
Language, Computer Science Department, The Technion, Haifa, Israel, 2000.
[Pap95]
Papantonakis, A., King, P.: Syntax and Semantics of GQL, a Graphical Query Language, Journal of Visual Languages and Computing, Vol 6, 1995, S. 3-25.
[Pou90]
Poulovassilis, A., King, P.: Extending the Funktional Data Model to Computational
Completeness, in Advances in Database Technology – EDBT’90, International Conference on Extending Database Technology, 1990, S. 75-91.
[Pre94]
Preece, J. et al.: Human-Computer Interaction, Addison-Wesley Publishing Company, Reading, Massachusetts, 1994.
[Pri55]
Prior, A., Prior, M.: Erotetic logic, The Philosophical Review, Vol. 64 (1955), S.
43-59.
[Pul96]
Pulman, S. G.: Controlled Language for Knowledge Representation in CLAW96:
Proceedings of the First International Workshop on Controlled Language Applications, Katholieke Universiteit Leuven, Belgien, März 1996, S. 233-242.
[Ram90]
Ram, A.: Knowledge Goals: A Theory of Interestingness, in Proceedings of the
Twelfth Annual Conference of the Cognitive Science Society, Cambridge, MA, August 1990, S. 206-214.
[Ram91]
Ram, A.: A theory of questions and question asking, The Journal of the Learning
Sciences, 1991, S. 273-318.
[Ram92]
Ramos, H.: Design and Implementation of a Graphical SQL with Generic Capabilities, in: Cooper, R. (Hrsg.): Interfaces to Database Systems, (R. Cooper, Ed.),
Springer-Verlag, Berlin, 1992, S. 74-91.
LITERATURVERZEICHNIS
179
[Rui94]
Ruiz, F. et al.: Evaluating a formal modelling language, in: Steels et al. (Hrsg.):
Proceeding of the 8th European Knowledge Acquisition Workshop (EKAW’94),
LNAI 867, Springer-Verlag, Berlin, 1994, S. 26-45.
[Sch79]
Schank, R. C.: Interestingness: Controlling Inferences, Artificial Intelligence 12,
North-Holland Publishing Company, 1979, S. 273-297.
[Sch97]
Schmidhuber, J.: What’s Interesting?, Technical Report IDSIA-35-97, Version 1.0,
IDSIA, Lugano, Schweiz, 14. Juli 1997.
[Sch93]
Schneider-Hufschmidt, M. et al. (Hrsg.): Adaptive User Interfaces: Principles and
Practice, North-Holland, 1993.
[Sen97]
Sengupta, A., Dillon, A.: Query by Templates: A Generalized Approach for Visual
Query Formulation for Text Dominated Databases, Symposium on Advanced Digital Libraries (ADL-97), 1997, S. 36-47.
[She96]
Shen, W.: Metaqueries for Data Mining, in: Fayyad, U. et al. [Fay96a], S.375-398.
[Shi81]
Shipman, D. W.: The Functional Data Model and the Data Language, ACM Transactions on Database Systems, Vol. 6, Nr. 1, März 1981, S. 140-173.
[Sma03]
SmartKom: Dialogische Mensch-Technik-Interaktion durch koordinierte Analyse
und Generierung multipler Modalitäten, Website: http://smartkom.dfki.de, 2003.
[Som97]
Sommer, E.: Theory Restructuring, A Perspective on Design and Maintenance of
Knowledge Based Systems, Infix, St. Augustin, 1997.
[Sta02]
Statistical Solutions, Inc.: SigmaStat, Website: http://www.statsol.ie/sigmastat/sigmastat.htm.
[Sta94]
Stathis, K.: How to give FAST advice, in Proceedings of the 7th Symposium and Exhibition on Industrial Applications of Prolog (INAP’94), Tokio, Japan, 1994.
[Sta97]
Stathis, K., Sergot, M.: Knowledge-Based Front-Ends as Games, in: Liebowitz, J.
(Hrsg.): Journal of Lessons Learned in Information Systems Management, Vol. 2,
Nr. 1, S. 135-147, 1997.
[Ste67]
Stenius, E.: Mood and language game, Synthese, Vol. 17, Nr. 3, S. 254-274.
[Ste91]
von Stechow, A., Wunderlich, D. (Hrsg.): Semantik, de Gruyter, Berlin, 1991.
[Stü00]
Stühlinger, W. et al.: Intelligent Data Mining for Medical Quality Management, in:
Lavrac, N. et al. (Hrsg.): The Fifth Workshop on Intelligent Data Analysis in Medicine and Pharmacology (IDAMAP-2000), Workshop Notes of the 14th European
Conference on Artificial Intelligence (ECAI-2000), Berlin, August 2000.
[Sul91]
Sullivan, J. W., Tyler, S. W. (Hrsg.): Intelligent User Interfaces, ACM Press, New
York, 1991.
180
LITERATURVERZEICHNIS
[Ten83]
Tennant, H. R. et al.: Usable Natural Language Interfaces through Menu-Based
Natural Language Understanding, in Proceedings of CHI’83, Conference on Human Factors in Computer Systems, ACM, Boston, 1983.
[The98]
Theusinger, C., Lindner, G.: Benutzerunterstützung eines KDD-Prozesses anhand
von Datencharakteristiken, 1998.
[Tho75]
Thompson, F. B., Thompson, B. H.: Practical Natural Language Processing: The
REL System Prototype in: Rubinoff, M., Yovits, M. C. (Hrsg.): Advances in Computers, Academic Press, New York, 1975, S. 109-168.
[Tho94]
Thonnat, M. et al.: Supervision of Perception Tasks for Autonomous Systems: The
OCAPI Approach, in Journal of Information Science and Technology, Vol. 3, 1994,
S. 140-163.
[Tim97]
Timm, T.: Konzeption und Realisierung einer graphischen Benutzerschnittstelle für
ein System zur Entdeckung von Wissen in Datenbanken, Diplomarbeit, FriedrichAlexander-Universität Erlangen-Nürnberg, 1997.
[Tyl91]
Tyler, S. et al.: An Intelligent Interface Architecture for Adaptive Interaction, in:
Sullivan [Sul91], S. 85-109.
[Utg89]
Utgoff, P. E. et al.: Representation Problems in Machine Learning: A Proposal,
COINS Technical Report 89-23, 15. März 1989.
[Usz92]
Usznski M.: Machine learning toolbox, Technical Report, European Economic
Community, Esprit II, 1992.
[Van90]
Vanderveken, D.: Meaning and Speech Acts, 2 Bände, Cambrigde University Press,
Cambridge, 1990.
[Wal78]
Waltz, D. L.: An English Language Question Answering System for a Large Relational Database, Communications of the ACM, Vol. 27, Nr. 7, Juli 1978, S. 526539.
[Wal85]
Walther, J.: Logik der Fragen, de Gruyter, 1985.
[War82]
Warren, D., Pereira, F.: An Efficient Easily Adaptable System for Interpreting Natural Language Queries, Computational Linguistics, Vol. 8, Nr. 3-4, Juli-Dezember
1982, S. 110-122.
[Wed81]
Wedekind, H.: Datenbanksysteme I – Eine konstruktive Einführung in die Datenverarbeitung in Wirtschaft und Verwaltung, Bibliographisches Institut, Mannheim,
1981.
[Wir97]
Wirth, R. et al: Towards Process-Oriented Tool Support for Knowledge Discovery
in Databases, Principles of Data Mining and Knowledge Discovery, 1997, S. 243253.
LITERATURVERZEICHNIS
181
[Wit85]
Wittkowski, K.: Ein Expertensystem zur Datenhaltung und Methodenauswahl für
statistische Anwendungen, Dissertation, Universität Stuttgart, 1985.
[Wit91]
Wittenberg, R.: Computerunterstützte Datenanalyse, Gustav Fischer Verlag, Stuttgart, 1991.
[Wit99]
Witten, I., Frank, E.: Data Mining – Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, Oktober 1999.
[Woo72]
Woods, W. A. et al.: The Lunar Science Natural Language Information System, Final Report, BBN Report 2378, Bolt Beranek and Newman Inc., Cambridge, Massachusetts, 1972.
[Zlo77]
Zloof, M. M.: Query By Example: A Database Language., IBM Systems Journal,
Vol. 16 Nr. 4, 1977.
[Zbi98]
Zbigniew, W. R. et al.: Knowledge Discovery Objects an Queries in Distributed
Knowledge Systems, in AISC’98, LNAI 1476, Springer-Verlag, Berlin, 1998, S.
259-269.
182
LITERATURVERZEICHNIS
STICHWORTVERZEICHNIS
*-Konzept . . . . . . . . . . . . . . . . . . . . . .54, 56, 60
A
action hierarchy . . . . . . . . . . . . . . . . . . . . . . .24
actionability . . . . . . . . . . . . . . . . . . . . . . . . . .24
Adäquatheit . . . . . . . . . . . . . . . . .118, 120–121
Änderbarkeit . . . . . . . . . . . . . . . . .118, 120–121
Anforderung
funktionale . . . . . . . . . . . . . . . . . . . . . . . .23
nicht-funktionale . . . . . . . . . . . . . . . . . . .23
Anfragesprache, formale . . . . . . . . . .12–13, 18
Anfragesystem, natürlichsprachliches . . . . . .13
Antwort
-argumente . . . . . . . . . . . . . . . . . . . . . . . .72
-fokusbeschreibung . . . . . . . . . . . . . .73–74
-gruppe . . . . . . . . . . . . . . . . . . . . . . . . . . .72
-kontext . . . . . . . . . . . . . . . . . . . . . . . . . .72
Kurz- . . . . . . . . . . . . . . . . . . . . . . . . . . . .35
Lang- . . . . . . . . . . . . . . . . . . . . . . . . . . . .35
-objekt . . . . . . . . . . . . . . . . . . . . . . . . . . .72
-objektbeschreibung . . . . . . . . . . . . .72–74
-typ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .73
Antwortmengen-Methode . . . . . . . . . . . .36–37
Argument . . . . . . . . . . . . . . . . . . . . . . . .88, 124
Eigenschafts- . . . . . . . . . . . . . .65, 123–124
Gruppen- . . . . . . . . . . . . . . . . .68, 123–124
Objekt- . . . . . . . . . . . . . . . . . . .69, 123–124
AskJeeves . . . . . . . . . . . . . . . . . . . . . . . . . . . .12
Assoziationsregeln . . . . . . . . . . . . . . .19, 97–98
Attribut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .93
-benennung . . . . . . . . . . . . . . . . . . . . . .126
Daten- und Skalentyp . . . . . . . . . . . . . .126
-gruppe . . . . . . . . . . . . . . . . . . . . . . . .66, 93
Semantik . . . . . . . . . . . . . . . . . . . . .75, 126
-wertgruppe . . . . . . . . . . . . . . . . . . . .67, 93
B
Benutzbarkeit . . . . . . . . . . . . . . . 117, 119–120
Benutzermodellierung . . . . . . . . . . . . . . . . . . 10
Benutzerschnittstelle . . . . . . . . . . . . . . . . . . . 11
formularbasierte . . . . . . . . . . . . . . . . 13, 16
graphische . . . . . . . . . . . . . . . . . . 13, 17, 24
hybride . . . . . . . . . . . . . . . . . . . . . . . . . . 13
intelligente . . . . . . . . . . . . . . . . . . 2, 9, 117
listenbasierte . . . . . . . . . . . . . . . . . . . . . . 24
menübasierte . . . . . . . . . . . . . . . . . . . . . . 24
wissensbasierte . . . . . . . . . . . . . . . . . . 9, 41
Benutzerunterstützung
Paradigma der . . . . . . . . . . . . . . . . . . . . . 12
Business Understanding . . . . . . 2, 21, 129, 134
C
Case-Based-Reasoning . . . . . . . . . . . . . . . . . 28
Charakteristika
von Algorithmen . . . . . . . . . . . . . . . . . . . 92
von Methoden . . . . . . . . . . . . . . . . . . . . . 90
CHAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
CHAT-80 . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Clementine . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Consultant . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
CRISP-DM . . . . . . . . . . . . . . . . . . 1–2, 21, 134
D
DAPLEX . . . . . . . . . . . . . . . . . . . . . . . . . 13, 17
Data Characterisation Tool . . . . . . . . . . . . . . 27
Data Mining Algorithm Query Language 44, 88
Data Mining Query Language . . . . . . . . . . . 19
Data Preparation . . . . . . . . . . . . . . . . . . . . . . 22
Data Understanding . . . . . . . . . . . . . . . . . . . 22
Data-Mining
-Agent . . . . . . . . . . . . . . . . . . . . . . . . . . 105
-Algorithmus . . . . . . . . . . . . . . . . . . . . . 92
-Ebene . . . . . . . . . . . . . . . . . . . . . . . 44, 105
184
-Methode . . . . . . . . . . . . . . . . . . . . . . . . .89
Daten
-analyst . . . . . . . . . . . . . . . . . . . .2, 66, 129
-manager, medizinischer . . . . . . . . . . . .129
-vorverarbeitung . . . . . . . . . . . . . . . . . . . . .
. . . . . . . .1, 5, 22–24, 27–28, 69, 126–127
Datenbank . . . . . . . . . . . . . . .4–5, 28, 123, 129
-abfrage . . . . . . . . . . . . . . . . . . . . . . . . . .12
-administrator . . . . . . . . . . . . . . . . . . . .129
-Agent . . . . . . . . . . . . . . . . . . . . . .105, 107
-Anfrage . . . . . . . . . . . .4, 14–15, 17, 19–20
-definition . . . . . . . . . . . . . . . . . . . . . . . .12
-Ebene . . . . . . . . . . . . . . . . . . . . . . . . . .105
-manipulation . . . . . . . . . . . . . . . . . . . . . .12
-tupel . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4
DB-Agent . . . . . . . . . . . . . . . . . . . . . . . . . . .105
DB-Ebene . . . . . . . . . . . . . . . . . . . . . . . . .4, 105
DB-Referenz . . . . . . . . . . . . . . . . . . . . . . . . .55
Deployment . . . . . . . . . . . . . . . . . . . . . . . . . .22
DM-Agent . . . . . . . . . . . . . . . . . . . . . . . . . .105
DM-Algorithmus . . . . . . . . . . . . . . . . . . . . .124
DM-Anfrage . . . . . . . . . . .44, 89, 102, 123–125
DM-Anfrage-Spezialisierung . . . . . . . . .45, 102
DMAQL . . . . . . . . . . . . . . .44, 88–89, 119–120
DM-Ebene . . . . . . . . . . . . . . . . . . . . .4, 87, 124
DM-Ergebnis . . . . . . . . . . . . . . . . . . . . .45, 110
DM-Ergebnis-Generalisierung . . . . . . . . . . . .45
DM-KD-Transformation . . . . . . . . . . . . . . . .46
DM-Methode . . . . . . . . . . . . . . . . . . . . . . . .124
DMQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19
DM-System-Anfrage . . . . .45, 87, 95, 102, 106
DM-System-Ergebnis . . . . . . . . . . . . . . .45, 106
Domänenmodul . . . . . . . . . . . . . . . . . . . . . . .47
STICHWORTVERZEICHNIS
-gruppe . . . . . . . . . . . . . . . . . . . . . . . 68, 93
FASMI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
FAST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Fast Analysis of Shared Information . . . . . . 13
Frage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Alternativ- . . . . . . . . . . . . . . . . . . . . . . . 33
-argumente . . . . . . . . . . . . . . 53, 55, 65, 75
elementare . . . . . . . . . . . . . . . . . . . . . . . 34
Entscheidungs- . . . . . . . . . . . . . . . . . 33, 80
Ergänzungs- . . . . . . . . . . . . . . . . . . . 33, 81
-expandierende Struktur . . . . . . . . . . . . . 63
-gruppe . . . . . . . . . . . . . . . 53, 69, 123–124
-kontext . . . . . . . . . . . . . . . 53, 70, 123–124
Ob- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
-objekt . . . . . . . . . . . . . . 53, 55, 61, 76, 124
allgemeines . . . . . . . . . . . . 61, 76, 123
domänenspezifisches . . 63, 76, 80, 123
rhetorische . . . . . . . . . . . . . . . . . . . . . . . 32
-typ . . . . . . . . . . . . . . . . . . . 53, 55–56, 123
deskriptiver . . . . . . . . . . . . . . . . . . . 57
komplexer . . . . . . . . . . . . . . . . . . . . 58
konfirmativer . . . . . . . . . . . . . . . . . . 56
offener . . . . . . . . . . . . . . . . . . . . . . . 60
Welche- . . . . . . . . . . . . . . . . . . . . . . . . . 34
-wurzel . . . . . . . . . . . . . . . . . . . . . . . 53, 55
Funktionalität . . . . . . . . . . . . . . . . . . . . . . . 120
G
Galileo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Gemeinsamkeit . . . . . . . . . . . . . . . . . . . . 62, 78
GLIM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
GLIMPSE . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Grammatik, semantische . . . . . . . . . . . . . 15, 53
E
Ebene
referentielle . . . . . . . . . . . . . . . . . . . . . . .32
semantische . . . . . . . . . . . . . . . . . . . . . . .32
syntaktische . . . . . . . . . . . . . . . . . . . . . . .32
Ebenen, semiotische . . . . . . . . . . . . . . . . . . . .32
Editieren, syntaktisches . . . . . . . . . . . . . .13, 16
Elementtyp . . . . . . . . . . . . . . . . . . . . . . . . . . .54
Enterprise Miner . . . . . . . . . . . . . . . . . . . . . .24
Entscheidungsbauminduktion . . . . . . . . . . . .92
ESTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .25
Evaluation . . . . . . . . . . . . . . . . . . .22, 129, 134
EXPRESS . . . . . . . . . . . . . . . . . . . . . . . . . . . .26
F
Fall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .65
H
HappyAssistant . . . . . . . . . . . . . . . . . . . . . . . 12
Hybride Ansätze . . . . . . . . . . . . . . . . . . . . . . 17
I
IDB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Information Retrieval . . . . . . . . . . . . . . . . . . 12
Intelligent User Interface . . . . . . . . . . . . . . . . 9
Interaktionszyklus . . . . . . . . . . . . . . . . . . . . . 11
Interessantheit . . . . . . . . . . . . . . . . . . . . . . . 106
Interface-Adaptivität . . . . . . . . . . . . . . . . . . . 10
Interrogativ . . . . . . . . . . . . . . . . . . . . . . . . . . 33
-akt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
-pronomen . . . . . . . . . . . . . . . . . . . . . . . 33
185
STICHWORTVERZEICHNIS
-satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . .31
IQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16
Irrtumswahrscheinlichkeit . . . . . . . . .78–79, 82
L
LADDER . . . . . . . . . . . . . . . . . . . . . . . . 14–15
Logik, erotetische . . . . . . . . . . . . . . . . . . . . . 32
LUNAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
J
Janus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14
K
KDA . . . . . . . . . . . . . .6, 74, 105–106, 109, 111
KD-Agent . . . . . . . . . . . . . . . . . . . . . . . . . . .105
KDAL . . . . . . . . . . . . . . . . . . . . . .46–47, 51, 72
KD-Antwort . . . . . . . . . . . .46, 71, 75, 104, 114
KD-Antwort-Kontraktion . . . . . . . . . . . . . . . .46
KD-Antwort-Manager . . . . . . . . . . . . . . . . .106
KD-DM-Transformation . . .44, 51, 87, 95, 105
KDD-Prozess . . . . . . . . . . . . . . . . . . . . . . . .127
KD-Ebene . . . . . . . . . . . . . . . . . .4, 87, 105, 124
KD-Expansion . . . . . . . . . . . . . . . . . . . .87, 105
KD-Frage .44, 48, 105, 110, 112–113, 122–125
Beantwortung . . . . . . . . . . . . . . . . . . . .102
deskriptive . . . . . . . . . . . . . . . . . . . . .73, 81
Gemeinsamkeit . . . . . . . . . . . . . . . . . . . .78
komplexe . . . . . . . . . . . . . . . . . . . . . .74, 83
konfirmative . . . . . . . . . . . . . . . . . . .73, 80
Unterschied . . . . . . . . . . . . . . . . . . . . . . .77
Veränderung . . . . . . . . . . . . . . . . . . . . . .79
Zusammenhang . . . . . . . . . . . . . . . . . . . .76
KD-Frage-Expansion . . . . . . . . . . . . .44, 48, 93
KD-Frage-Manager . . . . . . . . . . . . . . . . . . .105
KDQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . .5–6, 44, 47, 51, 53, 111–112, 118–119, 123
Knowledge Discovery Answer Language . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .46, 51, 72, 104
Knowledge Discovery Assistant . . . .6, 74, 105
Knowledge Discovery Question Language . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .5, 44, 51, 53
Knowledge Engineering . . . . . . . . . . . . . . . . .27
Knowledge-Discovery
-Agent . . . . . . . . . . . . . . . . . .105–106, 110
-Ebene . . . . . . . . . . . . . . . . . . . .44, 51, 105
Kommunikation, multimodale . . . . . . . . . . . . .9
Kompositionalitätsprinzip . . . . . .37, 75, 83, 85
Konfidenz . . . . . . . . . . . . . . . . . . . . . .19, 88, 99
Konfiguration
von Algorithmen . . . . . . . . . . . . . . . . . . .95
von Methoden . . . . . . . . . . . . . .95, 98, 100
Konzept-expandierende Struktur . . . . . . . . . .64
Korrektheit . . . . . . . . . . . . . . . . . .118, 120, 122
M
Machine Learning Toolbox Projekt . . . . . . . 26
MDSQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
MDX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
MINE RULE Operator . . . . . . . . . . . . . . . . . 19
MLC++ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Modeling . . . . . . . . . . . . . . . . . . . . 22, 129, 134
Modularität . . . . . . . . . . . . . . . . . . . . . . . . . . 42
N
Napier88 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Natural Language Interfaces to Databases . . 14
Neuronale Netze . . . . . . . . . . . . . . . . . . . 97–98
NLIDB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
NLMENU . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
NOODL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
O
OLAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
On-Line Analytical Processing . . . . . . . . . . . 13
P
Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . 124
Projektions- . . . . . . . . . . . . . . . . . . . . . . 93
Selektions- . . . . . . . . . . . . . . . . . . . . . . . 93
Pearson’s r . . . . . . . . . . . . . . . . . . . . . . . . 77, 82
PLANES . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Portierbarkeit . . . . . . . . . . . . . . . . 118, 120–121
Propositionen . . . . . . . . . . . . . . . . . . . . . . . . 33
Prozessunterstützung, formularbasierte . . . . 21
Q
QBE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
QBT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Qualitätsmanagement . . . . . . . . . . . . . . . 1, 129
medizinisches . . . . . . . . . . . . . . . . . . . . . . .
. . . . . 6, 8, 43, 47, 63, 65, 69, 119, 121, 129
Qualitätsmerkmale für Software . . . . . . . . . 117
Query-by-Example . . . . . . . . . . . . . . . . . 13, 16
186
STICHWORTVERZEICHNIS
Hilfe- . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Information-Retrieval- . . . . . . . . . . . . . . 12
Informations- . . . . . . . . . . . . . . . . 2, 10–11
intelligentes . . . . . . . . . . . . . . . . . . . . . . . 9
Keyword-Spotting- . . . . . . . . . . . . . . . . . 14
Knowledge-Based . . . . . . . . . . . . . . . . . 10
NLIDB- . . . . . . . . . . . . . . . . . . . . . . 14–15
OLAP- . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Pattern-Matching- . . . . . . . . . . . . . . . . . . 14
syntaxbasiertes . . . . . . . . . . . . . . . . . 14–15
Tutor- . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Web-Retrieval- . . . . . . . . . . . . . . . . . . . . 12
wissensbasiertes . . . . . . . . . . . . . . . . . . . 10
Query-by-Template . . . . . . . . . . . . . . . . .13, 16
QUEST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .40
QUESTUS-KDD . . . . . . . . . . . . . . . . . . . . . . .3
-Ansatz . . . . . . . . . . . . . . . . . .3, 41, 51, 103
-Begriffsmodell . . . . . . . . . . . . . . . . . . . .46
Realisierung . . . . . . . . . . . . . . . . . . . . . .105
-Verarbeitungsmodell . . . . . . . . . . . . . . .43
R
Redundanzfreiheit . . . . . . . . . . . .119–120, 125
REL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15
REX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .25
RISQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13
T
S
Satzradikalmethode . . . . . . . . . . . . . . . . . . . .33
SAVVY . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14
Scheinfragesätze . . . . . . . . . . . . . . . . . . . . . . .32
SDM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13
Semantik
funktionale Theorie . . . . . . . . . . . . . . . . .35
propositionale Theorie . . . . . . . . . . . .36–37
von Fragen . . . . . . . . . . . . . . . . . . . . . . . .34
exhaustive . . . . . . . . . . . . . . . . . . . . .38
nicht-exhaustive . . . . . . . . . . . . . . . .38
SEMMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . .24
SETUP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .26
SigmaStat . . . . . . . . . . . . . . . . . . . . . . . . . . . .26
Signifikanzniveau . . . . . . . . . . . . . . . . . . .78, 82
Smartkom . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2
SmartKom-Projekt . . . . . . . . . . . . . . . . . . . . .10
Sprechakt . . . . . . . . . . . . . . . . . . . . . . . . . . . .35
SQL . . . . . . . . . . . . . . . . . . . . . . . . . .13, 15–16
SQL-Standard . . . . . . . . . . . . . . . . . . . . . . . . .13
Statex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .26
STATIBOT . . . . . . . . . . . . . . . . . . . . . . . . . .26
Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .25
StatLog-Projekt . . . . . . . . . . . . . . . . . . . .26, 28
Student’s t-Test . . . . . . . . . . . . . . . . . . . .78–79
Support . . . . . . . . . . . . . . . . . . . . .19, 89, 92, 99
System
Analyse- . . . . . . . . . . . . . . . . . . . . . . . . . .26
Anfrage- . . . . . . . . . . . . . . . . . . . .11, 13–15
Assistenz- . . . . . . . . . . . . . . . . . . . . .25, 27
Beratungs- . . . . . . . . . . . . . . . . . . . . .12, 26
Data-Mining- . . . . . . . . . . . . . . . . . . . . . .28
Datenbank- . . . . . . . . . . . . .13–14, 28, 183
Experten- . . . . . . . . . . . . . . . . . . . . . .14, 26
statistisches . . . . . . . . . . . . . . . . . . . .25
Frage-und-Antwort- . . . . . . . . . . . . . . . . .12
Text Retrieval . . . . . . . . . . . . . . . . . . . . . . . . 12
Textverstehen . . . . . . . . . . . . . . . . . . . . . . . . 39
Transparenz . . . . . . . . . . . . . . . . . . . . . . . . . . 41
t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78–79
TypDeskriptiv . . . . . . . . . . . . . . . . . . . . . . . . 58
TypKomplex . . . . . . . . . . . . . . . . . . . . . . . . . 59
TypKonfirmativ . . . . . . . . . . . . . . . . . . . . . . 57
U
UGM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22–23
Unterschied . . . . . . . . . . . . . . . . . . . . . . . 62, 77
User Guidance Module . . . . . . . . . . . . . . . . . 22
V
Variablenbereich . . . . . . . . . . . . . . . . . . . . . . 59
Veränderung . . . . . . . . . . . . . . . . . . . . . . 63, 79
Vollständigkeit . . . . . . . . . . . . . . 118, 120, 122
W
W3C-Schema . . . . . . . . . . . . . . . . . . . . . . . . 53
Wartbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . 120
Welt
konversationelle . . . . . . . . . . . . . . . . . . . 11
Modell- . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Wenn-Dann-Regeln . . . . . . . . . . . . . . . . 97–98
W-Frage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Wissen
allgemeines . . . . . . . . . . . . . . . . . . . . . . . 47
anwender-, unternehmensspezifisches . . 47
domänenspezifisches . . . . . . . . . . . . 47, 93
Spezialisierungsebenen . . . . . . . . . . 47, 54
STICHWORTVERZEICHNIS
über Antworten . . . . . . . . . . . . . . . . . . . .49
über Daten . . . . . . . . . . . . . . . . . . . . . . . .49
über Fragen . . . . . . . . . . . . . . . . . . . . . . .48
über Konzepte . . . . . . . . . . . . . . . . . . . . .48
über Methoden und Algorithmen . . . . . .48
Wissensbasis . . . . . . . . . . . . . . . . . . . . . . .42, 46–49
defizit . . . . . . . . . . . . . . . . . . . . . . . . . . . .40
elemente . . . . . . . . . . . . . . . . . . . . . . . . . .38
entdeckung . . . . . . . . . . . . . . . . . . . . . . . .31
erwerb . . . . . . . . . . . . . . . . . . . . . . . .38, 43
kontext . . . . . . . . . . . . . . . . . . . . . . . . . . .43
lücke . . . . . . . . . . . . . . . . . . . . . . . . . . . .40
ziele . . . . . . . . . . . . . . . . . . . . . . .38–39, 43
X
XML . . . . . . . . . . . . . . . . . . . . . . . .53, 111, 113
Z
Zusammenhang . . . . . . . . . . . . . . . . . . . .62, 76
187
188
STICHWORTVERZEICHNIS
LEBENSLAUF
Name:
Adresse:
Oliver Mathias Johannes Hogl
Kirchenweg 47, 90419 Nürnberg
Geburtsdatum:
Geburtsort:
Familienstand:
Staatsangehörigkeit:
1. August 1970
Pfaffenhofen
ledig
deutsch
Schulbildung:
1977 - 1981
1981 - 1990
Zivildienst:
1990 - 1991
Studium:
1991 - 1998
Berufstätigkeit:
1998-2002
ab 2003
Knabengrundschule Pfaffenhofen
Schyrengymnasium Pfaffenhofen
Abschluss: Allgemeine Hochschulreife
Sonderschule für geistig behinderte Kinder, Pfaffenhofen
Friedrich-Alexander-Universität Erlangen-Nürnberg
University of Warwick, Coventry, Großbritannien
Abschluss: Diplom-Informatiker Univ.
Studienfach:
Informatik
Vertiefungsrichtungen: Künstliche Intelligenz
Mustererkennung
Kommunikationssysteme
Nebenfach:
Medizinische Informationsverarbeitung
wissenschaftlicher Mitarbeiter in der Forschungsgruppe
Wissenserwerb am Bayerischen Forschungszentrum für
Wissensbasierte Systme (FORWISS)
Leiter verschiedener Projekte in den Bereichen Data Mining,
Wissensbasierte Assistenzsysteme und Wissensmanagement
Projektconsultant bei amball business-software, Nürnberg
Herunterladen