Vorlage für Bachelor-, Master- oder Diplom-Arbeiten

Werbung
Fakultät für Wirtschaftswissenschaften
Diplomarbeit
Klassifikation von Ad-Hoc-Meldungen
Abschlussarbeit zur Erlangung des Grades eines
Diplom-Wirtschaftsinformatiker/in (FH)
in Wirtschaftsinformatik
der Hochschule Wismar
eingereicht von:
Martina Maria Pointner
geboren am 06. März 1978 in Wasserburg am Inn
Studiengang Wirtschaftsinformatik
Matrikelnummer:
114705
Erstgutachter:
Prof. Dr. rer. pol. Jan Helmke
Zweitgutachter:
Prof. Dr. rer. nat. Jürgen Cleve
Maitenbeth, den 29. September 2015
Inhaltsverzeichnis
I.
ABBILDUNGSVERZEICHNIS ............................................................................................................... III
II.
TABELLENVERZEICHNIS ................................................................................................................... IV
III.
ABKÜRZUNGSVERZEICHNIS ..........................................................................................................V
1
EINLEITUNG ............................................................................................................................................. 1
2
GRUNDLAGEN .......................................................................................................................................... 3
2.1
AD-HOC-MELDUNG .................................................................................................................................. 3
2.2
ANALYSEN ................................................................................................................................................ 4
2.2.1
Analysen zur Prognose der Richtungstendenz von Kursen ............................................................. 4
2.2.2
Analysen zu Textklassifikatoren ...................................................................................................... 6
2.3
3
4
TEXT MINING ..........................................................................................................................................11
3.1
DEFINITION...............................................................................................................................................11
3.2
TEXT MINING EINSATZMÖGLICHKEITEN ..................................................................................................12
3.3
TEXT MINING PROZESS ............................................................................................................................13
3.4
TEXTKLASSIFIKATION ..............................................................................................................................16
3.4.1
Dokumentenaufbereitung ...............................................................................................................18
3.4.2
Textklassifikatoren Algorithmen.....................................................................................................21
3.4.3
Bewertung des Textklassifikationsergebnisses ...............................................................................23
KLASSIFIZIERUNG DER AD-HOC-MELDUNG ................................................................................26
4.1
PRÄMISSEN FÜR DIE TEXTKLASSIFIKATION ..............................................................................................26
4.2
KLASSIFIZIERUNG MITTELS EREIGNISSTUDIE ...........................................................................................27
4.2.1
Vorgehensweise ..............................................................................................................................28
4.2.2
Problemstellungen bei der Durchführung von Ereignisstudien .....................................................30
4.2.3
Durchführung .................................................................................................................................31
4.2.4
Ergebnis .........................................................................................................................................32
4.3
5
KLASSIFIZIERUNG MITTELS DER KURSENTWICKLUNG AM EREIGNISTAG ..................................................34
4.3.1
Durchführung .................................................................................................................................34
4.3.2
Ergebnis .........................................................................................................................................35
TEXTKLASSIFIKATION ........................................................................................................................36
5.1
DATEN ......................................................................................................................................................36
5.1.1
Datengewinnung ............................................................................................................................36
5.1.2
Datenbeschreibung ........................................................................................................................37
5.1.3
Datenstruktur .................................................................................................................................39
5.2
-
FINANZMARKTFORSCHUNG ....................................................................................................................... 9
DURCHFÜHRUNG ......................................................................................................................................43
5.2.1
Dokumentenaufbereitung ...............................................................................................................43
5.2.2
Klassifikation und Klassifikationsergebnis ....................................................................................47
–I–
6
EVALUATION........................................................................................................................................... 51
6.1
BEWERTUNG DER ERGEBNISSE................................................................................................................. 51
6.2
ERKENNTNISSE......................................................................................................................................... 53
6.2.1
Fachliche Erkenntnisse .................................................................................................................. 53
6.2.2
Technische Erkenntnisse ................................................................................................................ 54
6.3
ZUSAMMENFASSUNG UND AUSBLICK....................................................................................................... 56
LITERATUR ....................................................................................................................................................... 58
EHRENWÖRTLICHE ERKLÄRUNG ............................................................................................................... I
-
– II –
I.
Abbildungsverzeichnis
Abbildung 1:Vergleich von Klassifikatoren, Quelle: [FBG06], S.31. .....................................................7
Abbildung 2: Text Mining Prozess, Quelle: [HR06], S.288. .................................................................13
Abbildung 3: Text Mining Prozess und Datenbankstruktur, Quelle: [HQW12], S.6. ............................15
Abbildung 4: Generic strategy fort ext classification, Quelle: [DZ11], S.38. ........................................17
Abbildung 5: Effektivste Klassifikationsverfahren, Quelle: [Run10], S.89. ..........................................21
Abbildung 6: Umfang von Schätz- und Ereignisfenster, Quelle: Clement et al. [CFG07], S. 423. .......29
Abbildung 7: Datenbankstruktur, Quelle: eigene Darstellung ...............................................................41
Abbildung 8: Auszug aus der Tabelle SYNONYM_LISTE, Quelle: eigene Darstellung. ....................45
Abbildung 9: Mehrfachbedeutungen, Quelle: eigene Darstellung. ........................................................45
Abbildung 10: Verlinkung von Stopp- und Synonymliste, Quelle: eigene Darstellung. .......................46
Abbildung 11: Ausschnitt aus einer ARFF Datei, Quelle: eigene Darstellung ......................................47
Abbildung 12: Konzernergebnis in Tabellenform: eigene Darstellung. .................................................53
-
– III –
II.
Tabellenverzeichnis
Tabelle 1: deutschsprachige Ad-Hoc-Meldungen.................................................................................. 27
Tabelle 2: Ad-Hoc-Meldungen Ereignisstudie. ..................................................................................... 33
Tabelle 3: Klassifizierungsergebnis Ereignisstudie, drei Klassen. ........................................................ 33
Tabelle 4: Klassifizierungsergebnis Marktreaktion, drei Klassen. ........................................................ 35
Tabelle 5: Datenbasis. ............................................................................................................................ 37
Tabelle 6: Ad-Hoc-Meldungen Klassifizierung aufgrund Marktreaktion. ............................................ 38
Tabelle 7: Ad-Hoc-Meldungen Marktreaktion sortiert nach Index. ...................................................... 38
Tabelle 8: Ad-Hoc-Meldungen Marktreaktion sortiert nach Jahr. ......................................................... 39
Tabelle 9: Ad-Hoc-Meldungen Klassifikationsergebnis im Vergleich.. ................................................ 48
Tabelle 10: Klassifikationsergebnis. ...................................................................................................... 50
-
– IV –
III.
Abkürzungsverzeichnis
Abkürzung
Bedeutung
ARFF
Attribute-Relation File Format
BaFin
Bundesanstalt für Finanzdienstleistungsaufsicht
CDAX
Composite DAX
DGAP
Deutsche Gesellschaft für Ad-Hoc-Publizität
DML
Data Manipulation Language
LSI
Latent Semantic Indexing
NLP
Natural Language Processing
SQL
Structured Query Language
TF
term frequency
TF-IDF
term frequency - inverse document frequence
WpHG
Wertpapierhandelsgesetz
Xetra
Exchange Electronic Trading
-
–V–
-
– VI –
1 Einleitung
Ad-Hoc-Meldungen beinhalten Insiderinformationen, die sich auf ein konkretes Wertpapier
beziehen, welche bei Veröffentlichung möglicherweise eine positive oder negative
Kurswirkung verursachen. Aufgrund der Informationswirkung, die von Ad-Hoc-Meldungen
ausgeht, sind sie Gegenstand vieler Untersuchungen. Obwohl ihre Informationswirkung in
zahlreichen Studien bewiesen ist, gestaltet sich die inhaltliche Bewertung und damit die
Festlegung der Richtungstendenz ihrer Kurswirkung als schwierig. Bereits Analysten sind
uneins über die Deutung von Unternehmensberichten, was sich in den unterschiedlichen
Erwartungshaltungen in den veröffentlichten Analysen wiederspiegelt. Somit stellt die
Bewertung von Ad-Hoc-Meldungen nicht nur für den Börsenlaien sondern auch für den
institutionellen Anleger eine schwierige Aufgabe dar.
Forschungsrichtungen, die sich sowohl mit dem Text Mining als auch mit der Finanzwirtschaft
beschäftigten, sehen im Text Mining eine geeignete softwaretechnische Methode zur Prognose
von Aktienkursen und Indices. Dabei wirkt sich der Einsatz einer maschinellen
Textklassifizierung nicht nur zeitsparend aus, sondern wirkt zudem positiv unterstützend bei
der Bewertungsanalyse.
Diese Arbeit soll einen Überblick über den aktuellen Forschungsstand zur Prognose der
Richtungstendenz von Börsenkursen durch die Textklassifikation von unstrukturierten Daten
wie Ad-Hoc-Meldungen vermitteln. Zudem soll ein Prototyp entstehen, welcher die
Meldungen in positive, negative und neutrale Dokumente hinsichtlich der Kurswirkung
klassifiziert. Des Weiteren wird eine binäre Klassifikation in die Klassen positiv und negativ
durchgeführt. Dabei sollen mehrere Textklassifikatoren getestet und im Ergebnis miteinander
verglichen werden, nachdem in der Literatur hinsichtlich des Textklassifikator keine
einheitliche Empfehlung existiert.
Ziel der Studie ist die bestmögliche Vorhersage des Börsentrends durch das
Klassifikationsergebnis. Aus dem Ergebnis können Schlüsse auf die zu erwartende
Richtungstendenz der Kursreaktion einer Aktie gezogen werden. Eine Prognose, die durch ein
Softwaresystem erstellt wird, ist für Privat- und institutionelle Anleger von großem Nutzen.
Marktteilnehmern, die auf Ad-Hoc-Meldungen reagieren, bleibt kaum Zeit zur Bewertung, da
die Meldungen nach Veröffentlichung unmittelbar dem Markt zur Verfügung stehen.
Ein gutes Textklassifikationsergebnis setzt voraus, dass dem Klassifikator für die
Kategorisierung treffende Merkmalsbeschreibungen zu den entsprechenden Klassen vorliegen.
Diese Informationen erlauben dem Algorithmus Muster herauszuarbeiten, die die Unterschiede
der Klassen verdeutlichen und damit die nachfolgende Klassifizierung von neuen unbekannten
Dokumenten ermöglichen. In Studien wird die Einteilung der Trainingsdaten in Klassen kaum
erwähnt, obwohl dies einen der wichtigsten Schritte der Textklassifikation darstellt. Im
Rahmen dieser Arbeit sollen zudem zwei unterschiedliche Vorgehen zur Klassifikation der
Trainingsdaten vorgestellt und verglichen werden: die Klassifikation mittels Ereignisstudie und
der ermittelten abnormalen Rendite und aufgrund der Marktpreisentwicklung des Wertpapiers,
die am Veröffentlichungstag der Information erzielt wurde. Von Interesse ist hier, ob sich das
–1–
Verfahren mithilfe der Marktpreisentwicklung eignet, nachdem dieses Vorgehen gegenüber der
Ereignisstudie Kosten und Zeit spart.
Das Kapitel Grundlagen führt in das Thema der Textklassifikation von Ad-Hoc-Meldungen
ein. Als erstes erfolgt eine Beschreibung der zu untersuchenden Quellen, den
Ad-Hoc-Meldungen, die aufgrund ihrer Informationswirkung Gegenstand vieler Untersuchgen
sind. Im Anschluss werden Studien vorgestellt, die sich mit der Prognose der Richtungstendenz
von Börsenkursen beschäftigen. Hierbei kommt die Analyse von unstrukturierten Daten wie
Ad-Hoc-Meldungen durch Text Mining zum Einsatz. Anschließend folgen Untersuchungen zur
Textklassifikation und ein kurzer Überblick über die Finanzmarktforschung und der
Effizienzmarkthypothese, welche hauptsächlich durch Eugene Fama geprägt wurde. Letztere
erklärt die Kurswirkung die von Insiderinformationen wie der Ad-Hoc-Meldung ausgeht.
Im darauffolgenden Kapitel folgt eine Einführung in die Text Mining Methode. Dabei werden
die Einsatzmöglichkeiten vorgestellt und näher auf die Fachrichtung Textklassifikation
eingegangen.
Für die Textklassifikation sind kategorisierte Trainings- und Testdaten notwendig. Dabei
werden zwei Vorgehen eingesetzt, die am Ende der Untersuchung miteinander verglichen
werden. Dieser Abschnitt stellt diese vor und bereitet die Ergebnisse hierzu auf.
Das nächste Kapitel befasst sich mit der Durchführung der Textklassifikation und verwendet
die kategorisierten Trainings- und Testdaten aus dem vorherigen Abschnitt. Weiterhin erfolgt
eine Beschreibung der verwendeten Daten und über das konkrete Vorgehen. Dabei zeigt es auf,
wie die Daten gewonnen und für die Analyseprozesse aufbereitet werden.
Abschließend erfolgen die Beurteilung der Ergebnisse, eine Zusammenfassung und ein
Ausblick auf künftige Weiterentwicklungsmöglichkeiten.
–2–
2 Grundlagen
Dieses Kapitel beginnt mit der Beschreibung der Ad-Hoc-Meldung, die Gegenstand dieser
Untersuchung ist. Des Weiteren folgen Studien, die sich mit der Prognose von Börsentrends
mittels Textklassifikation von unstrukturierten Daten wie Ad-Hoc-Meldungen beschäftigen.
Zudem werden Untersuchungen zur Textklassifikation vorgestellt, die unter anderem
erforschen, welcher Klassifikator das beste Klassifikationsergebnis hervorbringt. Abschließend
wird kurz die Effizienzmarkthypothese vorgestellt, welche erklärt, wieso neue unbekannte
Informationen zu einem neuen Marktgewicht führen.
2.1 Ad-Hoc-Meldung
Der Öffentlichkeit unbekannte, neue Informationen, die sich auf den Inlandsemittenten eines
Insiderpapiers beziehen und beim öffentlichen Bekanntwerden den Börsenkurs des Emittenten
beeinflussen könnten, stellen laut dem §13 Wertpapierhandelsgesetz (WpHG) eine
Insiderinformation dar. Laut §14 WpHG dürfen diese nicht dazu genutzt werden, den
Informationsvorsprung gegenüber Nichtinformierten zu nutzen, indem aufgrund der zu
erwartenden Reaktion bei Veröffentlichung der Information das Insiderpapier gekauft bzw.
verkauft wird. Ebenfalls darf die Information nicht an Dritte weitergereicht werden. Laut §15
ist der Emittent dazu verpflichtet, eigens betreffende Insiderinformationen unverzüglich zu
veröffentlichen. Die Ad hoc-Publizität hat damit das Ziel, den Markt transparenter zu gestalten
und Marktmanipulationen und Insidergeschäfte zu unterbinden. Unter anderem sind laut
Emittentenleitfaden 2013 der Bundesanstalt für Finanzdienstleistungsaufsicht (BaFin) AdHoc-Meldungen kurz zu fassen und dürfen zudem nicht als Werbefläche genutzt werden.
([BAFIN], S. 63)
Insider sollen damit nicht die Möglichkeit haben, Insiderinformationen zu ihrem Vorteil zu
nutzen. Auch sollen insbesondere Anleger vor Falschinformationen geschützt werden.
Die Bekanntmachung von Insiderinformationen führt aufgrund der mittelstrengen
Informationseffizienz zu einer Verarbeitung der neuen Information durch die Marktakteure, bis
die neue Information durch den Markt verarbeitet ist und sich ein neues Kursgleichgewicht
einstellt. Die Ad-Hoc-Meldung als Insiderinformation stellt ein solches Ereignis dar und führt
unweigerlich zu Kursreaktionen, sofern die Meldung nicht vor der Veröffentlichung durch den
Markt antizipiert werden kann. Ad-Hoc-Meldungen enthalten beispielsweise Informationen zu
Personalveränderungen, Quartalsberichten, Kooperationen oder Jahresberichten. Eine
Aufstellung zur erreichten abnormalen Rendite am Ereignistag und der entsprechenden
Informationsklasse findet sich in einer Studie von Oerke. So verursachen beispielsweise
negative Quartalsberichte die stärkste Kursreaktion ([Oer99], S. 137).
Nachdem Ad-Hoc-Meldungen erst seit Januar 1999 im Internet bzw. im Videotext
veröffentlicht werden, können auch Privatanleger ohne Kosten für die
Informationsbeschaffung die neue Information gleichzeitig mit institutionellen Anlegern
einsehen. ([Röd99], S. 375). Durch die zeitgleiche Verbreitung der Insiderinformation an alle
Marktakteure sinkt der Informationsvorsprung und die Ertragsmöglichkeiten derer, die vorher
einen exklusiven Zugang zu dieser Information hatten. Dies führt zu einer schnelleren
–3–
Marktanpassung durch alle Marktakteure. Jedoch unterscheiden sich die professionellen
Anleger hinsichtlich der besseren inhaltlichen Auswertung der entsprechenden Meldung
([Oer99], S. 17)
Eine zeitnahe Analyse der Ad-Hoc-Meldung hinsichtlich der Richtungstendenz ihrer
Kurswirkung verspricht eine schnellere Informationsverarbeitung und damit einen möglichen
Informationsvorsprung gegenüber anderen Marktteilnehmern. Daher wird in zahlreichen
Studien ([Röd99], [Oer99]) untersucht, welche Inhalte zu welchen Kursreaktionen führen und
wie lange die Informationsverarbeitung andauert. Aufgrund der vielen Untersuchungen
bezüglich Ad-Hoc-Meldungen wird ersichtlich, welch großes Potential die
Kapitalmarktforschung sowie die Marktteilnehmer in der Analyse dieser vermuten.
Ebenfalls wird versucht, die Kurswirkung der Ad-Hoc-Meldungen nicht durch Experten zu
bestimmen, sondern die Bewertung des neuen Ereignisses durch geeignete Softwaremethoden
zu ersetzen, um damit die Informationsverarbeitung wesentlich zu beschleunigen.
Untersuchungen hierzu werden im nächsten Kapitel vorgestellt. Sie befassen sich mit der
Prognose von Börsentrends sowie mit der Textklassifikation.
2.2 Analysen
Die Textklassifikation von Ad-Hoc-Meldungen vereint unterschiedliche Fachrichtungen,
wodurch eine Betrachtung von Studien zum Thema Prognose der Richtungstendenz von
Börsenkursen mittels softwaretechnischer Methoden sowie zur Methode selbst notwendig
werden. Nachfolgend werden deshalb Studien zur Prognose der Richtungstendenz von
Börsenkursen aufgrund von unstrukturierten Daten wie Ad-Hoc-Meldungen oder Presseartikel
vorgestellt. Des Weiteren folgen Forschungsarbeiten zum Thema Textklassifikation, da eine
Vielzahl von Textalgorithmen existiert, sich aber kein konkreter Algorithmus einvernehmlich
in der Literatur durchgesetzt hat. Die Textklassifikation als Text Mining Methode erlaubt die
maschinelle Klassifikation von unstrukturierten Daten in beispielsweise positive und negative
Nachrichten und stellt damit die Basis für die Vorhersage des Börsentrends aufgrund des
Klassifikationsergebnisses dar.
2.2.1 Analysen zur Prognose der Richtungstendenz von Kursen
Die Textklassifikation von unstrukturierten Daten wie Ad-Hoc-Meldungen oder online
veröffentlichten Presseartikeln, die eine Text Mining Methode darstellt, wird mitunter im
Finanzbereich für die Vorhersage von Aktienkursen bzw. zur Prognose der Richtungstendenz
des Marktpreises verwendet.
Als eine der ersten Arbeiten in Bezug auf die Indexvorhersage aufgrund der Analyse von
unstrukturierten Daten mittels Text Mining gilt die Arbeit der Autoren Wüthrich et al. aus dem
Jahre 1998 ([HLN13] S. 687, [MSG12] S. 6). Sie versuchten anhand im Internet
veröffentlichter Börseninformationen und Pressemitteilungen die Entwicklung der
Aktienindices Dow Jones Industrial Average (Dow), Nikkei 225 (Nky), Financial Times 100
Index (Ftse), des Hang Seng Index (His) und des Singapore Straits Index (Sti) vorherzusagen.
Dabei wurden namhafte Internetquellen wie Reuters oder das Wall Street Journal verwendet,
–4–
in der Annahme, dass deren Veröffentlichungen aufgrund der qualitativ hochwertigen Texte
einen großen Einfluss auf die Marktgeschehnisse haben. Für die Analyse wurde eine
Startwortliste, die Keywords bzw. Wortsequenzen wie „bond strong“ oder „property weak“
enthielten, verwendet. Diese wurden für jedes Dokument gezählt und entsprechend gewichtet.
Darauf aufbauend erfolgte die Erstellung der Wahrscheinlichkeitsregeln nach früheren Werken
von Wüthrich. Für alle Indices wurde eine durchschnittliche Genauigkeit von 43,65 % erreicht.
In einer Handelssimulation über drei und zwölf Monate erreichten die Autoren sogar bessere
Ergebnisse als viele Fondmanager über den gleichen Zeitraum und übertrafen zudem die
Indexentwicklung selbst ([WCL98], S. 1 ff.).
Die Autoren Schulz, Spiliopoulou und Winkler versuchten mittels Text Mining Methoden der
Software SAS Enterprise Miner Ad-Hoc-Meldungen zu klassifizieren. Künftige Ad-HocMeldungen sollten automatisch als kursrelevant bzw. kursirrelevant eingestuft werden. Somit
könnten sich Manager auf die Analyse der relevanten Teilmenge aller veröffentlichten Ad-HocMeldungen konzentrieren. Die Datenbasis beschränkte sich bei dieser Untersuchung auf AdHoc-Meldungen von Unternehmen, welche während des Untersuchungszeitraums im DAX100
gelistet wurden und im Zeitraum von 01.01.1999 bis 31.12.2002 Meldungen veröffentlichten
([SSW03a], S.1). Die ursprüngliche Datenbasis von 2.314 Ad-Hoc-Meldungen verringert sich
aufgrund der für die Ereignisstudie geeigneten Meldungen auf 1.460 Meldungen. Dabei dient
die Ereignisstudie zur Feststellung der Kursrelevanz, die Meldungen gliedern sich in 235
positive, 161 negative sowie 1.064 kursirrelevante Ad-Hoc-Meldungen ([SSW03a], S. 13). Das
Ergebnis des Text Mining-Prozesses führte nicht zu der gewünschten automatisierten
Selektion. Der durchschnittliche Klassifikationsfehler lag bei 59 %. Die Autoren kommen zu
dem Schluss, dass möglicherweise irrelevante Informationen oder Werbung die Ursache für
das schlechte Klassifikationsergebnis ist. Ebenso werden negative Ad-Hoc-Meldungen positiv
verfasst. Dies erschwert nicht nur dem geübten Leser eine korrekte Klassifikation, sondern
stellt auch institutionelle Anleger vor Probleme. Zudem merken die Autoren an, dass mit dem
Einsatz von Synonymlisten bzw. einer Startwortliste anstatt einer Stoppwortliste das
Klassifikationsergebnis möglicherweise verbessert werden könnte ([SSW03a], S. 17 f.).
Groth und Muntermann stellten 2008 ebenfalls eine Studie zur Klassifikation von Ad-HocMeldungen vor. Dabei untersuchten sie 160 Ad-Hoc-Meldungen aus dem Zeitraum 01.08.2003
bis 31.08.2004. Die Autoren stellten bereits in einer früheren Intraday Ereignisstudie zu AdHoc-Meldungen fest, dass nur „Financial Statements“ wie Jahres-, Quartalsberichte oder
Dividendenankündigungen zu einer kontinuierlichen Preisreaktion nach der Veröffentlichung
führen. Deshalb nutzten die Autoren zur Vorselektion der Ad-Hoc-Meldungen eine
Klassifikation, welche die Ad-Hoc-Meldungen entsprechend aufgrund manuell erstellter
Trainingsdaten als „Financial Statements“ kennzeichnete. Darauf aufbauend wurden zwei
weitere Klassifikatoren eingesetzt, welche die Ad-Hoc-Meldungen in positive bzw. negative
Kursreaktion einteilen, die im Ergebnis verglichen werden sollten. Ein Klassifikator arbeitet
mit der Teilmenge „Financial Statements“, der zweite mit allen Daten ([GM08], S. 2 ff.).
–5–
Im Ergebnis zeigt sich, dass der Klassifikator zur Vorselektion eine Genauigkeit von max.
94,38% erreicht. Bei der Klassifizierung der Meldungen in positive bzw. negative Ad-HocMeldungen erzielte die Klassifizierung mittels SVM auf der Teilmenge „Financial Statements“
eine Genauigkeit bis zu 70% und erzielt damit ein besseres Ergebnis als der Klassifikator,
welcher auf der gesamten Datenmenge arbeitet. Die Autoren empfehlen daher vor der
Klassifikation eine Vorselektion zu erzeugen, welche die relevanten Meldungen hinsichtlich
ihrer Kurswirkung eingrenzt und diese Teilmenge im nächsten Schritt der eigentlichen
Klassifikation in positive wie negative Ad-Hoc-Meldungen zu untergliedern ([GM08], S. 8f).
Die Autoren Hagenau et al. verwenden für die Klassifizierung bei Veröffentlichung während
der Börsenzeiten die Differenz von Eröffnungskurs und Schlusskurs, eine Veröffentlichung
außerhalb der Börsenzeiten führ zur Berechnung Eröffnungskurs am nächsten Tag minus
Schlusskurs ([HLN13], S. 690 f.).
Dabei wurden 10.870 Ad-Hoc-Meldungen von der DGAP (Deutsche Gesellschaft für Ad-HocPublizität) und 3478 Ad-Hoc-Meldungen untersucht, die mitunter nicht deutschsprachige
Meldungen enthielten. Für die Klassifizierung der Trainings- bzw. Testdaten verwendeten sie
bei Veröffentlichung der Nachricht während der Börsenzeiten die Differenz von Schlusskurs
und Eröffnungskurs. Veröffentlichungen außerhalb der Börsenzeiten führten zur Berechnung
des Eröffnungskurses am nächsten Tag abzüglich Schlusskurs vor Veröffentlichung. Hagenau
et al. erreichten mit dem Textklassifikator Support Vektor Maschine und 2-Wort Kombination
eine Genauigkeit bis zu 76% ([HLN13],690 ff.).
Einen Überblick über wissenschaftliche Veröffentlichungen zum Thema Aktienprognose
mittels Text Mining Methoden vermitteln die Autoren Hagenau et al. ([HLN13], S. 686).
2.2.2 Analysen zu Textklassifikatoren
In der Literatur wird die Selektion des Algorithmus für die Textklassifikation kontrovers
diskutiert. Es existiert keine einhellige Meinung darüber, welcher Algorithmus am Besten für
die Textklassifizierung geeignet ist.
Sebastiani stellt Textklassifikationsergebnisse aus Studien von 1992 bis 2000 gegenüber,
welche die gleichen Datenbasen verwendeten. Zu den besten Klassifikatoren zählen hier
AdaBoost (commitee), SVM, Example-based (k-NN) und Regression, gefolgt von Neural
Network und Decision Rules. Die schlechtesten Ergebnisse erzielten Naive Bayes und Rocchio.
Bei der Betrachtung der Ergebnisse muss in Erwägung gezogen werden, dass die Studien nicht
vergleichbar sind, obwohl die gleichen Datenbasen verwendet wurden. Dies liegt zum einen an
den unterschiedlichen Präferenzen bei der Datenvorverarbeitung der Autoren, zum anderen
können unterschiedliche Aufteilungen von Test- und Trainingsdaten zu anderen
Klassifikationsergebnissen führen ([Seb02], S. 44 ff.).
In einem Arbeitspapier von Felden et al., welche eine Vielzahl von Textklassifikatoren
untersuchen, erreichten die wahrscheinlichkeitsbasierten Verfahren die besten Ergebnisse. Die
Datenbasis stellte eine zufällige Auswahl von 1300 Quellen aus dem Internet dar. Dabei wurden
–6–
alle gelisteten Klassifikatoren in der nachfolgenden Abbildung mit der selben Aufteilung von
Trainings- und Testdaten in neun Klassifikationsläufen bewertet. Die Klassifikationsläufe
unterschieden sich lediglich in der Vorverarbeitung der Wortliste. So wurden im ersten
Durchlauf Stoppwörter gelöscht, nur deutsche Zeichen betrachtet, Wörter mit einer
Worthäufigkeit von 1 gelöscht und eine Rückführung auf Wortstämme durchgeführt. Im
zweiten Durchgang wurden die gleichen Vorarbeiten wie im ersten Durchlauf und einer
Löschung der oberen 5% der Verteilungskurve durchgeführt. In den nächsten Schritten wurde
stufenweise auf Prozessschritte verzichtet, sodass der letzte Lauf ohne Vorverarbeitung und
damit einer unveränderten Wortliste durchgeführt wurde. Die Klassifikationsergebnisse der
unterschiedlichen Durchläufe bestätigten damit, wie sehr sich die Dokumentenaufbereitung auf
die Ergebnisse auswirkt ([FBG06], S.12 ff.).
Abbildung 1:Vergleich von Klassifikatoren, Quelle: [FBG06], S.31.
–7–
In einer Studie der Autoren Ting et al., die die Algorithmen Naive Bayes Klassifikator, Support
Vektor Maschine, Entscheidungsbaum und Neural Network verglichen, erzielte der Naive
Bayes Klassifikator das beste Klassifikationsergebnis. Ein ähnlich gutes Ergebnis erreichte der
Klassifikator Support Vektor Maschine. Die Autoren vertreten die Ansicht, dass die
Vorverarbeitung der Daten einen entscheidenden Einfluss auf das Klassifikationsergebnis
haben. Insbesondere merken sie an, dass unterschiedliche Kombinationen von Algorithmen
hinsichtlich der Merkmalsselektion und Klassifikation zu besseren Ergebnissen führen könnten
([TIT11], S. 42f.). Auch lassen sich Textklassifikationsergebnisse im Finanzbereich nicht
miteinander vergleichen. So bemängeln die Autoren Hagenau et al. die Aussagekraft bzw. die
Vergleichbarkeit der Klassifikationsergebnisse bei Studien zur Vorhersage von Aktienkursen.
Dies sei zum einen darauf zurückzuführen, dass die untersuchten Daten nicht verfügbar seien
und zum anderen die verwendeten Methoden nicht klar aufgezeigt würden. In einer von den
Autoren veröffentlichten Tabelle werden ausgewählte Studien und deren Text Mining
Methoden zum Thema Aktienvorhersage vorgestellt ([HLN13], S. 686). Hieraus ist ersichtlich,
dass
Wissenschaftler
für
die
Textklassifikation
ebenfalls
unterschiedliche
Klassifikationsvarianten wählten, obwohl ähnliche oder gleiche Datenbasen zugrunde lagen.
Meist wurde die Support Vektor Maschine verwendet.
In einer Abbildung der Autorin Khorasgani werden unterschiedliche Datenquellen und deren
Klassifikationsergebnisse dargestellt. Das beste Klassifikationsergebnis erzielte dabei
durchgehend der Bayesian Network Klassifikator, je nach Datenquelle variierte die erreichte
korrekte Zuordnung ein Ergebnis zwischen 47,11% und 97,2%. ([Kho], S. 2). Obwohl die
Tests vom gleichen Autor durchgeführt und damit höchstwahrscheinlich für alle Datenquellen
und Klassifikationsläufe die gleichen Text Mining Schritte durchlaufen wurden, wird
ersichtlich, welch großen Einfluss die Datenquelle an sich an das Klassifikationsergebnis hat.
Ein Klassifikationsvergleich über Studien hinweg ist somit nicht zielführend, da
unterschiedliche Datenquellen zu großen Einfluss auf das Ergebnis haben können, wodurch
keine korrekte Interpretation mehr möglich wird.
Die genannten Studien lassen darauf schließen, dass keine konkrete Empfehlung für einen
Textklassifikator ausgesprochen werden kann.
Studien zeigen hinsichtlich ihrer
Klassifikationsergebnisse zu gleichen Klassifikatoren widersprüchliche Ergebnisse auf. Dies
kann zum einen in den vielfältigen Kombinationsmöglichkeiten bei der Vorverarbeitung der
Daten begründet werden. Zum anderen wurden zum Teil unterschiedliche Datenbasen für die
Untersuchungen gewählt. Laut Sebastiani erfordert das Vergleichen von Klassifikatoren und
deren Klassifikatonsresultaten, dass die Tests vom gleichen Autor erstellt werden, da dieser
sich der Einflüsse auf die Daten beim Testen der unterschiedlichen Klassifikatoren bewusst ist.
Für einen verlässlichen Vergleich ist für alle Klassifikatoren die gleiche Testumgebung zu
schaffen ([Seb02], S. 43 f.).
–8–
Widersprüchliche Empfehlungen bzw. der Einsatz unterschiedlicher Textklassifikatoren wie
Datenaufbereitungsprozesse in wissenschaftlichen Veröffentlichung zu Textklassifikation von
unstrukturierten Daten ([WSK12], [Seb02], [HLN13], S. 686, [FBG06], S.31), führen dazu,
dass vorab kein geeigneter Textklassifikator für die Klassifikation von Ad-Hoc-Meldungen
bestimmt werden kann. Es werden deshalb unterschiedliche Textklassifikatoren unter gleichen
Testbedingungen untersucht und die Ergebnisse des Vergleichs präsentiert.
2.3 Finanzmarktforschung
Um den Einfluss von Informationen bzw. die Verarbeitungseffizienz von Informationen durch
die Marktakteure und deren Auswirkung auf die Kursbildung erklären zu können, existieren
unterschiedliche Modelle und Erklärungsansätze.
Neben der vorherrschenden klassischen Kapitalmarkttheorie beschäftigt sich der Behavioral
Finance mit Anomalien, die durch die Kapitalmarkttheorie nicht erklärt werden können und
widmet sich zudem der psychologischen Seite des Börsengeschehens ([SH08], S.25).
Die Effizienzmarkthypothese als klassischer Ansatz, welche die Grundlage für viele Studien
und Untersuchungen darstellt, wurde 1970 durch Fama beschrieben. Ein Markt wird laut Fama
effizient genannt, wenn dieser sofort alle zugänglichen Informationen im Preis wiederspiegelt.
Dabei wird ausgeschlossen, dass trotz unterschiedlicher Ansichten zu den öffentlich
zugänglichen Informationen Marktakteure existieren, die aufgrund ihrer Bewertung immer den
Markt übertreffen ([Fam70], S. 388).
Fama unterteilt die Informationseffizienz in drei Kategorien. Die Kategorien: die schwache,
mittelstrenge und strenge Form der Informationseffizienz. Die Abstufungen beschreiben die
Marktanpassungen hinsichtlich der Effizienz der Informationsauswertung durch die
Marktakteure ([Fam70], S. 383). Die schwache Form der Informationseffizienz setzt voraus,
dass im Preis nur historische Informationen, wie vergangene Dividendenzahlungen oder
Kursentwicklung wiedergespiegelt werden. Eine Analyse wie die Chartanalyse würde keinen
Erfolg bringen ([SH08], S. 26).
Nach der Definition der mittelstrengen Informationseffizienz reflektiert der Marktpreis alle
zugänglichen
öffentlichen
Informationen,
wie
Unternehmensberichte
oder
Dividendenankündigungen ([Fam70], S. 404). Mithilfe von Fundamentalanalysen können
daher keine Überrenditen erzielt werden. Solche können nur mit neuen Informationen
erwirtschaftet werden ([SH08], S. 26). Nach der Definition der strengen Form der
Informationseffizienz können trotz Insiderinformationen, die nur einer kleinen Gruppe von
Investoren zur Verfügung stehen, am Markt keine Überrenditen erwirtschaftet werden. Damit
setzt diese Form der Informationseffizienz voraus, dass öffentliche Informationen wie die
Insiderinformation im Kurs enthalten sind ([Fam70], S. 409). Diese Form der Markteffizienz
kann ausgeschlossen werden, da bereits mehrmals bewiesen wurde, dass mittels
Insiderinformationen Überrenditen erzielt werden können. Dass dies Relevanz hat, zeigt auch,
dass das Wertpapiergesetz, mittels Vorschriften versucht, den Markt transparenter zu gestalten
und damit entschieden gegen Insiderhandel vorgeht.
–9–
Die mittelstrenge Informationseffizienz dient als Theorie für viele Erklärungen in der
Finanzwirtschaft. Trotzdem werden immer wieder Anomalien an den Börsen beobachtet, die
sich mit der Effizienzmarkttheorie nicht begründen lassen. Als Beispiel wird die Finanzkrise
2008 genannt. Ungeachtet der Unregelmäßigkeiten an der Börse führen demnach neue
Informationen wie beispielsweise Ad-Hoc-Meldungen zu einer veränderten Betrachtung durch
die Finanzakteure und somit zu Kursbewegungen bis die neue Information am Markt
verarbeitet ist. Die Ereignisstudie ermöglicht zum einem die Stärke der Kursreaktion durch das
Ereignis, also der Information, wie auch die Dauer der Informationsverarbeitung zu messen.
– 10 –
3 Text Mining
Dieses Kapitel führt in das Thema Text Mining ein. Beginnend mit der Definition folgt eine
Beschreibung über die möglichen Einsatzmöglichkeiten. Zudem folgt eine Beschreibung des
Text Mining Prozesses. Zuletzt wird das Thema Textklassifikation ausführlich behandelt,
nachdem es die Grundlage der Analyse bildet.
3.1 Definition
Die Möglichkeiten der Textanalyse zeigen die Vielfältigkeit und damit die Interdisziplinarität
des Text Minings auf. So fügen sich zur Bewältigung dieser Aufgaben Methoden aus der
Statistik, Maschinelles Lernen, Computerlinguistik, Information Retrieval und Data Mining
zusammen ([HNP05], S. 19).
Aufgrund der Interdisziplinarität ist es nicht verwunderlich, dass sich in der Literatur keine
einheitliche Definition durchgesetzt hat ([HQW12], S. 4), weshalb die Autoren Heyer et al. den
Text Mining Begriff aufgrund der vielen Definition wie folgt zusammenfassen:
„Text Mining eine Gruppe methodischer Ansätze, um Texte zu strukturieren und damit neue
und relevante Informationen zu extrahieren. Als Grundlage dienen vor allem statistische und
musterbasierte Verfahren.“ ([HQW12], S. 4)
Witten et al. heben ebenfalls die Ähnlichkeit zu Data Mining hervor und beschreiben Text
Mining als „den Prozess, Text zu analysieren, um Informationen daraus zu gewinnen, die für
bestimmte Zwecke nützlich sind.“ ( [WIT01], S. 362)
Einen Überblick über die unterschiedlichen Text Mining Definitionen bieten die Autoren
Mehler et al. Sie unterteilen zudem die unterschiedlichen Definitionen in vier Perspektiven.
Die Information Retrieval-Perspektive sieht Text Mining als Erweiterung bzw. Verbesserung
des Information Retrieval mit inhaltlichem Bezug mithilfe von Textzusammenfassung und
Informationsextraktion. Die Data-Mining-Perspektive sieht den Unterschied zwischen Data
Mining und Text Mining nur hinsichtlich der Struktur der zu untersuchenden Daten. Es werden
die gleichen Methoden zur Analyse angewendet. Die methodische Perspektive sieht Text
Mining als die Anwendungen und deren Weiterentwicklung von Methoden zur fehlertoleranten
und überwiegend statistischen Textanalyse von großen unstrukturierten Datenmengen. Die
wissensorientierte Perspektive beschreibt Text Mining als die Entdeckung von neuem,
unbekanntem Wissen. Dabei wird das Wissen nicht aus den einzelnen Texten, sondern aus der
Vielzahl von Dokumenten gewonnen ([MW05], S. 3ff.).
– 11 –
Zusammenfassend lässt sich der Text Mining Prozess aufgrund der genannten Definition mit
einer großen Ähnlichkeit zum Data Mining Prozess beschreiben. Das Anwenden von Data
Mining wie auch Text Mining Verfahren erfordert die Umwandlung des natürlichsprachlichen
Textes in eine Struktur, die es ermöglicht, musterbasierte sowie statistische Verfahren auf die
Daten anzuwenden. Die zuletzt genannten dienen dazu, neue relevante Informationen aus einer
großen Anzahl von Texten zu gewinnen. Mittels Text Mining wird meist eine große Anzahl
von Texten untersucht, weshalb zur Informationsgewinnung robuste Verfahren benötigt
werden.
Im nächsten Abschnitt erfolgt eine nähere Beschreibung des Text Mining Prozesses.
3.2 Text Mining Einsatzmöglichkeiten
Aufgrund des elektronischen Geschäftsverkehrs stehen den Unternehmen eine Vielzahl der
Dokumente, die sowohl die unternehmensinterne als auch -externe Kommunikation betreffen,
nur in elektronischer Form zur Verfügung. Vorteilhaft an dieser Entwicklung, die der
Papierform den Rücken kehrt, ist, dass diese Form der Daten mittels softwaretechnischen
Verfahren ausgewertet wird und daraus neue Erkenntnisse für das Unternehmen gewonnen
werden können. Damit entstehen für das Unternehmen ungeahnte Möglichkeiten hinsichtlich
neu gewonnenem Wissen, woraus sich unter anderem für das Unternehmen ein
Informationsvorsprung gegenüber Konkurrenten ergeben kann. Eine weitere Quelle von
natürlichsprachlichen Texten, die insbesondere für Unternehmen relevante Informationen
enthalten, sind Meinungsäußerungen zu Produkten, welche in Internetforen oder auf
Verkaufsplattformen veröffentlicht werden und damit ebenfalls durch Softwaremethoden
ausgewertet werden können. Auch andere Bereiche wie die Finanzwirtschaft versucht aus
natürlichsprachlichen Texten wie online verfügbaren Presseberichten oder Twittereinträgen
neue Informationen zu gewinnen, um beispielsweise den Aktienkurs vorherzusagen. Es sind
hier nur einige wenige natürlichsprachige Quellen genannt, welche mithilfe von Text Mining
analysiert werden, um neues Wissen zu generieren. In Anbetracht der Datenmengen, die nur
durch das Internet verfügbar sind, werden robuste
Verfahren mit annehmbaren
Leistungsverhalten benötigt, um Wissen aus unstrukturierten Daten gewinnen zu können. Eine
Prüfung bzw. Sichtung der Daten durch den Interessenten selbst ist dagegen aufgrund der
Vielzahl der Dokumente aussichtslos. Für die computerbasierte Verarbeitung hingegen ist
selten die Menge der Daten problematisch, jedoch die Interpretation der Textinhalte. Während
Lesern von Texten die Interpretation des Inhaltes kaum vor Probleme stellt, da sie geübt sind,
Texte zu klassifizieren oder zusammenzufassen, stellt dies für die computerbasierte
Verarbeitung einen komplexen Vorgang dar.
Die Autoren Fan et al. geben einen Überblick über die Aufgaben die mit Text Mining bewältigt
werden können. Mittels Themenverfolgung wird aufgrund der gespeicherten Interessen eines
Users eine Auswahl von neuen Dokumenten bereitgestellt, die für ihn ebenfalls relevant sein
könnten. Eine weitere Aufgabe, die mithilfe Text Mining bearbeitet wird, ist die maschinelle
Zusammenfassung von Texten, ohne die inhaltliche Bedeutung zu verändern. Somit können
sich Interessenten schnell einen Textüberblick verschaffen und dabei die Relevanz für sich
feststellen, ohne den ganzen Text lesen zu müssen. Die Kategorisierung verfolgt das Ziel, Texte
in vordefinierte Klassen einzuteilen. Dies ermöglicht dem Nutzer, beispielsweise nur Texte
– 12 –
bestimmter Kategorien näher zu betrachten. Ein bekanntes Beispiel ist hierfür die Erkennung
von Spam- bzw. Nicht-Spam-Mails. Mittels Clusterbildung werden ähnliche Dokumente
zusammengefasst. Concept Linkage zeigt inhaltliche Zusammenhänge auf, die auf den ersten
Blick nicht erkennbar sind. Dies ist insbesondere bei wissenschaftlichen Beiträgen von Nutzen,
wo eine Vielzahl von Publikationen existiert. Die Autoren verweisen hier auf den Mediziner
Swanson, welcher implizites Wissen bzw. neue Hypothesen aufgrund vorher nicht bekannter
Dokumentenzusammenhänge entdeckte. Beispielsweise beweist eine Studie, dass A B
verursacht und eine weitere, dass B ursächlich für C ist. So kann implizit die Hypothese gelten,
dass A die Ursache für C ist. Diese Verlinkung der Studien ist deshalb schwer zu erkennen, da
kein direkter Zusammenhang zwischen den Studien mit Inhalten zu A und C existiert ([Swa87],
S. 228). Erschwert wird die Zuordnung zudem aufgrund der großen Datenmengen der
veröffentlichten Beiträge, welche ein manuelles Zuordnen unmöglich machen. Eine
Verlinkung mittels Text Mining ist somit unerlässlich im Bereich der Forschung geworden.
Die Informationsvisualisierung als weiteres Text Mining Verfahren stellt große Datenmengen
hierarchisch oder auf Karten dar. Mittels einer Benutzeroberfläche können diese Daten
gesichtet und näher eingegrenzt werden. Mithilfe von Question Answering Systeme werden oft
gestellte Fragen beantwortet und die Informationsextraktion wird genutzt, um Schlüsselwörter
oder Relationen aufgrund vordefinierter Muster in unstrukturierten Texten zu entdecken
([FWR06], S. 4ff.).
Die genannten Verfahren haben unter anderem das Ziel, die Menge der zu untersuchenden
Quellen auf ein für den Menschen überschaubares Maß zu reduzieren und dabei neues
relevantes Wissen aufzuspüren. Dies wird unter anderem dadurch unterstützt, dass mehrere
Verfahren aufeinander folgen. Beispielsweise könnte dem Concept Linkage eine
Textzusammenfassung oder Informationsextraktion folgen und damit die neuen Erkenntnisse
erneut einschränken.
3.3 Text Mining Prozess
Die Betrachtungsweise, dass sich Text Mining und Data Mining hauptsächlich hinsichtlich der
zu Grunde liegenden Daten unterscheiden, führt zu ähnlichen Darstellungen der beiden Mining
Prozesse. So weisen die Autoren Hippner et al. auf die ähnlichen Verfahrensweisen der
genannten Mining Verfahren hin, sehen aber wesentliche Unterschiede in der
Dokumentenaufbereitung. Nachfolgende Abbildung der Autoren unterteilt den Text Mining
Prozess in sechs Verfahrensschritte, welche aufeinander aufbauen.
Abbildung 2: Text Mining Prozess, Quelle: [HR06], S.288.
Der erste Schritt beschäftigt sich mit der Aufgabendefinition und Zielsetzung des Text Mining
Prozesses. Nachfolgend wird eine Auswahl der zu untersuchenden Dokumente getroffen. Der
Prozessschritt Dokumentenaufbereitung überführt die unstrukturierten Daten in eine Struktur,
– 13 –
um (Text) Mining Methoden anwenden zu können. Ein wesentlicher Unterschied zum Data
Mining-Prozess besteht in der Beschaffenheit der Daten, die dem Text Mining Prozess zu
Grunde liegen. Während sich Data Mining mit der Analyse von strukturierten Daten
beschäftigt, konzentriert sich Text Mining mit dem Auffinden von relevanten Informationen
in Texten. Zu den unstrukturierten bzw. semistrukturierten Texten zählen beispielweise Emails,
Inhalte von Webseiten sowie Dokumente, die keiner oder nicht durchgängig einer
Datenstruktur unterliegen. Strukturierte Daten hingegen liegen beispielsweise in relationalen
Datenbanken bereits als untrennbare Terme in definierten Tabellen vor. Die
Datenstrukturierung erfolgt mit Techniken des Natural Language Prozessing wie der
morphologischen, syntaktischen und semantischen Analysen nach der Termzerlegung. Ein
wesentlicher Baustein des Text Minings ist somit die Überführung der zu untersuchenden Texte
in eine maschinell interpretierbare Struktur, damit (Text) Mining Methoden angewandt werden
können. Aufgrund der Klammerung von (Text) im Prozessschritt (Text) Mining Methoden,
wird ersichtlich, dass für Text Mining bestehende und etablierte Methoden des Data Mining,
wie beispielsweise die Klassifizierung genutzt werden. Im Prozessschritt Interpretation und
Evaluation werden die im Text Mining Prozess gewonnenen Ergebnisse überprüft und im
letzten Prozessschritt angewandt ([HR06], S. 287 ff.).
Ein ähnliches Text Mining Verfahren stellen die Autoren Fan et al. vor. Ihr Prozess beginnt mit
der Dokumentenselektion. Als Nächstes erfolgt die Dokumentenaufbereitung, worauf die
Textanalyse aufbaut. Sie beschreiben diesen Schritt als iterativen Vorgang, der in Abhängigkeit
zum Ziel verschiedene Text Mining Methoden durchläuft oder unterschiedliche Text Mining
in Verbindung nutzt. Das Ergebnis der Analyse wird in ein Management Information System
überführt, um das erworbene Wissen anwenden zu können ([FWR06], S. 3).
Die Autoren Heyer et al. beschreiben ein vergleichbares Vorgehen zu den bereits Genannten,
gehen jedoch hinsichtlich der Speicherung und Verarbeitung der Quellen tiefer ins Detail.
– 14 –
Abbildung 3: Text Mining Prozess und Datenbankstruktur, Quelle: [HQW12], S.6.
In der Abbildung der Autoren beginnt die Prozesskette mit der Speicherung der
unterschiedlichen Dokumentenformate in ein einheitliches Standardformat in einer relationalen
Datenbank. Für die nachfolgenden statistischen und linguistischen Analysen ist eine
Segmentierung der Quellen in Wörter wie Sätze notwendig, welche ebenfalls in der
Textdatenbank gespeichert werden. Je nach Anwendungsziel erfolgen unter Verwendung eines
Referenzwortschatzes die statistischen, linguistischen bzw. beide Analyseverfahren auf der
erzeugten domänenspezifischen Datenbank ([HQW12], S. 6).
Dieser beschriebene Text Mining Prozess unterscheidet sich im Wesentlichen von den
Vorangegangenen nur durch das Einbinden eines Referenzwortschatzes.
Für diese Arbeit sind insbesondere die Prozessschritte Dokumentenaufbereitung,
Textklassifizierung als Text Mining Methode sowie die Interpretation und Evaluation von
Interesse, weshalb darauf im Folgenden näher eingegangen wird.
– 15 –
3.4 Textklassifikation
Aufgabe der Textklassifikation ist die Einteilung verschiedener Texte aufgrund ihres Inhaltes
in vordefinierte Klassen. Dabei wird der Text der Klasse zugeordnet, die den Text aufgrund
ihrer Merkmale wie Häufigkeit der Wörter am Besten beschreibt ([DZ11], S. 37). Neben der
binären Klassifikation können die Algorithmen auch dazu verwendet werden, um automatisiert
mehr als zwei Kategorien zuzuordnen oder eine hierarchische Klassifikation anzuwenden
([MDE12], S. 882). Für die Klassifikation von Texten können zwei unterschiedliche Vorgehen
gewählt werden. Ein Verfahren ist das Herausarbeiten von Merkmalen und Eigenschaften zur
Beschreibung unterschiedlicher Klassen durch die Befragung eines Experten. Die
Klassendefinitionen werden nachfolgend in ein regelbasiertes System überführt und können
danach für die automatisierte Klassifikation genutzt werden. Nachteilig am beschriebenen
Vorgehen ist, die kontinuierliche Pflege der Regeln und das damit verbundene erneute
Befragen von Experten der entsprechenden Domäne. Dem steuert ein maschinelles Vorgehen
entgegen, welches den Klassifizierer mithilfe vorklassifizierter Trainingsdaten erzeugt. Der
Klassifizierer kategorisiert dabei neue Texte aufgrund der gewonnen Erkenntnisse aus den
Trainingsdaten. Letzteres Vorgehen ist zudem von der zu untersuchenden Domäne unabhängig,
da es lediglich vordefinierte Trainingsdaten für das Erzeugen von Regeln benötigt ([MR05],
S.816). Die Vorteile in der maschinellen Klassifikation liegen zum einen in der Zeitersparnis
und zum anderen erzielen diese Systeme ein ähnliches Ergebnis wie die durch Experten
erzeugten Klassifikationssysteme ([Seb02], S. 2).
Einen Überblick über den maschinellen Textklassifikationsprozess gibt die folgende Abbildung
der Autoren Dalal et al..
– 16 –
Abbildung 4: Generic strategy fort ext classification, Quelle: [DZ11], S.38.
Die vorgestellte Vorgehensweise gleicht dem vorangegangenen beschriebenen Text Mining
Prozess. Der wesentliche Unterschied liegt jedoch auf der Präzisierung des Text Mining
Prozesses hinsichtlich des Zieles der Textklassifikation.
Diese beginnt mit der Vorverarbeitung der Trainingsdaten. Hierzu gehören Verfahren wie
Stoppwörtereliminierung und Stemming zur Reduzierung der Merkmale (siehe Kapitel 3.4.1).
Im nächsten Schritt werden die Tokens bzw. Merkmale in eine maschinell interpretierbare
Struktur überführt, zur Gewichtung der Terme eignen sich Verfahren wie term frequency inverse document frequence (TF- IDF) und Latent Semantic Indexing (LSI).
Laut Manning et al. stellt das TF-IDF ein robustes und oft verwendetes Verfahren zur
Gewichtung der Wörter in einem Vektorraummodell dar. Die term frequency (TF) bestimmt,
wie häufig ein Term in einem Text vorkommt. Ein Term, der häufig gefunden wird, eignet sich
daher sehr gut zur Beschreibung eines Textes. Der Informationsgehalt dieses Terms ist jedoch
gering, wenn dieser in allen Texten häufig auftritt. Demnach steigt der Informationsgehalt eines
Terms, wenn er in einem Text oft, aber in der Gesamtzahl der betrachteten Texte selten
enthalten ist. Das TF-IDF Verfahren berücksichtigt deshalb neben der Vorkommenshäufigkeit
der Terme auch den Informationsgehalt dieser, indem die Häufigkeiten multipliziert werden
([MS99], 542 ff.)
– 17 –
Im nächsten Prozessschritt wird der gewünschte Textklassifikationsalgorithmus gewählt und
mithilfe von Trainingsdaten angelernt. Die Autoren geben hier aufgrund der zu untersuchenden
Daten eine Empfehlung bezüglich der Klassifikationswahl ab. Zudem erwähnen sie, dass eine
Kombination von unterschiedlichen Algorithmen ebenfalls in Betracht gezogen werde müsse.
Abschließend wird das erzeugte Trainingsmodul an Testdaten angewendet und getestet
([DZ11], S. 38 ff.).
Die Autoren Ting et al. beschreiben ein ähnliches Vorgehen, empfehlen jedoch eine
Merkmalsselektion durchzuführen, die einen der wichtigsten Schritte im Data Mining Prozess
darstellen. Die Merkmalsselektion überführt den Vektor in eine Auswahl von Merkmalen,
welche den Text am Besten beschreiben und damit zur besten Vorhersage führen. Um unter
anderem die Merkmalsselektion hinsichtlich des Klassifikationsergebnisses beurteilen zu
können, schlagen die Autoren vor, die Klassifikation ohne und mit vorverarbeiteten
Trainingsdaten zu testen. Ist das Ergebnis ohne Vorverarbeitung besser, so ist die
Merkmalsauswahl zu überprüfen und gegebenenfalls zu ändern, bis mit den vorverarbeiteten
Daten ein besseres Ergebnis erzielt wird ([TIT11], S. 41).
Nachfolgend wird auf die Textklassifikationsschritte Dokumentenaufbereitung, Wahl des
Textklassifikator und die Bewertung des Klassifikationsergebnisses näher eingegangen.
3.4.1 Dokumentenaufbereitung
Die kommenden Beispiele geben nur einen kleinen Einblick bezüglich der Funktionalität und
der Problemstellungen, die für den Dokumentenaufbereitungsprozess existieren bzw.
notwendig sind. Zum einen gestaltet sich die Dokumentenaufbereitung aufgrund der
unterschiedlichen Dateiformate wie unterschiedlich strukturierte Texte mit Tabellen oder
Grafiken als komplexe Aufgabe. Letztere fließen deshalb oftmals nicht in den Text Mining
Prozess ein. Ein Beispiel hierzu liefert das Vorgehen von Hagenau et al. in einer Studie zur
Vorhersage von Aktienkursen, welche Tabellen und Grafiken vor der Klassifikation löschen
([HLN13], S. 689). Ebenfalls weist Heyer et al. auf die Problematik des Verlusts von Tabellen
und Grafiken bei der Konvertierung von Dokumenten in ASCII-Format hin ([HQW12], S. 58).
Zum anderen ist die inhaltliche Interpretation von Texten schwierig. Dabei liegen die Probleme
beispielsweise im Erkennen von Ironie in Sätzen wie sie oft in Rezensionen oder
Twittereinträgen vorkommen. Auch die Unterscheidung von Satzzeichen und dem Punkt, die
zu Abkürzungen gehören, erfordern Algorithmen, um Sätze korrekt identifizieren zu können.
Die Autoren Weiss et. al. beschreiben den Dokumentenaufbereitungsprozess wie folgt. Um die
unstrukturierten Daten in eine maschinell interpretierbare Struktur zu überführen, werden die
zu untersuchenden Dokumentenformate in ein einheitliches Standardformat überführt. Im
nächsten Schritt werden die Dokumente in einzelne Wörter zerlegt, in der Literatur werden
oftmals auch die Bezeichnung Terme oder Tokens verwendet. Je nach Aufgabenstellung
unterscheiden sie die weitere Vorgehensweise. Eine Möglichkeit ist eine Darstellung mittels
des Vektorraummodells, welches für eine Dokumentenklassifikation bereits ausreichend ist
und keine tiefgreifenden linguistischen Analysen benötigt. Eine andere Möglichkeit stellt die
Verwendung tiefgehender linguistischer Prozesse dar. Hierzu gehören beispielsweise die
– 18 –
Verfahren Part-of-Speech
([WIZ12], S. 15 ff.).
Tagging,
Mehrdeutigkeiten
oder
Eigennamenerkennung
Für die linguistische Analyse werden somit sprachwissenschaftliche Erkenntnisse benötigt, mit
welchen sich die Disziplin der Computerlinguistik befasst. Insbesondere die folgenden
Teildisziplinen sind für den Textaufbereitungsprozess unerlässlich. Die Morphologie als
Teilgebiet der Grammatik beschäftigt sich mit der Wortbildung und deren Strukturen, ohne
Berücksichtigung des Textinhalts ([CEE09], S. 27).
Zur morphologischen Analyse gehört unter anderem das Lemmatisierungsverfahren. Während
sich die Morphologie mit der inneren Struktur von Wörtern befasst, beschreibt die Syntax die
Struktur von Sätzen. Syntaktische Analysen gehören zu den Kernbereichen der
Computerlinguistik, da sie für die Überprüfung grammatischer Korrektheit unerlässlich sind
([CEE09], S. 27).
Ein probates Mittel zur syntaktischen Analyse von Sätzen ist der Part-of-Speech Tagger. Dabei
wird mithilfe eines Trainingskorpus den einzelnen Termen eines Textes die dazugehörige
Wortart bzw. das entsprechende Tag zugeordnet. Je nach Sprache und ihren Sprachregeln
existieren unterschiedlich viele Wortarten. Beispiele für zugeordnete Wortarten bzw. Tags des
frei verfügbaren Taggers Stuttgart-Tübingen Tagset sind Tag ADV für Adverb, NN für Nomen
oder ART bestimmter oder unbestimmter Artikel. Da Wortarten unterschiedliche Formen
einnehmen können, wird ein statistisches Vorgehen benötigt, das die Wahrscheinlichkeit für
eine bestimmte Tagfolge berechnet und somit die wahrscheinlichste Wortart zuordnet. Die
Genauigkeit bei diesem Verfahren in Abhängigkeit zur Sprache und verwendeten Regelsystem,
das die sprachliche Struktur beschreibt, liegt bei etwa 97% ([HQW12], S. 126 ff.).
Die Semantik beschäftigt sich mit dem Kontext natürlichsprachlichen Textes ([CEE09], S. 27).
Dabei ist insbesondere die Verarbeitung von Mehrdeutigkeiten in der Computerlinguistik ein
komplexer Vorgang ([CEE09], S. 345). So können Wortstämme unterschiedliche Bedeutungen
einnehmen. Um das Wort „Bank“ korrekt zu interpretieren, beispielsweise ob Bank als
Geldinstitut oder Sitzmöglichkeit gemeint ist, wird eine semantische Analyse benötigt.
Diese Arbeit untersucht die Klassifikation mittels Vektorraummodell, tiefgehende linguistische
Prozesse wie der der Part-of-Speech Tagger kommen nicht zum Einsatz. Als nächstes erfolgt
deshalb eine tiefergehende Beschreibung des Vektorraummodells.
Das Vektorraummodell stellt eine Möglichkeit dar, unstrukturierte Texte in eine für den
Computer interpretierbare Struktur zu überführen. Dabei wird ein Dokument in die einzelnen
Tokens zerlegt. Für die weitere Verarbeitung existieren verschiedene Möglichkeiten, die
Tokens eines Dokuments zu bewerten und in einem Vektor darzustellen. Das binäre Verfahren
sieht vor, bei Existenz eines Tokens die 1 bzw. bei Nichtvorhandensein die 0 zuzuweisen. Beim
Gewichtungsverfahren hingegen wird dem Token eine Gewichtung zugeordnet, welche die
Relevanz des entsprechenden Tokens für die Klassifizierung wiederspiegelt. Für die
Berechnung der Gewichte existieren unterschiedliche Algorithmen wie die Gewichtung
aufgrund der Worthäufigkeiten oder dem TF-IDF Verfahren ([Kow99], S. 101 ff.).
– 19 –
Die Anwendung des Vektorraummodells erfordert die Segmentierung des Textes in
Wortformen. Während Hotho et al. den Zerlegungsprozess der Texte in Wortformen lediglich
durch die Aufspaltung nach vorhandenen Leerzeichen bei vorherigem Löschen von
Satzzeichen und dem Ersetzen von Nicht-Buchstaben durch Leerzeichen beschreiben
([HNP05], S. 25), weisen Heyer et al. auf die Problematik bei der Segmentierung des Textes
nach dieser Verfahrensweise hin. Die Segmentierung führt demnach zu Fehlern, wenn
beispielsweise Eigennamen Leerzeichen enthalten. Dadurch wird der Eigenname in mehrere
Tokens getrennt. Das Ersetzen eines Bindestrichs durch ein Leerzeichen kann ebenfalls zu einer
falschen Segmentierung führen, da der Bindestrich auf unterschiedlichste Weise genutzt
werden kann, wie beispielsweise als Ergänzungsstrich, Worttrennungszeichen oder das Wort
„bis“ darstellt ([HQW12], S. 66 f.). Die durch die Segmentierung erzeugte Wortliste dient als
Grundlage für alle weiteren statistischen und linguistischen Untersuchungen. Es empfiehlt sich
daher, vor weiteren Analysen aus der Wortliste nicht nur aus Performancegründen, sondern
auch aufgrund besserer Analyseergebnisse, Wörter zu löschen, die keinen positiven Betrag
leisten. Gelöscht werden die Wörter, die in der Stoppliste enthalten sind.
Beispielsweise werden in einer Stoppliste Wörter wie Artikel oder Höflichkeitsfloskeln
geführt. Somit sollten nur relevante domänenspezifische Begriffe in die Analysen
miteinfließen; dies steigert nicht nur das Klassifikationsergebnis sondern beschleunigt zudem
den Aufbereitungsprozess ([WSK12], S. 1 f.). Bei der Verwendung von Stopplisten ist jedoch
zu beachten, dass diese entsprechend der zu untersuchenden Quellen angepasst werden müssen.
Artikel oder Höflichkeitsfloskeln können dabei ohne Einschränkung übernommen werden. Das
Aufnehmen von weiteren Wörtern gilt jedoch unter der Beachtung der domänenspezifischen
Begriffe, die nicht in die Stoppliste aufgenommen werden dürfen. Die Autoren Heyer et al.
beschreiben zur automatischen Erzeugung von Stopplisten die Differenzanalyse als
sprachstatistisches Verfahren. Mithilfe eines Analysekorpusses, welcher die zu untersuchenden
Dokumente einer Domäne enthält, und einen Referenzenkorpuses, bestehend aus allgemeinen
Texten wie Presseartikel, werden in beiden Texten die Vorkommenshäufigkeit der Wortformen
berechnet. Anschließend erfolgt aufgrund des Vergleichs der Häufigkeiten eine Einteilung in
vier Wortformklassen. Wörter, die nur im Analysekorpus vorhanden sind, sind mit hoher
Wahrscheinlichkeit Fachausdrücke. Ebenfalls können Wörter, die im Analysekorpus öfters als
im Referenzkorpus gezählt werden zu den Fachausdrücken gezählt werden. Wörter, die jedoch
in ähnlicher Anzahl in beiden Korpusse vorhanden sind, enthalten keine domänenspezifischen
Fachbegriffe und können somit für die Stoppliste verwendet werden ([HQW12], S. 95).
Des Weiteren kann mittels Synonymlisten das Analyseergebnis positiv beeinflusst werden.
Synonymlisten unterstützen die Zusammenführung verschiedener Wortstämme zu einem
Begriff. Dies führt insbesondere bei Analyseverfahren, die mit der Häufigkeit des Vorkommens
von Wörtern arbeiten, zu besseren Ergebnissen. Ein oft verwendetes Wörterbuch in der
linguistischen Verarbeitung von deutschsprachigen Texten ist laut den Autoren Heyer et al.
GermaNet. Es enthält unteranderem auch Synonyme ([HQW12], S. 181).
Ein weiteres Verfahren zur Verbesserung des Klassifikationsergebnisses ist das Stemming.
Dabei werden die zu untersuchenden Wörter auf einen künstlich erzeugten Wortstamm
reduziert und damit die Möglichkeit geschaffen, ähnliche Begriffe zusammenzuführen. Bei
– 20 –
einem Klassifikationsverfahren, welches aufgrund der Häufigkeiten von Wörtern die Kategorie
der einzelnen Dokumente bestimmt, kann das Ergebnis auf Grundlage der Häufigkeiten der
künstlich erzeugten Wortstämme anstatt der Häufigkeiten der einzelnen Wörter positiv
beeinflusst werden. Ebenfalls wird eine bessere Performance aufgrund der Verwendung von
Wortstämmen erreicht ([WIZ12], S. 18 f.). Ein häufig eingesetzter Algorithmus, der PorterStemmer-Algorithmus, stammt von Martin Porter. Dabei werden die einzelnen Wörter ohne
Verwendung eines Wörterbuchs in den Wortstamm überführt, die Wortreduktion erfolgt
lediglich durch die Anwendung von Regeln. Beispielsweise geschieht dies durch das Umsetzen
von Umlauten wie ä, ü, ö in a, u, o oder das Entfernen von Nachsilben. Wörter wie
aufeinanderfolge, aufeinanderfolgen, aufeinanderfolgenden, aufeinanderfolgenden vereinen
sich nach dem Algorithmus im Wortstamm aufeinanderfolg. Aus auffallend, auffallenden,
auffällig, auffälliges wird zu auffall ([Por14]). Ein ähnliches Verfahren zur
Wortstammreduzierung ist die Lemmatisierung. Entgegen dem Stemming-Verfahren ist der
entstandene Wortstamm ein existierendes Morphem in der entsprechenden Sprache. Um diese
Aufgabe korrekt zu bewältigen, muss als erstes die Wortart festgestellt werden. Die Autoren
Hotho et al. merken jedoch an, dass das Tagging ein zeitaufwendiges und fehleranfälliges
Verfahren ist, weshalb dies zum vermehrten Einsatz von Stemming Algorithmen führt
([HNP05], S. 26).
3.4.2 Textklassifikatoren Algorithmen
Die Aufgabe der Textklassifikatoren beim überwachten Klassifizieren lässt sich in zwei
Schritten beschreiben. Im ersten lernt der Algorithmus die Dokumente aufgrund ihrer
Merkmalsbeschreibung und der dazugehörigen Klassenzuordnung zu unterscheiden und zu
klassifizieren. Im Nachfolgenden wird das gelernte Muster angewendet, um neue unbekannte
Dokumente zu klassifizieren. Die neu zu klassifizierenden Texte müssen vor der
Textklassifikation ebenfalls den gleichen Dokumentenaufbereitungsprozess wie die
Trainingsdaten durchlaufen. Für die Textklassifikation existiert eine Vielzahl von Algorithmen.
Nachdem widersprüchliche Empfehlungen zum Einsatz vom vermeintlich bestgeeigneten
Textklassifikator existieren (siehe Kapitel 2.2.2), werden im Rahmen dieser Untersuchung nur
die wichtigsten und effektivsten Klassifikatoren für die Einordnung von Ad-Hoc-Meldungen
genutzt. Die folgende Abbildung von Runker unterscheidet die meist genutzten und
effektivsten Klassifikationsverfahren hinsichtlich der verwendeten Methodik in vier Bereiche:
Abbildung 5: Effektivste Klassifikationsverfahren, Quelle: [Run10], S.89.
– 21 –
([Run10], S.89). Die Autoren Weiss et al. zählen die gleichen Klassifikationsverfahren zu den
bedeutendsten und effektivsten in der Textklassifikation ([WIZ12], S. 45 ff.). Nachfolgend
wird zu den genannten Bereichen je ein Vertreter der entsprechenden Methode dargestellt.
Ein bekannter Klassifikator, der aufgrund Wahrscheinlichkeiten arbeitet, ist der Naive Bayes
Algorithmus, er basiert auf dem Satz von Bayes. Dabei wird die bedingte Wahrscheinlichkeit
P(C|x) ermittelt, dass sich der Algorithmus bei gegebenem Vektor x für das neue Dokument C
entscheidet. Der Vektor beschreibt dabei die vorklassifizierten Dokumente durch das
Vorhandensein bzw. durch das Fehlen von Merkmalen. Dabei werden die Merkmale des
gegebenen Vektors x voneinander unabhängig betrachtet, wodurch die Wahrscheinlichkeit für
jedes Merkmal unabhängig errechnet und miteinander multipliziert werden kann ([Run10], S.
90). Die Annahme, dass die Merkmale voneinander unabhängig sind, führt zu dem Beinamen
Naive. Naive drückt damit die Realitätsferne der Annahme aus ([WIZ12], S. 55 f.). Trotz dieser
Annahme überzeugt dieser Klassifikator mit guten Ergebnissen ([FBG06], S.31, [TIT11], S.
42 f.). Der Naive Bayes Klassifikator kann hinsichtlich der Darstellung des zugrundeliegenden
Vektors unterschieden werden. Das Bernoulli Model setzt eine binäre Darstellung voraus,
welcher die Existenz oder Nichtexistenz eines Merkmals mit 0 bzw. 1 darstellt. Das
Multinomial Model arbeitet hingegen mit den Häufigkeiten der Wörter in den entsprechenden
Dokumenten ([MN98], S. 2).
Zur Klassifikationsbestimmung aufgrund von Ähnlichkeiten gehört der Nächste Nachbar
Klassifikator. Dieser vergleicht die Merkmalsvektoren des neu zu klassifizierenden
Dokumentes mit den Merkmalsvektoren, die bereits zu den trainierten und klassifizierten
Dokumenten bereitliegen, indem zu den jeweiligen Vektoren ein Abstandsmaß berechnet wird.
Das geringste berechnete Abstandsmaß bestimmt die Kategorie und damit die
Klassenzuordnung des neuen Dokuments. Stehen aufgrund des berechneten Abstandsmaßes
mehrere Klassen für die Kategorisierung zur Auswahl, so entscheidet die Klasse, die am
häufigsten für diese Art von Quellen verwendet wurde. Dieses Verfahren wird insbesondere
bei Suchmaschinen eingesetzt. Dabei werden mithilfe nur weniger Schlüsselwörter relevante
Dokumente angezeigt ([WIZ12], S. 45). Für die Berechnung des Abstandsmaßes eignen sich
unter anderem der Euklidische und Mahalanobis-Abstand ([Run10], S. 96).
Eine Klassifikation mittels Entscheidungsregeln erfordert das manuelle Erzeugen von Regeln.
Diese beschreiben, ob eine Bedingung wahr oder falsch ist. Ein konkretes Lernen findet nicht
statt, es wird lediglich geprüft, ob bestimmte Regeln zutreffen und damit, ob eine bestimmte
Klasse zugeordnet wird. Beispielsweise geschieht das durch die Überprüfung der Existenz
bestimmter Merkmale. Dabei ist darauf zu achten, dass bei einem binären Klassifikator
aufgrund zu enger Regeln, Klassen nicht als irrelevant eingestuft werden, welche relevant
wären. Dies erfordert einen höheren Aufwand beim Erzeugen der Regeln und verlängert damit
die Lernphase erheblich. Zudem sind die Regeln immer wieder neu anzupassen und bei
komplexen Sachverhalten ist diese Form von Klassifikation möglichweise nicht nutzbar.
Vorteilhaft ist dieser Algorithmus im Vergleich zum Nächste Nachbar Klassifikator jedoch
hinsichtlich des Leistungsverhaltens und der erreichten Genauigkeit. Zudem erlauben die
Regeln eine leichtere Prüfung und Anpassung des Algorithmus ([WIZ12], S. 49).
Entscheidungsbäume sind eine Spezialisierung der Klassifikation mittels Entscheidungsregeln.
– 22 –
Die Knoten eines Entscheidungsbaums beschreiben durch Bedingungen (If-When), welche
Verzweigung des Baums durch den Klassifikator gewählt werden muss. Beginnend mit einer
umfassenden Bedingung erfolgt mit jeder weiteren Baumtiefe eine nähere Beschreibung bzw.
Eingrenzung der entsprechenden Klassen aufgrund der nachfolgenden Knoten und deren
Bedingungen. Dieser Algorithmus ist deshalb sehr performant, da er nicht jeden Knoten und
jedes Blatt prüfen muss, sondern nur die entsprechende Verzweigung und somit maximal die
auftretende Tiefe des Entscheidungsbaumes. Ein Entscheidungsbaum kann jederzeit in eine
Klassifikation mittels Regeln ohne Überschneidung der Regeln überführt werden. Dabei
werden die entsprechenden Bedingungen entlang des jeweiligen Zweiges miteinander logisch
verbunden ([WIZ12], S. 54 f).
Die lineare Diskriminanzgerade trennt durch eine optimale Line die Menge von
Merkmalsvektoren in zwei Bereiche, welche die entsprechenden Klassen am Besten
repräsentieren. Wird eine Klassifikation von mehr als zwei Klassen angestrebt, erfordert dies
die Anwendung der Diskriminanzhyperebene oder eine Kombination von binären
Klassifikatoren. Unter dem Klassifikator Support Vektor Maschine kommen die lineare
Diskriminanzgerade sowie die lineare Diskriminanzhyperebene zur Anwendung, mit der
Voraussetzung, dass das zu klassifizierende Dokument einen Mindestabstand zur
Diskriminanzhyperebene einhält. Eine lineare Klassengrenze ist nicht immer möglich. Hier
kommt der Kernel Trick zum Einsatz, welcher die Merkmalsvektoren in einen
höherdimensionalen Raum überführt und somit eine näherungsweise lineare Klassengrenze
erlaubt ([Run10], S. 91).
Support Vektor Maschine zeichnen sich aufgrund guter Klassifizierungsergebnisse und
Robustheit aus, nachteilig ist jedoch der benötigte hohe Speicherbedarf wie auch die lange
Berechnungszeit ([CRS03], S. 170).
3.4.3 Bewertung des Textklassifikationsergebnisses
Kosten, welche sich durch eine falsche Klassifikation ergeben, fallen je nach untersuchtem
Domänenbereich unterschiedlich hoch für den Nutzer des Auswertungssystems aus. Dabei ist
das Nichtbeachten einer entscheidungsrelevanten Information, die aufgrund der
Klassifikationseinstufung als irrelevant gekennzeichnet wurde, meist teurer als das Prüfen von
irrelevanten Informationen, welche als entscheidungsrelevant gekennzeichnet wurden. In
Bezug auf die Textklassifikation von Ad-Hoc-Meldungen bedeutet ein Prüfen von irrelevanten
Meldungen lediglich einen zeitlichen Mehraufwand, das Nicht-Prüfen von
entscheidungsrelevanten Meldungen könnte hingegen zu hohen Verlusten an der Börse führen.
Eine Bewertung des Textklassifikationsergebnisses ist somit unerlässlich, um sich über
mögliche Falschklassifikationen eines Vorhersagesystems im Klaren zu sein.
Für die Bewertung und Beurteilung einer Textklassifikation existieren statistische Maße die
eine Beurteilung des Ergebnisses sowie den Vergleich mit anderen Klassifikationsergebnissen
erlauben.
Die Einteilung eines Klassifikationsergebnisses eines beispielsweise binären Textklassifikators
mit den Klassen positiv und negativ erfolgt dabei in vier Kategorien, welche für die
– 23 –
Bestimmung der weiteren Maße notwendig sind. Die Korrektklassifikationen ergeben sich aus
der Anzahl der Kategorien „richtig positiv“ und „richtig negativ“ zugeordneten Klassen.
„Richtig positiv“ und „richtig negativ“ geben dabei die Häufigkeit der korrekt zugeordneten
Dokumente zu den Klassen positiv und negativ an. Die Falschklassifikationen setzen sich aus
der Anzahl der Kategorien „falsch positiv“ und „falsch negativ“ zugeordneten Klassen
zusammen. Dabei stellen „falsch positiv“ und „falsch negativ“ falsche Zuordnungen dar.
Die Korrektklassifikationsrate (accuracy) gibt an, mit welcher Wahrscheinlichkeit eine
korrekte Kategorisierung erfolgt.
Korrektklassifikationsrate =
Korrektklassifikation
n
(1)
Die Falschklassifikationsrate gibt an, mit welcher Wahrscheinlichkeit eine falsche
Kategorisierung erfolgt.
Falschklassifikationsrate =
Falschklassifikation
n
(2)
Der Recall, die Trefferquote, zeigt die Wahrscheinlichkeit auf, dass eine korrekte Klasse als
korrekt aus der Menge der korrekten Klassen eingestuft wird.
richtig positiv
(3)
Recall = richtig positiv+falsch negativ
Die Precision, die Genauigkeit, beschreibt, wie viele der positiv klassifizierten Klassen
tatsächlich positiv klassifiziert wurden.
richtig positiv
(4)
Precision = richtig positiv+falsch positiv
([Run10], S. 86 f.)
Nachdem die Maße Recall und Precision für sich betrachtet zu falschen Annahmen führen
können, kommen kombinierte Maße zum Einsatz. Beispielsweise führt ein durchgängiges
Kategorisieren der Dokumente zur Klasse positiv zu einem sehr guten Recall, aber schlechtem
Wert bei Precision. Kombinierte Maße wie der 𝐹1 , entwickelt von van Rijsbergen, oder 𝐹𝛽
wirken dem entgegen.
– 24 –
F1 =
F𝛽 =
2×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛×𝑅𝑒𝑐𝑎𝑙𝑙
(5)
Precision+Recall
(1+𝛽 2 )×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛×𝑅𝑒𝑐𝑎𝑙𝑙
(6)
𝛽 2 ×Precision+Recall
Mittels β können die Maße unterschiedlich gewichtet werden ([Yan99], S. 8 f.).
Die oben genannten Maße besitzen nur dann eine Beweiskraft, wenn die Klassifikation mithilfe
einer ausreichend großen und repräsentativen Stichprobe erfolgt ist. Die Kreuzvalidierung kann
Fehlern entgegenwirken, die aufgrund zu kleiner Stichproben verursacht werden. Um eine
bessere Aussagekraft und möglichst korrekte Angaben über die Klassifizierungsgüte zu
erhalten, empfiehlt es sich, die stratifizierte zehnfache Kreuzvalidierung einzusetzen. Die
Kreuzvalidierung ermöglicht es, Fehlern entgegenzuwirken, die aufgrund einer kleinen Menge
an Trainingsdaten verursacht werden.
Die stratifizierte zehnfache Kreuzvalidierung gilt laut den Autoren Witten et al. als
Standardmethode im Data Mining, wenn die Stichprobe begrenzt ist. Dabei wird die
vorhandene Stichprobe in etwa zehn gleichgroße Untermengen aufgeteilt. Bei der Zerlegung
der Daten ist darauf zu achten, dass die Untermengen sich hinsichtlich der
Merkmalsausprägung der zu untersuchenden Daten gleichen. Womit eine Unter- oder
Überrepräsentation von bestimmten Klassen in den Trainingsdaten vermieden wird. In zehn
Lernphasen wird jeweils eine der Untermengen für den Test und neun für das Erzeugen des
Trainingsmodells verwendet. Dabei wird während der Lernphase immer eine andere
Untermenge für den Test reserviert. Das Klassifikationsergebnis bzw. die
Korrektklassifikationsrate errechnet sich aus dem Durchschnittswert der zehn Durchläufe
([WIT01], S. 135).
Eine weitere Methode zur Qualifizierung der Klassifikationsergebnisse ist das Holdout
Verfahren. Dabei werden die vorklassifizierten Daten in zwei disjunkte Mengen eingeteilt, der
Trainings- und Testmenge. Je nach Größe der Stichprobe unterscheidet sich dabei die
prozentuale Aufteilung zwischen den Mengen. Die Trainingsmenge benötigt der Klassifikator
zum Lernen, die zurückgehaltene Testmenge dient zur Überprüfung des erzeugten Modells und
damit der Vorhersagekraft. Bei diesem Verfahren ist zwingend darauf zu achten, dass die
Klassen in beiden Mengen gleich verteilt sind ([Kuh09], S. 538).
Grundvoraussetzung für diese Form der Textklassifizierung ist die Existenz von
vorklassifizierten Trainingsdateien. Wie diese erzeugt werden, dokumentiert der nächste
Abschnitt.
– 25 –
4 Klassifizierung der Ad-Hoc-Meldung
Dieses Kapitel befasst sich mit der Kategorisierung der Trainings- und Testdaten. Dabei
werden zwei unterschiedliche Verfahren genutzt, die im späteren Verlauf der Untersuchung
miteinander verglichen werden.
Zum einen soll die Klassifizierung über eine Ereignisstudie erfolgen und mittels der Ergebnisse
zur abnormalen Rendite in positiv, negativ und neutral eingeteilt werden. Das zweite Verfahren
weist den Ad-Hoc-Meldungen die Klassen aufgrund der Kursentwicklung am Ereignistag zu.
Aufgrund der im Kapitel 4.2.2 vorgestellten Problematik bei der Erzeugung von
Ereignisstudien wird mit dem zweiten Verfahren eine Alternative zur Kategorisierung der Testund Trainingsdaten verwendet.
4.1 Prämissen für die Textklassifikation
Ein gutes Klassifikationsergebnis setzt voraus, dass dem Klassifikator für die Kategorisierung
treffende Merkmalsbeschreibungen zu den entsprechenden Klassen vorliegen. Diese
Informationen erlauben dem Algorithmus Muster herauszuarbeiten, die die Unterschiede der
Klassen verdeutlichen und damit die Klassifizierung ermöglichen. Neue unbekannte
Dokumente können auf Grundlage der im ersten Schritt erzeugten Muster in die entsprechenden
Klassen eingeteilt werden. Das entwickelte Modell soll eine korrekte Vorhersage der
Klassenzugehörigkeit ermöglichen. In vorgestellten Studien zum überwachten Lernen wird die
Klassifikation der Trainingsdaten meist nur kurz oder gar nicht erwähnt. Die Autoren Schulz
et al. verwendeten in ihrer Studie die Ereignisstudie ([SSW03a], S. 4). Eine Alternative zur
Bewertung von Kursreaktionen und damit der Kategorisierung der Trainingsdaten mittels
Ereignisstudie stellt das Vorgehen von Groth et al. dar. Die Einteilung in die Klassen positiv
und negativ erfolgt aufgrund der Berechnung einer vereinfachten abnormalen Rendite. Diese
berechnet sich durch den 15 Minuten nach Veröffentlichung der Ad-Hoc-Meldung erzielten
Kurs dividiert durch den Kurs vor der Veröffentlichung. Die Autoren vertreten die Annahme,
dass der Zeitabschnitt zu kurz ist, um durch den Markttrend beeinflusst zu werden. ([GRO09],
S. 279). Die Autoren Hagenau et al. gehen einen ähnlichen Weg bei der Klassifizierung mit der
Argumentation, dass die Marktanpassung nicht genau zeitlich begrenzt werden kann und
aufgrund der Menge an Datensätzen mögliche Störungen ausgeglichen werden können. Sie
verwenden für die Klassifizierung bei Veröffentlichung während der Börsenzeiten die
Differenz von Eröffnungskurs und Schlusskurs, eine Veröffentlichung außerhalb der
Börsenzeiten führt zur Berechnung Eröffnungskurs am nächsten Tag minus Schlusskurs am
Tag der Veröffentlichung ([HLN13], S. 690 f.). Eine weitere Möglichkeit ist das Einsetzen von
Experten, die aufgrund ihrer Erfahrung die Trainingsdaten entsprechend klassifizieren.
Aufgrund von Zeit- und Kostengründen soll eine Möglichkeit gefunden werden, die die
Trainingsdaten schnellst- und bestmöglich kategorisiert. Im Rahmen dieser Arbeit werden
deshalb die Daten mittels einer Ereignisstudie und dem Vorgehen von Hagenau et al.
klassifiziert und die Ergebnisse miteinander verglichen. Vorteilhaft an letzterem ist, dass mehr
Ad-Hoc-Meldungen für die Klassifikation als bei der Ereignisstudie verwendet werden können
und zudem ein geringer Aufwand bei der Klassifikation der Trainingsdaten als bei der
Ereignisstudie anfällt.
– 26 –
Die Grundlage der Untersuchung bilden 24.812 Ad-hoc-Meldungen aus den Jahren 2003 bis
2014 wie nachfolgende Tabelle zeigt, die von der Webseite DGAP heruntergeladen werden.
Mit einem Zeitraum von 10 Jahren werden sowohl Börsenkrisen wie –hochzeiten in der
Analyse erfasst. Um beide Verfahren miteinander vergleichen zu können, ist es
wünschenswert, dass die für die Klassifizierung verwendeten Ad-Hoc-Meldungen in einem
positiven wie negativen Marktumfeld veröffentlicht wurden. Nur so kann gewährleistet
werden, dass die Einordnung in die entsprechenden Klassen beispielweise nicht durch einen
fortwährenden positiven Markt verzerrt werden. Ebenfalls sollen Aktien von umsatzstarken,
internationalen Unternehmen sowie Firmen mit geringem Börsenwert beachtet werden, da die
Marktreaktionen von Standard- und Nebenwerten unterschiedlich hoch ausfallen. Nebenwerte
überraschen den Markt eher mit neuen Informationen, nachdem hierzu seltener
Analystenberichte zur Verfügung stehen, was zu höheren Kursreaktionen führt (siehe Kapitel
5.1.2).
Nachfolgend findet eine Beschreibung der Daten statt. Unter den heruntergeladenen
Meldungen befinden sich auch fremdsprachige Meldungen, welche mit dem Framework
Textcat der TU Darmstadt aussortiert werden.
Datenbasis – Ad-Hoc-Meldungen vom Zeitraum 2003 – 2014
(DGAP)
Anzahl
24.812
-1.951
22.861
Ad-Hoc-Meldungen
Heruntergeladen
Fremdsprachig
Deutschsprachig
Tabelle 1: deutschsprachige Ad-Hoc-Meldungen.
Die verbleibenden 22.861 Datensätze werden im nächsten Schritt entsprechend des Verfahrens
weiter betrachtet und verarbeitet.
Als Nächstes erfolgt dabei die Klassifizierung der genannten Datensätze mittels Ereignisstudie.
Die Vorgehensweise dazu wird vorab noch kurz beschrieben.
4.2 Klassifizierung mittels Ereignisstudie
Mithilfe von Ereignisstudien lässt sich beurteilen, welche Marktreaktion ein konkretes Ereignis
wie die Veröffentlichung von Unternehmensberichten oder die Bekanntgabe eines
Übernahmeangebots verursacht.
Das Ereignis stellt dabei eine neue, bisher noch nicht veröffentlichte Information dar ([MS97],
S. 630). Die durch das Ereignis verursachte Marktreaktion lässt sich durch die Ermittlung der
abnormalen Rendite beschreiben. Die abnormale Rendite berechnet sich aus der tatsächlichen
Rendite abzüglich der zu erwartenden Rendite. Letztere entspricht der Rendite, die ohne der
Veröffentlichung des Ereignisses zu erwarten gewesen wäre ([Pet89], S. 36). Für die
– 27 –
Berechnung der abnormalen Rendite wird die Kapitalmarkteffizienz vorausgesetzt, womit neue
Informationen unverzüglich im Aktienpreis verarbeitet werden ([MS97], S. 630).
4.2.1 Vorgehensweise
Nach den Autoren Campell et al. lässt sich die Verfahrensweise der Ereignisstudie in sieben
Schritten beschreiben.







Ereignisdefinition
Festlegung von Auswahlkriterien
Verfahren zur Berechnung der normalen und abnormalen Rendite
Schätzverfahren
Überprüfung der Ergebnisse
Empirische Ergebnisse
Interpretation der Ergebnisse
Die Ereignisdefinition legt die zu untersuchenden Ereignisse fest. Laut Goerke sind dies neue
Unternehmensinformationen, die bei Veröffentlichung zu Kursbewegungen führen. Bei der
Bestimmung der Ereignisse ist zudem darauf zu achten, dass das Ereignis die
Erstveröffentlichung der Information darstellt, die dem Kapitalmarkt zugänglich ist. So stellt
die Bekanntgabe einer Fusion das konkrete Ereignis dar, nicht jedoch der Fusionstag ([Goe09],
S.468). Ebenfalls wird die Länge des Ereignisfensters festgelegt. Oftmals wird der Tag vor der
Veröffentlichung sowie der darauffolgende Tag für die Berechnung der abnormalen Rendite
verwendet ([CLM97], S. 151).
Im nächsten Schritt werden die Auswahlkriterien bestimmt, um eine engere Auswahl der
Ereignisse nach bestimmten Kriterien wie beispielsweise bestimmte Branchen, Industriezweige
oder Unternehmen eines bestimmten Aktienindizes wie der DAX30 zu ermöglichen ([CLM97],
S. 151).
Für die Beurteilung der Kurswirkung eines Ereignisses ist es notwendig, die normale und
abnormale Rendite zu berechnen. Dabei entspricht die normale Rendite der erwarteten
Marktreaktion ohne Einfluss des Ereignisses. Die abnormale Rendite berechnet sich aus der
tatsächlichen Rendite abzüglich der normalen bzw. erwarteten Rendite. Für die Berechnung
der abnormalen Rendite werden meist zwei Modelle verwendet. Das Constant Mean Return
Model geht davon aus, dass die durchschnittliche Rendite im Betrachtungszeitraum bzw. im
Schätzfenster gleich bleibt, wohingegen das Marktmodell einen linearen Zusammenhang
zwischen der Aktienrendite und der Marktrendite sieht ([CLM97], S. 151). Nachfolgend wird
die Schätzung der abnormalen Rendite unter Verwendung des Marktmodells beschrieben,
nachdem diese in der Untersuchung verwendet wird.
𝑅𝑖𝑡 = 𝛼𝑖 +𝛽𝑖 𝑅𝑚𝑡 + 𝑣𝑖𝑡
(7)
Die tatsächliche Rendite 𝑅𝑖𝑡 berechnet sich mithilfe der Schlusskurse der entsprechenden Aktie
im Schätzfenster, woraus sich die Parameter 𝑎𝑖 und 𝛽𝑖 schätzen lassen. 𝑎𝑖 entspricht dabei der
– 28 –
Rendite, welches das Unternehmen regelmäßig ohne den Einfluss des Benchmarks erzielt. Der
Parameter 𝛽𝑖 definiert wie sehr die Aktie vom jeweiligen Benchmark abhängig ist. 𝑅𝑚𝑡
beschreibt die täglich Rendite des gewählten Benchmarks und 𝑣𝑖𝑡 den Fehlerterm.
𝐸(𝑅𝑖𝑡 ) = 𝛼𝑖 +𝛽𝑖 𝑅𝑚𝑡
(8)
Die erwartete Rendite am Ereignistag berechnet sich mithilfe der geschätzten Parameter 𝑎𝑖 und
𝛽𝑖 aus Formel (7) und der erzielten Rendite des Benchmarks des Ereignistags.
𝐴𝑅𝑖𝑡 = 𝑅𝑖𝑡 − 𝐸(𝑅𝑖𝑡 )
(9)
([Goe09], S. 472 f.) Nachdem der gewählte Benchmark einen erheblichen Einfluss auf die
Renditeberechnung hat, empfiehlt Goerke einen breit gestreuten Index wie er bei USbezogenen Untersuchungen zur Anwendung kommt, zu verwenden, da einzelne Ereignisse
ansonsten den Index und damit die Berechnung der abnormalen Rendite beeinflussen.
Aufgrund der Gewichtung der Unternehmenswerte in kleinen Indexes kann bereits eine
Information zu hohen Schwankungen führen und somit zu Verzerrungen der abnormalen
Rendite ([Goe09], S. 474). Für die Berechnung der Renditen werden somit für den ganzen
Betrachtungszeitraum Kursdaten benötigt. Diese unterscheiden sich hinsichtlich der
wissenschaftlichen Untersuchung. Beispielsweise erfordert eine Analyse, die den IntradayHandel betrifft, kontinuierliche Daten.
Die Berechnung der abnormalen Rendite erfordert im nächsten Schritt die Festlegung des
Untersuchungszeitraums. Dieser unterteilt sich in ein Schätz- und Ereignisfenster. Das
Schätzfenster bestimmt den Zeitraum, welcher für die Berechnung der normalen Rendite
verwendet wird. Um die Kursbeeinflussung durch das Ereignis selbst auszuschließen, endet das
Schätzfenster vor dem Tag der Veröffentlichungen des Ereignisses. Für die Berechnung fließen
die Kurse während des geschätzten Zeitraums ein. Beim Markt Model wird zudem der lineare
Zusammenhang zum gewählten Index ermittelt ([CLM97], S. 152).
Die nachfolgende Abbildung der Autoren Clement et al. zeigt ein Schätz- und Ereignisfenster.
In dieser Betrachtung endet das Schätzfenster 30 Tage vor dem Ereignis. Die abnormale
Rendite wird hier für 10 Tage vor und nach der Veröffentlichung des Ereignisses bestimmt.
Abbildung 6: Umfang von Schätz- und Ereignisfenster, Quelle: Clement et al. [CFG07], S. 423.
– 29 –
Hinsichtlich der Länge der gewählten Zeiträume gibt es keine konkreten Vorgaben. So wählte
Oerke in seiner Untersuchung zur Kurswirkungen von Ad-Hoc-Meldungen ein Schätzfenster
von 100 bis 300 Tagen ([Oer99], S. 70). Jedoch weisen die Autoren Clement et al. daraufhin,
dass lange Schätzfenster vorteilhafter sind, um saisonbedingte Schwankungen auszugleichen
([CFG07], S. 423).
Mithilfe geeigneter Testverfahren wird im nächsten Schritt die Signifikanz der abnormalen
Rendite festgestellt ([CLM97], S. 152).
Bei der Bewertung der Ergebnisse sollte auch berücksichtigt werden, dass diese
möglicherweise beeinflusst wurden. So kann ein Ereignis und dessen Kurswirkung durchaus
durch ein weiteres, vermeintlich unabhängiges Ereignis beeinflusst werden ([CLM97], S. 152).
Beispielsweise belastet das Bekanntwerden der Abgas Manipulation durch Volkswagen und
die daraus resultierende Strafe in Milliardenhöhe nicht nur die VW Aktie, auch die Wertpapiere
von Zulieferern sind von der negativen Meldung betroffen. Analysten sehen aufgrund des
Imageverlustes bei Volkswagen einen Rückgang der Autoverkäufe, was sich wiederum
reduzierend auf die Nachfrage nach Autozubehörteilen äußert.
Abschließend erfolgen eine Interpretation der Ergebnisse und ein Herausarbeiten von
Schlussfolgerungen bezüglich der Kursbildung ([CLM97], S. 152).
4.2.2 Problemstellungen bei der Durchführung von Ereignisstudien
Die Durchführung von Ereignisstudien gestaltet sich zum einen dadurch komplex, da keine
einheitlichen Vorgaben bezüglich deren Gestaltung existieren. Je nach wissenschaftlichem Ziel
unterscheiden sich dabei die Modellparameter. Zum anderen besteht die Gefahr, dass die
Wirkung eines Ereignisses durch ein weiteres, sogenanntes überlappendes Ereignis, beeinflusst
wird. So weisen die Autoren McWillianms et al. darauf hin, dass die Gefahr der Beeinflussung
des Aktienkurses durch überlappende Ereignisse wie beispielsweise Schadensersatzklagen
oder Dividendenankündigungen bei längeren Ereignisfenstern groß ist ([MS97], S. 634).
Zudem zeigen Studien, dass die stärkste Kapitalmarktreaktion bereits kurz nach der
Veröffentlichung des Ereignisses eintritt. Das Ereignisfester sollte demnach so kurz wie
möglich gewählt werden, um überlappende Ereignisse möglichst auszuschließen, jedoch sollte
es groß genug sein, um die bedeutende Kursreaktion messen zu können ([MS97], S. 636). Eine
fehlerhafte Festlegung der Zeiträume für das Schätz- wie Ereignisfenster kann die Ergebnisse
zur abnormalen Rendite verzerren. Zu Verzerrungen kann ebenfalls
eine falsche
Benchmarkwahl führen, welche für die Berechnung des linearen Zusammenhangs zwischen
Markt und Aktie beim Markt Model benötigt wird. Laut Goerke empfiehlt es sich, einen breit
gestreuten Index wie er bei US-bezogenen Untersuchungen zur Anwendung kommt, zu
verwenden, da einzelne Ereignisse ansonsten den Index und damit die Berechnung der
abnormalen Rendite beeinflussen. Aufgrund der Gewichtung der Unternehmenswerte in
kleinen Indexes kann bereits eine Information zu hohen Schwankungen und somit zur
Falschberechnung führen ([Goe09], S. 474). Zudem ist bei der Bestimmung des
Ereigniszeitpunktes und somit indirekt bei der Festlegung des Ereignisfensters darauf zu
achten, dass die erste öffentliche Bekanntgabe des Vorhabens und nicht das Datum der
tatsächlichen Genehmigung verwendet wird. Es ist daher die Erstveröffentlichung zu
– 30 –
verwenden, um eine verzerrte Bewertung zu verhindern, welche andernfalls durch den
Antizipationseffekt entstehen könnte. ([Do80], S. 107).
4.2.3 Durchführung
Als einer der ersten Schritte der Durchführung der Ereignisstudie gelten die entsprechenden
Ereignisse festzulegen und entsprechende Auswahlkriterien zu treffen. Zumal die Ad-HocMeldung eine Insiderinformation von Natur aus darstellt, ist die Erstveröffentlichung bereits
der Ereigniszeitpunkt. Hinsichtlich der Auswahlkriterien werden nur Meldungen von
Emittenten betrachtet, die an der Börse Frankfurt oder im Xetra Handel gehandelt werden. Um
möglichen Verunreinigungen der Ereignisse zu entgegnen, werden auch Nebenwerte und
kleinere Unternehmen in die Ereignisstudie miteinbezogen. Kleinere Unternehmen haben
gegenüber DAX-Werten eine geringere Unternehmenskommunikation. Ebenfalls schenken
ihnen Analysten aufgrund der Verdienstmöglichkeiten an den Analysen von kleineren
Unternehmen und der meist vorliegenden Marktenge weniger Interesse, da diese seltener von
institutionellen Investoren gekauft werden ([Oer99], S. 140). Somit scheint eine
Verunreinigung der Ad-Hoc-Meldungen durch Analysten-Beiträge unwahrscheinlicher.
Für die Ereignisstudie werden ein Ereignis- von 8 und ein Schätzfenster von 200 Tagen
festgelegt. Mit dem langen Schätzfenster sollen saisonbedingte Kursschwankungen
ausgeglichen werden ([CFG07], S. 423). Dies erfordert jedoch für den gesamten Zeitraum
Ereignis- und Schätzfenster, die Verfügbarkeit der Kursdaten zu den Veröffentlichungen sowie
des genutzten Benchmark für das Marktmodel. Die Kursdaten werden von der Webseite
http://finance.yahoo.com heruntergeladen. Für das Marktmodel wird der Composite DAX
(CDAX) aufgrund seiner bereiten Streuung verwendet, die Daten des Performance-Index
stammen von der Börse Frankfurt.
Nachfolgend werden notwendige Bereinigungsschritte geschildert, um Fehler bzw.
Verzerrungen bei der Abnormalen Rendite zu vermeiden.
So zeigt sich, dass 6.179 Bekanntmachungen nach 17.30 Uhr erfolgten. Bei diesen wird der
Veröffentlichungstag auf den nächsten Tag 9 Uhr gesetzt. Als Grundlage gelten für diese
Untersuchung die Handelszeiten vom Handelsplatz Xetra, da auf diesen 80% des
Aktienhandels in Deutschland entfallen.
Zudem zeigt sich, dass kurz hintereinander erfolgte Bekanntmachungen desselben Emittenten
mit gleichem oder ähnlichem Schlagwort eine Ergänzung zur ersten Meldung darstellen.
Beispielsweise informiert die zeitlich frühere Ad-Hoc-Meldung über eine Kapitalerhöhung, in
der Nachfolgenden wird über die vollzogene Platzierung berichtet. Die Zweite stellt im
Rahmen der Ereignisstudie keine relevante neue Information dar, sie beschreibt lediglich die
in der ersten Ad-Hoc-Meldung beschriebene Umsetzung. Des Weiteren beinhalten die zweiten
Meldungen von kurz hintereinander veröffentlichten oftmals Berichtigungen der ersten oder es
werden neue Unternehmensinformationen mitgeteilt, womit kein eindeutiger Ereigniszeitpunkt
festgestellt werden kann bzw. ein überlappendes Ereignis vorliegt. Die obengenannten
Meldungen werden deshalb aus der Untersuchung ausgeschlossen, um Verunreinigungen bei
der Berechnung der abnormalen Rendite zu vermeiden.
– 31 –
Des Weiteren werden Ad-hoc-Meldungen zu gleichen Branchen ausgeschlossen, wenn sich die
Veröffentlichung zeitlich überschneidet. Sogenannte überlappende Ereignisse können negative
Auswirkungen auf die Renditeberechnung haben. Beispielsweise bewirken Gewinnwarnungen
eines Branchenvertreters oftmals bei Unternehmen, die in der gleichen Sparte vertreten sind,
ebenfalls einen Kursfall, nachdem der Markt von ähnlichen Bedingungen für den
Branchenvertreter ausgeht. Um überlappende Ereignisse aufzuspüren wird als Quelle das
Handelsblatt-Archiv verwendet, mit dem Ziel, betreffende Meldungen von der Analyse
auszuschließen. Für das Auffinden von überlappenden Ereignissen wird ein Ereignisfenster von
acht Tagen gewählt. Der Zeitraum erstreckt sich vier Tage vor und vier Tage nach dem
Veröffentlichungszeitpunkt.
Nach der Bereinigung der Daten erfolgt die Durchführung der Ereignisstudie. Hierfür wird die
Software Event Study Metrics der Universität Göttingen verwendet, die Studenten für 49 Euro
erwerben können. Die Software überzeugt durch eine intuitive Benutzeroberfläche. Zudem
ermöglicht sie ein schnelles Durchführen und die Überprüfung einer Ereignisstudie aufgrund
der umgesetzten Algorithmen, ohne jegliche Programmierkenntnisse besitzen zu müssen. Für
das Durchführen der Studie benötigt die Software Informationen zum Ereignis wie
beispielsweise die Kursdaten, den Ereigniszeitpunkt, Namen des Emittenten und einer
Kennung, zur eindeutigen Identifizierung des Ereignisses. Bei der Verwendung des
Marktmodels wird zudem der entsprechende Benchmark benötigt. Das Ergebnis der
Untersuchung wird im nachkommenden Abschnitt vorgestellt.
4.2.4 Ergebnis
Wie bereits im oben genannten Kapitel geschildert ist die Datenbasis einer Korrektur zu
unterziehen. Dabei führt die fehlende Verfügbarkeit von Kursdaten zu den größten
Ausschlüssen. Dies liegt zum einen darin Begründet, dass sich in der Datenbasis nicht
ausschließlich Insiderpapiere wie Wertpapiere befinden. Damit verbleiben für die eigentliche
Verfahrensdurchführung 9.052 Ad-Hoc-Meldungen.
– 32 –
Verwendete Ad-Hoc-Meldungen für die Ereignisstudienuntersuchung
Anzahl
24.812
-1.951
22.861
-8.836
14.025
-1.277
12.748
-2.106
10.639
-1.587
9.052
Ausschlusskriterien
Heruntergeladen
Fremdsprachig
Deutschsprachig
Fehlende Verfügbarkeit von
Kursdaten (Schätzfenster mit 200 Tagen)
Datenbasis mit Kursdaten
Nicht untersuchte Index-Zuordnungen
Bereinigte Datenbasis
Überlappungen durch gleichen
Emittenten/Branchenvertreter
Bereinigte Datenbasis
Überlappende Handelsblattmeldungen
Verwendete Datenbasis
Tabelle 2: Ad-Hoc-Meldungen Ereignisstudie.
Aufgrund des aufwendigen Verfahrens und aus Performancegründen werden nur 890 Ad-HocMeldungen mittels der Software Event Study Metics analysiert. Die Auswahl wird mit der
Random Funktion von Oracle getroffen. Im Nachfolgenden werden die Ergebnisse der
Ereignisstudie dargestellt.
Für die Einteilung der Ereignisse in die Klassen „positiv“, „negativ“ und „neutral“ werden die
abnormale Renditen die vor, nach und am Ereignistag zu einer Aktie erzielt werden summiert.
Eine abnormale Rendite größer 0.001 führt zu der Klassenzuordnung „positiv“, kleiner -0.001
zu der Zuordnung „negativ“ und dem Rest wird „neutral“ zugeteilt. Dies führt zu folgender
Aufteilung:
Klassifizierung der Test- und Trainingsdaten
Klasse
positiv
negativ
neutral
Test- und Trainingsdaten
Mittels Ereignisstudie
451
424
16
891
Tabelle 3: Klassifizierungsergebnis Ereignisstudie, drei Klassen.
451 Meldungen werden der Klasse positiv, 424 der Kategorie negativ und 16 der Klasse neutral
zugeordnet.
Es folgt im nächsten Kapitel die Klassenzuordnung der Ad-Hoc-Meldungen aufgrund der
Marktreaktion, die die betreffende Aktie aufgrund der Veröffentlichung der neuen Information
erfährt.
– 33 –
4.3 Klassifizierung mittels der Kursentwicklung am Ereignistag
Die Autoren Hagenau et al. verwenden für die binäre Klassifizierung von Ad-Hoc-Meldungen
in die Klassen „positiv“ und „negativ“ die Differenz aus Schluss- und Eröffnungskurs des
entsprechenden Veröffentlichungstags. Eine Veröffentlichung außerhalb der Börsenzeiten
führt zur Berechnung Eröffnungskurs am nächsten Tag minus Schlusskurs am Tag der
Veröffentlichung ([HLN13], S. 690 f.). Im Gegensatz zur Ereignisstudie besticht diese Form
der Klassifikation durch ihre Einfachheit. Dieses Verfahren erfordert keine Überprüfung
hinsichtlich überlappender Ereignisse oder die Berechnung der abnormalen Rendite, sondern
benötigt lediglich die entsprechenden Kursdaten der zu untersuchenden Aktien. Dies lässt eine
schnelle und kostengünstige Klassifizierung zu, welche anschließend vorgestellt wird.
4.3.1 Durchführung
Die Berechnung findet ausschließlich auf Datenbankebene statt, da damit eine schnelle
Bearbeitung möglich ist. Nachdem die Autoren Hagenau et al. ihr Verfahren nicht näher als
oben erwähnt beschreiben, ist unklar, wie mit Besonderheiten umgegangen werden soll.
Nachstehend wird demzufolge beschrieben, wie das Verfahren der Autoren in dieser
Untersuchung umgesetzt wird.
Die Berechnung der Kursreaktion unterscheidet sich
Veröffentlichungszeitpunkt wie bei Veröffentlichungen an
Wochenenden.
in Bezug auf
börsenfreie Tage
den
und
Erfolgt die Veröffentlichung innerhalb des Xetra-Handelszeitraums und an einem Handelstag,
entspricht die Rendite dem Schlusskurs am Tag der Veröffentlichung abzüglich dem
Eröffnungskurs am Tag der Veröffentlichung.
Bei Veröffentlichungen an börsenfreien Tagen beträgt die Rendite dem Eröffnungskurs nach
Veröffentlichung abzüglich dem Schlusskurs vor der Veröffentlichung.
Erfolgt die Veröffentlichung außerhalb des Handelszeitraums bis 24:00 Uhr an Börsentagen,
berechnet sich die Rendite nach dem Eröffnungskurs nach der Veröffentlichung abzüglich dem
Schlusskurs am Tag der Veröffentlichung.
Bei Veröffentlichungen nach 24:00 Uhr an Börsentagen berechnet sich die Rendite nach dem
Eröffnungskurs am Tag der Veröffentlichung abzüglich des Schlusskurses am Vortag der
Veröffentlichung.
Die Ergebnisse, die sich aus der hier genannten Durchführung ergeben, werden im nächsten
Abschnitt präsentiert.
– 34 –
4.3.2 Ergebnis
Die angefügte Tabelle dokumentiert das Ergebnis aus dem vorangegangen beschriebenen
Vorgehen zur Klassifizierung von Ad-Hoc-Meldungen.
Klassifizierung aufgrund der Marktreaktion am Eröffnungstag
– 3 Klasse
Anzahl
6.467
4.600
1.765
12.832
Klassentyp
positiv
negativ
neutral
Datenbasis mit Kursdaten
Tabelle 4: Klassifizierungsergebnis Marktreaktion, drei Klassen.
Dies führt zur folgenden Kategorisierung der 12.832 Ad-Hoc-Meldungen. Bei 1.765
Meldungen fand keine Kursreaktion statt. Für 4.600 Meldungen kann eine negative Rendite
festgestellt werden und 6.467 Meldungen erzielten eine positive Rendite. Dabei wurde eine
Rendite über 0 bereits als positiv, unter 0 als negativ und gleich 0 als neutral gewertet.
– 35 –
5 Textklassifikation
Dieses Kapitel dokumentiert die Durchführung des gesamten Textklassifikationsverfahrens. Es
beginnt mit der Beschreibung der Datengewinnung und Datenbasis. Stellt die
Datenaufbereitung vor, die im Rahmen der Textklassifikation notwendig sind, und präsentiert
im letzten Abschnitt die Ergebnisse des Klassifikationsverfahrens.
5.1 Daten
Die Daten stellen die Grundlage jedes Textklassifikationsverfahrens dar, womit der
Datenspeicherung und –aufbereitung eine große Bedeutung zukommt. Um den Anforderungen
an die Datenaufbereitung gerecht zu werden, wird in dieser Untersuchung eine relationale
Datenbank eingesetzt.
Nachfolgende Kapitel dokumentieren, wie die Daten für die Textklassifikation gewonnen
werden. Des Weiteren folgt eine Beschreibung der Speicherung der Daten in der Datenbank
und der Datenaufbereitungsschritte.
5.1.1 Datengewinnung
Laut § 3a Wertpapierhandelsanzeige- und Insiderverzeichnisverordnung (WpAIV) sind
Emittenten zur Veröffentlichung von Informationen wie Ad-Hoc-Meldungen dazu verpflichtet,
diese Medien zuzuleiten, welche für eine rasche und zeitnahe Verbreitung der Information an
alle Mitgliedsstaaten der Europäischen Union und den Vertragsstaaten des Abkommens über
den Europäischen Wirtschaftsraum sorgen. Die DGAP bietet die oben genannten
Anforderungen als Dienstleistung an und sorgen für die europaweite Verbreitung von Ad-HocMeldungen. Zudem informieren sie die Börsen und BaFin über die neuen Meldungen und
stellen diese auf der DGAP Webseite zur Verfügung. Letzteres dient als Quelle für die zu
untersuchenden Ad-Hoc-Meldungen aus den Jahren 2003 bis 2014, welche mittels eines JavaProgramms von der Webseite heruntergeladen und in einer Oracle-Datenbank gespeichert
werden.
Nähere
Informationen
zum
Emittenten,
wie
die
Branchentätigkeit,
Unternehmensbeschreibung, Symbol, WKN und Marktplatz sowie der für die Ereignisstudie
benötigte C-DAX Performance-Index für den Zeitraum 2003 bis 2014, stammen von der
Webseite der Frankfurter Börse.
Kursdaten, welche für die Ereignisstudie wie für die Klassifizierung der Ad-Hoc-Meldungen
benötigt werden, werden von der Webseite http://finance.yahoo.com heruntergeladen. Die
Schlusskurse sind bereinigt ([YAH]) und eignen sich daher für Ereignisstudien. Die Daten
werden kostenlos im Dateiformat CSV bereitgestellt. Ein Nachteil gegenüber kostenpflichtige
Quellen ist die fehlende Verfügbarkeit von einzelnen Kursdaten (siehe Kapitel 5.1.2).
Laut Oerke sind Verunreinigungen durch überlappende Ereignisse zu vernachlässigen, wenn
die Stichprobe ausreichend groß ist. Dennoch werden üblicherweise bereinigte Ereignisstudien
durchgeführt ([Oer99], S. 51). In dieser Studie wird daher ebenfalls nach überlappenden
– 36 –
Ereignissen gesucht. Als Quelle wird hierfür das Handelsblatt-Archiv verwendet. Dabei wird
zu jeder Ad-Hoc-Meldung vier Tage vor und vier Tage nach der Veröffentlichung nach
weiteren Nachrichten gesucht.
Eine Beschreibung der heruntergeladenen Daten erfolgt im nächsten Abschnitt.
5.1.2 Datenbeschreibung
Die Grundlage für die Untersuchung bilden die Ad-Hoc-Meldungen aus den Jahren 2003 bis
2014. Der Betrachtungszeitraum wird deshalb so lange angesetzt, um auch Börsenkrisen wie
die Weltwirtschaftskrise im Jahre 2008 und nicht nur Wachstumszeiten in der Untersuchung
zu erfassen. Insbesondere aufgrund der angedachten Verfahren zum Klassifizieren der
Trainingsdaten ist es wichtig, dass die Verfahren bei Baissen wie Haussen zum Einsatz
kommen. Somit sollen Verzerrungen, die beispielsweise aufgrund einer durchgängigen Hausse
entstünden, verhindert werden. Anleger reagieren möglicherweise positiver auf Meldungen,
wenn der entsprechende Aktienindex laufend neue Höchstrekorde einstellt. Zögerlicher
hingegen wird ein Anleger agieren, wenn dieser erst vor kurzem bei einem Börsencrash Geld
verloren hat. So stellt Güttler in einer Untersuchung zur Umsetzung der Publizitätspflicht fest,
dass Nemax-50 Unternehmen bei positiver Kapitalmarktstimmung mehr Ad-Hoc-Meldungen
veröffentlichten, um die Gunst des Kapitalmarkts zu nutzen und somit von der Kauflaune der
Anleger zu profitieren ([Güt05], S. 21 f.).
Im Zeitraum Ende 2003 bis 2014 wurden auf der Webseite der DGAP 24.812 Meldungen
veröffentlicht, wovon 1.951 Nachrichten nicht in Deutsch abgefasst wurden und somit von der
Untersuchung ausgeschlossen werden.
Datenbasis – Ad-Hoc-Meldungen vom Zeitraum 2003 – 2014
(DGAP)
Anzahl
24.812
-1.951
22.861
Ad-Hoc-Meldungen
Heruntergeladen
Fremdsprachig
Deutschsprachig
Tabelle 5: Datenbasis.
Für die Kategorisierung der Trainingsdaten werden zu den Meldungen die entsprechenden
Kursdaten benötigt. Die Klassifizierung mittels Ereignisstudie erfordert für den gesamten
Zeitraum Ereignis- und Schätzfenster Kursdaten. Die detaillierte Aufstellung zur Auswahl der
Meldungen, die sich für die Ereignisstudie eigenen, findet sich in Kapitel 4.1.4. Höchstens
stehen damit 12.813 Meldungen als Trainings- und Testdaten zur Verfügung, wie nachfolgende
Tabelle zeigt. Viele Nachrichten werden aufgrund von fehlenden Kursdaten nicht weiter
beachtet.
Verwendete Ad-Hoc-Meldungen
– 37 –
Anzahl
22.861
-10.048
12.813
Ausschlusskriterien
Deutschsprachige Meldungen
Fehlende Verfügbarkeit von
Kursdaten; nicht verwendete
Indices
Datenbasis mit Kursdaten
Tabelle 6: Ad-Hoc-Meldungen Klassifizierung aufgrund Marktreaktion.
Um die benötigten Kursdaten von der Webseite Yahoo Finance herunterladen zu können, wird
das Tickersymbol zu jeder Aktie benötigt. Diese Information stammt von der Frankfurter
Börse. Es werden nur Meldungen zu Aktien betrachtet, zu denen ein Kurs abrufbar ist, dabei
wird im ersten Versuch der historische Kurs von der Handelsplattform Xetra und im Fehlerfall
von der Börse Frankfurt abgefragt. Die historischen Kursdaten enthalten den Eröffnungskurs,
maximaler und minimaler Tageskurs, Schlusskurs, das gehandelte Volumen und den
bereinigten Schlusskurs.
Hinsichtlich des gehandelten Index werden keine Beschränkungen vorgenommen, so werden
auch Meldungen von Emittenten, die als Nebenwerte gelten, untersucht. Daraus ergibt sich
dargestellte Konstellation hinsichtlich der Verteilung der Ad-Hoc-Meldungen zu dem
zugeordneten Index.
Verwendete Ad-Hoc-Meldungen nach Indexzuordnung
Anzahl
977
1.034
1.141
810
3.962
8.851
12.813
Index
Standardwert (DAX30)
MDAX
SDAX
TecDax
Prime Standard
Rest
Datenbasis mit Kursdaten
Tabelle 7: Ad-Hoc-Meldungen Marktreaktion sortiert nach Index.
Einzige Bedingung ist, dass die Papiere dem regulierten Markt unterliegen. Die dazugehörigen
Emittenten zu den 3.962 unterliegen sogar dem Prime Standard und haben damit die höchsten
Transparenzstandards zu erfüllen. Ad-Hoc-Meldungen zu Nebenwerten verursachen bei der
Veröffentlichung oftmals höhere Renditen als Standardwerte. Dies liegt darin begründet, dass
die Berichterstattung bei Nebenwerten geringer ist und sich auch Analysten aufgrund der
Verdienstmöglichkeiten mit den Beiträgen zurückhalten. Somit gelingt den Unternehmen von
Standardwerten oftmals die Platzierung einer neuen Nachricht, die nicht annähernd vor der
Veröffentlichung durch den Markt hätte antizipiert werden können.
Wie bereits im Kapitel 4 angeführt, sollen die Daten realitätsnah sein, um somit
Börsenhochzeiten wie –krisen in der Untersuchung zu erfassen. Deshalb wird versucht die
– 38 –
Datenbasis so wenig wie möglich zu beschränken. Angefügte Tabelle zeigt die Anzahl der
Meldungen zu den Jahren. Dabei wird erkennbar, dass die Börsenjahre ähnlich durch die
Anzahl der Veröffentlichungen vertreten sind.
Verwendete Ad-Hoc-Meldungen sortiert nach
Veröffentlichungsjahr
Anzahl
193
1.135
1.174
1.202
1.324
1.149
1.040
1.054
1.016
1.061
1.180
1.305
12.813
Veröffentlichungsjahr
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
Datenbasis mit Kursdaten
Tabelle 8: Ad-Hoc-Meldungen Marktreaktion sortiert nach Jahr.
Für einen performanten Zugriff auf die genannten Daten sind die gewählte Datenstruktur sowie
die darunterliegende Datenverwaltung von existentieller Bedeutung. Die deshalb im nächsten
Schritt vorgestellt werden.
5.1.3 Datenstruktur
Für die Speicherung der Daten wird eine Oracle Datenbank verwendet. Diese setzt sich aus den
Komponenten Datenbankmanagementsystem (DBMS) und Datenbasis zusammen. Die DBMS
ist der Datenbasis vorgeschalten und sorgt für einen geordneten Zugriff auf die Daten.
Beispielsweise koordiniert sie konkurrierende Zugriffe mehrerer Datenbankuser oder setzt
Sicherheitskonzepte um, die den Datenzugriff der User kontrolliert. Für diese Untersuchung
sind insbesondere die Datenbankfunktionalitäten Transaktionssicherheit, Erstellung von
Datensicherungen, Umsetzung von regulären Ausdrücken und Prozeduren von großem Nutzen.
Die Indexerstellung auf Spalten ermöglicht zudem den Datenzugriff mittels Structured Query
Language (SQL) wesentlich zu beschleunigen. Der Zugriff auf die Datenbank erfolgt mit dem
SQL Developer, eine Entwicklungsumgebung für SQL von der Firma Oracle.
Im Rahmen dieser Untersuchung wird zudem eine Datenstruktur benötigt, die einen schnellen
Datenzugriff ermöglicht, Redundanzen vermeidet und Daten wieder auffindbar macht. Um
diesen Anforderungen gerecht zu werden, wird ein ähnliches Verfahren zur Erstellung einer
Textdatenbank genutzt, wie die Autoren Quasthoff et al. vorstellen. Dabei handelt es sich um
– 39 –
ein Verfahren zur Speicherung der zu untersuchenden Dokumente, das aufgrund der
Infrastruktur keine Einschränkungen hinsichtlich der Durchführung von Text Mining
Prozessen verursacht und zudem vom gewählten Prozess frei ist. Unterschiedliche Textformate
wie PDF, Microsoft Word Dokumente oder HTML-Datei werden im ersten Schritt in RawFormat konvertiert und anschließend in einer relationalen Datenbank gespeichert. Die dortige
Speicherung ermöglicht neben schnellen Zugriffsverfahren gute Auswertungsmöglichkeiten
aufgrund der Datensprache SQL. Nachfolgend wird der Text in Sätze und darauf aufbauend in
Wörter aufgeteilt. Mittels Fremdschlüsselbeziehung kann jederzeit auf den Originaltext
zugegriffen werden ([QW00], S. 1 f.). Näher ins Detail zu obengenannten Verfahren gehen die
Autoren Heyer et al. bei der Aufbereitung der Texte, so wird beispielsweise nach der Zerlegung
in Wörter, diese mit einem Wörterbuch verknüpft und statistische Verfahren darauf
angewendet ([HQW12], S. 57). Nachfolgende Abbildung zeigt die Datenstruktur, die im
Rahmen dieser Untersuchung eingesetzt wird.
– 40 –
MITTEILUNG_SATZ
MITTEILUNG
MITTEILUNG_ID
PS
MITTEILUNG_SATZ_ID
PS
NEWSHEADER
MITTEILUNG_TOKEN
SATZ
NACHRICHT_VOM
FS
SCHLAGWORT
MITTEILUNG_TOKEN_ID
PS
FS
MITTEILUNG_SATZ_ID
MITTEILUNG_ID
WORT
VERWENDET
WORTSTAMM
SPRACHE
IS_EIGENNAME
WERTPAPIER
FS
WERTPAPIER_ID
IS_BETRAG_MIT_WAEHRUNG
WERTPAPIER_ID
PS
URL
FS
STOPPLISTE_ID
WKN
MITTEILUNG
SYNONYM_LISTE_ID
ISIN
DEUTSCH
LAND
SYNONYM_LISTE
ERG_BER_VERWENDET
UNTERNEHMENSNAME
RELEVANT_EREIGNISSTUDIE
FS
PS
SYNONYM_LISTE_ID
PS
SYNONYM_LFD_NR
AKTIEN_BOERSE_INFO_ID
NACHRICHT_VOM_ORIG
FUER_KLASSIFIKATION
WORT
STOPPLISTE
FUER_EREIGNISSTUDIE_GEWAEHLT
WORTSTAMM
STOPPLISTE_ID
PS
DATUM_BOERSE_VEROEFF
STOPPWORT
DATUM_BOERSE_NACH_VER
WORTSTAMM
EREIGNIS_ID
PS
AKTIEN_BOERSE_INFO_ID
PS
VEROEFFENTL_AM
BRANCHE
NACHRICHT
FS
KURSDATEN
AKTIEN_BOERSE_INFO
EREIGNIS
MITTEILUNG_ID
KURSDATEN_ID
PS
NAME
DATUM
ISIN
EROEFFNUNGS_KURS
WKN
MAX_KURS
MNEMONIC
TIEF
INSTRUMENT_GROUP
SCHLUSS
INSTRUMENT_GROUP_ID
VOLUMEN
TRADING_MODEL_TYPE
BEREINIGTER_SCHLUSSKURS
ABNORMALE_RENDITE
ARS_ID
PS
FS
MITTEILUNG_ID
MAX_SPREAD
TMINUS4
START_PRE_TRADING
TMINUS3
END_POST_TRADING
TMINUS2
START_CONTIN_AUCTION
TMINUS1
END_CONTIN_AUCTION
Abbildung 7: Datenbankstruktur,
Quelle: eigene Darstellung
T
TPLUS1
TPLUS2
TPLUS3
TPLUS4
INSTRUMENT_TYPE
INSTRUMENT_SUB_TYPE
– 41UNIT_OF_QUOTATION
–
INTEREST_RATE
MARKET_SEGMENT
FS
MITTEILUNG_ID
BOERSE_GESCHLOSSEN
Die Tabelle MITTEILUNG enthält die original Ad-Hoc-Meldungen und Informationen, die
sich auf die Meldung beziehen, wie beispielsweise das Veröffentlichungsdatum, ob es sich um
eine deutschsprachige Ad-Hoc-Meldung handelt, die dazugehörige URL und die
WERTPAPIER_ID. Letztere verweist auf die Tabelle WERTPAPIER, in welcher alle
Wertpapiere aufgelistet sind, zu denen Ad-Hoc-Meldungen im Untersuchungszeitraum
veröffentlicht wurden. Ergänzende Informationen zum Wertpapier wie beispielsweise das
Tickersymbol und die Handelsplattform sind in der Tabelle AKTIEN_BOERSE_INFO
gespeichert. Mithilfe des SentenceDetectors von Apache OpenNLP werden die Meldungen in
Sätze überführt und in der Tabelle MITTEILUNG_SATZ gespeichert. Mit der mitgeführten
MITTEILUNG_ID kann auf die Originalmeldung zurückgegriffen werden. Die fortlaufend
vergebene MITTEILUNG_SATZ_ID erlaubt einen Rückschluss auf die Reihenfolge der
extrahierten Sätze. Letztere werden im nächsten Schritt in einzelne Wörter bzw. Tokens zerlegt
und in der Tabelle MITTEILUNG_TOKEN gespeichert. Die mitgeführte
MITTEILUNG_SATZ_ID lässt auf den entsprechenden Satz schließen. Ebenfalls wird in
dieser Tabelle der Wortstamm wie die Fremdschlüsselbeziehungen zu den Tabellen
STOPPLISTE und SYNONYM_LISTE geführt. Die Tabelle STOPPLISTE führt Wörter, die
als irrelevant eingestuft sind und damit nicht im Textklassifikationsergebnis berücksichtigt
werden dürfen. Die SYNONYM_LISTE dient dazu, sinngemäße Wörter zusammenzuführen,
um damit die Gewichtung im Vektorraum korrekt zu berechnen. In der Tabelle KURSDATEN
sind Kursinformationen abgelegt, welche für die Ereignisstudie benötigt werden. Abhängig
vom Veröffentlichungszeitpunkt der Ad-Hoc-Meldung liegen Kursdaten für ein Jahr vor der
Veröffentlichung bis 13 Tage danach vor. Die Tabelle EREIGNIS führt Presseartikel des
Handelsblatts, welche möglicherweise überlappende Ereignisse zu Ad-Hoc-Meldungen
darstellen.
Die
Ergebnisse
der
Ereignisstudie
werden
in
der
Tabelle
ABNORMALE_RENDITE abgelegt.
Die beschriebe Tabellenstruktur ermöglicht es, einzelne Datenaufbereitungsschritte wie die
Satzzerlegung leichter kontrollieren zu können. Zudem kann während des
Datenaufbereitungsprozesses bei Fehlern in Teilprozessen die Datenbank zurückgesetzt und
der entsprechende Prozessschritt erneut ausgeführt werden. Die Möglichkeiten der
Qualitätssicherung der Daten sind mit dem Einsatz einer Datenbank und der verfügbaren
Datenbanksprache SQL vielseitig. Ebenso unterstützen viele Datenbanken reguläre Ausdrücke
und bieten damit gute Möglichkeiten, Daten zu korrigieren und zu untersuchen. Ein weiterer
Vorteil der Datenstruktur ist, dass vorhandene Daten mit einem Wörterbuch verknüpft werden
können, um linguistische Text Mining-Prozesse umsetzen zu können. Letzteres wird in dieser
Arbeit nicht genutzt, nachdem unter anderem Verfahren wie das POS-Tagging im
Dokumentenaufbereitungsprozess nicht verwendet werden, welche ein Wörterbuch benötigen.
– 42 –
5.2 Durchführung
Dieses Kapitel beschreibt den praktischen Prozessablauf der Textklassifikation. Hierzu
gehören die Aufbereitung der Daten und der Textklassifikationsprozess. Im Anschluss folgt die
Aufbereitung der Klassifikationsläufe.
5.2.1 Dokumentenaufbereitung
Die Dokumentenaufbereitung ist die zeitaufwendigste Aufgabe im Textklassifikationsprozess,
nachdem diese sehr sorgfältig durchzuführen ist, um eine gute Datenbasis zu erhalten. Diese
ist notwendig, nachdem alle weiteren Prozessschritte davon profitieren und sich dies zudem
positiv im Klassifikationsergebnis niederschlägt. Die folgende Auflistung zeigt die einzelnen
Datenaufbereitungsschritte, in der Reihenfolge wie sie ausgeführt werden. Dabei bildet die
Tabelle MITTEILUNG mit den originalen Ad-Hoc-Meldungen den Ausgangspunkt.




Überführung der Mitteilungen in einzelne Wörter
- Segmentierung des Textes in Sätze
 Durchführung von inhaltlichen Änderungen
- Segmentierung der Sätze in Wörter
Stemming
Anbinden einer Synonymliste
Anbinden einer Stoppliste
Als erstes wird die Segmentierung des Textes in Wörter und Sätze beschrieben. Hierfür wird
das Framework Apache OpenNLP eingesetzt, welches mit der Programmiersprache Java
verwendet werden kann. Das Framework stellt für die Verarbeitung von natürlichsprachlichen
Texten die Anwendungen Sentence Detector, Tokenizer, Name Finder, POS Tagger, Chunker
und Parser zur Verfügung. Mithilfe des Sentence Detector wird natürlichsprachlicher Text in
Sätze unterteilt. Die Segmentierung des Textes in Sätze gestaltet sich unter anderem aufgrund
von Abkürzungen schwierig, welche meist mit einem Punkt enden und somit mit dem Satzende
verwechselt werden können ([HQW12], S.63). Hierfür bietet Apache das Tool Sentence
Detector Training an, welches unter Zuhilfenahme von einem Trainingskorpus beispielsweise
Abkürzungen und Datumsformatierungen für die untersuchte Sprache einübt und somit vom
Satzende zu unterscheiden lernt. Der Tokenizer dient zur Zerlegung der Sätze in Wörter. Auch
hier besteht die Möglichkeit wie beim Sentence Detector den Tokenizer mithilfe eines
Trainingskorpus zu trainieren. Dies ist insbesondere für die deutsche Sprache empfehlenswert,
nachdem eine Trennung der Sätze in Wörter an den Leerzeichen zu Fehlern führen kann (siehe
Kapitel 5.2.1).
Nach der Segmentierung der Ad-Hoc-Meldungen in Sätze und vor der Auftrennung der Sätze
in Wörter werden folgende inhaltliche Änderungen vorgenommen. Der jeweilige
Unternehmensname, Zeilenumbrüche, Trennlinien, die aus Fragezeichen oder Bindestrichen
bestehen, Kommunikationsdaten werden aus der Tabelle MITTEILUNG_SATZ entfernt, da
diese nicht zum Klassifikationsergebnis beitragen. Nachdem der Unternehmensname in einer
Mitteilung oft mehrmals auftritt und nicht zum Klassifikationsergebnis beiträgt, wird er durch
ein Leerzeichen ersetzt. Da dieser in der Tabelle Emittent vorliegt, wird für das Aufspüren und
– 43 –
Entfernen dieser aus den Mitteilungen nicht der Namefinder von Apache OpenNLP sondern
eine SQL-Abfrage mit regulären Ausdrücken genutzt. Letzteres Vorgehen erkannte die
Unternehmensnamen besser.
Um gewährleisten zu können, dass Wortstämme korrekt gezählt werden, werden einige Wörter
umgesetzt. Beispielsweise wird aus dem Bindestrich ein Minus in Verbindung mit einer Zahl,
aus dem Wort „Eur“ Euro oder aus dem Wort „zwei“ wird die Zahl 2.
Entgegen Vorgaben aus der Literatur oder dem Vorgehen in Studien ([GM08], S.6) werden
Tabellen und Zahlen nicht entfernt, da diese wertvolle Informationen hinsichtlich der
Klassifikation bieten. Oftmals werden Betriebsergebnisse in Ad-Hoc-Meldungen nur durch
Zahlen ausgedrückt. Bei der Analyse wird ersichtlich, dass für die Formulierungen von
negativen Meldungen oft nur ein Minuszeichen vor dem Konzernergebnis steht. Mit dem
Entfernen dieser Zahlen einschließlich der Minuszeichen geht eine wichtige Information
verloren.
Mithilfe des Frameworks Snowball wird der Stemming Algorithmus von Martin Porter
eingesetzt. Diese Implementation kann über Java in den Quellcode eingebunden werden. Es
werden sowohl die Wörter, die aus den Ad-Hoc-Meldungen extrahiert wurden, die
Synonymliste und die Stoppliste mit dem Stemming Verfahren in einen Wortstamm überführt.
Dies ermöglicht im späteren Verlauf der Dokumentenaufbereitung das Anbinden der
Synonym- und Stoppliste an die entsprechenden Wortstämme der Meldungen.
Mit der Anbindung einer Synonymliste soll das Klassifizierungsergebnis verbessert werden.
So werden Wörter mit sinngemäßer Bedeutung nicht einzeln gezählt, sondern
zusammengeführt und dann gezählt. Damit wird die Worthäufigkeit für gleichbedeutende
Wörter korrekt bewertet. Klassifikationsverfahren, die auf die Worthäufigkeit basieren,
erzielen dadurch bessere Ergebnisse. Aus Vereinfachungsgründen wird für die Berechnung des
Wortvorkommens die laufende Nummer der Synonymgruppe, die Spalte
SYNONYM_LISTE_ID, verwendet. Nachfolgende Abbildung zeigt einen Ausschnitt aus der
der Tabelle SYNONYM_LISTE unter der SYNONYM_LISTE_ID 1689 geführten Synonyme
und den dazugehörigen Wortstämmen.
– 44 –
Abbildung 8: Auszug aus der Tabelle SYNONYM_LISTE, Quelle: eigene Darstellung.
Die
verwendete
Synonymliste
stammt
von
der
Webseite
https://www.openthesaurus.de/about/download. Bei der Verwendung dieser Liste existiert ein
Problem, das sich nur manuell beheben lässt. Die Synonymliste führt Wörter mit
Mehrfachbedeutungen. Aufgrund der Bedeutungsvielfalt werden diese mehrmals gelistet, was
nachfolgende Abbildung deutlich macht. Die Zusammenführung von finanzwirtschaftlichen
Begriffen zu den entsprechenden Synonymen ist daher möglicherweise fehlerhaft.
Beispielsweise wird das Wort Markt unter der SYNONYM_LISTE_ID 4811 und 9454 geführt,
einmal als finanzwirtschaftlicher Begriff und im zweiten Fall als Örtlichkeit.
Abbildung 9: Mehrfachbedeutungen, Quelle: eigene Darstellung.
– 45 –
Von den 4.338.657 extrahierten Wortstämmen, die in dieser Untersuchung verwendet werden,
kann 2.715.153 ein Synonym zugeordnet werden. Davon könnten 721.957 Datensätze die
falsche Wortbedeutung zugeordnet worden sein. Die Klassifizierung wird deshalb mit und
ohne Synonyme gestartet, um festzustellen, ob diese Liste das Klassifikationsergebnis steigert.
Eine Korrektur der Liste ist aufgrund des Zeitaufwands für diese Untersuchung nicht möglich.
Das Verlinken einer Stoppliste verfolgt ebenfalls das Ziel, das Klassifikationsergebnis zu
verbessern. Nicht relevante Wörter wie Höflichkeitsfloskeln werden dabei aus dem Verfahren
herausgenommen. Die Stoppliste wurde aus mehreren online verfügbaren Stopplisten
zusammengefügt und im Anschluss hinsichtlich der domänenspezifischen Begriffe manuell
korrigiert bzw. geändert. Beispielsweise stellt das Wort „minus“ einen wichtigen Beitrag zum
Inhalt einer Ad-Hoc-Meldung dar und darf damit nicht in einer Stoppliste geführt werden. Zu
den oben genannten Wortstämmen konnten zudem 2.205.443 Datensätzen ein Stoppwort
zugeordnet werden.
Das nachfolgende ER-Diagramm zeigt die Tabellen MITTEILUNG_TOKEN mit den
einzelnen Wörtern, die aus den Ad-Hoc-Meldungen extrahiert wurden, SYNONYM_LISTE
UND STOPPLISTE.
MITTEILUNG_TOKEN
PS
SYNONYM_LISTE
MITTEILUNG_TOKEN_ID
PS
SYNONYM_LISTE_ID
MITTEILUNG_SATZ_ID
PS
SYNONYM_LFD_NR
WORT
WORT
WORTSTAMM
WORTSTAMM
IS_EIGENNAME
STOPPLISTE
IS_BETRAG_MIT_WAEHRUNG
FS
PS
STOPPLISTE_ID
SYNONYM_LISTE_ID
STOPPLISTE_ID
STOPPWORT
WORTSTAMM
Abbildung 10: Verlinkung von Stopp- und Synonymliste, Quelle: eigene Darstellung.
– 46 –
Die Fremdschlüsselbeziehung wurde aufgrund der Überstimmung mit den jeweiligen
Wortstamm erzeugt.
5.2.2 Klassifikation und Klassifikationsergebnis
Für die Textklassifikaton wird das WEKA Framework der Universität Waikato genutzt. Es
beinhaltet
gängige
Data-Mining
Verfahren
wie
Algorithmen
für
den
Dokumentenaufbereitungsprozess,
die
Klassifikation,
Assoziationsanalyse,
Regressionsanalyse und Clusteranalyse. Die Software erfährt insbesondere aufgrund der
intuitiven Benutzeroberfläche und einfachen Handhabung große Beliebtheit. Ohne
entsprechende Programmierkenntnisse können Data-Mining Verfahren angewandt werden.
WEKA ermöglicht zudem eine Bewertung unterschiedlicher Algorithmen und erlaubt damit
dem User den geeignetsten Data-Mining Prozess entsprechend seiner Analysedaten zu finden.
Die Software unterliegt der GNU General Public License und ist somit frei verfügbar. Eine
Vielzahl der Tools und Algorithmen ist zudem über Java nutzbar ([FHK05], S. 1305f.).
WEKA wird in dieser Untersuchung nur für die Klassifizierung und Prüfung der Ergebnisse
genutzt. Die Dokumentenaufbereitung wird mit regulären Ausdrücken und dem Apache
OpenNLP Framework durchgeführt. Diese Trennung wird gewählt, um einzelne Abläufe
leichter wiederholbar zu machen. Aufgrund der zugrundeliegenden Datenbankstruktur ist es
möglich, einige durchgeführte Dokumentenaufbereitungsschritte bei der Textklassifikation
auszuschließen. Dies erlaubt es im Nachhinein, den entsprechenden Schritt zu überprüfen und
möglicherweise einer Korrektur zu unterziehen - insbesondere wenn sich durch das
Ausschließen eines Dokumentenaufbereitungsschrittes das Klassifikationsergebnis verbessert,
die Literatur aber auf Gegenteiliges hinweist.
WEKA benötigt für die Klassifikation die Test- wie Trainingsdaten im Attribute-Relation File
Format (ARFF). Dieses Format enthält die zu klassifizierenden Daten, die entsprechende
dazugehörige Kategorie und Informationen über die möglichen Kategorien und Datenspalten.
Folgende Abbildung zeigt einen Ausschnitt aus einer ARFF Datei.
Abbildung 11: Ausschnitt aus einer ARFF Datei, Quelle: eigene Darstellung
„@attribute klasse“ enthält die Information, welche unterschiedlichen Klassenzuordnungen
möglich sind. In diesem Fall neutral, positiv und negativ. Mit „@attribute text string“ wird
angegeben, um welche Art von Information es sich handelt und wie viele Spalten unterschieden
werden. Es handelt sich hier um eine Spalte im Stringformat. Nach „@data“ folgen die
– 47 –
Trainings- bzw. Testdaten. Jede Zeile entspricht einer Meldung und beginnt mit der
Information, zu welcher Klasse die Meldung gehört.
Mittels SQL Abfrage werden die für die Klassifikation benötigten Test- und Trainingsdaten
geladen und in einem Java Programm als ARFF Datei zur Verfügung gestellt. Je nach
Anwendungsfall ist es möglich, bestimmte Dokumentenaufbereitungsschritte wie die
Verlinkung der Wortstämme zu Synonymen nicht zu laden. Dies erlaubt gewisse
Gestaltungsmöglichkeiten bei den Klassifikationsläufen, aufgrund der vorher genannten
Selektionsmöglichkeiten. Die unterschiedlichen Klassifikationsläufe können dann im späteren
Verlauf miteinander verglichen werden.
In dieser Untersuchung werden bereits die Wortstämme aus der Datenbank geladen. Dies führt
dazu, dass die Wortstämme zu einer Meldung durch Semikolon getrennt in einem String in der
ARFF Datei dargestellt werden. Die WEKA Klasse StringToWordVector überführt aber dann
vor der Klassifizierung die Daten in einen Vektor, in dem es den String an den Semikolons
wieder auftrennt.
Wie bereits eingangs erwähnt, gibt es keine einheitliche konkrete Empfehlung hinsichtlich des
zu wählenden Klassifikators. Aufgrund der eingesetzten Algorithmen und deren Ergebnisse in
den Studien fiel daher die Auswahl auf die vier Klassifikatoren NaiveBayesMultinomial,
NaiveBayes, SMO, IBK.
Um festzustellen, welcher der genannten Klassifikatoren das beste Ergebnis erzielt, werden die
vier Algorithmen unter den gleichen Rahmenbedingungen getestet. Um ein hochwertiges
Klassifizierungsergebnis zu erzielen ist es laut Witten et al. notwendig, dass in den Test- wie
Trainingsdaten die Klassen gleichmäßig verteilt sind ([WIT01], S.134). Aus diesem Grund
wird bei allen Klassifikationsläufen die stratifizierte zehnfache Kreuzvalidierung anstatt der
Holdout Methode ausgeführt.
Für diese Untersuchung stehen 12.832 Meldungen, die aufgrund der Kursentwicklung am
Ereignistag, und 891 Meldungen, die aufgrund einer Ereignisstudie klassifiziert wurden, zur
Verfügung. Kommende Abbildung zeigt die Aufteilung der Meldungen in die entsprechenden
Klassen.
Klassifizierung der Test- und Trainingsdaten
Klasse
positiv
negativ
neutral
Test- und Trainingsdaten
Mittels Ereignisstudie
451
424
16
891
Tabelle 9: Ad-Hoc-Meldungen Klassifikationsergebnis im Vergleich..
– 48 –
Mittels Marktreaktion
6.467
4.600
1.765
12.832
Die beiden Datenpools werden getrennt voneinander betrachtet und getestet, um im späteren
Verlauf eine Aussage über die Qualität der erzeugten Trainings- und Testdaten treffen zu
können.
Um fehlerhafte Dokumentenaufbereitungsschritte zu erkennen, werden unterschiedliche
Klassifikationsläufe auf beiden Datenmengen
gestartet.
In den einzelnen
Klassifikationsdurchläufen werden dann die Dokumentenaufbereitungsschritte wie die
Reduzierung der Tokens aufgrund der Stoppliste, die Verwendung der Synonymliste und das
Erkennen von nummerischen Tokens ausgeschlossen. Daraus können wertvolle Schlüsse auf
die Verbesserung des gesamten Text Mining Prozesses gewonnen werden, die im Nachgang
die Klassifikation wesentlich verbessern können.
Die nachfolgende Tabelle zeigt die einzelnen Durchläufe mit den dazugehörigen Parametern
auf. Um die Besten Ergebnisse besser zu erkennen, sind diese markiert worden.
Die Bewertung der Ergebnisse aus beschriebenen Prozess folgt im nächsten Abschnitt.
– 49 –
Tabelle 10: Klassifikationsergebnis.
– 50 –
6 Evaluation
In diesem Kapitel wird die Beurteilung der Ergebnisse behandelt. Zudem erfolgt eine
Beschreibung der gewonnenen Erkenntnisse, dabei werden beispielsweise die Probleme
beleuchtet, die bei dieser Untersuchung aufgetreten sind. Abschließend folgen eine kurze
Zusammenfassung der Arbeit und ein Ausblick auf weitere Forschungsfragen zum Thema
Textklassifikation von Ad-Hoc-Meldungen.
6.1 Bewertung der Ergebnisse
Beim überwachten Lernen benötigt der Textklassifikator bereits kategorisierte Trainingsdaten.
Die Qualität dieser hat einen entscheidenden Einfluss auf das Klassifikationsergebnis (siehe
Kapitel 4). Die Einordnung der Trainingsklassen in die entsprechenden Kategorien soll die
Realität bestmöglich wiederspiegeln und dabei die geringsten Kosten verursachen. Eine
manuelle Einordnung durch Experten ist zeitaufwendig und erfordert aufgrund sich ändernder
Marktbedingungen immer wieder neue Befragungen und Anpassungen. Die Ereignisstudie als
eine weitere Möglichkeit zur Bestimmung der Klassenzuordnungen ist aber hinsichtlich der
benötigten Kursdaten für den gesamten Betrachtungszeitraum und der Prüfung nach
überlappenden Ereignissen ein ebenfalls sehr aufwendiges Vorgehen. Ein Verfahren, das nur
die Marktpreisentwicklung am Ereignistag betrachtet, ist hingegen leichter und schneller
umzusetzen. Dies spart nicht nur Zeit, sondern schafft zudem die Möglichkeit, ein
Vorhersagesystem kontinuierlich mit neuen Trainingsdaten zu versorgen. Aus diesem Grund
werden in dieser Untersuchung Letztgenanntes und die Ereignisstudie zur Kategorisierung der
Trainingsdaten verwendet und verglichen.
Im Ergebnis zeigt sich, dass die beiden Verfahren ein ähnliches Klassifikationsergebnis
hervorbringen. Mit der binären Klassifikation erzielt die Klassifizierung mittels der Daten aus
der Ereignisstudie und dem Naive Bayes Algorithmus 54,23%. Ebenfalls erreicht der gleiche
Klassifikator 55,25% unter Verwendung der klassifizierten Daten mittels der Marktreaktion.
In beiden Fällen wurde für die Aufteilung der Test- und Trainingsdaten die 10-fache
Kreuzvalidierung eingesetzt. Aufgrund des aufwendigen Verfahrens stehen bei der Einordnung
der Test- und Trainingsdaten durch die Ereignisstudie nur 874 Meldungen, für das zweite
Vorgehen 11.067 Datensätze zur Verfügung. Die Autoren Hagenau et al. rechtfertigen ihre
Methode der Klassifikation aufgrund folgender Annahmen: Die Anzahl der verwendeten
Meldungen ist so groß, dass sich Unwägbarkeiten ausgleichen. Des Weiteren weisen die
verwendeten Eröffnungs- und Schlusskurse die höchsten gehandelten Volumen auf und sind
dadurch verlässlicher als Intraday-Kurse. Als letztes Argument führen sie an, dass
widersprüchliche Aussagen über die Dauer der Marktanpassungen, die Ereignisse verursachen,
existieren ([HLN13], S. 691). Das beachtliche Ergebnis von einer erreichten Genauigkeit von
bis zu 76% ([HLN13], S. 695) in ihrer Untersuchung bekräftigt ihre Annahmen. Außerdem
bestätigt diese Studie, dass eine Klassifikation mittels Ereignisstudie sowie die Preisreaktion
zu nahezu gleichen Klassifikationsergebnissen führt.
– 51 –
Für die Klassifizierung der Test- und Trainingsdaten können somit beide Vorgehen eingesetzt
werden. Jedoch besticht das Vorgehen von Hagenau et al. durch die einfache, kostengünstige
und schnelle Umsetzung.
Die Klassifikation der Ad-Hoc-Meldungen in drei Kategorien mit den Daten aus der
Ereignisstudie bereitet sichtlich Probleme. Selten kategorisiert ein Klassifikator ein Dokument
als neutral, dennoch erreicht der Klassifikator mit Naive Bayes mit einer Genauigkeit von
53,03% unter Verwendung der Ereignisstudien Test- und Trainingsdaten ein hohes Ergebnis
und übersticht die Genauigkeit des anderen Vorgehens um 10,03%. Hier erzielte der SMO
Klassifizier mit 43,73% knapp vor dem Naive Bayes Algorithmus das beste Ergebnis. In dieser
Test- und Trainingsmenge werden die neutralen Dokumente angemessen vertreten (siehe
Kapitel 5.2.2). Das Resultat entspricht annähernd den Ergebnissen aus anderen Analysen
([MSG12], S. 14f.), wobei zu beachten ist, dass die Studien aufgrund unterschiedlicher
Vorgehensweisen kaum vergleichbar sind.
Die Erklärung für das gute Ergebnis der oben genannten Klassifizierung mittels der Daten aus
der Ereignisstudie liegt an der mangelnden Vertretung der neutralen Dokumente in den Testund Trainingsdaten. Nur 16 der 890 Meldungen sind als neutral eingestuft. Dem Klassifikator
stehen damit nur wenige Meldungen zur Verfügung um neutrale Dokumente unterscheiden zu
lernen. Die prozentuale Aufteilung der Klassenzuordnungen in positiv, neutral und negativ
unterscheidet sich zu der binären Kategorisierung in positiv und negativ kaum, weshalb das
Klassifikationsergebnis der binären Kategorisierung gleicht. Dieses Ergebnis wird sich
höchstwahrscheinlich wesentlich verschlechtern, wenn neutrale Dokumente zur
Kategorisierung hinzugefügt werden.
Die Klassifizierung der Ad-Hoc-Meldungen in zwei Klassen erreicht 54,23% mit den Daten
aus der Ereignisstudie und 55,25% mit den Klassifizierungen aus der Marktreaktion. Diese
Resultate liegen weit hinter den Erwartungen zurück. Würde ein binärer Klassifikator bei einer
Klassenverteilung von 6.647 positiven und 4.600 negativen Dokumenten, wie sie dieser Studie
entsprechen, immer die positive Klasse zuordnen, läge das Ergebnis bei 51,80% ([HLN13], S.
691) und wäre damit nur knapp unter der erreichten Genauigkeit in dieser Untersuchung.
Ursächlich sich Probleme, die während der Studie aufgetreten sind. Beispielsweise führt der
Einsatz von Synonym- und Stoppliste nicht immer zu besseren Klassifikationsergebnissen.
Näher ins Detail geht hierzu das Kapitel 6.2.
Hinsichtlich der Wahl des besten Klassifikators zur Analyse von Ad-Hoc-Meldungen erreichte
der Naive Bayes Algorithmus durchgehend, bei der Klassifizierung durch 2 und 3 Klassen, die
höchsten Ergebnisse. Annähernd gut war der SMO Klassifizier, wobei die Berechnungszeit
wesentlich länger ist.
Das nächste Kapitel schildert genauer die Erkenntnisse, die aus dieser Studie gewonnen
werden.
– 52 –
6.2 Erkenntnisse
Dieser Abschnitt fasst Feststellungen zur Untersuchung zusammen. Es schafft einen Überblick
über die technischen sowie fachlichen Erkenntnisse und auch Probleme, die während der
Untersuchung auftraten.
6.2.1 Fachliche Erkenntnisse
Ein fachlicher Aspekt, der zu einer Verbesserung des Klassifikationsergebnisses führen kann,
ist die Beachtung von Zahlen im Text Mining Verfahren. In Studien zur Prognose von
Aktienkursen bzw. Indices wird selten erwähnt, wie mit Zahlen und Grafiken in der
Dokumentenaufbereitung verfahren wird. Die Autoren Hagenau et al. beispielsweise löschen
Tabellen, Zahlen und Grafiken im Text Mining Verfahren und erreichen trotzdem
hervorragende Klassifikatonsergebnisse in ihrer Studie zur Prognose von Aktienkursen
([HLN13], S. 689).
Trotzdem soll mit nachfolgendem Ausschnitt aus einer Ad-Hoc-Meldung, die die
Konzernentwicklung in einer Tabelle veranschaulicht, auf die Problematik hingewiesen
werden.
Abbildung 12: Konzernergebnis in Tabellenform: eigene Darstellung.
Beispielsweise wird diese Meldung durch die Wörter „sehr“, „gute“, „Cash-Generierung“,
„hohem“, „qualitativem“, „Wachstum“, „verbesserte“, „erhöhte“, „deutlich“ in einem Vektor
beschrieben. Die Informationen aus der Tabelle finden dabei keine Berücksichtigung.
Insbesondere die positive Entwicklung der Konzernkennzahlen, die in der Tabelle dargestellt
wird, geht hier verloren. Eine korrekte Interpretation dieser Meldung ist gewissermaßen nur
durch die Berücksichtigung der Aufstellung möglich.
Um das Klassifikationsergebnis zu verbessern, ist deshalb ein Verfahren notwendig, das die
Zahlen ähnlich dem Verlinken der Synonymliste auf beispielsweise eine textuelle
– 53 –
Beschreibung umsetzt, um die Information in die Merkmalsbeschreibung miteinfließen zu
lassen.
Die Extraktion der Zahlen aus den Meldungen ist möglich. Beispielsweise verwenden die
Informationen, welche über DGAP veröffentlicht werden, zur Positionierung der Tabellen Tabund Leerzeichen. Damit sind sie schwieriger zu erkennen als HTML-Tabellen. Allerdings
einfacher als die Gewinnung der Information aus Grafiken.
Auch hinsichtlich der technischen Seiten können wertvolle Feststellungen gemacht werden, die
als Nächste dokumentiert werden.
6.2.2 Technische Erkenntnisse
Der Text Mining Prozess setzt sich aus vielen einzelnen Schritten zusammen, welcher jeder für
sich im Ergebnis genau geprüft werden muss. In Anbetracht der Datenmenge, die allein durch
die 12.833 untersuchten Ad-Hoc-Meldungen erzeugt wurde, stellt dies ein zeitaufwendiges
Unterfangen dar. Eine gute Dokumentenaufbereitung ist somit die Grundlage für eine
erfolgreiche Textklassifikation. Bereits während der Aufbereitung der Daten zeigte sich, dass
beispielsweise der Einsatz einer Synonymliste eine genaue Prüfung erfordert.
Um die Resultate in dieser Analyse zu verbessern, existieren zwei offensichtliche Maßnahmen,
die umgesetzt werden sollten. So bestehen Defizite hinsichtlich der Dokumentenaufbereitung,
da sich das Klassifikationsergebnis nur marginal ändert, wenn die Synonym- bzw. Stoppliste
verwendet wird.
Die Verlinkung der Synonymliste verbessert das Klassifikationsergebnis kaum, womit die
eingesetzte Liste zu überprüfen oder gegebenenfalls zu ersetzen ist. Wie bereits im Kapitel
3.4.1 erwähnt wird, besteht hier ein Problem mit den Mehrdeutigkeiten von Wortformen. Um
dem zu entgegnen ist es möglich, die Synonymliste manuell zu bearbeiten und sie dem
domänenspezifischen Bereich anzupassen, sie um die notwendige Information zu erweitern
oder die Mehrdeutigkeit mittels eines Algorithmus aufzulösen.
Ebenfalls veränderte sich das Klassifikationsergebnis durch die Verwendung einer Stoppliste
nur unwesentlich. Sie wurde aus mehreren Listen zusammengefügt und anschließend
entsprechend der Fachbegriffe angepasst. Problematisch bei der Erstellung einer Stoppliste ist,
dass die entsprechenden domänenspezifischem Begriffe bekannt sein müssen, um nicht
versehentlich relevante Informationen aus der Berechnung zu nehmen. Für die Erstellung der
Stoppliste
bedarf
es
somit
domänenspezifisches
Fachwissen.
Im
Kapitel
Dokumentenaufbereitung wird hierzu ein Vorgehen beschrieben, wie eine Stoppliste
automatisch generiert werden kann. Mit diesem Verfahren können Fachausdrücke von
irrelevanten Begriffen unterschieden werden und aus diesen Informationen eine Stoppliste
generiert werden.
Als technisch positive Feststellung erweist sich der Einsatz einer relationalen Datenbank. Die
eingesetzte
Datenstruktur
lässt
mehrmaliges
Ausführen
einzelner
– 54 –
Dokumentenaufbereitungsschritte zu, womit die Qualitätssicherung des Text Mining Prozesses
erleichtert wird.
Beispielsweise wurde die Satz- und Termzerlegung mehrmals durchgeführt, bis das Ergebnis
den Erwartungen entsprach. Dies ist möglich, in dem die entsprechenden Datenbanktabellen
geleert werden und danach erneut das entsprechende Java Programm mit der dazugehörigen
Datenbankanbindung gestartet wird. Außerdem erlaubt die Datenbankbearbeitungssprache
Data Manipulation Language (DML) Befehle sowie Updates von Tabellen oder Datenbank
Inserts im Fehlerfall mit einem Rollback rückgängig zu machen. Dies wurde insbesondere zur
Überprüfung von regulären Ausdrücken in Update Befehlen eingesetzt. Mittels SQL können
zudem komplexe Datenbankabfragen erstellt werden, womit die Daten genauer untersucht
werden können.
Ein weiterer positiver Nutzen der Datenbank ist die Erweiterungsfähigkeit. Es ist denkbar, diese
im nächsten Schritt um ein Wörterbuch zu erweitern, um linguistische Analysen auf den Daten
durchführen zu können.
Der Einsatz des WEKA Frameworks ermöglicht aufgrund der bereitgestellten Algorithmen
unzählige Testmöglichkeiten, die schnell umgesetzt werden können. Diese bilden noch viele
Ansatzmöglichkeiten, die geprüft werden können und zudem die Klassifikationsresultate
wesentlich verbessern können.
Die Feststellungen bieten Ansätze, die im Detail geprüft werden müssen und somit
möglicherweise dieses Klassifikationsverfahren hinsichtlich des Ergebnisses verbessert.
Im anschließenden Kapitel erfolgt eine Zusammenfassung der Arbeit und über die gewonnen
Erkenntnisse.
– 55 –
6.3 Zusammenfassung und Ausblick
Ziel dieser Arbeit ist es unter anderem festzustellen, ob zur Kategorisierung der Trainings- und
Testdaten eine gleichwertige Alternative zur Ereignisstudie oder der Befragung von Experten
existiert. Beide genannten Verfahren sind in der Umsetzung sehr aufwendig. Zudem erlauben
sie kaum eine maschinelle Umsetzung, so dass die Verfahren sich nicht zur kontinuierlichen
Kategorisierung neuer Dokumente eignen. Das beschriebene Verfahren im Kapitel 4.2 stellt
eine Alternative zu den hier genannten Vorgehen dar und ermöglicht zudem eine maschinelle
Umsetzung. Die Test- und Trainingsdateien werden aufgrund der verursachten Kursreaktion
am Veröffentlichungstag in die entsprechenden Klassen eingeteilt. Eine negative Kursreaktion
führt zur Klassifizierung negativ und eine positive zur Einteilung positiv. Im Vergleich erreicht
der Klassifikator mit der vorher genannten Einordnung nahezu das gleiche
Klassifikationsergebnis wie der Klassifikator (siehe Kapitel 6.1), welcher mit den Ergebnissen
aus der Ereignisstudie trainiert wird. Daraus lässt sich schließen, dass die Einordnung der Testund Trainingsdaten in die entsprechenden Klassen ebenfalls durch die Kursreaktion möglich
ist.
Ein weiterer Untersuchungsgegenstand dieser Analyse ist, welcher Klassifikator das beste
Ergebnis bei der Klassifizierung von Ad-Hoc-Meldungen erzielt. In der Literatur existieren
unterschiedliche Meinungen hinsichtlich des besten Klassifikators. Dies ist mitunter darauf
zurückzuführen, dass Text Mining Methoden auf unterschiedliche Quellen angewandt werden,
die eine Vergleichbarkeit der Ergebnisse nicht erlauben. Für die Prognose des Börsentrends
werden meist Varianten des NaiveBayes und Support Vektor Maschine eingesetzt ([HLN13],
S. 686). Verglichen werden in dieser Analyse die Klassifikatoren NaiveBayesMultinomial,
NaiveBayes, SMO und IBK, wobei der NaiveBayes Algorithmus bei der binären und der
Kategorisierung mit drei Klassen die besten Ergebnisse erzielt. Eine Klassifizierung in drei
Klassen ist für den Anleger dabei nicht von großem Nutzen, da sich hieraus keine
Handelsstrategie ableiten lässt ([MSG12], S. 12). Jedoch ist sie sinnvoll, wenn aufgrund der
Fülle der Meldungen eine Selektion stattfinden soll.
Ein weiteres Ziel ist unter anderem die bestmögliche Prognose des Börsentrends durch das
Klassifikationsergebnis. Eine Studie, die dieser hinsichtlich der untersuchten Datenquelle und
der Anzahl der Meldungen am Nächsten kommt, ist die der Autoren Hagenau et al. Sie
erreichten eine Genauigkeit von bis zu 76% ([HLN13], S. 695). Eine übersichtliche Darstellung
zu den erreichten Genauigkeiten zu diesem Thema findet sich auch in einer Veröffentlichung
der Autoren Minev et al. ([MSG12], S. 14 f.) In dieser Studie wird eine Genauigkeit von
55,04% erreicht. Sie liegt damit weit hinter dem Erreichbaren. Wie bereits im Kapitel 6.2
erläutert, ist davon auszugehen, dass das Klassifikationsergebnis verbessert wird, wenn auf
bestehender Datengrundlage eine überarbeitete Stopp- und Synonymliste eingesetzt wird. Auch
geht der Autor dieser Untersuchung davon aus, dass zudem eine Verbesserung erreicht wird,
wenn die Textklassifikation die Tabellen der jeweiligen Ad-Hoc-Meldungen berücksichtigt.
– 56 –
Aus dieser Überlegung stellt sich ein weiterer Ansatz, der geprüft werden sollte. Dieser
beschäftigt sich mit der Betrachtung von Tabellen im Text Mining. Insbesondere bei der
Textklassifikation von Ad-Hoc-Meldungen können durch die Auswertung von Tabellen
wertvolle Informationen gewonnen werden, die eine verbesserte Beschreibung der zu
prüfenden Dokumente liefert und somit die Qualität der Klassifikation steigert. Wie im Kapitel
6.2 vorgestellt, werden besonders in Quartals-, Halbjahres- und Jahresberichten Konzernzahlen
in Tabellenform beschrieben, eine textuelle Beschreibung erfolgt oftmals nicht. Eine korrekte
Interpretation der Meldung ist somit nur möglich, wenn auch die Informationen aus den
Tabellen in der Klassifikation berücksichtigt werden. Ein möglicher Ansatz ist, die Tabellen in
eine textuelle Beschreibung zu überführen, ähnlich dem Verfahren zur Verlinkung der
Synonymliste zu den entsprechenden Wortstämmen (siehe Kapitel 5.2).
– 57 –
Literatur
[BAFIN]
Bundesanstalt für Finanzdienstleistungsaufsicht (2013):
Emittentenleitfaden; verfügbar unter:
http://www.bafin.de/SharedDocs/Downloads/DE/Leitfaden/WA/dl_emitten
tenleitfaden_2013.pdf?__blob=publicationFile&v=5 (Download am
15.5.2015).
[CLM97]
Campbell, J.; Lo, A.; MacKinlay, A. (1997): The Econometrics of
Financial Markets. Princeton usw.: Princeton University Press.
[CEE09]
Carstensen, K.; Ebert, C.; Ebert, C.; Jekat, S.; Klabunde, R.; Langer, H.
(2009): Computerlinguistik und Sprachtechnologie – Eine Einführung. 3.
Aufl. Heidelberg : Spektrum Akademischer Verlag.
[CFG07]
Clement, M.; Fischer, M.; Goerke, B. (2007): Neuprodukteinführungen in
der Filmindustrie : wie reagieren Kapitalmarktinvestoren auf den
Umsatzerfolg neuer Kinofilme?, in: Die Betriebswirtschaft : DBW., Bd.
67, S. 418-444.
[CRS03]
Chakrabarti, S.; Roy, S.; Soundalgekar, M. (2003): Fast and accurate text
classification via multiple linear discriminant projections, in: The VLDB
Journal - The International Journal on Very Large Data Bases, Bd. 12 (2),
New York, S. 170-185.
[DZ11]
Dalal, M.; Zaveri, M. (2011): Automatic Text Classification: A Technical
Review, in: International Journal of Computer Applications, Bd. 28 (2), S.
37-40.
[Do80]
Dodd, P. (1980): Merger proposals, management discretion and
stockholder wealth, in: Journal of Financial Economics, Bd. 8, S. 105-137.
[Fam70]
Fama, E. (1970): Efficient Capital Markets: A Review of Theory and
Empirical Work, in: The Journal of Finance, New York, Bd. 25 (2), S. 383417.
[FWR06]
Fan, W.; Wallace, L.; Rich, S.; Zhang, Z. (2006): Tapping the power of
text mining; verfügbar unter:
http://read.pudn.com/downloads167/sourcecode/book/766494/tappingintot
hepowertextmining.pdf (Download am 1.4.2015).
– 58 –
[FBG06]
Felden, C.; Bock, H.; Gräning, A.; Molotowa, L.; Saat, J.; Schäfer, R.;
Schneider, B.; Steinborn, J.; Voecks, J.; Woerle, C. / Technical University
Bergakademie Freiberg (2006): Evalution von Algorithmen zur
Textklassifikation; verfügbar unter:
http://tu-freiberg.de/sites/default/files/media/fakultaet-63307/fileadmin/Arbeitspapiere/2006/felden_10_2006.pdf (Download
am 12.03.2015).
[FHK05]
Frank, E.; Holmes, M.; Kirkby, G.; Pfahringer, B.; Witten, I. (2005):
Weka: A machine learning workbench for data mining. Data Mining and
Knowledge Discovery Handbook: A Complete Guide for Practitioners and
Researchers. Berlin: Springer Verlag, 2005, S. 1305-1314.
[Goe09]
Goerke, B. (2009): Event-Studies, in: Albers, S. u. a. (Hrsg.): Methodik
der empirischen Forschung, Wiesbaden: Springer Fachmedien 2009,
S. 467-484.
[GM08]
Groth, S.; Muntermann, J. (2008): A Text Mining Approach to Support
Intraday Financial Decision-Making; verfügbar unter:
http://aisel.aisnet.org/amcis2008/191/ (Download am 13.5.2015).
[Güt05]
Güttler, A. (2005): Wird die Ad-hoc-Publizität korrekt umgesetzt? Eine
empirische Analyse unter Einbezug von Unternehmen des Neuen Markts;
verfügbar unter:
https://www.ebs.edu/fileadmin/redakteur/funkt.dept.finance/hackethal/WP/
2005_ahp_zfbf.pdf (Download am 12.3.2015).
[HLN13]
Hagenau, M.; Liebmann, M.; Neumann, D. (2013): Automated news
reading: Stock price prediction based on financial news using contextcapturing features; in: Decision Support Systems, 2013, Bd. 55 (3),
S. 685-697.
[HQW12]
Heyer, G.; Quasthoff, U.; Wittig, T. (2012): Text Mining: Wissensrohstoff
Text. 2. Nachdruck, Herdecke usw.:W3L-Verlag.
[HR06]
Hippner, H.; Rentzmann, R. (2006): Text Mining, in: Informatik Spektrum,
2006, Bd. 29 (4), S. 287–290.
[HNP05]
Hotho, A.; Nürnberger, A.; Paaß, G. (2005): A Brief Survey of Text
Mining, in: LDV Forum, 2005, Bd. 20 (1), S. 19-62.
– 59 –
[Kho]
Khorasgani, R.: Comparison of Different Classification Methods;
verfügbar unter:
http://webdocs.cs.ualberta.ca/~rabbanyk/research/603/short-paperrabbany.pdf (Download am 9.4.2015).
[Kow99]
Kowalski, G. (1999): Information Retrieval Systems: Theory and
Implementation; verfügbar unter:
http://www.m5zn.com/newuploads/2013/12/02/pdf/m5zn_be72a5b115ea2
9f.pdf (Download am 8.3.2015).
[Kuh09]
Kuhlmann, J. (2009): Ausgewählte Verfahren der Holdout- und
Kreuzvalidierung, , in: Albers, S. u. a. (Hrsg.): Methodik der empirischen
Forschung, Wiesbaden: Springer Fachmedien 2009, S. 537-546.
[MN98]
McCallum, A.; Nigam, K. (1998): A Comparison of Event Models for
Naive Bayes Text Classification; verfügbar unter:
http://www.kamalnigam.com/papers/multinomial-aaaiws98.pdf (Download
am 1.3.2015).
[MR05]
Maimon, O.; Rokach, L. (2005): Data Mining and Knowledge Discovery
Handbook. New York: Springer-Verlag.
[MS99]
Manning, C.; Schutze , H. (1999): Foundations of Statistical Natural
Language Processing; verfügbar unter:
http://ics.upjs.sk/~pero/web/documents/pillar/Manning_Schuetze_Statistica
lNLP.pdf (Download am 12.2.2015).
[MS97]
McWilliams, A.; Siegel, D. (1997): Event Studies in Management
Research: Theoretical and Empirical Issues, in: Academy of Management
Journal, 1997, Bd. 40 (3), S. 626-657.
[MW05]
Mehler, A.; Wolff, C. (2005): Einleitung: Perspektiven und Positionen des
Text Mining, in: LDV-Forum, 2005, Bd. 20 (1), S. 1-18.
[MDE12]
Miner, G., Delen, D., Elder, J., Fast, A., Hill, T., Nisbet,R. (2012):
Practical Text Mining and Statistical Analysis for Non-structured Text
Data Applications. Amsterdam:Academic Press.
[MSG12]
Minev, M.; Schommer, C.; Grammatikos, T./ University of Luxembourg
(2012): A survey on abnormal returns and prediction models; verfügbar
unter:
https://publications.uni.lu/bitstream/10993/14176/1/TR.Survey.News.Anal
ytics.pdf (Download am 29.5.2015).
– 60 –
[Oer99]
Oerke, M. (1999): Ad-hoc-Mitteilungen Und Deutscher Aktienmarkt:
Marktreaktion Auf Informationen. Wiesbaden: Deutscher UniversitätsVerlag GmbH.
[Pet89]
Peterson, P. (1989): Event Studies: A Review of Issues and Methodology,
in: Quarterly Journal of Business and Economics, 1989, Bd. 28 (3),
S. 36-66.
[Por14]
Porter, M. (2014): German stemming algorithm; verfügbar unter:
http://snowball.tartarus.org/algorithms/german/stemmer.html (letzter
Zugriff: 01.03.2015).
[QW00]
Quasthoff, U.; Wolff, C. (2000): A Flexible Infrastructure for Large
Monolingual Corpora; verfügbar unter: http://www.lrecconf.org/proceedings/lrec2000/pdf/226.pdf (Download am 19.7.2015).
[Röd99]
Röder, K. (1999): Der Einfluß der Verbreitungstechnologie auf die
Informationsverarbeitung von Ad hoc-Meldungen, in: Finanzmarkt und
Portfolio Management, 1999, Bd. 13, S. 375-388.
[Run10]
Runkler, T. (2010): Data Mining Methoden und Algorithmen intelligenter
Datenanalyse. Wiesbaden : Vieweg+Teubner.
[SH08]
Scheufele, B.; Haas, A. (2008): Medien und Aktien: Theoretische und
empirische Modellierung der Rolle der Berichterstattung für das
Börsengeschehen. Wiesbaden: VS Verlag für Sozialwissenschaften.
[SSW03a]
Schulz, A.; Spiliopoulou, M.; Winkler, K. (2003): Kursrelevanzprognose
von Ad-hoc-Meldungen: Text Mining wider die Informationsüberlastung
im Mobile Banking, verfügbar unter: http://wwwiti.cs.unimagdeburg.de/~graubitz/diasdem/papers/WI2003_SchulzSpiliopoulouWin
kler_Druckversion15Mai2003.pdf (Download am 19.2.2015).
[Seb02]
Sebastiani, F. (2002): Machine Learning in Automated Text
Categorization, in: ACM Computing Surveys, 2002, Bd. 34 (1), S. 1-47.
– 61 –
[Swa87]
Swanson, D. (1987): Two medical literatures that are logically but not
bibliographically connected, in: JASIS, 1987, Bd. 38 (4), S. 228-233.
[TIT11]
Ting, S.; Ip, W.; Tsang, A. (2011): Is Naive Bayes a Good Classifier for
Document Classification?, verfügbar unter:
http://www.sersc.org/journals/IJSEIA/vol5_no3_2011/4.pdf (Download am
18.3.2015)
[WIZ12]
Weiss, S.; Indurkhya, N.; Zhang, T. (2012): Fundamentals of Predictive
Text Mining. London: Springer-Verlag London.
[WSK12]
Westa, M.; Szymański, J.; Krawczyk, H. (2012): Text Classifiers for
Automatic Articles Categorization; verfügbar unter:
http://julian.eti.pg.gda.pl/publikacje/evalRep.pdf (Download am 1.5.2015).
[WCL98]
Wuthrich, B.; Cho, V.; Leung, S.; Permunetilleke, D.; Sankaran, K.;
Zhang, J.; Lam, W. (1998): Daily Stock Market Forecast from Textual
Web Data; verfügbar unter:
http://www.cwu.edu/~borisk/finance/smc98.pdf (Download am 10.7.2015).
[YAH]
Yahoo Deutschland: Bereinigter Schlusskurs; verfügbar unter:
https://de.hilfe.yahoo.com/kb/finance/Historische-Kursesln2311.html?impressions=true (letzter Zugriff 19.06.2015).
[Yan99]
Yang, Y. (1999): An evaluation of statistical approaches to text
categorization; verfügbar unter:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.462.3178&rep=r
ep1&type=pdf (Download am 22.4.2015).
– 62 –
Ehrenwörtliche Erklärung
Ich erkläre hiermit ehrenwörtlich, dass ich die vorliegende Arbeit selbstständig angefertigt
habe. Die aus fremden Quellen direkt oder indirekt übernommenen Gedanken sind als solche
kenntlich gemacht. Es wurden keine anderen als die angegebenen Stellen und Hinweise
verwandt.
Alle Quellen, die dem World Wide Web entnommen oder in einer sonstigen digitalen Form
verwendet wurden, ohne allgemein zugänglich zu sein, sind der Arbeit als elektronische Kopie
beigefügt. Der Durchführung einer elektronischen Plagiatsprüfung stimme ich hiermit zu. Die
eingereichte Datei entspricht der eingereichten Druckfassung.
Die vorliegende Arbeit wurde bisher keiner anderen Prüfungsbehörde vorgelegt und auch noch
nicht veröffentlicht.
Maitenbeth, den ___________
_______________________
Unterschrift
-
–I–
Herunterladen