Fakultät für Wirtschaftswissenschaften Diplomarbeit Klassifikation von Ad-Hoc-Meldungen Abschlussarbeit zur Erlangung des Grades eines Diplom-Wirtschaftsinformatiker/in (FH) in Wirtschaftsinformatik der Hochschule Wismar eingereicht von: Martina Maria Pointner geboren am 06. März 1978 in Wasserburg am Inn Studiengang Wirtschaftsinformatik Matrikelnummer: 114705 Erstgutachter: Prof. Dr. rer. pol. Jan Helmke Zweitgutachter: Prof. Dr. rer. nat. Jürgen Cleve Maitenbeth, den 29. September 2015 Inhaltsverzeichnis I. ABBILDUNGSVERZEICHNIS ............................................................................................................... III II. TABELLENVERZEICHNIS ................................................................................................................... IV III. ABKÜRZUNGSVERZEICHNIS ..........................................................................................................V 1 EINLEITUNG ............................................................................................................................................. 1 2 GRUNDLAGEN .......................................................................................................................................... 3 2.1 AD-HOC-MELDUNG .................................................................................................................................. 3 2.2 ANALYSEN ................................................................................................................................................ 4 2.2.1 Analysen zur Prognose der Richtungstendenz von Kursen ............................................................. 4 2.2.2 Analysen zu Textklassifikatoren ...................................................................................................... 6 2.3 3 4 TEXT MINING ..........................................................................................................................................11 3.1 DEFINITION...............................................................................................................................................11 3.2 TEXT MINING EINSATZMÖGLICHKEITEN ..................................................................................................12 3.3 TEXT MINING PROZESS ............................................................................................................................13 3.4 TEXTKLASSIFIKATION ..............................................................................................................................16 3.4.1 Dokumentenaufbereitung ...............................................................................................................18 3.4.2 Textklassifikatoren Algorithmen.....................................................................................................21 3.4.3 Bewertung des Textklassifikationsergebnisses ...............................................................................23 KLASSIFIZIERUNG DER AD-HOC-MELDUNG ................................................................................26 4.1 PRÄMISSEN FÜR DIE TEXTKLASSIFIKATION ..............................................................................................26 4.2 KLASSIFIZIERUNG MITTELS EREIGNISSTUDIE ...........................................................................................27 4.2.1 Vorgehensweise ..............................................................................................................................28 4.2.2 Problemstellungen bei der Durchführung von Ereignisstudien .....................................................30 4.2.3 Durchführung .................................................................................................................................31 4.2.4 Ergebnis .........................................................................................................................................32 4.3 5 KLASSIFIZIERUNG MITTELS DER KURSENTWICKLUNG AM EREIGNISTAG ..................................................34 4.3.1 Durchführung .................................................................................................................................34 4.3.2 Ergebnis .........................................................................................................................................35 TEXTKLASSIFIKATION ........................................................................................................................36 5.1 DATEN ......................................................................................................................................................36 5.1.1 Datengewinnung ............................................................................................................................36 5.1.2 Datenbeschreibung ........................................................................................................................37 5.1.3 Datenstruktur .................................................................................................................................39 5.2 - FINANZMARKTFORSCHUNG ....................................................................................................................... 9 DURCHFÜHRUNG ......................................................................................................................................43 5.2.1 Dokumentenaufbereitung ...............................................................................................................43 5.2.2 Klassifikation und Klassifikationsergebnis ....................................................................................47 –I– 6 EVALUATION........................................................................................................................................... 51 6.1 BEWERTUNG DER ERGEBNISSE................................................................................................................. 51 6.2 ERKENNTNISSE......................................................................................................................................... 53 6.2.1 Fachliche Erkenntnisse .................................................................................................................. 53 6.2.2 Technische Erkenntnisse ................................................................................................................ 54 6.3 ZUSAMMENFASSUNG UND AUSBLICK....................................................................................................... 56 LITERATUR ....................................................................................................................................................... 58 EHRENWÖRTLICHE ERKLÄRUNG ............................................................................................................... I - – II – I. Abbildungsverzeichnis Abbildung 1:Vergleich von Klassifikatoren, Quelle: [FBG06], S.31. .....................................................7 Abbildung 2: Text Mining Prozess, Quelle: [HR06], S.288. .................................................................13 Abbildung 3: Text Mining Prozess und Datenbankstruktur, Quelle: [HQW12], S.6. ............................15 Abbildung 4: Generic strategy fort ext classification, Quelle: [DZ11], S.38. ........................................17 Abbildung 5: Effektivste Klassifikationsverfahren, Quelle: [Run10], S.89. ..........................................21 Abbildung 6: Umfang von Schätz- und Ereignisfenster, Quelle: Clement et al. [CFG07], S. 423. .......29 Abbildung 7: Datenbankstruktur, Quelle: eigene Darstellung ...............................................................41 Abbildung 8: Auszug aus der Tabelle SYNONYM_LISTE, Quelle: eigene Darstellung. ....................45 Abbildung 9: Mehrfachbedeutungen, Quelle: eigene Darstellung. ........................................................45 Abbildung 10: Verlinkung von Stopp- und Synonymliste, Quelle: eigene Darstellung. .......................46 Abbildung 11: Ausschnitt aus einer ARFF Datei, Quelle: eigene Darstellung ......................................47 Abbildung 12: Konzernergebnis in Tabellenform: eigene Darstellung. .................................................53 - – III – II. Tabellenverzeichnis Tabelle 1: deutschsprachige Ad-Hoc-Meldungen.................................................................................. 27 Tabelle 2: Ad-Hoc-Meldungen Ereignisstudie. ..................................................................................... 33 Tabelle 3: Klassifizierungsergebnis Ereignisstudie, drei Klassen. ........................................................ 33 Tabelle 4: Klassifizierungsergebnis Marktreaktion, drei Klassen. ........................................................ 35 Tabelle 5: Datenbasis. ............................................................................................................................ 37 Tabelle 6: Ad-Hoc-Meldungen Klassifizierung aufgrund Marktreaktion. ............................................ 38 Tabelle 7: Ad-Hoc-Meldungen Marktreaktion sortiert nach Index. ...................................................... 38 Tabelle 8: Ad-Hoc-Meldungen Marktreaktion sortiert nach Jahr. ......................................................... 39 Tabelle 9: Ad-Hoc-Meldungen Klassifikationsergebnis im Vergleich.. ................................................ 48 Tabelle 10: Klassifikationsergebnis. ...................................................................................................... 50 - – IV – III. Abkürzungsverzeichnis Abkürzung Bedeutung ARFF Attribute-Relation File Format BaFin Bundesanstalt für Finanzdienstleistungsaufsicht CDAX Composite DAX DGAP Deutsche Gesellschaft für Ad-Hoc-Publizität DML Data Manipulation Language LSI Latent Semantic Indexing NLP Natural Language Processing SQL Structured Query Language TF term frequency TF-IDF term frequency - inverse document frequence WpHG Wertpapierhandelsgesetz Xetra Exchange Electronic Trading - –V– - – VI – 1 Einleitung Ad-Hoc-Meldungen beinhalten Insiderinformationen, die sich auf ein konkretes Wertpapier beziehen, welche bei Veröffentlichung möglicherweise eine positive oder negative Kurswirkung verursachen. Aufgrund der Informationswirkung, die von Ad-Hoc-Meldungen ausgeht, sind sie Gegenstand vieler Untersuchungen. Obwohl ihre Informationswirkung in zahlreichen Studien bewiesen ist, gestaltet sich die inhaltliche Bewertung und damit die Festlegung der Richtungstendenz ihrer Kurswirkung als schwierig. Bereits Analysten sind uneins über die Deutung von Unternehmensberichten, was sich in den unterschiedlichen Erwartungshaltungen in den veröffentlichten Analysen wiederspiegelt. Somit stellt die Bewertung von Ad-Hoc-Meldungen nicht nur für den Börsenlaien sondern auch für den institutionellen Anleger eine schwierige Aufgabe dar. Forschungsrichtungen, die sich sowohl mit dem Text Mining als auch mit der Finanzwirtschaft beschäftigten, sehen im Text Mining eine geeignete softwaretechnische Methode zur Prognose von Aktienkursen und Indices. Dabei wirkt sich der Einsatz einer maschinellen Textklassifizierung nicht nur zeitsparend aus, sondern wirkt zudem positiv unterstützend bei der Bewertungsanalyse. Diese Arbeit soll einen Überblick über den aktuellen Forschungsstand zur Prognose der Richtungstendenz von Börsenkursen durch die Textklassifikation von unstrukturierten Daten wie Ad-Hoc-Meldungen vermitteln. Zudem soll ein Prototyp entstehen, welcher die Meldungen in positive, negative und neutrale Dokumente hinsichtlich der Kurswirkung klassifiziert. Des Weiteren wird eine binäre Klassifikation in die Klassen positiv und negativ durchgeführt. Dabei sollen mehrere Textklassifikatoren getestet und im Ergebnis miteinander verglichen werden, nachdem in der Literatur hinsichtlich des Textklassifikator keine einheitliche Empfehlung existiert. Ziel der Studie ist die bestmögliche Vorhersage des Börsentrends durch das Klassifikationsergebnis. Aus dem Ergebnis können Schlüsse auf die zu erwartende Richtungstendenz der Kursreaktion einer Aktie gezogen werden. Eine Prognose, die durch ein Softwaresystem erstellt wird, ist für Privat- und institutionelle Anleger von großem Nutzen. Marktteilnehmern, die auf Ad-Hoc-Meldungen reagieren, bleibt kaum Zeit zur Bewertung, da die Meldungen nach Veröffentlichung unmittelbar dem Markt zur Verfügung stehen. Ein gutes Textklassifikationsergebnis setzt voraus, dass dem Klassifikator für die Kategorisierung treffende Merkmalsbeschreibungen zu den entsprechenden Klassen vorliegen. Diese Informationen erlauben dem Algorithmus Muster herauszuarbeiten, die die Unterschiede der Klassen verdeutlichen und damit die nachfolgende Klassifizierung von neuen unbekannten Dokumenten ermöglichen. In Studien wird die Einteilung der Trainingsdaten in Klassen kaum erwähnt, obwohl dies einen der wichtigsten Schritte der Textklassifikation darstellt. Im Rahmen dieser Arbeit sollen zudem zwei unterschiedliche Vorgehen zur Klassifikation der Trainingsdaten vorgestellt und verglichen werden: die Klassifikation mittels Ereignisstudie und der ermittelten abnormalen Rendite und aufgrund der Marktpreisentwicklung des Wertpapiers, die am Veröffentlichungstag der Information erzielt wurde. Von Interesse ist hier, ob sich das –1– Verfahren mithilfe der Marktpreisentwicklung eignet, nachdem dieses Vorgehen gegenüber der Ereignisstudie Kosten und Zeit spart. Das Kapitel Grundlagen führt in das Thema der Textklassifikation von Ad-Hoc-Meldungen ein. Als erstes erfolgt eine Beschreibung der zu untersuchenden Quellen, den Ad-Hoc-Meldungen, die aufgrund ihrer Informationswirkung Gegenstand vieler Untersuchgen sind. Im Anschluss werden Studien vorgestellt, die sich mit der Prognose der Richtungstendenz von Börsenkursen beschäftigen. Hierbei kommt die Analyse von unstrukturierten Daten wie Ad-Hoc-Meldungen durch Text Mining zum Einsatz. Anschließend folgen Untersuchungen zur Textklassifikation und ein kurzer Überblick über die Finanzmarktforschung und der Effizienzmarkthypothese, welche hauptsächlich durch Eugene Fama geprägt wurde. Letztere erklärt die Kurswirkung die von Insiderinformationen wie der Ad-Hoc-Meldung ausgeht. Im darauffolgenden Kapitel folgt eine Einführung in die Text Mining Methode. Dabei werden die Einsatzmöglichkeiten vorgestellt und näher auf die Fachrichtung Textklassifikation eingegangen. Für die Textklassifikation sind kategorisierte Trainings- und Testdaten notwendig. Dabei werden zwei Vorgehen eingesetzt, die am Ende der Untersuchung miteinander verglichen werden. Dieser Abschnitt stellt diese vor und bereitet die Ergebnisse hierzu auf. Das nächste Kapitel befasst sich mit der Durchführung der Textklassifikation und verwendet die kategorisierten Trainings- und Testdaten aus dem vorherigen Abschnitt. Weiterhin erfolgt eine Beschreibung der verwendeten Daten und über das konkrete Vorgehen. Dabei zeigt es auf, wie die Daten gewonnen und für die Analyseprozesse aufbereitet werden. Abschließend erfolgen die Beurteilung der Ergebnisse, eine Zusammenfassung und ein Ausblick auf künftige Weiterentwicklungsmöglichkeiten. –2– 2 Grundlagen Dieses Kapitel beginnt mit der Beschreibung der Ad-Hoc-Meldung, die Gegenstand dieser Untersuchung ist. Des Weiteren folgen Studien, die sich mit der Prognose von Börsentrends mittels Textklassifikation von unstrukturierten Daten wie Ad-Hoc-Meldungen beschäftigen. Zudem werden Untersuchungen zur Textklassifikation vorgestellt, die unter anderem erforschen, welcher Klassifikator das beste Klassifikationsergebnis hervorbringt. Abschließend wird kurz die Effizienzmarkthypothese vorgestellt, welche erklärt, wieso neue unbekannte Informationen zu einem neuen Marktgewicht führen. 2.1 Ad-Hoc-Meldung Der Öffentlichkeit unbekannte, neue Informationen, die sich auf den Inlandsemittenten eines Insiderpapiers beziehen und beim öffentlichen Bekanntwerden den Börsenkurs des Emittenten beeinflussen könnten, stellen laut dem §13 Wertpapierhandelsgesetz (WpHG) eine Insiderinformation dar. Laut §14 WpHG dürfen diese nicht dazu genutzt werden, den Informationsvorsprung gegenüber Nichtinformierten zu nutzen, indem aufgrund der zu erwartenden Reaktion bei Veröffentlichung der Information das Insiderpapier gekauft bzw. verkauft wird. Ebenfalls darf die Information nicht an Dritte weitergereicht werden. Laut §15 ist der Emittent dazu verpflichtet, eigens betreffende Insiderinformationen unverzüglich zu veröffentlichen. Die Ad hoc-Publizität hat damit das Ziel, den Markt transparenter zu gestalten und Marktmanipulationen und Insidergeschäfte zu unterbinden. Unter anderem sind laut Emittentenleitfaden 2013 der Bundesanstalt für Finanzdienstleistungsaufsicht (BaFin) AdHoc-Meldungen kurz zu fassen und dürfen zudem nicht als Werbefläche genutzt werden. ([BAFIN], S. 63) Insider sollen damit nicht die Möglichkeit haben, Insiderinformationen zu ihrem Vorteil zu nutzen. Auch sollen insbesondere Anleger vor Falschinformationen geschützt werden. Die Bekanntmachung von Insiderinformationen führt aufgrund der mittelstrengen Informationseffizienz zu einer Verarbeitung der neuen Information durch die Marktakteure, bis die neue Information durch den Markt verarbeitet ist und sich ein neues Kursgleichgewicht einstellt. Die Ad-Hoc-Meldung als Insiderinformation stellt ein solches Ereignis dar und führt unweigerlich zu Kursreaktionen, sofern die Meldung nicht vor der Veröffentlichung durch den Markt antizipiert werden kann. Ad-Hoc-Meldungen enthalten beispielsweise Informationen zu Personalveränderungen, Quartalsberichten, Kooperationen oder Jahresberichten. Eine Aufstellung zur erreichten abnormalen Rendite am Ereignistag und der entsprechenden Informationsklasse findet sich in einer Studie von Oerke. So verursachen beispielsweise negative Quartalsberichte die stärkste Kursreaktion ([Oer99], S. 137). Nachdem Ad-Hoc-Meldungen erst seit Januar 1999 im Internet bzw. im Videotext veröffentlicht werden, können auch Privatanleger ohne Kosten für die Informationsbeschaffung die neue Information gleichzeitig mit institutionellen Anlegern einsehen. ([Röd99], S. 375). Durch die zeitgleiche Verbreitung der Insiderinformation an alle Marktakteure sinkt der Informationsvorsprung und die Ertragsmöglichkeiten derer, die vorher einen exklusiven Zugang zu dieser Information hatten. Dies führt zu einer schnelleren –3– Marktanpassung durch alle Marktakteure. Jedoch unterscheiden sich die professionellen Anleger hinsichtlich der besseren inhaltlichen Auswertung der entsprechenden Meldung ([Oer99], S. 17) Eine zeitnahe Analyse der Ad-Hoc-Meldung hinsichtlich der Richtungstendenz ihrer Kurswirkung verspricht eine schnellere Informationsverarbeitung und damit einen möglichen Informationsvorsprung gegenüber anderen Marktteilnehmern. Daher wird in zahlreichen Studien ([Röd99], [Oer99]) untersucht, welche Inhalte zu welchen Kursreaktionen führen und wie lange die Informationsverarbeitung andauert. Aufgrund der vielen Untersuchungen bezüglich Ad-Hoc-Meldungen wird ersichtlich, welch großes Potential die Kapitalmarktforschung sowie die Marktteilnehmer in der Analyse dieser vermuten. Ebenfalls wird versucht, die Kurswirkung der Ad-Hoc-Meldungen nicht durch Experten zu bestimmen, sondern die Bewertung des neuen Ereignisses durch geeignete Softwaremethoden zu ersetzen, um damit die Informationsverarbeitung wesentlich zu beschleunigen. Untersuchungen hierzu werden im nächsten Kapitel vorgestellt. Sie befassen sich mit der Prognose von Börsentrends sowie mit der Textklassifikation. 2.2 Analysen Die Textklassifikation von Ad-Hoc-Meldungen vereint unterschiedliche Fachrichtungen, wodurch eine Betrachtung von Studien zum Thema Prognose der Richtungstendenz von Börsenkursen mittels softwaretechnischer Methoden sowie zur Methode selbst notwendig werden. Nachfolgend werden deshalb Studien zur Prognose der Richtungstendenz von Börsenkursen aufgrund von unstrukturierten Daten wie Ad-Hoc-Meldungen oder Presseartikel vorgestellt. Des Weiteren folgen Forschungsarbeiten zum Thema Textklassifikation, da eine Vielzahl von Textalgorithmen existiert, sich aber kein konkreter Algorithmus einvernehmlich in der Literatur durchgesetzt hat. Die Textklassifikation als Text Mining Methode erlaubt die maschinelle Klassifikation von unstrukturierten Daten in beispielsweise positive und negative Nachrichten und stellt damit die Basis für die Vorhersage des Börsentrends aufgrund des Klassifikationsergebnisses dar. 2.2.1 Analysen zur Prognose der Richtungstendenz von Kursen Die Textklassifikation von unstrukturierten Daten wie Ad-Hoc-Meldungen oder online veröffentlichten Presseartikeln, die eine Text Mining Methode darstellt, wird mitunter im Finanzbereich für die Vorhersage von Aktienkursen bzw. zur Prognose der Richtungstendenz des Marktpreises verwendet. Als eine der ersten Arbeiten in Bezug auf die Indexvorhersage aufgrund der Analyse von unstrukturierten Daten mittels Text Mining gilt die Arbeit der Autoren Wüthrich et al. aus dem Jahre 1998 ([HLN13] S. 687, [MSG12] S. 6). Sie versuchten anhand im Internet veröffentlichter Börseninformationen und Pressemitteilungen die Entwicklung der Aktienindices Dow Jones Industrial Average (Dow), Nikkei 225 (Nky), Financial Times 100 Index (Ftse), des Hang Seng Index (His) und des Singapore Straits Index (Sti) vorherzusagen. Dabei wurden namhafte Internetquellen wie Reuters oder das Wall Street Journal verwendet, –4– in der Annahme, dass deren Veröffentlichungen aufgrund der qualitativ hochwertigen Texte einen großen Einfluss auf die Marktgeschehnisse haben. Für die Analyse wurde eine Startwortliste, die Keywords bzw. Wortsequenzen wie „bond strong“ oder „property weak“ enthielten, verwendet. Diese wurden für jedes Dokument gezählt und entsprechend gewichtet. Darauf aufbauend erfolgte die Erstellung der Wahrscheinlichkeitsregeln nach früheren Werken von Wüthrich. Für alle Indices wurde eine durchschnittliche Genauigkeit von 43,65 % erreicht. In einer Handelssimulation über drei und zwölf Monate erreichten die Autoren sogar bessere Ergebnisse als viele Fondmanager über den gleichen Zeitraum und übertrafen zudem die Indexentwicklung selbst ([WCL98], S. 1 ff.). Die Autoren Schulz, Spiliopoulou und Winkler versuchten mittels Text Mining Methoden der Software SAS Enterprise Miner Ad-Hoc-Meldungen zu klassifizieren. Künftige Ad-HocMeldungen sollten automatisch als kursrelevant bzw. kursirrelevant eingestuft werden. Somit könnten sich Manager auf die Analyse der relevanten Teilmenge aller veröffentlichten Ad-HocMeldungen konzentrieren. Die Datenbasis beschränkte sich bei dieser Untersuchung auf AdHoc-Meldungen von Unternehmen, welche während des Untersuchungszeitraums im DAX100 gelistet wurden und im Zeitraum von 01.01.1999 bis 31.12.2002 Meldungen veröffentlichten ([SSW03a], S.1). Die ursprüngliche Datenbasis von 2.314 Ad-Hoc-Meldungen verringert sich aufgrund der für die Ereignisstudie geeigneten Meldungen auf 1.460 Meldungen. Dabei dient die Ereignisstudie zur Feststellung der Kursrelevanz, die Meldungen gliedern sich in 235 positive, 161 negative sowie 1.064 kursirrelevante Ad-Hoc-Meldungen ([SSW03a], S. 13). Das Ergebnis des Text Mining-Prozesses führte nicht zu der gewünschten automatisierten Selektion. Der durchschnittliche Klassifikationsfehler lag bei 59 %. Die Autoren kommen zu dem Schluss, dass möglicherweise irrelevante Informationen oder Werbung die Ursache für das schlechte Klassifikationsergebnis ist. Ebenso werden negative Ad-Hoc-Meldungen positiv verfasst. Dies erschwert nicht nur dem geübten Leser eine korrekte Klassifikation, sondern stellt auch institutionelle Anleger vor Probleme. Zudem merken die Autoren an, dass mit dem Einsatz von Synonymlisten bzw. einer Startwortliste anstatt einer Stoppwortliste das Klassifikationsergebnis möglicherweise verbessert werden könnte ([SSW03a], S. 17 f.). Groth und Muntermann stellten 2008 ebenfalls eine Studie zur Klassifikation von Ad-HocMeldungen vor. Dabei untersuchten sie 160 Ad-Hoc-Meldungen aus dem Zeitraum 01.08.2003 bis 31.08.2004. Die Autoren stellten bereits in einer früheren Intraday Ereignisstudie zu AdHoc-Meldungen fest, dass nur „Financial Statements“ wie Jahres-, Quartalsberichte oder Dividendenankündigungen zu einer kontinuierlichen Preisreaktion nach der Veröffentlichung führen. Deshalb nutzten die Autoren zur Vorselektion der Ad-Hoc-Meldungen eine Klassifikation, welche die Ad-Hoc-Meldungen entsprechend aufgrund manuell erstellter Trainingsdaten als „Financial Statements“ kennzeichnete. Darauf aufbauend wurden zwei weitere Klassifikatoren eingesetzt, welche die Ad-Hoc-Meldungen in positive bzw. negative Kursreaktion einteilen, die im Ergebnis verglichen werden sollten. Ein Klassifikator arbeitet mit der Teilmenge „Financial Statements“, der zweite mit allen Daten ([GM08], S. 2 ff.). –5– Im Ergebnis zeigt sich, dass der Klassifikator zur Vorselektion eine Genauigkeit von max. 94,38% erreicht. Bei der Klassifizierung der Meldungen in positive bzw. negative Ad-HocMeldungen erzielte die Klassifizierung mittels SVM auf der Teilmenge „Financial Statements“ eine Genauigkeit bis zu 70% und erzielt damit ein besseres Ergebnis als der Klassifikator, welcher auf der gesamten Datenmenge arbeitet. Die Autoren empfehlen daher vor der Klassifikation eine Vorselektion zu erzeugen, welche die relevanten Meldungen hinsichtlich ihrer Kurswirkung eingrenzt und diese Teilmenge im nächsten Schritt der eigentlichen Klassifikation in positive wie negative Ad-Hoc-Meldungen zu untergliedern ([GM08], S. 8f). Die Autoren Hagenau et al. verwenden für die Klassifizierung bei Veröffentlichung während der Börsenzeiten die Differenz von Eröffnungskurs und Schlusskurs, eine Veröffentlichung außerhalb der Börsenzeiten führ zur Berechnung Eröffnungskurs am nächsten Tag minus Schlusskurs ([HLN13], S. 690 f.). Dabei wurden 10.870 Ad-Hoc-Meldungen von der DGAP (Deutsche Gesellschaft für Ad-HocPublizität) und 3478 Ad-Hoc-Meldungen untersucht, die mitunter nicht deutschsprachige Meldungen enthielten. Für die Klassifizierung der Trainings- bzw. Testdaten verwendeten sie bei Veröffentlichung der Nachricht während der Börsenzeiten die Differenz von Schlusskurs und Eröffnungskurs. Veröffentlichungen außerhalb der Börsenzeiten führten zur Berechnung des Eröffnungskurses am nächsten Tag abzüglich Schlusskurs vor Veröffentlichung. Hagenau et al. erreichten mit dem Textklassifikator Support Vektor Maschine und 2-Wort Kombination eine Genauigkeit bis zu 76% ([HLN13],690 ff.). Einen Überblick über wissenschaftliche Veröffentlichungen zum Thema Aktienprognose mittels Text Mining Methoden vermitteln die Autoren Hagenau et al. ([HLN13], S. 686). 2.2.2 Analysen zu Textklassifikatoren In der Literatur wird die Selektion des Algorithmus für die Textklassifikation kontrovers diskutiert. Es existiert keine einhellige Meinung darüber, welcher Algorithmus am Besten für die Textklassifizierung geeignet ist. Sebastiani stellt Textklassifikationsergebnisse aus Studien von 1992 bis 2000 gegenüber, welche die gleichen Datenbasen verwendeten. Zu den besten Klassifikatoren zählen hier AdaBoost (commitee), SVM, Example-based (k-NN) und Regression, gefolgt von Neural Network und Decision Rules. Die schlechtesten Ergebnisse erzielten Naive Bayes und Rocchio. Bei der Betrachtung der Ergebnisse muss in Erwägung gezogen werden, dass die Studien nicht vergleichbar sind, obwohl die gleichen Datenbasen verwendet wurden. Dies liegt zum einen an den unterschiedlichen Präferenzen bei der Datenvorverarbeitung der Autoren, zum anderen können unterschiedliche Aufteilungen von Test- und Trainingsdaten zu anderen Klassifikationsergebnissen führen ([Seb02], S. 44 ff.). In einem Arbeitspapier von Felden et al., welche eine Vielzahl von Textklassifikatoren untersuchen, erreichten die wahrscheinlichkeitsbasierten Verfahren die besten Ergebnisse. Die Datenbasis stellte eine zufällige Auswahl von 1300 Quellen aus dem Internet dar. Dabei wurden –6– alle gelisteten Klassifikatoren in der nachfolgenden Abbildung mit der selben Aufteilung von Trainings- und Testdaten in neun Klassifikationsläufen bewertet. Die Klassifikationsläufe unterschieden sich lediglich in der Vorverarbeitung der Wortliste. So wurden im ersten Durchlauf Stoppwörter gelöscht, nur deutsche Zeichen betrachtet, Wörter mit einer Worthäufigkeit von 1 gelöscht und eine Rückführung auf Wortstämme durchgeführt. Im zweiten Durchgang wurden die gleichen Vorarbeiten wie im ersten Durchlauf und einer Löschung der oberen 5% der Verteilungskurve durchgeführt. In den nächsten Schritten wurde stufenweise auf Prozessschritte verzichtet, sodass der letzte Lauf ohne Vorverarbeitung und damit einer unveränderten Wortliste durchgeführt wurde. Die Klassifikationsergebnisse der unterschiedlichen Durchläufe bestätigten damit, wie sehr sich die Dokumentenaufbereitung auf die Ergebnisse auswirkt ([FBG06], S.12 ff.). Abbildung 1:Vergleich von Klassifikatoren, Quelle: [FBG06], S.31. –7– In einer Studie der Autoren Ting et al., die die Algorithmen Naive Bayes Klassifikator, Support Vektor Maschine, Entscheidungsbaum und Neural Network verglichen, erzielte der Naive Bayes Klassifikator das beste Klassifikationsergebnis. Ein ähnlich gutes Ergebnis erreichte der Klassifikator Support Vektor Maschine. Die Autoren vertreten die Ansicht, dass die Vorverarbeitung der Daten einen entscheidenden Einfluss auf das Klassifikationsergebnis haben. Insbesondere merken sie an, dass unterschiedliche Kombinationen von Algorithmen hinsichtlich der Merkmalsselektion und Klassifikation zu besseren Ergebnissen führen könnten ([TIT11], S. 42f.). Auch lassen sich Textklassifikationsergebnisse im Finanzbereich nicht miteinander vergleichen. So bemängeln die Autoren Hagenau et al. die Aussagekraft bzw. die Vergleichbarkeit der Klassifikationsergebnisse bei Studien zur Vorhersage von Aktienkursen. Dies sei zum einen darauf zurückzuführen, dass die untersuchten Daten nicht verfügbar seien und zum anderen die verwendeten Methoden nicht klar aufgezeigt würden. In einer von den Autoren veröffentlichten Tabelle werden ausgewählte Studien und deren Text Mining Methoden zum Thema Aktienvorhersage vorgestellt ([HLN13], S. 686). Hieraus ist ersichtlich, dass Wissenschaftler für die Textklassifikation ebenfalls unterschiedliche Klassifikationsvarianten wählten, obwohl ähnliche oder gleiche Datenbasen zugrunde lagen. Meist wurde die Support Vektor Maschine verwendet. In einer Abbildung der Autorin Khorasgani werden unterschiedliche Datenquellen und deren Klassifikationsergebnisse dargestellt. Das beste Klassifikationsergebnis erzielte dabei durchgehend der Bayesian Network Klassifikator, je nach Datenquelle variierte die erreichte korrekte Zuordnung ein Ergebnis zwischen 47,11% und 97,2%. ([Kho], S. 2). Obwohl die Tests vom gleichen Autor durchgeführt und damit höchstwahrscheinlich für alle Datenquellen und Klassifikationsläufe die gleichen Text Mining Schritte durchlaufen wurden, wird ersichtlich, welch großen Einfluss die Datenquelle an sich an das Klassifikationsergebnis hat. Ein Klassifikationsvergleich über Studien hinweg ist somit nicht zielführend, da unterschiedliche Datenquellen zu großen Einfluss auf das Ergebnis haben können, wodurch keine korrekte Interpretation mehr möglich wird. Die genannten Studien lassen darauf schließen, dass keine konkrete Empfehlung für einen Textklassifikator ausgesprochen werden kann. Studien zeigen hinsichtlich ihrer Klassifikationsergebnisse zu gleichen Klassifikatoren widersprüchliche Ergebnisse auf. Dies kann zum einen in den vielfältigen Kombinationsmöglichkeiten bei der Vorverarbeitung der Daten begründet werden. Zum anderen wurden zum Teil unterschiedliche Datenbasen für die Untersuchungen gewählt. Laut Sebastiani erfordert das Vergleichen von Klassifikatoren und deren Klassifikatonsresultaten, dass die Tests vom gleichen Autor erstellt werden, da dieser sich der Einflüsse auf die Daten beim Testen der unterschiedlichen Klassifikatoren bewusst ist. Für einen verlässlichen Vergleich ist für alle Klassifikatoren die gleiche Testumgebung zu schaffen ([Seb02], S. 43 f.). –8– Widersprüchliche Empfehlungen bzw. der Einsatz unterschiedlicher Textklassifikatoren wie Datenaufbereitungsprozesse in wissenschaftlichen Veröffentlichung zu Textklassifikation von unstrukturierten Daten ([WSK12], [Seb02], [HLN13], S. 686, [FBG06], S.31), führen dazu, dass vorab kein geeigneter Textklassifikator für die Klassifikation von Ad-Hoc-Meldungen bestimmt werden kann. Es werden deshalb unterschiedliche Textklassifikatoren unter gleichen Testbedingungen untersucht und die Ergebnisse des Vergleichs präsentiert. 2.3 Finanzmarktforschung Um den Einfluss von Informationen bzw. die Verarbeitungseffizienz von Informationen durch die Marktakteure und deren Auswirkung auf die Kursbildung erklären zu können, existieren unterschiedliche Modelle und Erklärungsansätze. Neben der vorherrschenden klassischen Kapitalmarkttheorie beschäftigt sich der Behavioral Finance mit Anomalien, die durch die Kapitalmarkttheorie nicht erklärt werden können und widmet sich zudem der psychologischen Seite des Börsengeschehens ([SH08], S.25). Die Effizienzmarkthypothese als klassischer Ansatz, welche die Grundlage für viele Studien und Untersuchungen darstellt, wurde 1970 durch Fama beschrieben. Ein Markt wird laut Fama effizient genannt, wenn dieser sofort alle zugänglichen Informationen im Preis wiederspiegelt. Dabei wird ausgeschlossen, dass trotz unterschiedlicher Ansichten zu den öffentlich zugänglichen Informationen Marktakteure existieren, die aufgrund ihrer Bewertung immer den Markt übertreffen ([Fam70], S. 388). Fama unterteilt die Informationseffizienz in drei Kategorien. Die Kategorien: die schwache, mittelstrenge und strenge Form der Informationseffizienz. Die Abstufungen beschreiben die Marktanpassungen hinsichtlich der Effizienz der Informationsauswertung durch die Marktakteure ([Fam70], S. 383). Die schwache Form der Informationseffizienz setzt voraus, dass im Preis nur historische Informationen, wie vergangene Dividendenzahlungen oder Kursentwicklung wiedergespiegelt werden. Eine Analyse wie die Chartanalyse würde keinen Erfolg bringen ([SH08], S. 26). Nach der Definition der mittelstrengen Informationseffizienz reflektiert der Marktpreis alle zugänglichen öffentlichen Informationen, wie Unternehmensberichte oder Dividendenankündigungen ([Fam70], S. 404). Mithilfe von Fundamentalanalysen können daher keine Überrenditen erzielt werden. Solche können nur mit neuen Informationen erwirtschaftet werden ([SH08], S. 26). Nach der Definition der strengen Form der Informationseffizienz können trotz Insiderinformationen, die nur einer kleinen Gruppe von Investoren zur Verfügung stehen, am Markt keine Überrenditen erwirtschaftet werden. Damit setzt diese Form der Informationseffizienz voraus, dass öffentliche Informationen wie die Insiderinformation im Kurs enthalten sind ([Fam70], S. 409). Diese Form der Markteffizienz kann ausgeschlossen werden, da bereits mehrmals bewiesen wurde, dass mittels Insiderinformationen Überrenditen erzielt werden können. Dass dies Relevanz hat, zeigt auch, dass das Wertpapiergesetz, mittels Vorschriften versucht, den Markt transparenter zu gestalten und damit entschieden gegen Insiderhandel vorgeht. –9– Die mittelstrenge Informationseffizienz dient als Theorie für viele Erklärungen in der Finanzwirtschaft. Trotzdem werden immer wieder Anomalien an den Börsen beobachtet, die sich mit der Effizienzmarkttheorie nicht begründen lassen. Als Beispiel wird die Finanzkrise 2008 genannt. Ungeachtet der Unregelmäßigkeiten an der Börse führen demnach neue Informationen wie beispielsweise Ad-Hoc-Meldungen zu einer veränderten Betrachtung durch die Finanzakteure und somit zu Kursbewegungen bis die neue Information am Markt verarbeitet ist. Die Ereignisstudie ermöglicht zum einem die Stärke der Kursreaktion durch das Ereignis, also der Information, wie auch die Dauer der Informationsverarbeitung zu messen. – 10 – 3 Text Mining Dieses Kapitel führt in das Thema Text Mining ein. Beginnend mit der Definition folgt eine Beschreibung über die möglichen Einsatzmöglichkeiten. Zudem folgt eine Beschreibung des Text Mining Prozesses. Zuletzt wird das Thema Textklassifikation ausführlich behandelt, nachdem es die Grundlage der Analyse bildet. 3.1 Definition Die Möglichkeiten der Textanalyse zeigen die Vielfältigkeit und damit die Interdisziplinarität des Text Minings auf. So fügen sich zur Bewältigung dieser Aufgaben Methoden aus der Statistik, Maschinelles Lernen, Computerlinguistik, Information Retrieval und Data Mining zusammen ([HNP05], S. 19). Aufgrund der Interdisziplinarität ist es nicht verwunderlich, dass sich in der Literatur keine einheitliche Definition durchgesetzt hat ([HQW12], S. 4), weshalb die Autoren Heyer et al. den Text Mining Begriff aufgrund der vielen Definition wie folgt zusammenfassen: „Text Mining eine Gruppe methodischer Ansätze, um Texte zu strukturieren und damit neue und relevante Informationen zu extrahieren. Als Grundlage dienen vor allem statistische und musterbasierte Verfahren.“ ([HQW12], S. 4) Witten et al. heben ebenfalls die Ähnlichkeit zu Data Mining hervor und beschreiben Text Mining als „den Prozess, Text zu analysieren, um Informationen daraus zu gewinnen, die für bestimmte Zwecke nützlich sind.“ ( [WIT01], S. 362) Einen Überblick über die unterschiedlichen Text Mining Definitionen bieten die Autoren Mehler et al. Sie unterteilen zudem die unterschiedlichen Definitionen in vier Perspektiven. Die Information Retrieval-Perspektive sieht Text Mining als Erweiterung bzw. Verbesserung des Information Retrieval mit inhaltlichem Bezug mithilfe von Textzusammenfassung und Informationsextraktion. Die Data-Mining-Perspektive sieht den Unterschied zwischen Data Mining und Text Mining nur hinsichtlich der Struktur der zu untersuchenden Daten. Es werden die gleichen Methoden zur Analyse angewendet. Die methodische Perspektive sieht Text Mining als die Anwendungen und deren Weiterentwicklung von Methoden zur fehlertoleranten und überwiegend statistischen Textanalyse von großen unstrukturierten Datenmengen. Die wissensorientierte Perspektive beschreibt Text Mining als die Entdeckung von neuem, unbekanntem Wissen. Dabei wird das Wissen nicht aus den einzelnen Texten, sondern aus der Vielzahl von Dokumenten gewonnen ([MW05], S. 3ff.). – 11 – Zusammenfassend lässt sich der Text Mining Prozess aufgrund der genannten Definition mit einer großen Ähnlichkeit zum Data Mining Prozess beschreiben. Das Anwenden von Data Mining wie auch Text Mining Verfahren erfordert die Umwandlung des natürlichsprachlichen Textes in eine Struktur, die es ermöglicht, musterbasierte sowie statistische Verfahren auf die Daten anzuwenden. Die zuletzt genannten dienen dazu, neue relevante Informationen aus einer großen Anzahl von Texten zu gewinnen. Mittels Text Mining wird meist eine große Anzahl von Texten untersucht, weshalb zur Informationsgewinnung robuste Verfahren benötigt werden. Im nächsten Abschnitt erfolgt eine nähere Beschreibung des Text Mining Prozesses. 3.2 Text Mining Einsatzmöglichkeiten Aufgrund des elektronischen Geschäftsverkehrs stehen den Unternehmen eine Vielzahl der Dokumente, die sowohl die unternehmensinterne als auch -externe Kommunikation betreffen, nur in elektronischer Form zur Verfügung. Vorteilhaft an dieser Entwicklung, die der Papierform den Rücken kehrt, ist, dass diese Form der Daten mittels softwaretechnischen Verfahren ausgewertet wird und daraus neue Erkenntnisse für das Unternehmen gewonnen werden können. Damit entstehen für das Unternehmen ungeahnte Möglichkeiten hinsichtlich neu gewonnenem Wissen, woraus sich unter anderem für das Unternehmen ein Informationsvorsprung gegenüber Konkurrenten ergeben kann. Eine weitere Quelle von natürlichsprachlichen Texten, die insbesondere für Unternehmen relevante Informationen enthalten, sind Meinungsäußerungen zu Produkten, welche in Internetforen oder auf Verkaufsplattformen veröffentlicht werden und damit ebenfalls durch Softwaremethoden ausgewertet werden können. Auch andere Bereiche wie die Finanzwirtschaft versucht aus natürlichsprachlichen Texten wie online verfügbaren Presseberichten oder Twittereinträgen neue Informationen zu gewinnen, um beispielsweise den Aktienkurs vorherzusagen. Es sind hier nur einige wenige natürlichsprachige Quellen genannt, welche mithilfe von Text Mining analysiert werden, um neues Wissen zu generieren. In Anbetracht der Datenmengen, die nur durch das Internet verfügbar sind, werden robuste Verfahren mit annehmbaren Leistungsverhalten benötigt, um Wissen aus unstrukturierten Daten gewinnen zu können. Eine Prüfung bzw. Sichtung der Daten durch den Interessenten selbst ist dagegen aufgrund der Vielzahl der Dokumente aussichtslos. Für die computerbasierte Verarbeitung hingegen ist selten die Menge der Daten problematisch, jedoch die Interpretation der Textinhalte. Während Lesern von Texten die Interpretation des Inhaltes kaum vor Probleme stellt, da sie geübt sind, Texte zu klassifizieren oder zusammenzufassen, stellt dies für die computerbasierte Verarbeitung einen komplexen Vorgang dar. Die Autoren Fan et al. geben einen Überblick über die Aufgaben die mit Text Mining bewältigt werden können. Mittels Themenverfolgung wird aufgrund der gespeicherten Interessen eines Users eine Auswahl von neuen Dokumenten bereitgestellt, die für ihn ebenfalls relevant sein könnten. Eine weitere Aufgabe, die mithilfe Text Mining bearbeitet wird, ist die maschinelle Zusammenfassung von Texten, ohne die inhaltliche Bedeutung zu verändern. Somit können sich Interessenten schnell einen Textüberblick verschaffen und dabei die Relevanz für sich feststellen, ohne den ganzen Text lesen zu müssen. Die Kategorisierung verfolgt das Ziel, Texte in vordefinierte Klassen einzuteilen. Dies ermöglicht dem Nutzer, beispielsweise nur Texte – 12 – bestimmter Kategorien näher zu betrachten. Ein bekanntes Beispiel ist hierfür die Erkennung von Spam- bzw. Nicht-Spam-Mails. Mittels Clusterbildung werden ähnliche Dokumente zusammengefasst. Concept Linkage zeigt inhaltliche Zusammenhänge auf, die auf den ersten Blick nicht erkennbar sind. Dies ist insbesondere bei wissenschaftlichen Beiträgen von Nutzen, wo eine Vielzahl von Publikationen existiert. Die Autoren verweisen hier auf den Mediziner Swanson, welcher implizites Wissen bzw. neue Hypothesen aufgrund vorher nicht bekannter Dokumentenzusammenhänge entdeckte. Beispielsweise beweist eine Studie, dass A B verursacht und eine weitere, dass B ursächlich für C ist. So kann implizit die Hypothese gelten, dass A die Ursache für C ist. Diese Verlinkung der Studien ist deshalb schwer zu erkennen, da kein direkter Zusammenhang zwischen den Studien mit Inhalten zu A und C existiert ([Swa87], S. 228). Erschwert wird die Zuordnung zudem aufgrund der großen Datenmengen der veröffentlichten Beiträge, welche ein manuelles Zuordnen unmöglich machen. Eine Verlinkung mittels Text Mining ist somit unerlässlich im Bereich der Forschung geworden. Die Informationsvisualisierung als weiteres Text Mining Verfahren stellt große Datenmengen hierarchisch oder auf Karten dar. Mittels einer Benutzeroberfläche können diese Daten gesichtet und näher eingegrenzt werden. Mithilfe von Question Answering Systeme werden oft gestellte Fragen beantwortet und die Informationsextraktion wird genutzt, um Schlüsselwörter oder Relationen aufgrund vordefinierter Muster in unstrukturierten Texten zu entdecken ([FWR06], S. 4ff.). Die genannten Verfahren haben unter anderem das Ziel, die Menge der zu untersuchenden Quellen auf ein für den Menschen überschaubares Maß zu reduzieren und dabei neues relevantes Wissen aufzuspüren. Dies wird unter anderem dadurch unterstützt, dass mehrere Verfahren aufeinander folgen. Beispielsweise könnte dem Concept Linkage eine Textzusammenfassung oder Informationsextraktion folgen und damit die neuen Erkenntnisse erneut einschränken. 3.3 Text Mining Prozess Die Betrachtungsweise, dass sich Text Mining und Data Mining hauptsächlich hinsichtlich der zu Grunde liegenden Daten unterscheiden, führt zu ähnlichen Darstellungen der beiden Mining Prozesse. So weisen die Autoren Hippner et al. auf die ähnlichen Verfahrensweisen der genannten Mining Verfahren hin, sehen aber wesentliche Unterschiede in der Dokumentenaufbereitung. Nachfolgende Abbildung der Autoren unterteilt den Text Mining Prozess in sechs Verfahrensschritte, welche aufeinander aufbauen. Abbildung 2: Text Mining Prozess, Quelle: [HR06], S.288. Der erste Schritt beschäftigt sich mit der Aufgabendefinition und Zielsetzung des Text Mining Prozesses. Nachfolgend wird eine Auswahl der zu untersuchenden Dokumente getroffen. Der Prozessschritt Dokumentenaufbereitung überführt die unstrukturierten Daten in eine Struktur, – 13 – um (Text) Mining Methoden anwenden zu können. Ein wesentlicher Unterschied zum Data Mining-Prozess besteht in der Beschaffenheit der Daten, die dem Text Mining Prozess zu Grunde liegen. Während sich Data Mining mit der Analyse von strukturierten Daten beschäftigt, konzentriert sich Text Mining mit dem Auffinden von relevanten Informationen in Texten. Zu den unstrukturierten bzw. semistrukturierten Texten zählen beispielweise Emails, Inhalte von Webseiten sowie Dokumente, die keiner oder nicht durchgängig einer Datenstruktur unterliegen. Strukturierte Daten hingegen liegen beispielsweise in relationalen Datenbanken bereits als untrennbare Terme in definierten Tabellen vor. Die Datenstrukturierung erfolgt mit Techniken des Natural Language Prozessing wie der morphologischen, syntaktischen und semantischen Analysen nach der Termzerlegung. Ein wesentlicher Baustein des Text Minings ist somit die Überführung der zu untersuchenden Texte in eine maschinell interpretierbare Struktur, damit (Text) Mining Methoden angewandt werden können. Aufgrund der Klammerung von (Text) im Prozessschritt (Text) Mining Methoden, wird ersichtlich, dass für Text Mining bestehende und etablierte Methoden des Data Mining, wie beispielsweise die Klassifizierung genutzt werden. Im Prozessschritt Interpretation und Evaluation werden die im Text Mining Prozess gewonnenen Ergebnisse überprüft und im letzten Prozessschritt angewandt ([HR06], S. 287 ff.). Ein ähnliches Text Mining Verfahren stellen die Autoren Fan et al. vor. Ihr Prozess beginnt mit der Dokumentenselektion. Als Nächstes erfolgt die Dokumentenaufbereitung, worauf die Textanalyse aufbaut. Sie beschreiben diesen Schritt als iterativen Vorgang, der in Abhängigkeit zum Ziel verschiedene Text Mining Methoden durchläuft oder unterschiedliche Text Mining in Verbindung nutzt. Das Ergebnis der Analyse wird in ein Management Information System überführt, um das erworbene Wissen anwenden zu können ([FWR06], S. 3). Die Autoren Heyer et al. beschreiben ein vergleichbares Vorgehen zu den bereits Genannten, gehen jedoch hinsichtlich der Speicherung und Verarbeitung der Quellen tiefer ins Detail. – 14 – Abbildung 3: Text Mining Prozess und Datenbankstruktur, Quelle: [HQW12], S.6. In der Abbildung der Autoren beginnt die Prozesskette mit der Speicherung der unterschiedlichen Dokumentenformate in ein einheitliches Standardformat in einer relationalen Datenbank. Für die nachfolgenden statistischen und linguistischen Analysen ist eine Segmentierung der Quellen in Wörter wie Sätze notwendig, welche ebenfalls in der Textdatenbank gespeichert werden. Je nach Anwendungsziel erfolgen unter Verwendung eines Referenzwortschatzes die statistischen, linguistischen bzw. beide Analyseverfahren auf der erzeugten domänenspezifischen Datenbank ([HQW12], S. 6). Dieser beschriebene Text Mining Prozess unterscheidet sich im Wesentlichen von den Vorangegangenen nur durch das Einbinden eines Referenzwortschatzes. Für diese Arbeit sind insbesondere die Prozessschritte Dokumentenaufbereitung, Textklassifizierung als Text Mining Methode sowie die Interpretation und Evaluation von Interesse, weshalb darauf im Folgenden näher eingegangen wird. – 15 – 3.4 Textklassifikation Aufgabe der Textklassifikation ist die Einteilung verschiedener Texte aufgrund ihres Inhaltes in vordefinierte Klassen. Dabei wird der Text der Klasse zugeordnet, die den Text aufgrund ihrer Merkmale wie Häufigkeit der Wörter am Besten beschreibt ([DZ11], S. 37). Neben der binären Klassifikation können die Algorithmen auch dazu verwendet werden, um automatisiert mehr als zwei Kategorien zuzuordnen oder eine hierarchische Klassifikation anzuwenden ([MDE12], S. 882). Für die Klassifikation von Texten können zwei unterschiedliche Vorgehen gewählt werden. Ein Verfahren ist das Herausarbeiten von Merkmalen und Eigenschaften zur Beschreibung unterschiedlicher Klassen durch die Befragung eines Experten. Die Klassendefinitionen werden nachfolgend in ein regelbasiertes System überführt und können danach für die automatisierte Klassifikation genutzt werden. Nachteilig am beschriebenen Vorgehen ist, die kontinuierliche Pflege der Regeln und das damit verbundene erneute Befragen von Experten der entsprechenden Domäne. Dem steuert ein maschinelles Vorgehen entgegen, welches den Klassifizierer mithilfe vorklassifizierter Trainingsdaten erzeugt. Der Klassifizierer kategorisiert dabei neue Texte aufgrund der gewonnen Erkenntnisse aus den Trainingsdaten. Letzteres Vorgehen ist zudem von der zu untersuchenden Domäne unabhängig, da es lediglich vordefinierte Trainingsdaten für das Erzeugen von Regeln benötigt ([MR05], S.816). Die Vorteile in der maschinellen Klassifikation liegen zum einen in der Zeitersparnis und zum anderen erzielen diese Systeme ein ähnliches Ergebnis wie die durch Experten erzeugten Klassifikationssysteme ([Seb02], S. 2). Einen Überblick über den maschinellen Textklassifikationsprozess gibt die folgende Abbildung der Autoren Dalal et al.. – 16 – Abbildung 4: Generic strategy fort ext classification, Quelle: [DZ11], S.38. Die vorgestellte Vorgehensweise gleicht dem vorangegangenen beschriebenen Text Mining Prozess. Der wesentliche Unterschied liegt jedoch auf der Präzisierung des Text Mining Prozesses hinsichtlich des Zieles der Textklassifikation. Diese beginnt mit der Vorverarbeitung der Trainingsdaten. Hierzu gehören Verfahren wie Stoppwörtereliminierung und Stemming zur Reduzierung der Merkmale (siehe Kapitel 3.4.1). Im nächsten Schritt werden die Tokens bzw. Merkmale in eine maschinell interpretierbare Struktur überführt, zur Gewichtung der Terme eignen sich Verfahren wie term frequency inverse document frequence (TF- IDF) und Latent Semantic Indexing (LSI). Laut Manning et al. stellt das TF-IDF ein robustes und oft verwendetes Verfahren zur Gewichtung der Wörter in einem Vektorraummodell dar. Die term frequency (TF) bestimmt, wie häufig ein Term in einem Text vorkommt. Ein Term, der häufig gefunden wird, eignet sich daher sehr gut zur Beschreibung eines Textes. Der Informationsgehalt dieses Terms ist jedoch gering, wenn dieser in allen Texten häufig auftritt. Demnach steigt der Informationsgehalt eines Terms, wenn er in einem Text oft, aber in der Gesamtzahl der betrachteten Texte selten enthalten ist. Das TF-IDF Verfahren berücksichtigt deshalb neben der Vorkommenshäufigkeit der Terme auch den Informationsgehalt dieser, indem die Häufigkeiten multipliziert werden ([MS99], 542 ff.) – 17 – Im nächsten Prozessschritt wird der gewünschte Textklassifikationsalgorithmus gewählt und mithilfe von Trainingsdaten angelernt. Die Autoren geben hier aufgrund der zu untersuchenden Daten eine Empfehlung bezüglich der Klassifikationswahl ab. Zudem erwähnen sie, dass eine Kombination von unterschiedlichen Algorithmen ebenfalls in Betracht gezogen werde müsse. Abschließend wird das erzeugte Trainingsmodul an Testdaten angewendet und getestet ([DZ11], S. 38 ff.). Die Autoren Ting et al. beschreiben ein ähnliches Vorgehen, empfehlen jedoch eine Merkmalsselektion durchzuführen, die einen der wichtigsten Schritte im Data Mining Prozess darstellen. Die Merkmalsselektion überführt den Vektor in eine Auswahl von Merkmalen, welche den Text am Besten beschreiben und damit zur besten Vorhersage führen. Um unter anderem die Merkmalsselektion hinsichtlich des Klassifikationsergebnisses beurteilen zu können, schlagen die Autoren vor, die Klassifikation ohne und mit vorverarbeiteten Trainingsdaten zu testen. Ist das Ergebnis ohne Vorverarbeitung besser, so ist die Merkmalsauswahl zu überprüfen und gegebenenfalls zu ändern, bis mit den vorverarbeiteten Daten ein besseres Ergebnis erzielt wird ([TIT11], S. 41). Nachfolgend wird auf die Textklassifikationsschritte Dokumentenaufbereitung, Wahl des Textklassifikator und die Bewertung des Klassifikationsergebnisses näher eingegangen. 3.4.1 Dokumentenaufbereitung Die kommenden Beispiele geben nur einen kleinen Einblick bezüglich der Funktionalität und der Problemstellungen, die für den Dokumentenaufbereitungsprozess existieren bzw. notwendig sind. Zum einen gestaltet sich die Dokumentenaufbereitung aufgrund der unterschiedlichen Dateiformate wie unterschiedlich strukturierte Texte mit Tabellen oder Grafiken als komplexe Aufgabe. Letztere fließen deshalb oftmals nicht in den Text Mining Prozess ein. Ein Beispiel hierzu liefert das Vorgehen von Hagenau et al. in einer Studie zur Vorhersage von Aktienkursen, welche Tabellen und Grafiken vor der Klassifikation löschen ([HLN13], S. 689). Ebenfalls weist Heyer et al. auf die Problematik des Verlusts von Tabellen und Grafiken bei der Konvertierung von Dokumenten in ASCII-Format hin ([HQW12], S. 58). Zum anderen ist die inhaltliche Interpretation von Texten schwierig. Dabei liegen die Probleme beispielsweise im Erkennen von Ironie in Sätzen wie sie oft in Rezensionen oder Twittereinträgen vorkommen. Auch die Unterscheidung von Satzzeichen und dem Punkt, die zu Abkürzungen gehören, erfordern Algorithmen, um Sätze korrekt identifizieren zu können. Die Autoren Weiss et. al. beschreiben den Dokumentenaufbereitungsprozess wie folgt. Um die unstrukturierten Daten in eine maschinell interpretierbare Struktur zu überführen, werden die zu untersuchenden Dokumentenformate in ein einheitliches Standardformat überführt. Im nächsten Schritt werden die Dokumente in einzelne Wörter zerlegt, in der Literatur werden oftmals auch die Bezeichnung Terme oder Tokens verwendet. Je nach Aufgabenstellung unterscheiden sie die weitere Vorgehensweise. Eine Möglichkeit ist eine Darstellung mittels des Vektorraummodells, welches für eine Dokumentenklassifikation bereits ausreichend ist und keine tiefgreifenden linguistischen Analysen benötigt. Eine andere Möglichkeit stellt die Verwendung tiefgehender linguistischer Prozesse dar. Hierzu gehören beispielsweise die – 18 – Verfahren Part-of-Speech ([WIZ12], S. 15 ff.). Tagging, Mehrdeutigkeiten oder Eigennamenerkennung Für die linguistische Analyse werden somit sprachwissenschaftliche Erkenntnisse benötigt, mit welchen sich die Disziplin der Computerlinguistik befasst. Insbesondere die folgenden Teildisziplinen sind für den Textaufbereitungsprozess unerlässlich. Die Morphologie als Teilgebiet der Grammatik beschäftigt sich mit der Wortbildung und deren Strukturen, ohne Berücksichtigung des Textinhalts ([CEE09], S. 27). Zur morphologischen Analyse gehört unter anderem das Lemmatisierungsverfahren. Während sich die Morphologie mit der inneren Struktur von Wörtern befasst, beschreibt die Syntax die Struktur von Sätzen. Syntaktische Analysen gehören zu den Kernbereichen der Computerlinguistik, da sie für die Überprüfung grammatischer Korrektheit unerlässlich sind ([CEE09], S. 27). Ein probates Mittel zur syntaktischen Analyse von Sätzen ist der Part-of-Speech Tagger. Dabei wird mithilfe eines Trainingskorpus den einzelnen Termen eines Textes die dazugehörige Wortart bzw. das entsprechende Tag zugeordnet. Je nach Sprache und ihren Sprachregeln existieren unterschiedlich viele Wortarten. Beispiele für zugeordnete Wortarten bzw. Tags des frei verfügbaren Taggers Stuttgart-Tübingen Tagset sind Tag ADV für Adverb, NN für Nomen oder ART bestimmter oder unbestimmter Artikel. Da Wortarten unterschiedliche Formen einnehmen können, wird ein statistisches Vorgehen benötigt, das die Wahrscheinlichkeit für eine bestimmte Tagfolge berechnet und somit die wahrscheinlichste Wortart zuordnet. Die Genauigkeit bei diesem Verfahren in Abhängigkeit zur Sprache und verwendeten Regelsystem, das die sprachliche Struktur beschreibt, liegt bei etwa 97% ([HQW12], S. 126 ff.). Die Semantik beschäftigt sich mit dem Kontext natürlichsprachlichen Textes ([CEE09], S. 27). Dabei ist insbesondere die Verarbeitung von Mehrdeutigkeiten in der Computerlinguistik ein komplexer Vorgang ([CEE09], S. 345). So können Wortstämme unterschiedliche Bedeutungen einnehmen. Um das Wort „Bank“ korrekt zu interpretieren, beispielsweise ob Bank als Geldinstitut oder Sitzmöglichkeit gemeint ist, wird eine semantische Analyse benötigt. Diese Arbeit untersucht die Klassifikation mittels Vektorraummodell, tiefgehende linguistische Prozesse wie der der Part-of-Speech Tagger kommen nicht zum Einsatz. Als nächstes erfolgt deshalb eine tiefergehende Beschreibung des Vektorraummodells. Das Vektorraummodell stellt eine Möglichkeit dar, unstrukturierte Texte in eine für den Computer interpretierbare Struktur zu überführen. Dabei wird ein Dokument in die einzelnen Tokens zerlegt. Für die weitere Verarbeitung existieren verschiedene Möglichkeiten, die Tokens eines Dokuments zu bewerten und in einem Vektor darzustellen. Das binäre Verfahren sieht vor, bei Existenz eines Tokens die 1 bzw. bei Nichtvorhandensein die 0 zuzuweisen. Beim Gewichtungsverfahren hingegen wird dem Token eine Gewichtung zugeordnet, welche die Relevanz des entsprechenden Tokens für die Klassifizierung wiederspiegelt. Für die Berechnung der Gewichte existieren unterschiedliche Algorithmen wie die Gewichtung aufgrund der Worthäufigkeiten oder dem TF-IDF Verfahren ([Kow99], S. 101 ff.). – 19 – Die Anwendung des Vektorraummodells erfordert die Segmentierung des Textes in Wortformen. Während Hotho et al. den Zerlegungsprozess der Texte in Wortformen lediglich durch die Aufspaltung nach vorhandenen Leerzeichen bei vorherigem Löschen von Satzzeichen und dem Ersetzen von Nicht-Buchstaben durch Leerzeichen beschreiben ([HNP05], S. 25), weisen Heyer et al. auf die Problematik bei der Segmentierung des Textes nach dieser Verfahrensweise hin. Die Segmentierung führt demnach zu Fehlern, wenn beispielsweise Eigennamen Leerzeichen enthalten. Dadurch wird der Eigenname in mehrere Tokens getrennt. Das Ersetzen eines Bindestrichs durch ein Leerzeichen kann ebenfalls zu einer falschen Segmentierung führen, da der Bindestrich auf unterschiedlichste Weise genutzt werden kann, wie beispielsweise als Ergänzungsstrich, Worttrennungszeichen oder das Wort „bis“ darstellt ([HQW12], S. 66 f.). Die durch die Segmentierung erzeugte Wortliste dient als Grundlage für alle weiteren statistischen und linguistischen Untersuchungen. Es empfiehlt sich daher, vor weiteren Analysen aus der Wortliste nicht nur aus Performancegründen, sondern auch aufgrund besserer Analyseergebnisse, Wörter zu löschen, die keinen positiven Betrag leisten. Gelöscht werden die Wörter, die in der Stoppliste enthalten sind. Beispielsweise werden in einer Stoppliste Wörter wie Artikel oder Höflichkeitsfloskeln geführt. Somit sollten nur relevante domänenspezifische Begriffe in die Analysen miteinfließen; dies steigert nicht nur das Klassifikationsergebnis sondern beschleunigt zudem den Aufbereitungsprozess ([WSK12], S. 1 f.). Bei der Verwendung von Stopplisten ist jedoch zu beachten, dass diese entsprechend der zu untersuchenden Quellen angepasst werden müssen. Artikel oder Höflichkeitsfloskeln können dabei ohne Einschränkung übernommen werden. Das Aufnehmen von weiteren Wörtern gilt jedoch unter der Beachtung der domänenspezifischen Begriffe, die nicht in die Stoppliste aufgenommen werden dürfen. Die Autoren Heyer et al. beschreiben zur automatischen Erzeugung von Stopplisten die Differenzanalyse als sprachstatistisches Verfahren. Mithilfe eines Analysekorpusses, welcher die zu untersuchenden Dokumente einer Domäne enthält, und einen Referenzenkorpuses, bestehend aus allgemeinen Texten wie Presseartikel, werden in beiden Texten die Vorkommenshäufigkeit der Wortformen berechnet. Anschließend erfolgt aufgrund des Vergleichs der Häufigkeiten eine Einteilung in vier Wortformklassen. Wörter, die nur im Analysekorpus vorhanden sind, sind mit hoher Wahrscheinlichkeit Fachausdrücke. Ebenfalls können Wörter, die im Analysekorpus öfters als im Referenzkorpus gezählt werden zu den Fachausdrücken gezählt werden. Wörter, die jedoch in ähnlicher Anzahl in beiden Korpusse vorhanden sind, enthalten keine domänenspezifischen Fachbegriffe und können somit für die Stoppliste verwendet werden ([HQW12], S. 95). Des Weiteren kann mittels Synonymlisten das Analyseergebnis positiv beeinflusst werden. Synonymlisten unterstützen die Zusammenführung verschiedener Wortstämme zu einem Begriff. Dies führt insbesondere bei Analyseverfahren, die mit der Häufigkeit des Vorkommens von Wörtern arbeiten, zu besseren Ergebnissen. Ein oft verwendetes Wörterbuch in der linguistischen Verarbeitung von deutschsprachigen Texten ist laut den Autoren Heyer et al. GermaNet. Es enthält unteranderem auch Synonyme ([HQW12], S. 181). Ein weiteres Verfahren zur Verbesserung des Klassifikationsergebnisses ist das Stemming. Dabei werden die zu untersuchenden Wörter auf einen künstlich erzeugten Wortstamm reduziert und damit die Möglichkeit geschaffen, ähnliche Begriffe zusammenzuführen. Bei – 20 – einem Klassifikationsverfahren, welches aufgrund der Häufigkeiten von Wörtern die Kategorie der einzelnen Dokumente bestimmt, kann das Ergebnis auf Grundlage der Häufigkeiten der künstlich erzeugten Wortstämme anstatt der Häufigkeiten der einzelnen Wörter positiv beeinflusst werden. Ebenfalls wird eine bessere Performance aufgrund der Verwendung von Wortstämmen erreicht ([WIZ12], S. 18 f.). Ein häufig eingesetzter Algorithmus, der PorterStemmer-Algorithmus, stammt von Martin Porter. Dabei werden die einzelnen Wörter ohne Verwendung eines Wörterbuchs in den Wortstamm überführt, die Wortreduktion erfolgt lediglich durch die Anwendung von Regeln. Beispielsweise geschieht dies durch das Umsetzen von Umlauten wie ä, ü, ö in a, u, o oder das Entfernen von Nachsilben. Wörter wie aufeinanderfolge, aufeinanderfolgen, aufeinanderfolgenden, aufeinanderfolgenden vereinen sich nach dem Algorithmus im Wortstamm aufeinanderfolg. Aus auffallend, auffallenden, auffällig, auffälliges wird zu auffall ([Por14]). Ein ähnliches Verfahren zur Wortstammreduzierung ist die Lemmatisierung. Entgegen dem Stemming-Verfahren ist der entstandene Wortstamm ein existierendes Morphem in der entsprechenden Sprache. Um diese Aufgabe korrekt zu bewältigen, muss als erstes die Wortart festgestellt werden. Die Autoren Hotho et al. merken jedoch an, dass das Tagging ein zeitaufwendiges und fehleranfälliges Verfahren ist, weshalb dies zum vermehrten Einsatz von Stemming Algorithmen führt ([HNP05], S. 26). 3.4.2 Textklassifikatoren Algorithmen Die Aufgabe der Textklassifikatoren beim überwachten Klassifizieren lässt sich in zwei Schritten beschreiben. Im ersten lernt der Algorithmus die Dokumente aufgrund ihrer Merkmalsbeschreibung und der dazugehörigen Klassenzuordnung zu unterscheiden und zu klassifizieren. Im Nachfolgenden wird das gelernte Muster angewendet, um neue unbekannte Dokumente zu klassifizieren. Die neu zu klassifizierenden Texte müssen vor der Textklassifikation ebenfalls den gleichen Dokumentenaufbereitungsprozess wie die Trainingsdaten durchlaufen. Für die Textklassifikation existiert eine Vielzahl von Algorithmen. Nachdem widersprüchliche Empfehlungen zum Einsatz vom vermeintlich bestgeeigneten Textklassifikator existieren (siehe Kapitel 2.2.2), werden im Rahmen dieser Untersuchung nur die wichtigsten und effektivsten Klassifikatoren für die Einordnung von Ad-Hoc-Meldungen genutzt. Die folgende Abbildung von Runker unterscheidet die meist genutzten und effektivsten Klassifikationsverfahren hinsichtlich der verwendeten Methodik in vier Bereiche: Abbildung 5: Effektivste Klassifikationsverfahren, Quelle: [Run10], S.89. – 21 – ([Run10], S.89). Die Autoren Weiss et al. zählen die gleichen Klassifikationsverfahren zu den bedeutendsten und effektivsten in der Textklassifikation ([WIZ12], S. 45 ff.). Nachfolgend wird zu den genannten Bereichen je ein Vertreter der entsprechenden Methode dargestellt. Ein bekannter Klassifikator, der aufgrund Wahrscheinlichkeiten arbeitet, ist der Naive Bayes Algorithmus, er basiert auf dem Satz von Bayes. Dabei wird die bedingte Wahrscheinlichkeit P(C|x) ermittelt, dass sich der Algorithmus bei gegebenem Vektor x für das neue Dokument C entscheidet. Der Vektor beschreibt dabei die vorklassifizierten Dokumente durch das Vorhandensein bzw. durch das Fehlen von Merkmalen. Dabei werden die Merkmale des gegebenen Vektors x voneinander unabhängig betrachtet, wodurch die Wahrscheinlichkeit für jedes Merkmal unabhängig errechnet und miteinander multipliziert werden kann ([Run10], S. 90). Die Annahme, dass die Merkmale voneinander unabhängig sind, führt zu dem Beinamen Naive. Naive drückt damit die Realitätsferne der Annahme aus ([WIZ12], S. 55 f.). Trotz dieser Annahme überzeugt dieser Klassifikator mit guten Ergebnissen ([FBG06], S.31, [TIT11], S. 42 f.). Der Naive Bayes Klassifikator kann hinsichtlich der Darstellung des zugrundeliegenden Vektors unterschieden werden. Das Bernoulli Model setzt eine binäre Darstellung voraus, welcher die Existenz oder Nichtexistenz eines Merkmals mit 0 bzw. 1 darstellt. Das Multinomial Model arbeitet hingegen mit den Häufigkeiten der Wörter in den entsprechenden Dokumenten ([MN98], S. 2). Zur Klassifikationsbestimmung aufgrund von Ähnlichkeiten gehört der Nächste Nachbar Klassifikator. Dieser vergleicht die Merkmalsvektoren des neu zu klassifizierenden Dokumentes mit den Merkmalsvektoren, die bereits zu den trainierten und klassifizierten Dokumenten bereitliegen, indem zu den jeweiligen Vektoren ein Abstandsmaß berechnet wird. Das geringste berechnete Abstandsmaß bestimmt die Kategorie und damit die Klassenzuordnung des neuen Dokuments. Stehen aufgrund des berechneten Abstandsmaßes mehrere Klassen für die Kategorisierung zur Auswahl, so entscheidet die Klasse, die am häufigsten für diese Art von Quellen verwendet wurde. Dieses Verfahren wird insbesondere bei Suchmaschinen eingesetzt. Dabei werden mithilfe nur weniger Schlüsselwörter relevante Dokumente angezeigt ([WIZ12], S. 45). Für die Berechnung des Abstandsmaßes eignen sich unter anderem der Euklidische und Mahalanobis-Abstand ([Run10], S. 96). Eine Klassifikation mittels Entscheidungsregeln erfordert das manuelle Erzeugen von Regeln. Diese beschreiben, ob eine Bedingung wahr oder falsch ist. Ein konkretes Lernen findet nicht statt, es wird lediglich geprüft, ob bestimmte Regeln zutreffen und damit, ob eine bestimmte Klasse zugeordnet wird. Beispielsweise geschieht das durch die Überprüfung der Existenz bestimmter Merkmale. Dabei ist darauf zu achten, dass bei einem binären Klassifikator aufgrund zu enger Regeln, Klassen nicht als irrelevant eingestuft werden, welche relevant wären. Dies erfordert einen höheren Aufwand beim Erzeugen der Regeln und verlängert damit die Lernphase erheblich. Zudem sind die Regeln immer wieder neu anzupassen und bei komplexen Sachverhalten ist diese Form von Klassifikation möglichweise nicht nutzbar. Vorteilhaft ist dieser Algorithmus im Vergleich zum Nächste Nachbar Klassifikator jedoch hinsichtlich des Leistungsverhaltens und der erreichten Genauigkeit. Zudem erlauben die Regeln eine leichtere Prüfung und Anpassung des Algorithmus ([WIZ12], S. 49). Entscheidungsbäume sind eine Spezialisierung der Klassifikation mittels Entscheidungsregeln. – 22 – Die Knoten eines Entscheidungsbaums beschreiben durch Bedingungen (If-When), welche Verzweigung des Baums durch den Klassifikator gewählt werden muss. Beginnend mit einer umfassenden Bedingung erfolgt mit jeder weiteren Baumtiefe eine nähere Beschreibung bzw. Eingrenzung der entsprechenden Klassen aufgrund der nachfolgenden Knoten und deren Bedingungen. Dieser Algorithmus ist deshalb sehr performant, da er nicht jeden Knoten und jedes Blatt prüfen muss, sondern nur die entsprechende Verzweigung und somit maximal die auftretende Tiefe des Entscheidungsbaumes. Ein Entscheidungsbaum kann jederzeit in eine Klassifikation mittels Regeln ohne Überschneidung der Regeln überführt werden. Dabei werden die entsprechenden Bedingungen entlang des jeweiligen Zweiges miteinander logisch verbunden ([WIZ12], S. 54 f). Die lineare Diskriminanzgerade trennt durch eine optimale Line die Menge von Merkmalsvektoren in zwei Bereiche, welche die entsprechenden Klassen am Besten repräsentieren. Wird eine Klassifikation von mehr als zwei Klassen angestrebt, erfordert dies die Anwendung der Diskriminanzhyperebene oder eine Kombination von binären Klassifikatoren. Unter dem Klassifikator Support Vektor Maschine kommen die lineare Diskriminanzgerade sowie die lineare Diskriminanzhyperebene zur Anwendung, mit der Voraussetzung, dass das zu klassifizierende Dokument einen Mindestabstand zur Diskriminanzhyperebene einhält. Eine lineare Klassengrenze ist nicht immer möglich. Hier kommt der Kernel Trick zum Einsatz, welcher die Merkmalsvektoren in einen höherdimensionalen Raum überführt und somit eine näherungsweise lineare Klassengrenze erlaubt ([Run10], S. 91). Support Vektor Maschine zeichnen sich aufgrund guter Klassifizierungsergebnisse und Robustheit aus, nachteilig ist jedoch der benötigte hohe Speicherbedarf wie auch die lange Berechnungszeit ([CRS03], S. 170). 3.4.3 Bewertung des Textklassifikationsergebnisses Kosten, welche sich durch eine falsche Klassifikation ergeben, fallen je nach untersuchtem Domänenbereich unterschiedlich hoch für den Nutzer des Auswertungssystems aus. Dabei ist das Nichtbeachten einer entscheidungsrelevanten Information, die aufgrund der Klassifikationseinstufung als irrelevant gekennzeichnet wurde, meist teurer als das Prüfen von irrelevanten Informationen, welche als entscheidungsrelevant gekennzeichnet wurden. In Bezug auf die Textklassifikation von Ad-Hoc-Meldungen bedeutet ein Prüfen von irrelevanten Meldungen lediglich einen zeitlichen Mehraufwand, das Nicht-Prüfen von entscheidungsrelevanten Meldungen könnte hingegen zu hohen Verlusten an der Börse führen. Eine Bewertung des Textklassifikationsergebnisses ist somit unerlässlich, um sich über mögliche Falschklassifikationen eines Vorhersagesystems im Klaren zu sein. Für die Bewertung und Beurteilung einer Textklassifikation existieren statistische Maße die eine Beurteilung des Ergebnisses sowie den Vergleich mit anderen Klassifikationsergebnissen erlauben. Die Einteilung eines Klassifikationsergebnisses eines beispielsweise binären Textklassifikators mit den Klassen positiv und negativ erfolgt dabei in vier Kategorien, welche für die – 23 – Bestimmung der weiteren Maße notwendig sind. Die Korrektklassifikationen ergeben sich aus der Anzahl der Kategorien „richtig positiv“ und „richtig negativ“ zugeordneten Klassen. „Richtig positiv“ und „richtig negativ“ geben dabei die Häufigkeit der korrekt zugeordneten Dokumente zu den Klassen positiv und negativ an. Die Falschklassifikationen setzen sich aus der Anzahl der Kategorien „falsch positiv“ und „falsch negativ“ zugeordneten Klassen zusammen. Dabei stellen „falsch positiv“ und „falsch negativ“ falsche Zuordnungen dar. Die Korrektklassifikationsrate (accuracy) gibt an, mit welcher Wahrscheinlichkeit eine korrekte Kategorisierung erfolgt. Korrektklassifikationsrate = Korrektklassifikation n (1) Die Falschklassifikationsrate gibt an, mit welcher Wahrscheinlichkeit eine falsche Kategorisierung erfolgt. Falschklassifikationsrate = Falschklassifikation n (2) Der Recall, die Trefferquote, zeigt die Wahrscheinlichkeit auf, dass eine korrekte Klasse als korrekt aus der Menge der korrekten Klassen eingestuft wird. richtig positiv (3) Recall = richtig positiv+falsch negativ Die Precision, die Genauigkeit, beschreibt, wie viele der positiv klassifizierten Klassen tatsächlich positiv klassifiziert wurden. richtig positiv (4) Precision = richtig positiv+falsch positiv ([Run10], S. 86 f.) Nachdem die Maße Recall und Precision für sich betrachtet zu falschen Annahmen führen können, kommen kombinierte Maße zum Einsatz. Beispielsweise führt ein durchgängiges Kategorisieren der Dokumente zur Klasse positiv zu einem sehr guten Recall, aber schlechtem Wert bei Precision. Kombinierte Maße wie der 𝐹1 , entwickelt von van Rijsbergen, oder 𝐹𝛽 wirken dem entgegen. – 24 – F1 = F𝛽 = 2×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛×𝑅𝑒𝑐𝑎𝑙𝑙 (5) Precision+Recall (1+𝛽 2 )×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛×𝑅𝑒𝑐𝑎𝑙𝑙 (6) 𝛽 2 ×Precision+Recall Mittels β können die Maße unterschiedlich gewichtet werden ([Yan99], S. 8 f.). Die oben genannten Maße besitzen nur dann eine Beweiskraft, wenn die Klassifikation mithilfe einer ausreichend großen und repräsentativen Stichprobe erfolgt ist. Die Kreuzvalidierung kann Fehlern entgegenwirken, die aufgrund zu kleiner Stichproben verursacht werden. Um eine bessere Aussagekraft und möglichst korrekte Angaben über die Klassifizierungsgüte zu erhalten, empfiehlt es sich, die stratifizierte zehnfache Kreuzvalidierung einzusetzen. Die Kreuzvalidierung ermöglicht es, Fehlern entgegenzuwirken, die aufgrund einer kleinen Menge an Trainingsdaten verursacht werden. Die stratifizierte zehnfache Kreuzvalidierung gilt laut den Autoren Witten et al. als Standardmethode im Data Mining, wenn die Stichprobe begrenzt ist. Dabei wird die vorhandene Stichprobe in etwa zehn gleichgroße Untermengen aufgeteilt. Bei der Zerlegung der Daten ist darauf zu achten, dass die Untermengen sich hinsichtlich der Merkmalsausprägung der zu untersuchenden Daten gleichen. Womit eine Unter- oder Überrepräsentation von bestimmten Klassen in den Trainingsdaten vermieden wird. In zehn Lernphasen wird jeweils eine der Untermengen für den Test und neun für das Erzeugen des Trainingsmodells verwendet. Dabei wird während der Lernphase immer eine andere Untermenge für den Test reserviert. Das Klassifikationsergebnis bzw. die Korrektklassifikationsrate errechnet sich aus dem Durchschnittswert der zehn Durchläufe ([WIT01], S. 135). Eine weitere Methode zur Qualifizierung der Klassifikationsergebnisse ist das Holdout Verfahren. Dabei werden die vorklassifizierten Daten in zwei disjunkte Mengen eingeteilt, der Trainings- und Testmenge. Je nach Größe der Stichprobe unterscheidet sich dabei die prozentuale Aufteilung zwischen den Mengen. Die Trainingsmenge benötigt der Klassifikator zum Lernen, die zurückgehaltene Testmenge dient zur Überprüfung des erzeugten Modells und damit der Vorhersagekraft. Bei diesem Verfahren ist zwingend darauf zu achten, dass die Klassen in beiden Mengen gleich verteilt sind ([Kuh09], S. 538). Grundvoraussetzung für diese Form der Textklassifizierung ist die Existenz von vorklassifizierten Trainingsdateien. Wie diese erzeugt werden, dokumentiert der nächste Abschnitt. – 25 – 4 Klassifizierung der Ad-Hoc-Meldung Dieses Kapitel befasst sich mit der Kategorisierung der Trainings- und Testdaten. Dabei werden zwei unterschiedliche Verfahren genutzt, die im späteren Verlauf der Untersuchung miteinander verglichen werden. Zum einen soll die Klassifizierung über eine Ereignisstudie erfolgen und mittels der Ergebnisse zur abnormalen Rendite in positiv, negativ und neutral eingeteilt werden. Das zweite Verfahren weist den Ad-Hoc-Meldungen die Klassen aufgrund der Kursentwicklung am Ereignistag zu. Aufgrund der im Kapitel 4.2.2 vorgestellten Problematik bei der Erzeugung von Ereignisstudien wird mit dem zweiten Verfahren eine Alternative zur Kategorisierung der Testund Trainingsdaten verwendet. 4.1 Prämissen für die Textklassifikation Ein gutes Klassifikationsergebnis setzt voraus, dass dem Klassifikator für die Kategorisierung treffende Merkmalsbeschreibungen zu den entsprechenden Klassen vorliegen. Diese Informationen erlauben dem Algorithmus Muster herauszuarbeiten, die die Unterschiede der Klassen verdeutlichen und damit die Klassifizierung ermöglichen. Neue unbekannte Dokumente können auf Grundlage der im ersten Schritt erzeugten Muster in die entsprechenden Klassen eingeteilt werden. Das entwickelte Modell soll eine korrekte Vorhersage der Klassenzugehörigkeit ermöglichen. In vorgestellten Studien zum überwachten Lernen wird die Klassifikation der Trainingsdaten meist nur kurz oder gar nicht erwähnt. Die Autoren Schulz et al. verwendeten in ihrer Studie die Ereignisstudie ([SSW03a], S. 4). Eine Alternative zur Bewertung von Kursreaktionen und damit der Kategorisierung der Trainingsdaten mittels Ereignisstudie stellt das Vorgehen von Groth et al. dar. Die Einteilung in die Klassen positiv und negativ erfolgt aufgrund der Berechnung einer vereinfachten abnormalen Rendite. Diese berechnet sich durch den 15 Minuten nach Veröffentlichung der Ad-Hoc-Meldung erzielten Kurs dividiert durch den Kurs vor der Veröffentlichung. Die Autoren vertreten die Annahme, dass der Zeitabschnitt zu kurz ist, um durch den Markttrend beeinflusst zu werden. ([GRO09], S. 279). Die Autoren Hagenau et al. gehen einen ähnlichen Weg bei der Klassifizierung mit der Argumentation, dass die Marktanpassung nicht genau zeitlich begrenzt werden kann und aufgrund der Menge an Datensätzen mögliche Störungen ausgeglichen werden können. Sie verwenden für die Klassifizierung bei Veröffentlichung während der Börsenzeiten die Differenz von Eröffnungskurs und Schlusskurs, eine Veröffentlichung außerhalb der Börsenzeiten führt zur Berechnung Eröffnungskurs am nächsten Tag minus Schlusskurs am Tag der Veröffentlichung ([HLN13], S. 690 f.). Eine weitere Möglichkeit ist das Einsetzen von Experten, die aufgrund ihrer Erfahrung die Trainingsdaten entsprechend klassifizieren. Aufgrund von Zeit- und Kostengründen soll eine Möglichkeit gefunden werden, die die Trainingsdaten schnellst- und bestmöglich kategorisiert. Im Rahmen dieser Arbeit werden deshalb die Daten mittels einer Ereignisstudie und dem Vorgehen von Hagenau et al. klassifiziert und die Ergebnisse miteinander verglichen. Vorteilhaft an letzterem ist, dass mehr Ad-Hoc-Meldungen für die Klassifikation als bei der Ereignisstudie verwendet werden können und zudem ein geringer Aufwand bei der Klassifikation der Trainingsdaten als bei der Ereignisstudie anfällt. – 26 – Die Grundlage der Untersuchung bilden 24.812 Ad-hoc-Meldungen aus den Jahren 2003 bis 2014 wie nachfolgende Tabelle zeigt, die von der Webseite DGAP heruntergeladen werden. Mit einem Zeitraum von 10 Jahren werden sowohl Börsenkrisen wie –hochzeiten in der Analyse erfasst. Um beide Verfahren miteinander vergleichen zu können, ist es wünschenswert, dass die für die Klassifizierung verwendeten Ad-Hoc-Meldungen in einem positiven wie negativen Marktumfeld veröffentlicht wurden. Nur so kann gewährleistet werden, dass die Einordnung in die entsprechenden Klassen beispielweise nicht durch einen fortwährenden positiven Markt verzerrt werden. Ebenfalls sollen Aktien von umsatzstarken, internationalen Unternehmen sowie Firmen mit geringem Börsenwert beachtet werden, da die Marktreaktionen von Standard- und Nebenwerten unterschiedlich hoch ausfallen. Nebenwerte überraschen den Markt eher mit neuen Informationen, nachdem hierzu seltener Analystenberichte zur Verfügung stehen, was zu höheren Kursreaktionen führt (siehe Kapitel 5.1.2). Nachfolgend findet eine Beschreibung der Daten statt. Unter den heruntergeladenen Meldungen befinden sich auch fremdsprachige Meldungen, welche mit dem Framework Textcat der TU Darmstadt aussortiert werden. Datenbasis – Ad-Hoc-Meldungen vom Zeitraum 2003 – 2014 (DGAP) Anzahl 24.812 -1.951 22.861 Ad-Hoc-Meldungen Heruntergeladen Fremdsprachig Deutschsprachig Tabelle 1: deutschsprachige Ad-Hoc-Meldungen. Die verbleibenden 22.861 Datensätze werden im nächsten Schritt entsprechend des Verfahrens weiter betrachtet und verarbeitet. Als Nächstes erfolgt dabei die Klassifizierung der genannten Datensätze mittels Ereignisstudie. Die Vorgehensweise dazu wird vorab noch kurz beschrieben. 4.2 Klassifizierung mittels Ereignisstudie Mithilfe von Ereignisstudien lässt sich beurteilen, welche Marktreaktion ein konkretes Ereignis wie die Veröffentlichung von Unternehmensberichten oder die Bekanntgabe eines Übernahmeangebots verursacht. Das Ereignis stellt dabei eine neue, bisher noch nicht veröffentlichte Information dar ([MS97], S. 630). Die durch das Ereignis verursachte Marktreaktion lässt sich durch die Ermittlung der abnormalen Rendite beschreiben. Die abnormale Rendite berechnet sich aus der tatsächlichen Rendite abzüglich der zu erwartenden Rendite. Letztere entspricht der Rendite, die ohne der Veröffentlichung des Ereignisses zu erwarten gewesen wäre ([Pet89], S. 36). Für die – 27 – Berechnung der abnormalen Rendite wird die Kapitalmarkteffizienz vorausgesetzt, womit neue Informationen unverzüglich im Aktienpreis verarbeitet werden ([MS97], S. 630). 4.2.1 Vorgehensweise Nach den Autoren Campell et al. lässt sich die Verfahrensweise der Ereignisstudie in sieben Schritten beschreiben. Ereignisdefinition Festlegung von Auswahlkriterien Verfahren zur Berechnung der normalen und abnormalen Rendite Schätzverfahren Überprüfung der Ergebnisse Empirische Ergebnisse Interpretation der Ergebnisse Die Ereignisdefinition legt die zu untersuchenden Ereignisse fest. Laut Goerke sind dies neue Unternehmensinformationen, die bei Veröffentlichung zu Kursbewegungen führen. Bei der Bestimmung der Ereignisse ist zudem darauf zu achten, dass das Ereignis die Erstveröffentlichung der Information darstellt, die dem Kapitalmarkt zugänglich ist. So stellt die Bekanntgabe einer Fusion das konkrete Ereignis dar, nicht jedoch der Fusionstag ([Goe09], S.468). Ebenfalls wird die Länge des Ereignisfensters festgelegt. Oftmals wird der Tag vor der Veröffentlichung sowie der darauffolgende Tag für die Berechnung der abnormalen Rendite verwendet ([CLM97], S. 151). Im nächsten Schritt werden die Auswahlkriterien bestimmt, um eine engere Auswahl der Ereignisse nach bestimmten Kriterien wie beispielsweise bestimmte Branchen, Industriezweige oder Unternehmen eines bestimmten Aktienindizes wie der DAX30 zu ermöglichen ([CLM97], S. 151). Für die Beurteilung der Kurswirkung eines Ereignisses ist es notwendig, die normale und abnormale Rendite zu berechnen. Dabei entspricht die normale Rendite der erwarteten Marktreaktion ohne Einfluss des Ereignisses. Die abnormale Rendite berechnet sich aus der tatsächlichen Rendite abzüglich der normalen bzw. erwarteten Rendite. Für die Berechnung der abnormalen Rendite werden meist zwei Modelle verwendet. Das Constant Mean Return Model geht davon aus, dass die durchschnittliche Rendite im Betrachtungszeitraum bzw. im Schätzfenster gleich bleibt, wohingegen das Marktmodell einen linearen Zusammenhang zwischen der Aktienrendite und der Marktrendite sieht ([CLM97], S. 151). Nachfolgend wird die Schätzung der abnormalen Rendite unter Verwendung des Marktmodells beschrieben, nachdem diese in der Untersuchung verwendet wird. 𝑅𝑖𝑡 = 𝛼𝑖 +𝛽𝑖 𝑅𝑚𝑡 + 𝑣𝑖𝑡 (7) Die tatsächliche Rendite 𝑅𝑖𝑡 berechnet sich mithilfe der Schlusskurse der entsprechenden Aktie im Schätzfenster, woraus sich die Parameter 𝑎𝑖 und 𝛽𝑖 schätzen lassen. 𝑎𝑖 entspricht dabei der – 28 – Rendite, welches das Unternehmen regelmäßig ohne den Einfluss des Benchmarks erzielt. Der Parameter 𝛽𝑖 definiert wie sehr die Aktie vom jeweiligen Benchmark abhängig ist. 𝑅𝑚𝑡 beschreibt die täglich Rendite des gewählten Benchmarks und 𝑣𝑖𝑡 den Fehlerterm. 𝐸(𝑅𝑖𝑡 ) = 𝛼𝑖 +𝛽𝑖 𝑅𝑚𝑡 (8) Die erwartete Rendite am Ereignistag berechnet sich mithilfe der geschätzten Parameter 𝑎𝑖 und 𝛽𝑖 aus Formel (7) und der erzielten Rendite des Benchmarks des Ereignistags. 𝐴𝑅𝑖𝑡 = 𝑅𝑖𝑡 − 𝐸(𝑅𝑖𝑡 ) (9) ([Goe09], S. 472 f.) Nachdem der gewählte Benchmark einen erheblichen Einfluss auf die Renditeberechnung hat, empfiehlt Goerke einen breit gestreuten Index wie er bei USbezogenen Untersuchungen zur Anwendung kommt, zu verwenden, da einzelne Ereignisse ansonsten den Index und damit die Berechnung der abnormalen Rendite beeinflussen. Aufgrund der Gewichtung der Unternehmenswerte in kleinen Indexes kann bereits eine Information zu hohen Schwankungen führen und somit zu Verzerrungen der abnormalen Rendite ([Goe09], S. 474). Für die Berechnung der Renditen werden somit für den ganzen Betrachtungszeitraum Kursdaten benötigt. Diese unterscheiden sich hinsichtlich der wissenschaftlichen Untersuchung. Beispielsweise erfordert eine Analyse, die den IntradayHandel betrifft, kontinuierliche Daten. Die Berechnung der abnormalen Rendite erfordert im nächsten Schritt die Festlegung des Untersuchungszeitraums. Dieser unterteilt sich in ein Schätz- und Ereignisfenster. Das Schätzfenster bestimmt den Zeitraum, welcher für die Berechnung der normalen Rendite verwendet wird. Um die Kursbeeinflussung durch das Ereignis selbst auszuschließen, endet das Schätzfenster vor dem Tag der Veröffentlichungen des Ereignisses. Für die Berechnung fließen die Kurse während des geschätzten Zeitraums ein. Beim Markt Model wird zudem der lineare Zusammenhang zum gewählten Index ermittelt ([CLM97], S. 152). Die nachfolgende Abbildung der Autoren Clement et al. zeigt ein Schätz- und Ereignisfenster. In dieser Betrachtung endet das Schätzfenster 30 Tage vor dem Ereignis. Die abnormale Rendite wird hier für 10 Tage vor und nach der Veröffentlichung des Ereignisses bestimmt. Abbildung 6: Umfang von Schätz- und Ereignisfenster, Quelle: Clement et al. [CFG07], S. 423. – 29 – Hinsichtlich der Länge der gewählten Zeiträume gibt es keine konkreten Vorgaben. So wählte Oerke in seiner Untersuchung zur Kurswirkungen von Ad-Hoc-Meldungen ein Schätzfenster von 100 bis 300 Tagen ([Oer99], S. 70). Jedoch weisen die Autoren Clement et al. daraufhin, dass lange Schätzfenster vorteilhafter sind, um saisonbedingte Schwankungen auszugleichen ([CFG07], S. 423). Mithilfe geeigneter Testverfahren wird im nächsten Schritt die Signifikanz der abnormalen Rendite festgestellt ([CLM97], S. 152). Bei der Bewertung der Ergebnisse sollte auch berücksichtigt werden, dass diese möglicherweise beeinflusst wurden. So kann ein Ereignis und dessen Kurswirkung durchaus durch ein weiteres, vermeintlich unabhängiges Ereignis beeinflusst werden ([CLM97], S. 152). Beispielsweise belastet das Bekanntwerden der Abgas Manipulation durch Volkswagen und die daraus resultierende Strafe in Milliardenhöhe nicht nur die VW Aktie, auch die Wertpapiere von Zulieferern sind von der negativen Meldung betroffen. Analysten sehen aufgrund des Imageverlustes bei Volkswagen einen Rückgang der Autoverkäufe, was sich wiederum reduzierend auf die Nachfrage nach Autozubehörteilen äußert. Abschließend erfolgen eine Interpretation der Ergebnisse und ein Herausarbeiten von Schlussfolgerungen bezüglich der Kursbildung ([CLM97], S. 152). 4.2.2 Problemstellungen bei der Durchführung von Ereignisstudien Die Durchführung von Ereignisstudien gestaltet sich zum einen dadurch komplex, da keine einheitlichen Vorgaben bezüglich deren Gestaltung existieren. Je nach wissenschaftlichem Ziel unterscheiden sich dabei die Modellparameter. Zum anderen besteht die Gefahr, dass die Wirkung eines Ereignisses durch ein weiteres, sogenanntes überlappendes Ereignis, beeinflusst wird. So weisen die Autoren McWillianms et al. darauf hin, dass die Gefahr der Beeinflussung des Aktienkurses durch überlappende Ereignisse wie beispielsweise Schadensersatzklagen oder Dividendenankündigungen bei längeren Ereignisfenstern groß ist ([MS97], S. 634). Zudem zeigen Studien, dass die stärkste Kapitalmarktreaktion bereits kurz nach der Veröffentlichung des Ereignisses eintritt. Das Ereignisfester sollte demnach so kurz wie möglich gewählt werden, um überlappende Ereignisse möglichst auszuschließen, jedoch sollte es groß genug sein, um die bedeutende Kursreaktion messen zu können ([MS97], S. 636). Eine fehlerhafte Festlegung der Zeiträume für das Schätz- wie Ereignisfenster kann die Ergebnisse zur abnormalen Rendite verzerren. Zu Verzerrungen kann ebenfalls eine falsche Benchmarkwahl führen, welche für die Berechnung des linearen Zusammenhangs zwischen Markt und Aktie beim Markt Model benötigt wird. Laut Goerke empfiehlt es sich, einen breit gestreuten Index wie er bei US-bezogenen Untersuchungen zur Anwendung kommt, zu verwenden, da einzelne Ereignisse ansonsten den Index und damit die Berechnung der abnormalen Rendite beeinflussen. Aufgrund der Gewichtung der Unternehmenswerte in kleinen Indexes kann bereits eine Information zu hohen Schwankungen und somit zur Falschberechnung führen ([Goe09], S. 474). Zudem ist bei der Bestimmung des Ereigniszeitpunktes und somit indirekt bei der Festlegung des Ereignisfensters darauf zu achten, dass die erste öffentliche Bekanntgabe des Vorhabens und nicht das Datum der tatsächlichen Genehmigung verwendet wird. Es ist daher die Erstveröffentlichung zu – 30 – verwenden, um eine verzerrte Bewertung zu verhindern, welche andernfalls durch den Antizipationseffekt entstehen könnte. ([Do80], S. 107). 4.2.3 Durchführung Als einer der ersten Schritte der Durchführung der Ereignisstudie gelten die entsprechenden Ereignisse festzulegen und entsprechende Auswahlkriterien zu treffen. Zumal die Ad-HocMeldung eine Insiderinformation von Natur aus darstellt, ist die Erstveröffentlichung bereits der Ereigniszeitpunkt. Hinsichtlich der Auswahlkriterien werden nur Meldungen von Emittenten betrachtet, die an der Börse Frankfurt oder im Xetra Handel gehandelt werden. Um möglichen Verunreinigungen der Ereignisse zu entgegnen, werden auch Nebenwerte und kleinere Unternehmen in die Ereignisstudie miteinbezogen. Kleinere Unternehmen haben gegenüber DAX-Werten eine geringere Unternehmenskommunikation. Ebenfalls schenken ihnen Analysten aufgrund der Verdienstmöglichkeiten an den Analysen von kleineren Unternehmen und der meist vorliegenden Marktenge weniger Interesse, da diese seltener von institutionellen Investoren gekauft werden ([Oer99], S. 140). Somit scheint eine Verunreinigung der Ad-Hoc-Meldungen durch Analysten-Beiträge unwahrscheinlicher. Für die Ereignisstudie werden ein Ereignis- von 8 und ein Schätzfenster von 200 Tagen festgelegt. Mit dem langen Schätzfenster sollen saisonbedingte Kursschwankungen ausgeglichen werden ([CFG07], S. 423). Dies erfordert jedoch für den gesamten Zeitraum Ereignis- und Schätzfenster, die Verfügbarkeit der Kursdaten zu den Veröffentlichungen sowie des genutzten Benchmark für das Marktmodel. Die Kursdaten werden von der Webseite http://finance.yahoo.com heruntergeladen. Für das Marktmodel wird der Composite DAX (CDAX) aufgrund seiner bereiten Streuung verwendet, die Daten des Performance-Index stammen von der Börse Frankfurt. Nachfolgend werden notwendige Bereinigungsschritte geschildert, um Fehler bzw. Verzerrungen bei der Abnormalen Rendite zu vermeiden. So zeigt sich, dass 6.179 Bekanntmachungen nach 17.30 Uhr erfolgten. Bei diesen wird der Veröffentlichungstag auf den nächsten Tag 9 Uhr gesetzt. Als Grundlage gelten für diese Untersuchung die Handelszeiten vom Handelsplatz Xetra, da auf diesen 80% des Aktienhandels in Deutschland entfallen. Zudem zeigt sich, dass kurz hintereinander erfolgte Bekanntmachungen desselben Emittenten mit gleichem oder ähnlichem Schlagwort eine Ergänzung zur ersten Meldung darstellen. Beispielsweise informiert die zeitlich frühere Ad-Hoc-Meldung über eine Kapitalerhöhung, in der Nachfolgenden wird über die vollzogene Platzierung berichtet. Die Zweite stellt im Rahmen der Ereignisstudie keine relevante neue Information dar, sie beschreibt lediglich die in der ersten Ad-Hoc-Meldung beschriebene Umsetzung. Des Weiteren beinhalten die zweiten Meldungen von kurz hintereinander veröffentlichten oftmals Berichtigungen der ersten oder es werden neue Unternehmensinformationen mitgeteilt, womit kein eindeutiger Ereigniszeitpunkt festgestellt werden kann bzw. ein überlappendes Ereignis vorliegt. Die obengenannten Meldungen werden deshalb aus der Untersuchung ausgeschlossen, um Verunreinigungen bei der Berechnung der abnormalen Rendite zu vermeiden. – 31 – Des Weiteren werden Ad-hoc-Meldungen zu gleichen Branchen ausgeschlossen, wenn sich die Veröffentlichung zeitlich überschneidet. Sogenannte überlappende Ereignisse können negative Auswirkungen auf die Renditeberechnung haben. Beispielsweise bewirken Gewinnwarnungen eines Branchenvertreters oftmals bei Unternehmen, die in der gleichen Sparte vertreten sind, ebenfalls einen Kursfall, nachdem der Markt von ähnlichen Bedingungen für den Branchenvertreter ausgeht. Um überlappende Ereignisse aufzuspüren wird als Quelle das Handelsblatt-Archiv verwendet, mit dem Ziel, betreffende Meldungen von der Analyse auszuschließen. Für das Auffinden von überlappenden Ereignissen wird ein Ereignisfenster von acht Tagen gewählt. Der Zeitraum erstreckt sich vier Tage vor und vier Tage nach dem Veröffentlichungszeitpunkt. Nach der Bereinigung der Daten erfolgt die Durchführung der Ereignisstudie. Hierfür wird die Software Event Study Metrics der Universität Göttingen verwendet, die Studenten für 49 Euro erwerben können. Die Software überzeugt durch eine intuitive Benutzeroberfläche. Zudem ermöglicht sie ein schnelles Durchführen und die Überprüfung einer Ereignisstudie aufgrund der umgesetzten Algorithmen, ohne jegliche Programmierkenntnisse besitzen zu müssen. Für das Durchführen der Studie benötigt die Software Informationen zum Ereignis wie beispielsweise die Kursdaten, den Ereigniszeitpunkt, Namen des Emittenten und einer Kennung, zur eindeutigen Identifizierung des Ereignisses. Bei der Verwendung des Marktmodels wird zudem der entsprechende Benchmark benötigt. Das Ergebnis der Untersuchung wird im nachkommenden Abschnitt vorgestellt. 4.2.4 Ergebnis Wie bereits im oben genannten Kapitel geschildert ist die Datenbasis einer Korrektur zu unterziehen. Dabei führt die fehlende Verfügbarkeit von Kursdaten zu den größten Ausschlüssen. Dies liegt zum einen darin Begründet, dass sich in der Datenbasis nicht ausschließlich Insiderpapiere wie Wertpapiere befinden. Damit verbleiben für die eigentliche Verfahrensdurchführung 9.052 Ad-Hoc-Meldungen. – 32 – Verwendete Ad-Hoc-Meldungen für die Ereignisstudienuntersuchung Anzahl 24.812 -1.951 22.861 -8.836 14.025 -1.277 12.748 -2.106 10.639 -1.587 9.052 Ausschlusskriterien Heruntergeladen Fremdsprachig Deutschsprachig Fehlende Verfügbarkeit von Kursdaten (Schätzfenster mit 200 Tagen) Datenbasis mit Kursdaten Nicht untersuchte Index-Zuordnungen Bereinigte Datenbasis Überlappungen durch gleichen Emittenten/Branchenvertreter Bereinigte Datenbasis Überlappende Handelsblattmeldungen Verwendete Datenbasis Tabelle 2: Ad-Hoc-Meldungen Ereignisstudie. Aufgrund des aufwendigen Verfahrens und aus Performancegründen werden nur 890 Ad-HocMeldungen mittels der Software Event Study Metics analysiert. Die Auswahl wird mit der Random Funktion von Oracle getroffen. Im Nachfolgenden werden die Ergebnisse der Ereignisstudie dargestellt. Für die Einteilung der Ereignisse in die Klassen „positiv“, „negativ“ und „neutral“ werden die abnormale Renditen die vor, nach und am Ereignistag zu einer Aktie erzielt werden summiert. Eine abnormale Rendite größer 0.001 führt zu der Klassenzuordnung „positiv“, kleiner -0.001 zu der Zuordnung „negativ“ und dem Rest wird „neutral“ zugeteilt. Dies führt zu folgender Aufteilung: Klassifizierung der Test- und Trainingsdaten Klasse positiv negativ neutral Test- und Trainingsdaten Mittels Ereignisstudie 451 424 16 891 Tabelle 3: Klassifizierungsergebnis Ereignisstudie, drei Klassen. 451 Meldungen werden der Klasse positiv, 424 der Kategorie negativ und 16 der Klasse neutral zugeordnet. Es folgt im nächsten Kapitel die Klassenzuordnung der Ad-Hoc-Meldungen aufgrund der Marktreaktion, die die betreffende Aktie aufgrund der Veröffentlichung der neuen Information erfährt. – 33 – 4.3 Klassifizierung mittels der Kursentwicklung am Ereignistag Die Autoren Hagenau et al. verwenden für die binäre Klassifizierung von Ad-Hoc-Meldungen in die Klassen „positiv“ und „negativ“ die Differenz aus Schluss- und Eröffnungskurs des entsprechenden Veröffentlichungstags. Eine Veröffentlichung außerhalb der Börsenzeiten führt zur Berechnung Eröffnungskurs am nächsten Tag minus Schlusskurs am Tag der Veröffentlichung ([HLN13], S. 690 f.). Im Gegensatz zur Ereignisstudie besticht diese Form der Klassifikation durch ihre Einfachheit. Dieses Verfahren erfordert keine Überprüfung hinsichtlich überlappender Ereignisse oder die Berechnung der abnormalen Rendite, sondern benötigt lediglich die entsprechenden Kursdaten der zu untersuchenden Aktien. Dies lässt eine schnelle und kostengünstige Klassifizierung zu, welche anschließend vorgestellt wird. 4.3.1 Durchführung Die Berechnung findet ausschließlich auf Datenbankebene statt, da damit eine schnelle Bearbeitung möglich ist. Nachdem die Autoren Hagenau et al. ihr Verfahren nicht näher als oben erwähnt beschreiben, ist unklar, wie mit Besonderheiten umgegangen werden soll. Nachstehend wird demzufolge beschrieben, wie das Verfahren der Autoren in dieser Untersuchung umgesetzt wird. Die Berechnung der Kursreaktion unterscheidet sich Veröffentlichungszeitpunkt wie bei Veröffentlichungen an Wochenenden. in Bezug auf börsenfreie Tage den und Erfolgt die Veröffentlichung innerhalb des Xetra-Handelszeitraums und an einem Handelstag, entspricht die Rendite dem Schlusskurs am Tag der Veröffentlichung abzüglich dem Eröffnungskurs am Tag der Veröffentlichung. Bei Veröffentlichungen an börsenfreien Tagen beträgt die Rendite dem Eröffnungskurs nach Veröffentlichung abzüglich dem Schlusskurs vor der Veröffentlichung. Erfolgt die Veröffentlichung außerhalb des Handelszeitraums bis 24:00 Uhr an Börsentagen, berechnet sich die Rendite nach dem Eröffnungskurs nach der Veröffentlichung abzüglich dem Schlusskurs am Tag der Veröffentlichung. Bei Veröffentlichungen nach 24:00 Uhr an Börsentagen berechnet sich die Rendite nach dem Eröffnungskurs am Tag der Veröffentlichung abzüglich des Schlusskurses am Vortag der Veröffentlichung. Die Ergebnisse, die sich aus der hier genannten Durchführung ergeben, werden im nächsten Abschnitt präsentiert. – 34 – 4.3.2 Ergebnis Die angefügte Tabelle dokumentiert das Ergebnis aus dem vorangegangen beschriebenen Vorgehen zur Klassifizierung von Ad-Hoc-Meldungen. Klassifizierung aufgrund der Marktreaktion am Eröffnungstag – 3 Klasse Anzahl 6.467 4.600 1.765 12.832 Klassentyp positiv negativ neutral Datenbasis mit Kursdaten Tabelle 4: Klassifizierungsergebnis Marktreaktion, drei Klassen. Dies führt zur folgenden Kategorisierung der 12.832 Ad-Hoc-Meldungen. Bei 1.765 Meldungen fand keine Kursreaktion statt. Für 4.600 Meldungen kann eine negative Rendite festgestellt werden und 6.467 Meldungen erzielten eine positive Rendite. Dabei wurde eine Rendite über 0 bereits als positiv, unter 0 als negativ und gleich 0 als neutral gewertet. – 35 – 5 Textklassifikation Dieses Kapitel dokumentiert die Durchführung des gesamten Textklassifikationsverfahrens. Es beginnt mit der Beschreibung der Datengewinnung und Datenbasis. Stellt die Datenaufbereitung vor, die im Rahmen der Textklassifikation notwendig sind, und präsentiert im letzten Abschnitt die Ergebnisse des Klassifikationsverfahrens. 5.1 Daten Die Daten stellen die Grundlage jedes Textklassifikationsverfahrens dar, womit der Datenspeicherung und –aufbereitung eine große Bedeutung zukommt. Um den Anforderungen an die Datenaufbereitung gerecht zu werden, wird in dieser Untersuchung eine relationale Datenbank eingesetzt. Nachfolgende Kapitel dokumentieren, wie die Daten für die Textklassifikation gewonnen werden. Des Weiteren folgt eine Beschreibung der Speicherung der Daten in der Datenbank und der Datenaufbereitungsschritte. 5.1.1 Datengewinnung Laut § 3a Wertpapierhandelsanzeige- und Insiderverzeichnisverordnung (WpAIV) sind Emittenten zur Veröffentlichung von Informationen wie Ad-Hoc-Meldungen dazu verpflichtet, diese Medien zuzuleiten, welche für eine rasche und zeitnahe Verbreitung der Information an alle Mitgliedsstaaten der Europäischen Union und den Vertragsstaaten des Abkommens über den Europäischen Wirtschaftsraum sorgen. Die DGAP bietet die oben genannten Anforderungen als Dienstleistung an und sorgen für die europaweite Verbreitung von Ad-HocMeldungen. Zudem informieren sie die Börsen und BaFin über die neuen Meldungen und stellen diese auf der DGAP Webseite zur Verfügung. Letzteres dient als Quelle für die zu untersuchenden Ad-Hoc-Meldungen aus den Jahren 2003 bis 2014, welche mittels eines JavaProgramms von der Webseite heruntergeladen und in einer Oracle-Datenbank gespeichert werden. Nähere Informationen zum Emittenten, wie die Branchentätigkeit, Unternehmensbeschreibung, Symbol, WKN und Marktplatz sowie der für die Ereignisstudie benötigte C-DAX Performance-Index für den Zeitraum 2003 bis 2014, stammen von der Webseite der Frankfurter Börse. Kursdaten, welche für die Ereignisstudie wie für die Klassifizierung der Ad-Hoc-Meldungen benötigt werden, werden von der Webseite http://finance.yahoo.com heruntergeladen. Die Schlusskurse sind bereinigt ([YAH]) und eignen sich daher für Ereignisstudien. Die Daten werden kostenlos im Dateiformat CSV bereitgestellt. Ein Nachteil gegenüber kostenpflichtige Quellen ist die fehlende Verfügbarkeit von einzelnen Kursdaten (siehe Kapitel 5.1.2). Laut Oerke sind Verunreinigungen durch überlappende Ereignisse zu vernachlässigen, wenn die Stichprobe ausreichend groß ist. Dennoch werden üblicherweise bereinigte Ereignisstudien durchgeführt ([Oer99], S. 51). In dieser Studie wird daher ebenfalls nach überlappenden – 36 – Ereignissen gesucht. Als Quelle wird hierfür das Handelsblatt-Archiv verwendet. Dabei wird zu jeder Ad-Hoc-Meldung vier Tage vor und vier Tage nach der Veröffentlichung nach weiteren Nachrichten gesucht. Eine Beschreibung der heruntergeladenen Daten erfolgt im nächsten Abschnitt. 5.1.2 Datenbeschreibung Die Grundlage für die Untersuchung bilden die Ad-Hoc-Meldungen aus den Jahren 2003 bis 2014. Der Betrachtungszeitraum wird deshalb so lange angesetzt, um auch Börsenkrisen wie die Weltwirtschaftskrise im Jahre 2008 und nicht nur Wachstumszeiten in der Untersuchung zu erfassen. Insbesondere aufgrund der angedachten Verfahren zum Klassifizieren der Trainingsdaten ist es wichtig, dass die Verfahren bei Baissen wie Haussen zum Einsatz kommen. Somit sollen Verzerrungen, die beispielsweise aufgrund einer durchgängigen Hausse entstünden, verhindert werden. Anleger reagieren möglicherweise positiver auf Meldungen, wenn der entsprechende Aktienindex laufend neue Höchstrekorde einstellt. Zögerlicher hingegen wird ein Anleger agieren, wenn dieser erst vor kurzem bei einem Börsencrash Geld verloren hat. So stellt Güttler in einer Untersuchung zur Umsetzung der Publizitätspflicht fest, dass Nemax-50 Unternehmen bei positiver Kapitalmarktstimmung mehr Ad-Hoc-Meldungen veröffentlichten, um die Gunst des Kapitalmarkts zu nutzen und somit von der Kauflaune der Anleger zu profitieren ([Güt05], S. 21 f.). Im Zeitraum Ende 2003 bis 2014 wurden auf der Webseite der DGAP 24.812 Meldungen veröffentlicht, wovon 1.951 Nachrichten nicht in Deutsch abgefasst wurden und somit von der Untersuchung ausgeschlossen werden. Datenbasis – Ad-Hoc-Meldungen vom Zeitraum 2003 – 2014 (DGAP) Anzahl 24.812 -1.951 22.861 Ad-Hoc-Meldungen Heruntergeladen Fremdsprachig Deutschsprachig Tabelle 5: Datenbasis. Für die Kategorisierung der Trainingsdaten werden zu den Meldungen die entsprechenden Kursdaten benötigt. Die Klassifizierung mittels Ereignisstudie erfordert für den gesamten Zeitraum Ereignis- und Schätzfenster Kursdaten. Die detaillierte Aufstellung zur Auswahl der Meldungen, die sich für die Ereignisstudie eigenen, findet sich in Kapitel 4.1.4. Höchstens stehen damit 12.813 Meldungen als Trainings- und Testdaten zur Verfügung, wie nachfolgende Tabelle zeigt. Viele Nachrichten werden aufgrund von fehlenden Kursdaten nicht weiter beachtet. Verwendete Ad-Hoc-Meldungen – 37 – Anzahl 22.861 -10.048 12.813 Ausschlusskriterien Deutschsprachige Meldungen Fehlende Verfügbarkeit von Kursdaten; nicht verwendete Indices Datenbasis mit Kursdaten Tabelle 6: Ad-Hoc-Meldungen Klassifizierung aufgrund Marktreaktion. Um die benötigten Kursdaten von der Webseite Yahoo Finance herunterladen zu können, wird das Tickersymbol zu jeder Aktie benötigt. Diese Information stammt von der Frankfurter Börse. Es werden nur Meldungen zu Aktien betrachtet, zu denen ein Kurs abrufbar ist, dabei wird im ersten Versuch der historische Kurs von der Handelsplattform Xetra und im Fehlerfall von der Börse Frankfurt abgefragt. Die historischen Kursdaten enthalten den Eröffnungskurs, maximaler und minimaler Tageskurs, Schlusskurs, das gehandelte Volumen und den bereinigten Schlusskurs. Hinsichtlich des gehandelten Index werden keine Beschränkungen vorgenommen, so werden auch Meldungen von Emittenten, die als Nebenwerte gelten, untersucht. Daraus ergibt sich dargestellte Konstellation hinsichtlich der Verteilung der Ad-Hoc-Meldungen zu dem zugeordneten Index. Verwendete Ad-Hoc-Meldungen nach Indexzuordnung Anzahl 977 1.034 1.141 810 3.962 8.851 12.813 Index Standardwert (DAX30) MDAX SDAX TecDax Prime Standard Rest Datenbasis mit Kursdaten Tabelle 7: Ad-Hoc-Meldungen Marktreaktion sortiert nach Index. Einzige Bedingung ist, dass die Papiere dem regulierten Markt unterliegen. Die dazugehörigen Emittenten zu den 3.962 unterliegen sogar dem Prime Standard und haben damit die höchsten Transparenzstandards zu erfüllen. Ad-Hoc-Meldungen zu Nebenwerten verursachen bei der Veröffentlichung oftmals höhere Renditen als Standardwerte. Dies liegt darin begründet, dass die Berichterstattung bei Nebenwerten geringer ist und sich auch Analysten aufgrund der Verdienstmöglichkeiten mit den Beiträgen zurückhalten. Somit gelingt den Unternehmen von Standardwerten oftmals die Platzierung einer neuen Nachricht, die nicht annähernd vor der Veröffentlichung durch den Markt hätte antizipiert werden können. Wie bereits im Kapitel 4 angeführt, sollen die Daten realitätsnah sein, um somit Börsenhochzeiten wie –krisen in der Untersuchung zu erfassen. Deshalb wird versucht die – 38 – Datenbasis so wenig wie möglich zu beschränken. Angefügte Tabelle zeigt die Anzahl der Meldungen zu den Jahren. Dabei wird erkennbar, dass die Börsenjahre ähnlich durch die Anzahl der Veröffentlichungen vertreten sind. Verwendete Ad-Hoc-Meldungen sortiert nach Veröffentlichungsjahr Anzahl 193 1.135 1.174 1.202 1.324 1.149 1.040 1.054 1.016 1.061 1.180 1.305 12.813 Veröffentlichungsjahr 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 Datenbasis mit Kursdaten Tabelle 8: Ad-Hoc-Meldungen Marktreaktion sortiert nach Jahr. Für einen performanten Zugriff auf die genannten Daten sind die gewählte Datenstruktur sowie die darunterliegende Datenverwaltung von existentieller Bedeutung. Die deshalb im nächsten Schritt vorgestellt werden. 5.1.3 Datenstruktur Für die Speicherung der Daten wird eine Oracle Datenbank verwendet. Diese setzt sich aus den Komponenten Datenbankmanagementsystem (DBMS) und Datenbasis zusammen. Die DBMS ist der Datenbasis vorgeschalten und sorgt für einen geordneten Zugriff auf die Daten. Beispielsweise koordiniert sie konkurrierende Zugriffe mehrerer Datenbankuser oder setzt Sicherheitskonzepte um, die den Datenzugriff der User kontrolliert. Für diese Untersuchung sind insbesondere die Datenbankfunktionalitäten Transaktionssicherheit, Erstellung von Datensicherungen, Umsetzung von regulären Ausdrücken und Prozeduren von großem Nutzen. Die Indexerstellung auf Spalten ermöglicht zudem den Datenzugriff mittels Structured Query Language (SQL) wesentlich zu beschleunigen. Der Zugriff auf die Datenbank erfolgt mit dem SQL Developer, eine Entwicklungsumgebung für SQL von der Firma Oracle. Im Rahmen dieser Untersuchung wird zudem eine Datenstruktur benötigt, die einen schnellen Datenzugriff ermöglicht, Redundanzen vermeidet und Daten wieder auffindbar macht. Um diesen Anforderungen gerecht zu werden, wird ein ähnliches Verfahren zur Erstellung einer Textdatenbank genutzt, wie die Autoren Quasthoff et al. vorstellen. Dabei handelt es sich um – 39 – ein Verfahren zur Speicherung der zu untersuchenden Dokumente, das aufgrund der Infrastruktur keine Einschränkungen hinsichtlich der Durchführung von Text Mining Prozessen verursacht und zudem vom gewählten Prozess frei ist. Unterschiedliche Textformate wie PDF, Microsoft Word Dokumente oder HTML-Datei werden im ersten Schritt in RawFormat konvertiert und anschließend in einer relationalen Datenbank gespeichert. Die dortige Speicherung ermöglicht neben schnellen Zugriffsverfahren gute Auswertungsmöglichkeiten aufgrund der Datensprache SQL. Nachfolgend wird der Text in Sätze und darauf aufbauend in Wörter aufgeteilt. Mittels Fremdschlüsselbeziehung kann jederzeit auf den Originaltext zugegriffen werden ([QW00], S. 1 f.). Näher ins Detail zu obengenannten Verfahren gehen die Autoren Heyer et al. bei der Aufbereitung der Texte, so wird beispielsweise nach der Zerlegung in Wörter, diese mit einem Wörterbuch verknüpft und statistische Verfahren darauf angewendet ([HQW12], S. 57). Nachfolgende Abbildung zeigt die Datenstruktur, die im Rahmen dieser Untersuchung eingesetzt wird. – 40 – MITTEILUNG_SATZ MITTEILUNG MITTEILUNG_ID PS MITTEILUNG_SATZ_ID PS NEWSHEADER MITTEILUNG_TOKEN SATZ NACHRICHT_VOM FS SCHLAGWORT MITTEILUNG_TOKEN_ID PS FS MITTEILUNG_SATZ_ID MITTEILUNG_ID WORT VERWENDET WORTSTAMM SPRACHE IS_EIGENNAME WERTPAPIER FS WERTPAPIER_ID IS_BETRAG_MIT_WAEHRUNG WERTPAPIER_ID PS URL FS STOPPLISTE_ID WKN MITTEILUNG SYNONYM_LISTE_ID ISIN DEUTSCH LAND SYNONYM_LISTE ERG_BER_VERWENDET UNTERNEHMENSNAME RELEVANT_EREIGNISSTUDIE FS PS SYNONYM_LISTE_ID PS SYNONYM_LFD_NR AKTIEN_BOERSE_INFO_ID NACHRICHT_VOM_ORIG FUER_KLASSIFIKATION WORT STOPPLISTE FUER_EREIGNISSTUDIE_GEWAEHLT WORTSTAMM STOPPLISTE_ID PS DATUM_BOERSE_VEROEFF STOPPWORT DATUM_BOERSE_NACH_VER WORTSTAMM EREIGNIS_ID PS AKTIEN_BOERSE_INFO_ID PS VEROEFFENTL_AM BRANCHE NACHRICHT FS KURSDATEN AKTIEN_BOERSE_INFO EREIGNIS MITTEILUNG_ID KURSDATEN_ID PS NAME DATUM ISIN EROEFFNUNGS_KURS WKN MAX_KURS MNEMONIC TIEF INSTRUMENT_GROUP SCHLUSS INSTRUMENT_GROUP_ID VOLUMEN TRADING_MODEL_TYPE BEREINIGTER_SCHLUSSKURS ABNORMALE_RENDITE ARS_ID PS FS MITTEILUNG_ID MAX_SPREAD TMINUS4 START_PRE_TRADING TMINUS3 END_POST_TRADING TMINUS2 START_CONTIN_AUCTION TMINUS1 END_CONTIN_AUCTION Abbildung 7: Datenbankstruktur, Quelle: eigene Darstellung T TPLUS1 TPLUS2 TPLUS3 TPLUS4 INSTRUMENT_TYPE INSTRUMENT_SUB_TYPE – 41UNIT_OF_QUOTATION – INTEREST_RATE MARKET_SEGMENT FS MITTEILUNG_ID BOERSE_GESCHLOSSEN Die Tabelle MITTEILUNG enthält die original Ad-Hoc-Meldungen und Informationen, die sich auf die Meldung beziehen, wie beispielsweise das Veröffentlichungsdatum, ob es sich um eine deutschsprachige Ad-Hoc-Meldung handelt, die dazugehörige URL und die WERTPAPIER_ID. Letztere verweist auf die Tabelle WERTPAPIER, in welcher alle Wertpapiere aufgelistet sind, zu denen Ad-Hoc-Meldungen im Untersuchungszeitraum veröffentlicht wurden. Ergänzende Informationen zum Wertpapier wie beispielsweise das Tickersymbol und die Handelsplattform sind in der Tabelle AKTIEN_BOERSE_INFO gespeichert. Mithilfe des SentenceDetectors von Apache OpenNLP werden die Meldungen in Sätze überführt und in der Tabelle MITTEILUNG_SATZ gespeichert. Mit der mitgeführten MITTEILUNG_ID kann auf die Originalmeldung zurückgegriffen werden. Die fortlaufend vergebene MITTEILUNG_SATZ_ID erlaubt einen Rückschluss auf die Reihenfolge der extrahierten Sätze. Letztere werden im nächsten Schritt in einzelne Wörter bzw. Tokens zerlegt und in der Tabelle MITTEILUNG_TOKEN gespeichert. Die mitgeführte MITTEILUNG_SATZ_ID lässt auf den entsprechenden Satz schließen. Ebenfalls wird in dieser Tabelle der Wortstamm wie die Fremdschlüsselbeziehungen zu den Tabellen STOPPLISTE und SYNONYM_LISTE geführt. Die Tabelle STOPPLISTE führt Wörter, die als irrelevant eingestuft sind und damit nicht im Textklassifikationsergebnis berücksichtigt werden dürfen. Die SYNONYM_LISTE dient dazu, sinngemäße Wörter zusammenzuführen, um damit die Gewichtung im Vektorraum korrekt zu berechnen. In der Tabelle KURSDATEN sind Kursinformationen abgelegt, welche für die Ereignisstudie benötigt werden. Abhängig vom Veröffentlichungszeitpunkt der Ad-Hoc-Meldung liegen Kursdaten für ein Jahr vor der Veröffentlichung bis 13 Tage danach vor. Die Tabelle EREIGNIS führt Presseartikel des Handelsblatts, welche möglicherweise überlappende Ereignisse zu Ad-Hoc-Meldungen darstellen. Die Ergebnisse der Ereignisstudie werden in der Tabelle ABNORMALE_RENDITE abgelegt. Die beschriebe Tabellenstruktur ermöglicht es, einzelne Datenaufbereitungsschritte wie die Satzzerlegung leichter kontrollieren zu können. Zudem kann während des Datenaufbereitungsprozesses bei Fehlern in Teilprozessen die Datenbank zurückgesetzt und der entsprechende Prozessschritt erneut ausgeführt werden. Die Möglichkeiten der Qualitätssicherung der Daten sind mit dem Einsatz einer Datenbank und der verfügbaren Datenbanksprache SQL vielseitig. Ebenso unterstützen viele Datenbanken reguläre Ausdrücke und bieten damit gute Möglichkeiten, Daten zu korrigieren und zu untersuchen. Ein weiterer Vorteil der Datenstruktur ist, dass vorhandene Daten mit einem Wörterbuch verknüpft werden können, um linguistische Text Mining-Prozesse umsetzen zu können. Letzteres wird in dieser Arbeit nicht genutzt, nachdem unter anderem Verfahren wie das POS-Tagging im Dokumentenaufbereitungsprozess nicht verwendet werden, welche ein Wörterbuch benötigen. – 42 – 5.2 Durchführung Dieses Kapitel beschreibt den praktischen Prozessablauf der Textklassifikation. Hierzu gehören die Aufbereitung der Daten und der Textklassifikationsprozess. Im Anschluss folgt die Aufbereitung der Klassifikationsläufe. 5.2.1 Dokumentenaufbereitung Die Dokumentenaufbereitung ist die zeitaufwendigste Aufgabe im Textklassifikationsprozess, nachdem diese sehr sorgfältig durchzuführen ist, um eine gute Datenbasis zu erhalten. Diese ist notwendig, nachdem alle weiteren Prozessschritte davon profitieren und sich dies zudem positiv im Klassifikationsergebnis niederschlägt. Die folgende Auflistung zeigt die einzelnen Datenaufbereitungsschritte, in der Reihenfolge wie sie ausgeführt werden. Dabei bildet die Tabelle MITTEILUNG mit den originalen Ad-Hoc-Meldungen den Ausgangspunkt. Überführung der Mitteilungen in einzelne Wörter - Segmentierung des Textes in Sätze Durchführung von inhaltlichen Änderungen - Segmentierung der Sätze in Wörter Stemming Anbinden einer Synonymliste Anbinden einer Stoppliste Als erstes wird die Segmentierung des Textes in Wörter und Sätze beschrieben. Hierfür wird das Framework Apache OpenNLP eingesetzt, welches mit der Programmiersprache Java verwendet werden kann. Das Framework stellt für die Verarbeitung von natürlichsprachlichen Texten die Anwendungen Sentence Detector, Tokenizer, Name Finder, POS Tagger, Chunker und Parser zur Verfügung. Mithilfe des Sentence Detector wird natürlichsprachlicher Text in Sätze unterteilt. Die Segmentierung des Textes in Sätze gestaltet sich unter anderem aufgrund von Abkürzungen schwierig, welche meist mit einem Punkt enden und somit mit dem Satzende verwechselt werden können ([HQW12], S.63). Hierfür bietet Apache das Tool Sentence Detector Training an, welches unter Zuhilfenahme von einem Trainingskorpus beispielsweise Abkürzungen und Datumsformatierungen für die untersuchte Sprache einübt und somit vom Satzende zu unterscheiden lernt. Der Tokenizer dient zur Zerlegung der Sätze in Wörter. Auch hier besteht die Möglichkeit wie beim Sentence Detector den Tokenizer mithilfe eines Trainingskorpus zu trainieren. Dies ist insbesondere für die deutsche Sprache empfehlenswert, nachdem eine Trennung der Sätze in Wörter an den Leerzeichen zu Fehlern führen kann (siehe Kapitel 5.2.1). Nach der Segmentierung der Ad-Hoc-Meldungen in Sätze und vor der Auftrennung der Sätze in Wörter werden folgende inhaltliche Änderungen vorgenommen. Der jeweilige Unternehmensname, Zeilenumbrüche, Trennlinien, die aus Fragezeichen oder Bindestrichen bestehen, Kommunikationsdaten werden aus der Tabelle MITTEILUNG_SATZ entfernt, da diese nicht zum Klassifikationsergebnis beitragen. Nachdem der Unternehmensname in einer Mitteilung oft mehrmals auftritt und nicht zum Klassifikationsergebnis beiträgt, wird er durch ein Leerzeichen ersetzt. Da dieser in der Tabelle Emittent vorliegt, wird für das Aufspüren und – 43 – Entfernen dieser aus den Mitteilungen nicht der Namefinder von Apache OpenNLP sondern eine SQL-Abfrage mit regulären Ausdrücken genutzt. Letzteres Vorgehen erkannte die Unternehmensnamen besser. Um gewährleisten zu können, dass Wortstämme korrekt gezählt werden, werden einige Wörter umgesetzt. Beispielsweise wird aus dem Bindestrich ein Minus in Verbindung mit einer Zahl, aus dem Wort „Eur“ Euro oder aus dem Wort „zwei“ wird die Zahl 2. Entgegen Vorgaben aus der Literatur oder dem Vorgehen in Studien ([GM08], S.6) werden Tabellen und Zahlen nicht entfernt, da diese wertvolle Informationen hinsichtlich der Klassifikation bieten. Oftmals werden Betriebsergebnisse in Ad-Hoc-Meldungen nur durch Zahlen ausgedrückt. Bei der Analyse wird ersichtlich, dass für die Formulierungen von negativen Meldungen oft nur ein Minuszeichen vor dem Konzernergebnis steht. Mit dem Entfernen dieser Zahlen einschließlich der Minuszeichen geht eine wichtige Information verloren. Mithilfe des Frameworks Snowball wird der Stemming Algorithmus von Martin Porter eingesetzt. Diese Implementation kann über Java in den Quellcode eingebunden werden. Es werden sowohl die Wörter, die aus den Ad-Hoc-Meldungen extrahiert wurden, die Synonymliste und die Stoppliste mit dem Stemming Verfahren in einen Wortstamm überführt. Dies ermöglicht im späteren Verlauf der Dokumentenaufbereitung das Anbinden der Synonym- und Stoppliste an die entsprechenden Wortstämme der Meldungen. Mit der Anbindung einer Synonymliste soll das Klassifizierungsergebnis verbessert werden. So werden Wörter mit sinngemäßer Bedeutung nicht einzeln gezählt, sondern zusammengeführt und dann gezählt. Damit wird die Worthäufigkeit für gleichbedeutende Wörter korrekt bewertet. Klassifikationsverfahren, die auf die Worthäufigkeit basieren, erzielen dadurch bessere Ergebnisse. Aus Vereinfachungsgründen wird für die Berechnung des Wortvorkommens die laufende Nummer der Synonymgruppe, die Spalte SYNONYM_LISTE_ID, verwendet. Nachfolgende Abbildung zeigt einen Ausschnitt aus der der Tabelle SYNONYM_LISTE unter der SYNONYM_LISTE_ID 1689 geführten Synonyme und den dazugehörigen Wortstämmen. – 44 – Abbildung 8: Auszug aus der Tabelle SYNONYM_LISTE, Quelle: eigene Darstellung. Die verwendete Synonymliste stammt von der Webseite https://www.openthesaurus.de/about/download. Bei der Verwendung dieser Liste existiert ein Problem, das sich nur manuell beheben lässt. Die Synonymliste führt Wörter mit Mehrfachbedeutungen. Aufgrund der Bedeutungsvielfalt werden diese mehrmals gelistet, was nachfolgende Abbildung deutlich macht. Die Zusammenführung von finanzwirtschaftlichen Begriffen zu den entsprechenden Synonymen ist daher möglicherweise fehlerhaft. Beispielsweise wird das Wort Markt unter der SYNONYM_LISTE_ID 4811 und 9454 geführt, einmal als finanzwirtschaftlicher Begriff und im zweiten Fall als Örtlichkeit. Abbildung 9: Mehrfachbedeutungen, Quelle: eigene Darstellung. – 45 – Von den 4.338.657 extrahierten Wortstämmen, die in dieser Untersuchung verwendet werden, kann 2.715.153 ein Synonym zugeordnet werden. Davon könnten 721.957 Datensätze die falsche Wortbedeutung zugeordnet worden sein. Die Klassifizierung wird deshalb mit und ohne Synonyme gestartet, um festzustellen, ob diese Liste das Klassifikationsergebnis steigert. Eine Korrektur der Liste ist aufgrund des Zeitaufwands für diese Untersuchung nicht möglich. Das Verlinken einer Stoppliste verfolgt ebenfalls das Ziel, das Klassifikationsergebnis zu verbessern. Nicht relevante Wörter wie Höflichkeitsfloskeln werden dabei aus dem Verfahren herausgenommen. Die Stoppliste wurde aus mehreren online verfügbaren Stopplisten zusammengefügt und im Anschluss hinsichtlich der domänenspezifischen Begriffe manuell korrigiert bzw. geändert. Beispielsweise stellt das Wort „minus“ einen wichtigen Beitrag zum Inhalt einer Ad-Hoc-Meldung dar und darf damit nicht in einer Stoppliste geführt werden. Zu den oben genannten Wortstämmen konnten zudem 2.205.443 Datensätzen ein Stoppwort zugeordnet werden. Das nachfolgende ER-Diagramm zeigt die Tabellen MITTEILUNG_TOKEN mit den einzelnen Wörtern, die aus den Ad-Hoc-Meldungen extrahiert wurden, SYNONYM_LISTE UND STOPPLISTE. MITTEILUNG_TOKEN PS SYNONYM_LISTE MITTEILUNG_TOKEN_ID PS SYNONYM_LISTE_ID MITTEILUNG_SATZ_ID PS SYNONYM_LFD_NR WORT WORT WORTSTAMM WORTSTAMM IS_EIGENNAME STOPPLISTE IS_BETRAG_MIT_WAEHRUNG FS PS STOPPLISTE_ID SYNONYM_LISTE_ID STOPPLISTE_ID STOPPWORT WORTSTAMM Abbildung 10: Verlinkung von Stopp- und Synonymliste, Quelle: eigene Darstellung. – 46 – Die Fremdschlüsselbeziehung wurde aufgrund der Überstimmung mit den jeweiligen Wortstamm erzeugt. 5.2.2 Klassifikation und Klassifikationsergebnis Für die Textklassifikaton wird das WEKA Framework der Universität Waikato genutzt. Es beinhaltet gängige Data-Mining Verfahren wie Algorithmen für den Dokumentenaufbereitungsprozess, die Klassifikation, Assoziationsanalyse, Regressionsanalyse und Clusteranalyse. Die Software erfährt insbesondere aufgrund der intuitiven Benutzeroberfläche und einfachen Handhabung große Beliebtheit. Ohne entsprechende Programmierkenntnisse können Data-Mining Verfahren angewandt werden. WEKA ermöglicht zudem eine Bewertung unterschiedlicher Algorithmen und erlaubt damit dem User den geeignetsten Data-Mining Prozess entsprechend seiner Analysedaten zu finden. Die Software unterliegt der GNU General Public License und ist somit frei verfügbar. Eine Vielzahl der Tools und Algorithmen ist zudem über Java nutzbar ([FHK05], S. 1305f.). WEKA wird in dieser Untersuchung nur für die Klassifizierung und Prüfung der Ergebnisse genutzt. Die Dokumentenaufbereitung wird mit regulären Ausdrücken und dem Apache OpenNLP Framework durchgeführt. Diese Trennung wird gewählt, um einzelne Abläufe leichter wiederholbar zu machen. Aufgrund der zugrundeliegenden Datenbankstruktur ist es möglich, einige durchgeführte Dokumentenaufbereitungsschritte bei der Textklassifikation auszuschließen. Dies erlaubt es im Nachhinein, den entsprechenden Schritt zu überprüfen und möglicherweise einer Korrektur zu unterziehen - insbesondere wenn sich durch das Ausschließen eines Dokumentenaufbereitungsschrittes das Klassifikationsergebnis verbessert, die Literatur aber auf Gegenteiliges hinweist. WEKA benötigt für die Klassifikation die Test- wie Trainingsdaten im Attribute-Relation File Format (ARFF). Dieses Format enthält die zu klassifizierenden Daten, die entsprechende dazugehörige Kategorie und Informationen über die möglichen Kategorien und Datenspalten. Folgende Abbildung zeigt einen Ausschnitt aus einer ARFF Datei. Abbildung 11: Ausschnitt aus einer ARFF Datei, Quelle: eigene Darstellung „@attribute klasse“ enthält die Information, welche unterschiedlichen Klassenzuordnungen möglich sind. In diesem Fall neutral, positiv und negativ. Mit „@attribute text string“ wird angegeben, um welche Art von Information es sich handelt und wie viele Spalten unterschieden werden. Es handelt sich hier um eine Spalte im Stringformat. Nach „@data“ folgen die – 47 – Trainings- bzw. Testdaten. Jede Zeile entspricht einer Meldung und beginnt mit der Information, zu welcher Klasse die Meldung gehört. Mittels SQL Abfrage werden die für die Klassifikation benötigten Test- und Trainingsdaten geladen und in einem Java Programm als ARFF Datei zur Verfügung gestellt. Je nach Anwendungsfall ist es möglich, bestimmte Dokumentenaufbereitungsschritte wie die Verlinkung der Wortstämme zu Synonymen nicht zu laden. Dies erlaubt gewisse Gestaltungsmöglichkeiten bei den Klassifikationsläufen, aufgrund der vorher genannten Selektionsmöglichkeiten. Die unterschiedlichen Klassifikationsläufe können dann im späteren Verlauf miteinander verglichen werden. In dieser Untersuchung werden bereits die Wortstämme aus der Datenbank geladen. Dies führt dazu, dass die Wortstämme zu einer Meldung durch Semikolon getrennt in einem String in der ARFF Datei dargestellt werden. Die WEKA Klasse StringToWordVector überführt aber dann vor der Klassifizierung die Daten in einen Vektor, in dem es den String an den Semikolons wieder auftrennt. Wie bereits eingangs erwähnt, gibt es keine einheitliche konkrete Empfehlung hinsichtlich des zu wählenden Klassifikators. Aufgrund der eingesetzten Algorithmen und deren Ergebnisse in den Studien fiel daher die Auswahl auf die vier Klassifikatoren NaiveBayesMultinomial, NaiveBayes, SMO, IBK. Um festzustellen, welcher der genannten Klassifikatoren das beste Ergebnis erzielt, werden die vier Algorithmen unter den gleichen Rahmenbedingungen getestet. Um ein hochwertiges Klassifizierungsergebnis zu erzielen ist es laut Witten et al. notwendig, dass in den Test- wie Trainingsdaten die Klassen gleichmäßig verteilt sind ([WIT01], S.134). Aus diesem Grund wird bei allen Klassifikationsläufen die stratifizierte zehnfache Kreuzvalidierung anstatt der Holdout Methode ausgeführt. Für diese Untersuchung stehen 12.832 Meldungen, die aufgrund der Kursentwicklung am Ereignistag, und 891 Meldungen, die aufgrund einer Ereignisstudie klassifiziert wurden, zur Verfügung. Kommende Abbildung zeigt die Aufteilung der Meldungen in die entsprechenden Klassen. Klassifizierung der Test- und Trainingsdaten Klasse positiv negativ neutral Test- und Trainingsdaten Mittels Ereignisstudie 451 424 16 891 Tabelle 9: Ad-Hoc-Meldungen Klassifikationsergebnis im Vergleich.. – 48 – Mittels Marktreaktion 6.467 4.600 1.765 12.832 Die beiden Datenpools werden getrennt voneinander betrachtet und getestet, um im späteren Verlauf eine Aussage über die Qualität der erzeugten Trainings- und Testdaten treffen zu können. Um fehlerhafte Dokumentenaufbereitungsschritte zu erkennen, werden unterschiedliche Klassifikationsläufe auf beiden Datenmengen gestartet. In den einzelnen Klassifikationsdurchläufen werden dann die Dokumentenaufbereitungsschritte wie die Reduzierung der Tokens aufgrund der Stoppliste, die Verwendung der Synonymliste und das Erkennen von nummerischen Tokens ausgeschlossen. Daraus können wertvolle Schlüsse auf die Verbesserung des gesamten Text Mining Prozesses gewonnen werden, die im Nachgang die Klassifikation wesentlich verbessern können. Die nachfolgende Tabelle zeigt die einzelnen Durchläufe mit den dazugehörigen Parametern auf. Um die Besten Ergebnisse besser zu erkennen, sind diese markiert worden. Die Bewertung der Ergebnisse aus beschriebenen Prozess folgt im nächsten Abschnitt. – 49 – Tabelle 10: Klassifikationsergebnis. – 50 – 6 Evaluation In diesem Kapitel wird die Beurteilung der Ergebnisse behandelt. Zudem erfolgt eine Beschreibung der gewonnenen Erkenntnisse, dabei werden beispielsweise die Probleme beleuchtet, die bei dieser Untersuchung aufgetreten sind. Abschließend folgen eine kurze Zusammenfassung der Arbeit und ein Ausblick auf weitere Forschungsfragen zum Thema Textklassifikation von Ad-Hoc-Meldungen. 6.1 Bewertung der Ergebnisse Beim überwachten Lernen benötigt der Textklassifikator bereits kategorisierte Trainingsdaten. Die Qualität dieser hat einen entscheidenden Einfluss auf das Klassifikationsergebnis (siehe Kapitel 4). Die Einordnung der Trainingsklassen in die entsprechenden Kategorien soll die Realität bestmöglich wiederspiegeln und dabei die geringsten Kosten verursachen. Eine manuelle Einordnung durch Experten ist zeitaufwendig und erfordert aufgrund sich ändernder Marktbedingungen immer wieder neue Befragungen und Anpassungen. Die Ereignisstudie als eine weitere Möglichkeit zur Bestimmung der Klassenzuordnungen ist aber hinsichtlich der benötigten Kursdaten für den gesamten Betrachtungszeitraum und der Prüfung nach überlappenden Ereignissen ein ebenfalls sehr aufwendiges Vorgehen. Ein Verfahren, das nur die Marktpreisentwicklung am Ereignistag betrachtet, ist hingegen leichter und schneller umzusetzen. Dies spart nicht nur Zeit, sondern schafft zudem die Möglichkeit, ein Vorhersagesystem kontinuierlich mit neuen Trainingsdaten zu versorgen. Aus diesem Grund werden in dieser Untersuchung Letztgenanntes und die Ereignisstudie zur Kategorisierung der Trainingsdaten verwendet und verglichen. Im Ergebnis zeigt sich, dass die beiden Verfahren ein ähnliches Klassifikationsergebnis hervorbringen. Mit der binären Klassifikation erzielt die Klassifizierung mittels der Daten aus der Ereignisstudie und dem Naive Bayes Algorithmus 54,23%. Ebenfalls erreicht der gleiche Klassifikator 55,25% unter Verwendung der klassifizierten Daten mittels der Marktreaktion. In beiden Fällen wurde für die Aufteilung der Test- und Trainingsdaten die 10-fache Kreuzvalidierung eingesetzt. Aufgrund des aufwendigen Verfahrens stehen bei der Einordnung der Test- und Trainingsdaten durch die Ereignisstudie nur 874 Meldungen, für das zweite Vorgehen 11.067 Datensätze zur Verfügung. Die Autoren Hagenau et al. rechtfertigen ihre Methode der Klassifikation aufgrund folgender Annahmen: Die Anzahl der verwendeten Meldungen ist so groß, dass sich Unwägbarkeiten ausgleichen. Des Weiteren weisen die verwendeten Eröffnungs- und Schlusskurse die höchsten gehandelten Volumen auf und sind dadurch verlässlicher als Intraday-Kurse. Als letztes Argument führen sie an, dass widersprüchliche Aussagen über die Dauer der Marktanpassungen, die Ereignisse verursachen, existieren ([HLN13], S. 691). Das beachtliche Ergebnis von einer erreichten Genauigkeit von bis zu 76% ([HLN13], S. 695) in ihrer Untersuchung bekräftigt ihre Annahmen. Außerdem bestätigt diese Studie, dass eine Klassifikation mittels Ereignisstudie sowie die Preisreaktion zu nahezu gleichen Klassifikationsergebnissen führt. – 51 – Für die Klassifizierung der Test- und Trainingsdaten können somit beide Vorgehen eingesetzt werden. Jedoch besticht das Vorgehen von Hagenau et al. durch die einfache, kostengünstige und schnelle Umsetzung. Die Klassifikation der Ad-Hoc-Meldungen in drei Kategorien mit den Daten aus der Ereignisstudie bereitet sichtlich Probleme. Selten kategorisiert ein Klassifikator ein Dokument als neutral, dennoch erreicht der Klassifikator mit Naive Bayes mit einer Genauigkeit von 53,03% unter Verwendung der Ereignisstudien Test- und Trainingsdaten ein hohes Ergebnis und übersticht die Genauigkeit des anderen Vorgehens um 10,03%. Hier erzielte der SMO Klassifizier mit 43,73% knapp vor dem Naive Bayes Algorithmus das beste Ergebnis. In dieser Test- und Trainingsmenge werden die neutralen Dokumente angemessen vertreten (siehe Kapitel 5.2.2). Das Resultat entspricht annähernd den Ergebnissen aus anderen Analysen ([MSG12], S. 14f.), wobei zu beachten ist, dass die Studien aufgrund unterschiedlicher Vorgehensweisen kaum vergleichbar sind. Die Erklärung für das gute Ergebnis der oben genannten Klassifizierung mittels der Daten aus der Ereignisstudie liegt an der mangelnden Vertretung der neutralen Dokumente in den Testund Trainingsdaten. Nur 16 der 890 Meldungen sind als neutral eingestuft. Dem Klassifikator stehen damit nur wenige Meldungen zur Verfügung um neutrale Dokumente unterscheiden zu lernen. Die prozentuale Aufteilung der Klassenzuordnungen in positiv, neutral und negativ unterscheidet sich zu der binären Kategorisierung in positiv und negativ kaum, weshalb das Klassifikationsergebnis der binären Kategorisierung gleicht. Dieses Ergebnis wird sich höchstwahrscheinlich wesentlich verschlechtern, wenn neutrale Dokumente zur Kategorisierung hinzugefügt werden. Die Klassifizierung der Ad-Hoc-Meldungen in zwei Klassen erreicht 54,23% mit den Daten aus der Ereignisstudie und 55,25% mit den Klassifizierungen aus der Marktreaktion. Diese Resultate liegen weit hinter den Erwartungen zurück. Würde ein binärer Klassifikator bei einer Klassenverteilung von 6.647 positiven und 4.600 negativen Dokumenten, wie sie dieser Studie entsprechen, immer die positive Klasse zuordnen, läge das Ergebnis bei 51,80% ([HLN13], S. 691) und wäre damit nur knapp unter der erreichten Genauigkeit in dieser Untersuchung. Ursächlich sich Probleme, die während der Studie aufgetreten sind. Beispielsweise führt der Einsatz von Synonym- und Stoppliste nicht immer zu besseren Klassifikationsergebnissen. Näher ins Detail geht hierzu das Kapitel 6.2. Hinsichtlich der Wahl des besten Klassifikators zur Analyse von Ad-Hoc-Meldungen erreichte der Naive Bayes Algorithmus durchgehend, bei der Klassifizierung durch 2 und 3 Klassen, die höchsten Ergebnisse. Annähernd gut war der SMO Klassifizier, wobei die Berechnungszeit wesentlich länger ist. Das nächste Kapitel schildert genauer die Erkenntnisse, die aus dieser Studie gewonnen werden. – 52 – 6.2 Erkenntnisse Dieser Abschnitt fasst Feststellungen zur Untersuchung zusammen. Es schafft einen Überblick über die technischen sowie fachlichen Erkenntnisse und auch Probleme, die während der Untersuchung auftraten. 6.2.1 Fachliche Erkenntnisse Ein fachlicher Aspekt, der zu einer Verbesserung des Klassifikationsergebnisses führen kann, ist die Beachtung von Zahlen im Text Mining Verfahren. In Studien zur Prognose von Aktienkursen bzw. Indices wird selten erwähnt, wie mit Zahlen und Grafiken in der Dokumentenaufbereitung verfahren wird. Die Autoren Hagenau et al. beispielsweise löschen Tabellen, Zahlen und Grafiken im Text Mining Verfahren und erreichen trotzdem hervorragende Klassifikatonsergebnisse in ihrer Studie zur Prognose von Aktienkursen ([HLN13], S. 689). Trotzdem soll mit nachfolgendem Ausschnitt aus einer Ad-Hoc-Meldung, die die Konzernentwicklung in einer Tabelle veranschaulicht, auf die Problematik hingewiesen werden. Abbildung 12: Konzernergebnis in Tabellenform: eigene Darstellung. Beispielsweise wird diese Meldung durch die Wörter „sehr“, „gute“, „Cash-Generierung“, „hohem“, „qualitativem“, „Wachstum“, „verbesserte“, „erhöhte“, „deutlich“ in einem Vektor beschrieben. Die Informationen aus der Tabelle finden dabei keine Berücksichtigung. Insbesondere die positive Entwicklung der Konzernkennzahlen, die in der Tabelle dargestellt wird, geht hier verloren. Eine korrekte Interpretation dieser Meldung ist gewissermaßen nur durch die Berücksichtigung der Aufstellung möglich. Um das Klassifikationsergebnis zu verbessern, ist deshalb ein Verfahren notwendig, das die Zahlen ähnlich dem Verlinken der Synonymliste auf beispielsweise eine textuelle – 53 – Beschreibung umsetzt, um die Information in die Merkmalsbeschreibung miteinfließen zu lassen. Die Extraktion der Zahlen aus den Meldungen ist möglich. Beispielsweise verwenden die Informationen, welche über DGAP veröffentlicht werden, zur Positionierung der Tabellen Tabund Leerzeichen. Damit sind sie schwieriger zu erkennen als HTML-Tabellen. Allerdings einfacher als die Gewinnung der Information aus Grafiken. Auch hinsichtlich der technischen Seiten können wertvolle Feststellungen gemacht werden, die als Nächste dokumentiert werden. 6.2.2 Technische Erkenntnisse Der Text Mining Prozess setzt sich aus vielen einzelnen Schritten zusammen, welcher jeder für sich im Ergebnis genau geprüft werden muss. In Anbetracht der Datenmenge, die allein durch die 12.833 untersuchten Ad-Hoc-Meldungen erzeugt wurde, stellt dies ein zeitaufwendiges Unterfangen dar. Eine gute Dokumentenaufbereitung ist somit die Grundlage für eine erfolgreiche Textklassifikation. Bereits während der Aufbereitung der Daten zeigte sich, dass beispielsweise der Einsatz einer Synonymliste eine genaue Prüfung erfordert. Um die Resultate in dieser Analyse zu verbessern, existieren zwei offensichtliche Maßnahmen, die umgesetzt werden sollten. So bestehen Defizite hinsichtlich der Dokumentenaufbereitung, da sich das Klassifikationsergebnis nur marginal ändert, wenn die Synonym- bzw. Stoppliste verwendet wird. Die Verlinkung der Synonymliste verbessert das Klassifikationsergebnis kaum, womit die eingesetzte Liste zu überprüfen oder gegebenenfalls zu ersetzen ist. Wie bereits im Kapitel 3.4.1 erwähnt wird, besteht hier ein Problem mit den Mehrdeutigkeiten von Wortformen. Um dem zu entgegnen ist es möglich, die Synonymliste manuell zu bearbeiten und sie dem domänenspezifischen Bereich anzupassen, sie um die notwendige Information zu erweitern oder die Mehrdeutigkeit mittels eines Algorithmus aufzulösen. Ebenfalls veränderte sich das Klassifikationsergebnis durch die Verwendung einer Stoppliste nur unwesentlich. Sie wurde aus mehreren Listen zusammengefügt und anschließend entsprechend der Fachbegriffe angepasst. Problematisch bei der Erstellung einer Stoppliste ist, dass die entsprechenden domänenspezifischem Begriffe bekannt sein müssen, um nicht versehentlich relevante Informationen aus der Berechnung zu nehmen. Für die Erstellung der Stoppliste bedarf es somit domänenspezifisches Fachwissen. Im Kapitel Dokumentenaufbereitung wird hierzu ein Vorgehen beschrieben, wie eine Stoppliste automatisch generiert werden kann. Mit diesem Verfahren können Fachausdrücke von irrelevanten Begriffen unterschieden werden und aus diesen Informationen eine Stoppliste generiert werden. Als technisch positive Feststellung erweist sich der Einsatz einer relationalen Datenbank. Die eingesetzte Datenstruktur lässt mehrmaliges Ausführen einzelner – 54 – Dokumentenaufbereitungsschritte zu, womit die Qualitätssicherung des Text Mining Prozesses erleichtert wird. Beispielsweise wurde die Satz- und Termzerlegung mehrmals durchgeführt, bis das Ergebnis den Erwartungen entsprach. Dies ist möglich, in dem die entsprechenden Datenbanktabellen geleert werden und danach erneut das entsprechende Java Programm mit der dazugehörigen Datenbankanbindung gestartet wird. Außerdem erlaubt die Datenbankbearbeitungssprache Data Manipulation Language (DML) Befehle sowie Updates von Tabellen oder Datenbank Inserts im Fehlerfall mit einem Rollback rückgängig zu machen. Dies wurde insbesondere zur Überprüfung von regulären Ausdrücken in Update Befehlen eingesetzt. Mittels SQL können zudem komplexe Datenbankabfragen erstellt werden, womit die Daten genauer untersucht werden können. Ein weiterer positiver Nutzen der Datenbank ist die Erweiterungsfähigkeit. Es ist denkbar, diese im nächsten Schritt um ein Wörterbuch zu erweitern, um linguistische Analysen auf den Daten durchführen zu können. Der Einsatz des WEKA Frameworks ermöglicht aufgrund der bereitgestellten Algorithmen unzählige Testmöglichkeiten, die schnell umgesetzt werden können. Diese bilden noch viele Ansatzmöglichkeiten, die geprüft werden können und zudem die Klassifikationsresultate wesentlich verbessern können. Die Feststellungen bieten Ansätze, die im Detail geprüft werden müssen und somit möglicherweise dieses Klassifikationsverfahren hinsichtlich des Ergebnisses verbessert. Im anschließenden Kapitel erfolgt eine Zusammenfassung der Arbeit und über die gewonnen Erkenntnisse. – 55 – 6.3 Zusammenfassung und Ausblick Ziel dieser Arbeit ist es unter anderem festzustellen, ob zur Kategorisierung der Trainings- und Testdaten eine gleichwertige Alternative zur Ereignisstudie oder der Befragung von Experten existiert. Beide genannten Verfahren sind in der Umsetzung sehr aufwendig. Zudem erlauben sie kaum eine maschinelle Umsetzung, so dass die Verfahren sich nicht zur kontinuierlichen Kategorisierung neuer Dokumente eignen. Das beschriebene Verfahren im Kapitel 4.2 stellt eine Alternative zu den hier genannten Vorgehen dar und ermöglicht zudem eine maschinelle Umsetzung. Die Test- und Trainingsdateien werden aufgrund der verursachten Kursreaktion am Veröffentlichungstag in die entsprechenden Klassen eingeteilt. Eine negative Kursreaktion führt zur Klassifizierung negativ und eine positive zur Einteilung positiv. Im Vergleich erreicht der Klassifikator mit der vorher genannten Einordnung nahezu das gleiche Klassifikationsergebnis wie der Klassifikator (siehe Kapitel 6.1), welcher mit den Ergebnissen aus der Ereignisstudie trainiert wird. Daraus lässt sich schließen, dass die Einordnung der Testund Trainingsdaten in die entsprechenden Klassen ebenfalls durch die Kursreaktion möglich ist. Ein weiterer Untersuchungsgegenstand dieser Analyse ist, welcher Klassifikator das beste Ergebnis bei der Klassifizierung von Ad-Hoc-Meldungen erzielt. In der Literatur existieren unterschiedliche Meinungen hinsichtlich des besten Klassifikators. Dies ist mitunter darauf zurückzuführen, dass Text Mining Methoden auf unterschiedliche Quellen angewandt werden, die eine Vergleichbarkeit der Ergebnisse nicht erlauben. Für die Prognose des Börsentrends werden meist Varianten des NaiveBayes und Support Vektor Maschine eingesetzt ([HLN13], S. 686). Verglichen werden in dieser Analyse die Klassifikatoren NaiveBayesMultinomial, NaiveBayes, SMO und IBK, wobei der NaiveBayes Algorithmus bei der binären und der Kategorisierung mit drei Klassen die besten Ergebnisse erzielt. Eine Klassifizierung in drei Klassen ist für den Anleger dabei nicht von großem Nutzen, da sich hieraus keine Handelsstrategie ableiten lässt ([MSG12], S. 12). Jedoch ist sie sinnvoll, wenn aufgrund der Fülle der Meldungen eine Selektion stattfinden soll. Ein weiteres Ziel ist unter anderem die bestmögliche Prognose des Börsentrends durch das Klassifikationsergebnis. Eine Studie, die dieser hinsichtlich der untersuchten Datenquelle und der Anzahl der Meldungen am Nächsten kommt, ist die der Autoren Hagenau et al. Sie erreichten eine Genauigkeit von bis zu 76% ([HLN13], S. 695). Eine übersichtliche Darstellung zu den erreichten Genauigkeiten zu diesem Thema findet sich auch in einer Veröffentlichung der Autoren Minev et al. ([MSG12], S. 14 f.) In dieser Studie wird eine Genauigkeit von 55,04% erreicht. Sie liegt damit weit hinter dem Erreichbaren. Wie bereits im Kapitel 6.2 erläutert, ist davon auszugehen, dass das Klassifikationsergebnis verbessert wird, wenn auf bestehender Datengrundlage eine überarbeitete Stopp- und Synonymliste eingesetzt wird. Auch geht der Autor dieser Untersuchung davon aus, dass zudem eine Verbesserung erreicht wird, wenn die Textklassifikation die Tabellen der jeweiligen Ad-Hoc-Meldungen berücksichtigt. – 56 – Aus dieser Überlegung stellt sich ein weiterer Ansatz, der geprüft werden sollte. Dieser beschäftigt sich mit der Betrachtung von Tabellen im Text Mining. Insbesondere bei der Textklassifikation von Ad-Hoc-Meldungen können durch die Auswertung von Tabellen wertvolle Informationen gewonnen werden, die eine verbesserte Beschreibung der zu prüfenden Dokumente liefert und somit die Qualität der Klassifikation steigert. Wie im Kapitel 6.2 vorgestellt, werden besonders in Quartals-, Halbjahres- und Jahresberichten Konzernzahlen in Tabellenform beschrieben, eine textuelle Beschreibung erfolgt oftmals nicht. Eine korrekte Interpretation der Meldung ist somit nur möglich, wenn auch die Informationen aus den Tabellen in der Klassifikation berücksichtigt werden. Ein möglicher Ansatz ist, die Tabellen in eine textuelle Beschreibung zu überführen, ähnlich dem Verfahren zur Verlinkung der Synonymliste zu den entsprechenden Wortstämmen (siehe Kapitel 5.2). – 57 – Literatur [BAFIN] Bundesanstalt für Finanzdienstleistungsaufsicht (2013): Emittentenleitfaden; verfügbar unter: http://www.bafin.de/SharedDocs/Downloads/DE/Leitfaden/WA/dl_emitten tenleitfaden_2013.pdf?__blob=publicationFile&v=5 (Download am 15.5.2015). [CLM97] Campbell, J.; Lo, A.; MacKinlay, A. (1997): The Econometrics of Financial Markets. Princeton usw.: Princeton University Press. [CEE09] Carstensen, K.; Ebert, C.; Ebert, C.; Jekat, S.; Klabunde, R.; Langer, H. (2009): Computerlinguistik und Sprachtechnologie – Eine Einführung. 3. Aufl. Heidelberg : Spektrum Akademischer Verlag. [CFG07] Clement, M.; Fischer, M.; Goerke, B. (2007): Neuprodukteinführungen in der Filmindustrie : wie reagieren Kapitalmarktinvestoren auf den Umsatzerfolg neuer Kinofilme?, in: Die Betriebswirtschaft : DBW., Bd. 67, S. 418-444. [CRS03] Chakrabarti, S.; Roy, S.; Soundalgekar, M. (2003): Fast and accurate text classification via multiple linear discriminant projections, in: The VLDB Journal - The International Journal on Very Large Data Bases, Bd. 12 (2), New York, S. 170-185. [DZ11] Dalal, M.; Zaveri, M. (2011): Automatic Text Classification: A Technical Review, in: International Journal of Computer Applications, Bd. 28 (2), S. 37-40. [Do80] Dodd, P. (1980): Merger proposals, management discretion and stockholder wealth, in: Journal of Financial Economics, Bd. 8, S. 105-137. [Fam70] Fama, E. (1970): Efficient Capital Markets: A Review of Theory and Empirical Work, in: The Journal of Finance, New York, Bd. 25 (2), S. 383417. [FWR06] Fan, W.; Wallace, L.; Rich, S.; Zhang, Z. (2006): Tapping the power of text mining; verfügbar unter: http://read.pudn.com/downloads167/sourcecode/book/766494/tappingintot hepowertextmining.pdf (Download am 1.4.2015). – 58 – [FBG06] Felden, C.; Bock, H.; Gräning, A.; Molotowa, L.; Saat, J.; Schäfer, R.; Schneider, B.; Steinborn, J.; Voecks, J.; Woerle, C. / Technical University Bergakademie Freiberg (2006): Evalution von Algorithmen zur Textklassifikation; verfügbar unter: http://tu-freiberg.de/sites/default/files/media/fakultaet-63307/fileadmin/Arbeitspapiere/2006/felden_10_2006.pdf (Download am 12.03.2015). [FHK05] Frank, E.; Holmes, M.; Kirkby, G.; Pfahringer, B.; Witten, I. (2005): Weka: A machine learning workbench for data mining. Data Mining and Knowledge Discovery Handbook: A Complete Guide for Practitioners and Researchers. Berlin: Springer Verlag, 2005, S. 1305-1314. [Goe09] Goerke, B. (2009): Event-Studies, in: Albers, S. u. a. (Hrsg.): Methodik der empirischen Forschung, Wiesbaden: Springer Fachmedien 2009, S. 467-484. [GM08] Groth, S.; Muntermann, J. (2008): A Text Mining Approach to Support Intraday Financial Decision-Making; verfügbar unter: http://aisel.aisnet.org/amcis2008/191/ (Download am 13.5.2015). [Güt05] Güttler, A. (2005): Wird die Ad-hoc-Publizität korrekt umgesetzt? Eine empirische Analyse unter Einbezug von Unternehmen des Neuen Markts; verfügbar unter: https://www.ebs.edu/fileadmin/redakteur/funkt.dept.finance/hackethal/WP/ 2005_ahp_zfbf.pdf (Download am 12.3.2015). [HLN13] Hagenau, M.; Liebmann, M.; Neumann, D. (2013): Automated news reading: Stock price prediction based on financial news using contextcapturing features; in: Decision Support Systems, 2013, Bd. 55 (3), S. 685-697. [HQW12] Heyer, G.; Quasthoff, U.; Wittig, T. (2012): Text Mining: Wissensrohstoff Text. 2. Nachdruck, Herdecke usw.:W3L-Verlag. [HR06] Hippner, H.; Rentzmann, R. (2006): Text Mining, in: Informatik Spektrum, 2006, Bd. 29 (4), S. 287–290. [HNP05] Hotho, A.; Nürnberger, A.; Paaß, G. (2005): A Brief Survey of Text Mining, in: LDV Forum, 2005, Bd. 20 (1), S. 19-62. – 59 – [Kho] Khorasgani, R.: Comparison of Different Classification Methods; verfügbar unter: http://webdocs.cs.ualberta.ca/~rabbanyk/research/603/short-paperrabbany.pdf (Download am 9.4.2015). [Kow99] Kowalski, G. (1999): Information Retrieval Systems: Theory and Implementation; verfügbar unter: http://www.m5zn.com/newuploads/2013/12/02/pdf/m5zn_be72a5b115ea2 9f.pdf (Download am 8.3.2015). [Kuh09] Kuhlmann, J. (2009): Ausgewählte Verfahren der Holdout- und Kreuzvalidierung, , in: Albers, S. u. a. (Hrsg.): Methodik der empirischen Forschung, Wiesbaden: Springer Fachmedien 2009, S. 537-546. [MN98] McCallum, A.; Nigam, K. (1998): A Comparison of Event Models for Naive Bayes Text Classification; verfügbar unter: http://www.kamalnigam.com/papers/multinomial-aaaiws98.pdf (Download am 1.3.2015). [MR05] Maimon, O.; Rokach, L. (2005): Data Mining and Knowledge Discovery Handbook. New York: Springer-Verlag. [MS99] Manning, C.; Schutze , H. (1999): Foundations of Statistical Natural Language Processing; verfügbar unter: http://ics.upjs.sk/~pero/web/documents/pillar/Manning_Schuetze_Statistica lNLP.pdf (Download am 12.2.2015). [MS97] McWilliams, A.; Siegel, D. (1997): Event Studies in Management Research: Theoretical and Empirical Issues, in: Academy of Management Journal, 1997, Bd. 40 (3), S. 626-657. [MW05] Mehler, A.; Wolff, C. (2005): Einleitung: Perspektiven und Positionen des Text Mining, in: LDV-Forum, 2005, Bd. 20 (1), S. 1-18. [MDE12] Miner, G., Delen, D., Elder, J., Fast, A., Hill, T., Nisbet,R. (2012): Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications. Amsterdam:Academic Press. [MSG12] Minev, M.; Schommer, C.; Grammatikos, T./ University of Luxembourg (2012): A survey on abnormal returns and prediction models; verfügbar unter: https://publications.uni.lu/bitstream/10993/14176/1/TR.Survey.News.Anal ytics.pdf (Download am 29.5.2015). – 60 – [Oer99] Oerke, M. (1999): Ad-hoc-Mitteilungen Und Deutscher Aktienmarkt: Marktreaktion Auf Informationen. Wiesbaden: Deutscher UniversitätsVerlag GmbH. [Pet89] Peterson, P. (1989): Event Studies: A Review of Issues and Methodology, in: Quarterly Journal of Business and Economics, 1989, Bd. 28 (3), S. 36-66. [Por14] Porter, M. (2014): German stemming algorithm; verfügbar unter: http://snowball.tartarus.org/algorithms/german/stemmer.html (letzter Zugriff: 01.03.2015). [QW00] Quasthoff, U.; Wolff, C. (2000): A Flexible Infrastructure for Large Monolingual Corpora; verfügbar unter: http://www.lrecconf.org/proceedings/lrec2000/pdf/226.pdf (Download am 19.7.2015). [Röd99] Röder, K. (1999): Der Einfluß der Verbreitungstechnologie auf die Informationsverarbeitung von Ad hoc-Meldungen, in: Finanzmarkt und Portfolio Management, 1999, Bd. 13, S. 375-388. [Run10] Runkler, T. (2010): Data Mining Methoden und Algorithmen intelligenter Datenanalyse. Wiesbaden : Vieweg+Teubner. [SH08] Scheufele, B.; Haas, A. (2008): Medien und Aktien: Theoretische und empirische Modellierung der Rolle der Berichterstattung für das Börsengeschehen. Wiesbaden: VS Verlag für Sozialwissenschaften. [SSW03a] Schulz, A.; Spiliopoulou, M.; Winkler, K. (2003): Kursrelevanzprognose von Ad-hoc-Meldungen: Text Mining wider die Informationsüberlastung im Mobile Banking, verfügbar unter: http://wwwiti.cs.unimagdeburg.de/~graubitz/diasdem/papers/WI2003_SchulzSpiliopoulouWin kler_Druckversion15Mai2003.pdf (Download am 19.2.2015). [Seb02] Sebastiani, F. (2002): Machine Learning in Automated Text Categorization, in: ACM Computing Surveys, 2002, Bd. 34 (1), S. 1-47. – 61 – [Swa87] Swanson, D. (1987): Two medical literatures that are logically but not bibliographically connected, in: JASIS, 1987, Bd. 38 (4), S. 228-233. [TIT11] Ting, S.; Ip, W.; Tsang, A. (2011): Is Naive Bayes a Good Classifier for Document Classification?, verfügbar unter: http://www.sersc.org/journals/IJSEIA/vol5_no3_2011/4.pdf (Download am 18.3.2015) [WIZ12] Weiss, S.; Indurkhya, N.; Zhang, T. (2012): Fundamentals of Predictive Text Mining. London: Springer-Verlag London. [WSK12] Westa, M.; Szymański, J.; Krawczyk, H. (2012): Text Classifiers for Automatic Articles Categorization; verfügbar unter: http://julian.eti.pg.gda.pl/publikacje/evalRep.pdf (Download am 1.5.2015). [WCL98] Wuthrich, B.; Cho, V.; Leung, S.; Permunetilleke, D.; Sankaran, K.; Zhang, J.; Lam, W. (1998): Daily Stock Market Forecast from Textual Web Data; verfügbar unter: http://www.cwu.edu/~borisk/finance/smc98.pdf (Download am 10.7.2015). [YAH] Yahoo Deutschland: Bereinigter Schlusskurs; verfügbar unter: https://de.hilfe.yahoo.com/kb/finance/Historische-Kursesln2311.html?impressions=true (letzter Zugriff 19.06.2015). [Yan99] Yang, Y. (1999): An evaluation of statistical approaches to text categorization; verfügbar unter: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.462.3178&rep=r ep1&type=pdf (Download am 22.4.2015). – 62 – Ehrenwörtliche Erklärung Ich erkläre hiermit ehrenwörtlich, dass ich die vorliegende Arbeit selbstständig angefertigt habe. Die aus fremden Quellen direkt oder indirekt übernommenen Gedanken sind als solche kenntlich gemacht. Es wurden keine anderen als die angegebenen Stellen und Hinweise verwandt. Alle Quellen, die dem World Wide Web entnommen oder in einer sonstigen digitalen Form verwendet wurden, ohne allgemein zugänglich zu sein, sind der Arbeit als elektronische Kopie beigefügt. Der Durchführung einer elektronischen Plagiatsprüfung stimme ich hiermit zu. Die eingereichte Datei entspricht der eingereichten Druckfassung. Die vorliegende Arbeit wurde bisher keiner anderen Prüfungsbehörde vorgelegt und auch noch nicht veröffentlicht. Maitenbeth, den ___________ _______________________ Unterschrift - –I–