Identifikation potentieller Falschdarstellungen von

Werbung
Fachhochschule
Nordwestschweiz
Identifikation potentieller Falschdarstellungen
von Jahresrechnungen mittels Data Mining
Bachelorarbeit
Autor
Eingereicht bei
Auftraggeber
Datum
Fabian Vontavon
Prof. Andreas Reber
PricewaterhouseCoopers AG
03. September 2009
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
Kontakt
Auftraggeberschaft:
PwC
Cristian Manganiello
PricewaterhouseCoopers AG
Wirtschaftsprüfung
Systems and Process Assurance
St. Jakobs-Strasse 25
4002 Basel
Telefon
E-Mail
Web
+41 58 792 56 68
[email protected]
www.pwc.ch
Betreuender Dozent
Fachhochschule
Nordwestschweiz
Prof. Andreas Reber, lic. phil. nat.
Fachhochschule Nordwestschweiz
Hochschule für Wirtschaft
Riggenbachstrasse 16
4600 Olten
Telefon
E-Mail
Web
+41 62 286 01 93
[email protected]
www.fhnw.ch
Author
Fabian Vontavon
Sonnmatt 4
5070 Frick
Telefon
E-Mail
+41 79 830 03 30
[email protected]
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
Inhalt
1 EINLEITUNG ......................................................................................................................................... 1
1.1
Ziel dieser Arbeit..........................................................................................................................................2
1.2
Vorgehensweise ..........................................................................................................................................2
1.3
Abgrenzung ................................................................................................................................................22
Geschäftsverständnis ....................................................................................................................... 3
2.1
PricewaterhouseCoopers ............................................................................................................................3
2.2
Bekämpfung der Wirtschaftskriminalität ....................................................................................................3
2.2.1 Top Ten der wirtschaftlichen Betrugsfälle ..............................................................................................3
2.2.2 Der Fraud-Triangle Ansatz .......................................................................................................................4
2.3
Datenanalysen zur Minimierung des Audit-Risikos ...................................................................................53
Datenverständnis ............................................................................................................................. 6
3.1
Relevanz.......................................................................................................................................................6
3.2
Datenquantität ............................................................................................................................................6
3.3
Attribute ....................................................................................................................................................84
Datenaufbereitung ........................................................................................................................... 9
4.1
Datenqualität ...............................................................................................................................................9
4.2
Vertraulichkeit .............................................................................................................................................9
4.3
Datenbereinigung ........................................................................................................................................9
4.3.1 Fehlende Werte .....................................................................................................................................10
4.3.2 Einheitliches Datenformat .....................................................................................................................10
4.3.3 Konvertierung nominaler Attribute .......................................................................................................10
4.3.4 Diskretisierung numerischer Attribute ..................................................................................................12
4.3.5 Datenvalidierung ...................................................................................................................................14
4.4
Aufwand ..................................................................................................................................................145
Modellierung ................................................................................................................................. 15
5.1
Data Mining im Vergleich mit Abfrage- und Berichtswerkzeugen ............................................................15
5.2
Data Mining Grundlagen ...........................................................................................................................15
5.3
Klassifikation ..............................................................................................................................................17
5.3.1 Trainingsphase .......................................................................................................................................17
5.3.2 Anwendungsphase ................................................................................................................................18
5.3.3 Klassifikationsmethoden .......................................................................................................................18
5.3.4 K-Nearest Neighbor ............................................................................................................................... 18
5.3.5 Vorhersagekriterien............................................................................................................................... 20
5.3.6 Praxistest ...............................................................................................................................................20
5.3.7 Anwendbarkeit der Klassifikation..........................................................................................................23
5.4
Assoziation.................................................................................................................................................24
5.4.1 Anwendbarkeit der Assoziation.............................................................................................................25
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
5.5
Clusteranalyse (Segmentierung)................................................................................................................26
5.5.1 Unterschied Klassifizierung und Clusteranalyse ....................................................................................26
5.5.2 Clusterarten ...........................................................................................................................................27
5.5.3 Methoden ..............................................................................................................................................27
5.5.4 Unterschiedliche Untersuchungsbereiche ............................................................................................28
5.5.5 Algorithmen ...........................................................................................................................................30
5.5.6 Praxistest ...............................................................................................................................................31
5.5.7 Anwendbarkeit der Clusteranalyse .......................................................................................................35
6 EXTERNE ERGEBNISSE ........................................................................................................................ 36
6.1
FRAT44 .......................................................................................................................................................36
6.2
Benfordsches Gesetz ................................................................................................................................. 38
6.3
Global Economic Crime Survey 2007 .........................................................................................................39
7 RESULTAT .......................................................................................................................................... 40
8 LITERATUR- UND QUELLENVERZEICHNIS ............................................................................................. 41
9 ABBILDUNGSVERZEICHNIS ................................................................................................................. 42
10 TABELLENVERZEICHNIS ...................................................................................................................... 43
11 AUTHENTIZITÄTSERKLÄRUNG ............................................................................................................ 44
12 ANHANG ........................................................................................................................................... 45
12.1 SAS99: Fraud Risk Factors: Misstatements Arising from Fraudulent Financial Reporting ........................45
12.2 SAS99: Fraud Risk Factors: Misstatements Arising from Misappropriation of Assets ..............................46
12.3 FRAT44: Die 44 wichtigsten Indikatoren ...................................................................................................47
12.4 FRAT44: Die 44 wichtigsten Fragen ...........................................................................................................48
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
Management Summary
Die Wirtschaftsprüfung von PricewaterhouseCoopers muss nach dem International Standart on Auditing
angemessene Prüfungsaktivitäten zur Erkennung von Fehlern oder betrügerischen Aktivitäten durchführen.
Dies beinhaltet unter anderem auch die Prüfung von Journaleinträgen.
Zur Zeit wird dies mittels Datenanalysen sichergestellt, welche auf vorgängigen Annahmen beruhen wie die
Täter vorgehen. Um jedoch ebenfalls betrügerische Aktivitäten zu erkennen, welche unbekannte Indikatoren
enthalten, wurde in einem Zeitraum von zwei Monaten untersucht, ob diese Muster mittels Data Mining
erkannt werden können. Als Data Mining wird eine Datenanalyseform bezeichnet, welche es ermöglicht
Muster, Strukturen oder Abweichungen in sehr grossen Datenvorkommen zu erkennen. Zielsetzung war
ebenfalls, dass die Data Mining Methoden mit einem vergleichbaren Aufwand, wie die bestehenden
Datenanalysen, durchführbar sind.
Die Untersuchung der Data Mining Ansätze wurde in Anlehnung an eine industrie- und werkzeugneutrale
Vorgehensweise (CRISP-DM), welche aus sechs Phasen besteht, durchgeführt.
In der ersten Phase wurde die Notwendigkeit der Analysen auf Buchungsebene und die Anforderungen an die
Data Mining Verfahren eruiert. Als wichtigste Anforderung stellte sich heraus, dass eine Erkennung von
betrügerischen Aktivitäten, ohne jegliche Vorahnung wie diese durchgeführt wurde, ermöglicht werden muss.
In der zweiten und dritten Phase wurden die vorliegenden Daten von PricewaterhouseCoopers plausibilisiert,
das Datenvolumen abgeschätzt und der Aufwand für die Datenaufbereitung untersucht. Nach einer
Berechnung betrug das Datenvolumen, welches für die Analysen als relevant betrachtet werden muss, 1.1 TiB
für das Geschäftsjahr 08/09. Dies entspricht über zwei Milliarden Transaktionen, welche bei
Unternehmensübergreifenden Analysen durch die Data Mining Verfahren verarbeitet werden müssen.
Die vierte und fünfte Phase bestand aus einer Untersuchung von verschiedenen Data Mining Methoden. Diese
wurden zuerst auf einer theoretischen Basis untersucht und danach mit anonymisierten Kundendaten in
einem Data Mining Werkzeug durchgeführt. Dabei stellte sich besonders die Methode der Clusteranalyse und
ein Verfahren mit dem Namen DBSCAN als interessant heraus. Die Kernproblematik stellten jedoch die
benötigten IT-Ressourcen dar, welche bereits für weniger als eine halbe Million Datensätze benötigt wurden.
Nicht durchgeführt wurde die sechste Phase der CRIP-DM Vorgehensweise. Dies hätte einer produktiven
Umsetzung entsprochen. Jedoch wurde, um einen Kontrast zu den eigenen Untersuchungen zu erhalten, die
externen Studien FRAT44 und die des PricewaterhouseCoopers Global Crime Survey hinzugezogen.
Als abschliessendes Resultat der Arbeit stellte sich heraus, dass der Einsatz von Data Mining Verfahren unter
isolierter Betrachtung von finanziellen Transaktionen zwar zusätzlichen Komfort für die Aufdeckung von Betrug
darstellen könnte, falls die Täter nicht in der Lage sind finanzielle Transaktionen zu verschleiern, jedoch im
Gesamtzusammenhang keinen ultimativen Mehrwert neben den bereits durchgeführten Datenanalysen
darstellen. Ebenfalls ergab sich aufgrund der benötigten IT-Rechenleistung die Erkenntnis, dass im Vergleich zu
den bestehenden Datenanalysen, die Data Mining Verfahren wirtschaftlich nicht durchführbar sind.
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
1
Einleitung
Wirtschaftliche Kriminalität ist eines der grössten Probleme welchem sich Unternehmen, aus allen
Branchen, aus allen Ländern und allen unterschiedlichen Unternehmensgrössen stellen müssen. In einer
der weltweit grössten, durch PricewaterhouseCoopers im Jahr 2007 durchgeführten Studien, stellte sich
heraus, dass von 5‘428 Unternehmen aus 40 unterschiedlichen Staaten, über 43 Prozent dieser
Unternehmen mindestens einen Fall von wirtschaftlich kriminellen Aktivitäten meldeten. Im Vergleich zu
der im Jahr 2005 durchgeführten Studie, entspricht dies einer Verringerung von zwei Prozent.
Berücksichtigt man ebenfalls die hohen Investitionen der Unternehmen in Massnahmen gegen Betrug z.B.
die Implementation von Kontrollsystemen, wäre hier eher ein massiver Rückgang der Betrugsfälle zu
erwarten gewesen. Eine Erklärung für dieses Phänomen ist laut der Studie, die in den letzen Jahren
gestiegene Unternehmenstransparenz, die Bereitschaft der Unternehmen Betrug zuzugestehen und
letztendlich auch der Umstand, dass durch die Implementation der Kontrollsysteme, Betrugsfälle, welche
vorher nicht identifiziert werden konnten, aufgedeckt wurden. Trotz dieses Umstandes sind sich Experten
jedoch sicher, dass während der globalen Wirtschaftskrise, die Anzahl der Betrugsfälle noch weiter
ansteigen wird. (Vgl. PricewaterhouseCoopers LLP, Investigations and Forensic Services 2007, Nestler u.a.,
S. 4-6)
Eine grosse Verantwortung kommt der Wirtschaftsprüfung zu, welche nach den Vorgaben des
International Standards on Auditing angemessene Prüfungsaktivitäten zur Identifizierung von
Falschdarstellungen innerhalb von Jahresrechnung durchführen muss. Betrugsfälle umfassen unter
anderem auch die Manipulation, beziehungsweise Falscherfassung von Buchungstransaktionen in der
Finanzbuchhaltung. Es ist nicht unüblich, dass während eines Geschäftsjahres in einem Unternehmen
mehrere Millionen dieser Transaktionen in IT Systemen verarbeitet werden. Der Wirtschaftsprüfung steht
somit eine Datenflut entgegen, aus der nur sehr schwer erkennbar ist, ob sich darin manipulierte
Transaktionen enthalten.
Solche unüberschaubare Datenmengen treten jedoch auch in anderen Branchen auf. Als Beispiel kann
hier die so genannte Warenkorbanalyse bei einem Lebensmittelgrosshändler genannt werden. Bei der
Warenkorbanalyse geht es darum, Abhängigkeiten zwischen Produkten und Verbrauchergruppen
aufzudecken, um somit einen wirtschaftlichen Vorteil erzielen zu können. Nebst den herkömmlichen
Einkaufstransaktionen behelfen sich die Grosshändler zusätzlich mit Kundentreuesystemen, welche als
positiven Effekt zusätzliche Daten über die Kunden sammeln z.B. ob es sich um einen Mann, eine Frau
oder eine Familie handelt. Es kann also untersucht werden, welche Produkte zusammen, von welchen
Kundengruppen gekauft werden. Durch eine zusätzliche Charakterisierung dieser Gruppen kann z.B. ein
optimales Einkaufscenterlayout entworfen werden. Wenn also im einfachen Beispielsfall bekannt ist, dass
Männer im Alter zwischen 20-30 Jahren oft Bier zusammen mit Salzstangen kaufen und bekannt ist, dass
diese Zielgruppe nur wenig Zeit zum Einkaufen aufwendet, dann müssten diese zwei Produkte nahe
zusammen und auf direktem Weg vom Eingang zur Kasse erreichbar sein, um eine maximale Anzahl an
Verkäufen aus dieser Kundengruppe zu ermöglichen. Es existieren also Beispiele, wie aus enormen
Datenmengen Wissen gewonnen werden kann und genau hier stellt sich dann die Frage, wie man auch
aus Transaktionen der Rechnungslegung Muster, welche auf wirtschaftlicher Kriminalität hindeuten,
erkennen kann.
Seite | 1
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
1.1
Ziel dieser Arbeit
Ziel dieser Arbeit ist es, für die Wirtschaftsprüfung von PricewaterhouseCoopers, Ansätze zu finden, wie
mittels Data Mining Methoden, potentielle Falschdarstellungen in Jahresrechnungen aufgrund von
Mustern in Buchhaltungstransaktionen, effizient und präzise identifiziert werden können.
Die Ansätze sollen den eingeschränkten Informationsgehalt von Buchungsinformationen
(ausgehend von SAP Finance Standardinformationen) berücksichtigen.
Der nötigen Effizienz von ca. 1-2 Tagen pro Analyse pro Kunde Rechnung getragen werden.
Die Möglichkeiten der Kombinatorik zwischen den bestehenden ISA240 Datenanalysen von
Pricewaterhousecoopers und den erarbeiteten Data Mining Ansätzen soll untersucht werden.
Die Ansätze sollen aufgrund des Standards ISA240 erarbeitet werden.
1.2
Vorgehensweise
Die Untersuchung der Aufgabenstellung wird in Anlehnung an den Cross-Industry Standard Process for
Data- Mining 1.0 (CRISP-DM) durchgeführt. CRISP-DM ist ein Industrie- und Werkzeugneutrales Data
Mining Modell, welches von den europäischen Unternehmen Daimler AG, SPSS, Teradata und Ohra
entwickelt wurde. Das CRISP-DM Model besteht aus sechs Phasen, welche zum Teil mehrmals
wiederholt werden. (Vgl. SPSS, Chapman u.a. 2000)
Abbildung 1. CRISP-DM Model
1.3
Abgrenzung
Eine produktive Umsetzung der Data Mining Methoden oder eine entsprechende Werkzeugevaluation
wird nicht durchgeführt, da dies den für diese Arbeit zur Verfügung stehenden Umfang sprengen würde.
Seite | 2
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
2
Geschäftsverständnis
2.1
PricewaterhouseCoopers
PricewaterhouseCoopers (PwC) ist eine der weltweit grössten professionellen Dienstleistungsfirmen.
Das Unternehmen beschäftigte im Geschäftsjahr 2008/2009 mehr als 155'000 Mitarbeitende in 150
Ländern. PwC bietet börsenkotierten Unternehmen und Privatgesellschaften ein umfassendes Angebot
von Prüfungs- und Beratungsdienstleistungen für internationale und lokal führende Unternehmen,
sowie für den öffentlichen Sektor an. Das Dienstleistungsangebot umfasst: Steuer- und Rechtsberatung,
Wirtschaftsprüfung und Wirtschaftsberatung.
2.2
Bekämpfung der Wirtschaftskriminalität
Die Wirtschaftsprüfung muss nach den Vorgaben des International Standards on Auditing angemessene
Prüfungsaktivitäten zur Identifizierung von Unregelmässigkeiten innerhalb von Jahresrechnungen
durchführen. Als Unregelmässigkeit versteht man entweder unbeabsichtigte Fehler z.B. durch
Rechenfehler oder beabsichtigte Verstösse. Die Wirtschaftsprüfung ist jedoch nicht für die Aufdeckung
von Unregelmässigkeiten verantwortlich, welche keinen wesentlichen Einfluss auf die gesamte
Jahresrechnung darstellen. (Vgl. IAASB ISA240 2007, S. 217-220)
Aufgrund von natürlichen Limitationen kann eine Prüfung der Jahresrechnung keine absolute Sicherheit
darüber geben, dass alle wesentlichen Unregelmässigkeiten aufgedeckt wurden. Als natürliche
Limitation zählt unter anderem auch die Limitation des internen Kontrollsystems z.B. die Möglichkeit
des Managements oder der Geschäftsleitung Kontrollen zu umgehen oder auch das Umgehen von
Kontrollen aufgrund von betrügerischen Absprachen. Das Risiko, welches sich aufgrund natürlicher
Limitationen ergibt wird auch als Audit Risiko bezeichnet. Eine annehmbare Sicherheit, dass wesentliche
Unregelmässigkeiten in der Jahresrechnung aufgedeckt wurden, ist dann erreicht, wenn das Audit Risiko
auf ein Minimum reduziert wurde. (Vgl. IAASB ISA240 2007, S. 217-218)
Bei Unregelmässigkeiten in der Jahresrechnung aufgrund von Fraud können Manipulationen in der
Rechnungslegung mitinvolviert sein z.B. das unauthorisierte Aufzeichnen von Journaleinträgen am
Jahres- oder Periodenende oder Anpassungen an Beträgen in der Jahresrechnung ohne gültigen
Nachweis in den Journaleinträgen. Daher stellt die Prüfung der Angemessenheit der Journaleinträge des
Hauptbuches einen Teil zur Reduktion des Audit Risikos dar. (Vgl. IAASB ISA240 2007, S. 289-290)
2.2.1
Top Ten der wirtschaftlichen Betrugsfälle
1
2
3
4
5
6
7
8
9
10
Bribery & Corruption
Revenue Leakage
Supply Chain Losses
Third Party Fraud
Cyber Crime & Data Theft
Rogue Traders
Fraudulent Borrowing
Cartel Fraud
Money Laundring
Misrepresentation of Financial and
Non-Financial Data
Tabelle 1. Fraud Top Ten
Bestechung und Korruption
Unterbewertung des Gewinnes
Verluste in der Beschaffungskette
Fraud von Dritten
Internetkriminalität und Datendiebstahl
Schurkenhändler
Betrügerische Finanzmittelbeschaffung
Kartellbetrug
Geldwäscherei
Falschdarstellung von finanziellen und nicht-finanziellen
Daten
Seite | 3
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
2.2.2
Der Fraud-Triangle Ansatz
Der Fraud-Triangle Ansatz, welcher von Dr. D. Cressey entwickelt wurde, beschreibt drei Konditionen
welche häufig gleichzeitig in wirtschaftlichen Betrugsfällen auftreten. Die erste Kondition ist die, die
Möglichkeit Fraud zu begehen. Dies kann entweder durch Kontrolllücken oder die Abwesenheit von
Kontrollen der Fall sein, wobei im letzteren Fall zu Zeiten der globalen Wirtschaftskrise und den damit
verbunden Personalabbau eine besondere Bedeutung zukommt. (Vgl. PricewaterhouseCoopers LLP,
Forensic Services, Tracey u.a. 2009, S. 5-6)
Die zweite Kondition ist die, ein Motiv aufgrund eines persönlichen Nutzens oder durch auferlegten
Druck zu haben. Oft wird hier von einem persönlichen finanziellen Nutzen ausgegangen. Die Realität
ist jedoch einiges komplexer und nebst dem persönlichen, finanziellen Nutzen findet sich als Motiv
häufig auch der Druck nach Anerkennung innerhalb der Organisation. (Vgl. PricewaterhouseCoopers
LLP, Forensic Services, Tracey u.a 2009, S. 6)
Die dritte Kondition ist die der Rationalisierung. Der Täter muss die betrügerischen Handlungen
entweder kulturell oder charakterlich rechtfertigen können. „Es gibt Individuen, die charakterlich eher
bereit sind, wissentlich und gewollt betrügerische Handlungen zu begehen. Aber auch ehrliche
Menschen werden unter starken Druck in die Lage versetzt, betrügerisches Handeln zu akzeptieren.“
(Knabe u.a. 2004, S. 1058)
Ein Rationalisierungsgedanke eines Täters könnte beispielsweise so aussehen: „Wenn die Manager der
Grossbanken während der Wirtschaftskrise weiterhin ihre Millionen an Bonus erhalten, dann kann ich
wohl auch ein wenig profitieren.“ (Vgl. PricewaterhouseCoopers LLP, Forensic Services, Tracey u.a
2009, S. 6)
Fraud
Abbildung 2. Konditionen für Fraud
„Gemäss dem Modell des Fraud Triangel ist das Fraud-Risiko gering, wenn einer der oben genannten
drei Faktoren nicht gegeben ist. Wenn z.B. die Wahrscheinlichkeit der Existenz von Möglichkeiten für
Fraud gering ist, dann ist auch das Fraud-Risiko insgesamt gering.“ (Knabe u.a. 2004, S. 1059)
Seite | 4
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
2.3
Datenanalysen zur Minimierung des Audit-Risikos
Je nach Beurteilung des Fraud-Risikos durch die Wirtschaftsprüfung und unter Berücksichtigung der
International Standards on Auditing, führen spezialisierte Teams bei PricewaterhouseCoopers mehr
oder weniger umfangreiche Finanzdatenanalysen durch. Diese Analysen beruhen auf vorgängigen
Annahmen, wie Betrugsfälle auf Transaktionsebene durchgeführt werden könnten. Mit dieser
Vorgehensweise wurde ein effizienter Ansatz für die breite und komplexe Kundenlandschaft von
PricewaterhouseCoopers gefunden.
Analyse
Beschreibung
User Analysis
Summe der Buchungsbeträge pro Person
Post-Close Entires
Buchungen nach Periodenabschluss
Unusual Times
Buchungen weit ausserhalb der üblichen Geschäftszeiten
ID Dup / Gap Analysis
Buchungssequenzen mit fehlenden Identifikationsnummern
Stratification Analytics Stratifizierung der Buchungsbeträge
Tabelle 2. Beispiel einiger bei PricewaterhouseCoopers durchgeführten Datenanalysen
Die Resultate dieser Datenanalysen werden durch die Wirtschaftsprüfung in einen Kontext zu den
regulären Prüfungshandlungen gebracht, um gegebenenfalls betrügerische Aktivitäten zu erkennen.
Während ein Teil dieser Ergebnisse eindeutige Beurteilungen ohne Rückschlüsse zulassen, können die
Resultate anderer Analysen z.B. Buchungen nach Periodenabschluss, in der Anzahl sehr umfangreich
sein und müssen nochmals eingegrenzt werden, damit sie im Rahmen der Jahresabschlussprüfung in
praktikabler Zeit durchführbar sind. Solche Eingrenzungen enthalten beispielsweise nur eine Auflistung
der 50 Buchungen nach Periodenabschluss, welche den höchsten Buchungswert aufweisen. Dadurch
könnten Transaktionen, welche Fraud-Charakteristiken aufweisen, nicht in die zu untersuchende Menge
miteinbezogen werden z.B. viele Transaktionen mit kleinen Buchungswerten. Da jedoch pro Datenanalysenprojekt immer mehrere Auswertungen durchgeführt werden, welche sich im Kontext für die
Wirtschaftsprüfung ergänzen, ist dieses Risiko als eher gering einzuschätzen. Zusätzlich muss ebenfalls
berücksichtigt werden, dass durch die im Beispielsfall erwähnten 50 wertmässig höchsten Buchungen,
auch die Buchungen, welche die grössten finanziellen Auswirkungen in der Jahresrechnung darstellen
würden, abgedeckt sind. In diesem Zusammenhang und wie in Kapitel 3.2 erwähnt, müssen nur
Unregelmässigkeiten durch die Wirtschaftsprüfung aufgedeckt werden, welche einen wesentlichen
Einfluss auf die Jahresrechnung haben. Das Ausmass dieser Wesentlichkeit wird durch die
Wirtschaftsprüfung kundenspezifisch bestimmt und kann Werte von wenigen Tausend bis mehreren
Millionen Franken aufweisen. Bestehen Differenzen, welche diese Wesentlichkeit überschreiten, so ist
die Jahresrechnung abzulehnen.
Im Gegensatz zum nicht Berücksichtigen von Transaktionen mit eher tiefem Buchwert, gehen die für die
Datenanalysen spezialisierten Teams von PricewaterhouseCoopers von einem weitaus höheren Risiko
aus, welches durch die Nicht-Erkennung von manipulierten Buchungen aufgrund unbekannten
betrügerischen Indikatoren oder Mustern besteht. Daher sollen durch diese Arbeit insbesondere
Ansätze für Erkennungsmethoden berücksichtigt werden, welche nicht auf vorgängige Annahmen
basieren.
Seite | 5
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
3
3.1
Datenverständnis
Relevanz
Die meisten Kunden von PricewaterhouseCoopers setzen SAP Finance für die Buchführung ein. Pro
Kunde, bei welchem bereits eine Datenanalyse durchgeführt wurde, besteht eine Datensammlung mit
jeweils allen Transaktionen eines Geschäftsjahres (teilweise auch nur von einzelnen Buchungsperioden).
Relevant sind jedoch nur manuell erfasste Transaktionen, welche zur Beurteilung der zu prüfenden
Jahresabschlussrechnung dienen. Als manuelle Transaktionen gelten durch einen Anwender direkt im
System eingebuchte Belege, automatische Transaktionen hingegen werden durch das System selbst
erstellt z.B. von Vorsystemen.
Transaktionen
Automatisch
Manuell
(relevant)
Abbildung 3. Datensammlung pro Kunde / Geschäftsjahr
3.2
Datenquantität
Nach Angaben des Datenanalysespezialisten Jay McKey wurden im Geschäftsjahr 2008/2009 in der
Schweiz 355 Datenanalysen von PricewaterhouseCoopers durchgeführt. Aufgrund der Entwicklung in
den letzten drei Jahren, ist davon auszugehen, dass die Anzahl der Datenanalysen und insbesondere das
Datenvolumen in Zukunft weiter steigen wird. (Vgl. PricewaterhouseCoopers LLP, Systems and Process
Assurance, McKey 2009)
Zur Bestimmung der vorliegenden Datenquantität ist Folgendes zu berücksichtigen:
In den Datensammlungen befindet sich ein hoher Anteil nicht relevanter Daten.
Die Datensammlungen weisen unterschiedlich viele Attribute auf.
Für die Umwandlungen der Datenformate wurden jeweils neue Attribute generiert.
Der Komprimierungsgrad der abgespeicherten Datensammlungen ist unterschiedlich.
Der Speicherort der Datensammlungen ist dezentral.
Eine exakte Bestimmung des relevanten Datenvolumens kann aufgrund dieser Aspekte nur mit einem
sehr hohen Aufwand durchgeführt werden, welcher nicht in den durchführbaren Zeitrahmen dieser
Arbeit passt. Um jedoch trotzdem ein Bild über die vorliegende relevante Datenmenge zu erhalten, wird
versucht, anhand einiger Annahmen und durchschnittlichen Werten aus Stichproben, die Quantität zu
bestimmen.
Seite | 6
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
Zur Berechnung des Datenvolumens des Geschäftsjahres 08/09 werden folgende Werte verwendet:
33.5 GiB komprimiertes Datenvolumen von 69 Datenanalysen der Geschäftsstelle Basel (Juli 09).
91.4% Komprimierungsgrad der Daten (Durchschnitt von 10 Datensammlungen).
50% des Datenvolumens besteht aus Duplikaten, welche sich aufgrund der im Analysevorgehen
generierten zusätzlichen Tabellen mit manuellen und automatischen Transaktionen ergeben.
5% des Datenvolumens besteht aus in den Analysen generierten Resultattabellen (Schätzwert).
1.74 KiB werden für das Abspeichern eines Datensatzes mit 22 Attributen benötigt (Durchschnitt
von 10 Datensammlungen).
Ableitung zur Bestimmung des relevanten Datenvolumens:
33.5 ‫ ∙ ܤ݅ܩ‬0.55 ∙ 355
= 1102.3 ‫ܤ݅ܩ‬
0.086 ∙ 69
Ableitung zur Bestimmung der relevanten Transaktionsmenge:
1102.3 ‫ ∙ ܤ݅ܩ‬1024 ∙ 1024 ∙ 1.74 ‫ = ܤ݅ܭ‬2,011 ‫݀ݎܯ‬.
Das bei PricewaterhouseCoopers in der Schweiz relevante Datenvolumen für das Geschäftsjahr 08/09
könnte sich anhand dieser groben Berechnung auf 1.1 TiB oder 2 Milliarden Transaktionen belaufen.
Dies ergibt ein durchschnittliches, relevantes Datenvolumen von 3.1 GiB oder 5.66 Millionen
Transaktionen pro Kunde. Diese Erkenntnis ist wichtig für eine spätere Abschätzung der benötigten IT
Ressourcen und die damit verbundene Wirtschaftlichkeit, welche für die Verarbeitung dieser
Datenmenge zur Verfügung stehen muss.
Zur Abschätzung von zukünftigen Datenmengen kann unter der Annahme, dass sich die Anzahl der
Transaktionen pro Kunde aufgrund der Wirtschaftskrise nicht rapide erhöht, bei gleichzeitiger Zunahme
der Datenanalysenprojekte (40% Jahr 09/10, 20% Jahr 10/11) aufgrund des erhöhten Fraud-Risikos, von
folgenden Volumen ausgegangen werden:
Geschäftsjahr
Anzahl Datenanalysen
06/07
53
07/08
134
08/09
355
09/10
497
10/11
596
Total
1635
Tabelle 3: Entwicklung des Datenvolumens
Volumen (TiB)
0.165
0.416
1.102
1.543
1.851
5.077
Datensätze (Mrd.)
0.300
0.759
2.011
2.815
3.376
9.261
Seite | 7
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
3.3
Attribute
Um die Möglichkeit offen zu behalten, zu einem späteren Zeitpunkt auch Daten von anderen
Buchführungssystemen ausser SAP zu berücksichtigen, müssen in einem ersten Schritt SAP spezifische
Attribute eliminiert werden. In einem zweiten Schritt muss geprüft werden, ob die Daten aufgrund von
unterschiedlichen Systemen zur Informationsgewinnung überhaupt verwendbar sind. Schlussendlich
muss unterschieden werden können, welche Attribute für die Einbeziehung in die Data Mining Modelle
verwendet werden und welche nur der Datenvorbereitung dienen.
Die Datengesamtheit für die Data Mining Methoden besteht also aus Attributen, welche:
- Eine breite und sinnvolle Abdeckung in allen Buchführungssystemen aufweisen
- Keine systembedingten Daten aufweisen
- Nicht der Datenvorbereitung dienen
Nr SAP Feldname
Bedeutung
1 BUKRS
Buchungskreis
2 BELNR
Belegnummer
3 GJAHR
Geschäftsjahr
4 BLART
Belegart
5 BUDAT
Buchungsdatum
6 MONAT
Periode
7 CPUDT
Erfassungsdatum
8 CPUTM
Erfassungszeit
9 USNAM
Benutzername
10 TCODE
Transaktionsnummer
11 WAERS
Währung
12 BKTXT
Buchungskopftext
13 BSTAT
Belegstatus
14 GRPID
Name des Batchinputs
15 BUZEI
Buchungszeile
16 BSCHL
Buchungsschlüssel
17 SHKZG
Soll / Haben Zuweisung
18 WRBTR
Betrag
19 PSWBT
Hauptbuchbetrag
20 HKONT
Hauptbuchkonto
20 HKONT
Hauptbuchkonto
21 DMBTR
Lokaler Betrag
22 SGTXT
Buchungszeilentext
Tabelle 4. Relevante Attribute
SAP spezifisch
SystemDatenAttribute
Daten
vorbereitung
Nein
Ja
Nein
Nein
Ja
Ja
Nein
Nein
Ja
Ja
Ja
Ja
Nein
Nein
Nein
Nein
Nein
Nein
Nein
Nein
Nein
Nein
Nein
Nein
Nein
Nein
Nein
Nein
Ja
Nein
Ja
Nein
Nein
Ja
Ja
Nein
Ja
Ja
Nein
Nein
Ja
Nein
Ja
Ja
Nein
Ja
Ja
Nein
Nein
Nein
Nein
Nein
Nein
Nein
Ja
Ja
Nein
Nein
Ja
Ja
Nein
Ja
Ja
Ja
Ja
Nein
Nein
Ja
Nein
Für die zu untersuchenden Data Mining Methoden kommen sieben Attribute in Frage (in Tabelle 4, grün
markiert). Zusätzlich werden zur Datenvorbereitung (in Tabelle 4, blau markiert) fünf Attribute benötigt.
Im Fall von SAP sind dies, das Attribut GJAHR für die Selektion des zu untersuchenden Geschäftsjahres,
BLART für Identifikation von manuellen Buchungseinträgen sowie BELNR, BUZEI und HKONT zur
Überprüfung der Datenvollständigkeit.
Seite | 8
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
4
Datenaufbereitung
Es kann davon ausgegangen werden, dass 70% - 80% des Aufwandes, welcher für die Durchführung einer
Data Mining Methode benötigt wird, in der Datenaufbereitung anfällt. (Vgl. Reber 2009, Kapitel 12, S. 2)
4.1
Datenqualität
Die Datenqualität hat einen enormen Einfluss auf die Durchführbarkeit der Analysen, den Aufwand für
die Datenvorbereitung sowie schlussendlich auf die Verwendbarkeit und Genauigkeit der Ergebnisse.
PricewaterhouseCoopers wendet bei allen Datenanalysenprojekte mehrere Verfahren an, um die
Genauigkeit, Validität und Vollständigkeit der Daten sicherzustellen. Im Gegensatz zu Datenaquisitationen müssen diese Verfahren bei den vorliegenden Datenmengen nicht wiederholt werden.
Allerdings ergaben sich in einigen der Datenanalyseprojekten Differenzen in Bezug auf die
Vollständigkeit im Vergleich mit den Quellsystemen. Diese Differenzen wurden mittels Nachforschungen
dokumentiert und führten bei nicht Verwendbarkeit der Daten zu einer erneuten Anforderung der
Kundendaten oder zu einer Einschränkung der Aussagefähigkeit der Resultate. Bei einem Zusammenzug
aller Datensammlungen müsste dieser Umstand berücksichtigt werden und die Vollständigkeit und
damit Verwendbarkeit für die Data Mining Methoden, durch die erstellte Dokumentation nochmals
geprüft werden. Ein standardisiertes Verfahren für die Aufbewahrung und Dokumentation der Datensammlungen, würde diesen Aufwand bei zukünftigen Datenzusammenzügen minimieren.
4.2
Vertraulichkeit
Die Vertraulichkeit der Kundendaten muss in jedem Fall durch PricewaterhouseCoopers gewährleistet
werden. Dazu gehören auch die Daten des Rechnungswesen. Damit bei dem Datenzusammenzug keine
Rückschlüsse auf Unternehmen oder Personen durch unauthorisierte Angestellte möglich sind, müssen
Daten, welche solche Rückschlüsse zulassen würden, anonymisiert werden. Das Attribut USNAM
(Benutzername) enthält Hinweise, welche zur Identifikation einer Personen führen könnten. Aus diesem
Grund wurde im Sinne dieser Arbeit, jede Person in eine Zahl umgewandelt (Zielformat P00000 -> Erste
Person = P00001). Damit bei späteren Unternehmensübergreifenden Analysen keine Personenduplikate
auftreten, soll die Nummerierung zu jeder neuen Datensammlung fortlaufend sein. Die Diskretisierung
der Daten (siehe Kapitel 5.3.3) trägt ebenfalls einen Teil zur Datenanonymisierung bei, indem
numerische Attribute wie z.B. der genaue Buchungsbetrag nicht mehr ersichtlich sind.
4.3
Datenbereinigung
Folgende Aspekte zur Datenbeschaffung und Datenbereinigung sind zu berücksichtigen (Reber 2009,
Kapitel 12, S. 3):
Fehlende Werte
Einheitliches Datenformat
Konvertierung nominaler zu numerischen Attributen
Diskretisierung numerischer Attribute
Datenvalidierung
Seite | 9
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
4.3.1
Fehlende Werte
Fehlende Werte, wie z.B. der Betrag CHF 0.00 (kein Einfluss auf Jahresrechnung) oder ein fehlendes
Buchungsdatum in einer Transaktion sollten bei den vorliegenden, relevanten Daten aufgrund der
Tatsache, dass Buchführungssysteme über Eingabekontrollen verfügen, nicht vorkommen. Datensätze
mit fehlenden Werten sind Untersuchungsgegenstand der bereits von PricewaterhouseCoopers
durchgeführten Datenanalysen und sollen für die Data Mining Methoden nicht berücksichtigt werden.
4.3.2
Einheitliches Datenformat
Bei den meisten vorliegenden Datensammlungen existiert kein einheitliches Datenformat. Um Data
Mining Methoden unter Berücksichtigung von mehreren Datensammlungen überhaupt durchführen zu
können, müssen alle Daten in ein vordefiniertes Format gebracht werden. Zusätzlich muss
sichergestellt werden, dass bei neuen Datenanalyseprojekten ein einheitliches Datenformat
eingehalten wird, damit der Aufwand für zukünftige Datenzusammenzüge mit weniger Aufwand
durchgeführt werden kann. Die Möglichkeiten zur unterschiedlichen Datendarstellung sind gross,
einige Beispiele dafür sind in Tabelle 5 ersichtlich.
Attribut
Interpretation
Format 1
Datum
23. Januar 2009 23-01-2009
Zeit
19:30 Uhr
19:30
Betrag
2000 CHF
2000.00
Tabelle 5. Unterschiedliche Datenformate
Format 2
Format 3
Format 4
23012009
1930
2‘000.00
20092301
19:30:00
2.000,00
01/23/2009
193000
2‘000
Bei den vorliegenden Attributen wurden zur Untersuchung möglicher Data Mining Ansätzen folgende,
in Tabelle 6 dargestellte, Zielformate verwendet. In Anbetracht der folgenden Datenaufbereitungsschritte, soll ebenfalls der Datentyp definiert werden.
Nr SAP
Bedeutung
Feldname
1 BUDAT
Buchungsdatum
2 CPUDT
Erfassungsdatum
3 CPUTM
Erfassungszeit
4 USNAM
Benutzername
5 SHKZG
Soll / Haben Zuweisung
6 WRBTR
Betrag
7 HKONT
Hauptbuchkonto
Tabelle 6. Zielformate und Datentypen
4.3.3
Zielformat
Datentyp
TTMMJJJJ
TTMMJJJJ
HHMM
00000
0
############0.00
0
Numerisch
Numerisch
Numerisch
Nominal
Nominal
Numerisch
Nominal
Konvertierung nominaler Attribute
Zwar können einige Data Mining Methoden nominale Werte verarbeiten, um jedoch keine Einschränkungen in einer späteren technischen Untersuchung und der möglichen Methoden zu haben,
sollen alle nominalen Werte in numerische Werte konvertiert werden. Ebenfalls sollen bei
mehrwertigen nominalen Attributen, für jeden möglichen Wert ein binäres Attribut erstellt werden.
(Vgl. Reber 2009, Kapitel 12, S. 12)
Seite | 10
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
Bei dem Benutzernamen und der verbundenen Anonymisierung, kann wie in Kapitel 5.2 beschrieben,
vorgegangen werden. Für das Attribut SHKZG soll jeweils für Soll (S) der Wert 1 gelten und für Haben
(H) der Wert 0.
SAP Feldname
Bezeichnung
Wert bei “S“
SHKZG
Soll / Haben Zuweisung
Tabelle 7. Numerische Konvertierung des Attributs SHKZG
Wert bei “H“
1
0
Beim Attribut HKONT ist darauf zu achten, dass die ursprünglichen Kontennummern bereits in die
nominalen Kontengruppen, Umlaufvermögen, Anlagevermögen, Fremdkapital, Eigenkapital, Ertrag
und Aufwand aufgeteilt wurden. Diese Gruppierungen sollten bei der Durchführung der bestehenden
Datenanalyseprojekten bereits durchgeführt worden sein. Für neue Datenaquisitationen müsste die
Kontenzuteilung erneut anhand eines Kontenplans gemacht werden.
SAP Feldname
HKONT
Bezeichnung
Hauptbuchkonto
Werte (nach Kontengruppierung)
Umlaufvermögen (UV)
Anlagevermögen (AV)
Fremdkapital (FK)
Eigenkapital (EK)
Ertrag (E)
Aufwand (A)
Tabelle 8. Kontengruppen
Durch die Aufsplittung der möglichen Werte des Attributs HKONT entstehen somit sechs neue
Attribute mit binären Werten. Als Attributnamen soll jeweils der ursprüngliche Attributname
zusammen mit einer Kurzform des Wertenamens verwendet werden (HKONT + Umlaufvermögen =
HKONTUV). Im Beispiel einer Transaktion mit Einfluss auf das Eigenkapital würde der Datensatz
folgendermassen aussehen:
#
HKONTUV
HKONTAV
HKONTFK
1
0
0
Tabelle 9. Datensatz mit Eigenkapitalbuchung
0
HKONTEK
HKONTE
HKONTA
1
0
0
Die Attribute Buchungsdatum, Erfassungsdatum und Buchungszeit sind bereits numerisch vorhanden,
enthalten jedoch pro Wert mehrere Informationen (Tag, Monat, Jahr). Um die Verarbeitung in den
späteren Data Mining Methoden zu beschleunigen, sollen pro Teilwert neue Attribute erstellt werden.
Dies ergibt zusätzlich drei neue Attribute für das Buchungs- und Erfassungsdatum, sowie zwei neue
Attribute für die Erfassungszeit. Für die Namensvergebung der neuen Attribute soll der ursprüngliche
Attributsname zusammen mit der Kurzform des Teilwertes verwendet werden z.B. Erfassungsmonat =
CPUDT + M (Monat).
Seite | 11
Identifikation potentieller Falschdarstellungen von Jahresrechnungen
J
mittels Data Mining
Fabian Vontavon
Unter Berücksichtigung aller Konvertierungen ergeben sie hiermit folgende Attribute:
Nr Attribut
Bedeutung
1 BUDATT
Buchungstag
2 BUDATM
Buchungsmonat
3 BUDATJ
Buchungsjahr
4 CPUDTT
Erfassungstag
5 CPUDTM
Erfassungsmonat
6 CPUDTJ
Erfassungsjahr
7 CPUTMH
Erfassungsstunde
8 CPUTMM
Erfassungsminute
9 USNAM
Benutzername
10 SHKZG
Soll / Haben Zuweisung
11 WRBTR
Betrag
12 HKONTUV
Konto: Umlaufvermögen
13 HKONTAV
Konto: Anlagevermögen
14 HKONTFK
Konto: Fremdkapital
15 HKONTEK
Konto: Eigenkapital
16 HKONTE
Konto: Ertrag
17 HKONTA
Konto: Aufwand
Tabelle 10. Relevante Attribute nach Konvertierung
Diskretisierung numerischer Attribute
Nebst der bereits erwähnten Konvertierung der Attribute, ist es für einige Data Mining Methoden
notwendig, numerische Attribute zusätzlich zu diskretisieren. Unter der Diskretisierung versteht man
die Gewinnung einer diskreten Teilmenge aus einer kontinuierlichen Informationsmenge. Ziel der
Diskretisierung ist es diese Teilmenge in endlicher Zeit und unter Berücksichtigung von endlichen
Ressourcen
en bearbeiten zu können. Allerdings hat die Diskretisierung auch den Nachteil, dass einige
Informationen verloren gehen. (Vgl. Wikipedia 2009: Diskretisierung)
Numerische Werte können nach gleicher Breite oder gleicher Höhe diskretisiert werden.
Diskretisierung nach gleicher Breite bedeutet, dass kontinuierliche Datenmengen in Intervalle (Bins)
gleicher Breite, wie in Abbildung 4 dargestellt, eingeteilt werden. (Vgl.
Vgl. Reber 2009, Kapitel 12, S. 15)
Anzahl Journaleinträge
4.3.4
Datentyp
Numerisch
Numerisch
Numerisch
Numerisch
Numerisch
Numerisch
Numerisch
Numerisch
Numerisch
Numerisch
Numerisch
Binär
Binär
Binär
Binär
Binär
Binär
140000
120000
100000
80000
60000
40000
20000
0
0-200
200-400
400-600
600-800
800-1000
Betrag in TCHF
Abbildung 4. Diskretisierung nach gleicher Breite
Seite | 12
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
Wie im Beispiel auf Abbildung 4 zu erkennen ist, kann eine Diskretisierung nach gleicher Breite zu einer
Häufung führen, welche die Interpretation späterer Data Mining Resultate stark beeinträchtigt bis
verunmöglicht. Es ist zu erwarten, dass sich ebenfalls vergleichbare Häufungen beim Attribut Betrag,
bei den vorliegenden Daten von PricewaterhouseCoopers oder generell bei finanziellen Transaktionen,
befinden. Eine Endgültige Beurteilung ist zwar erst möglich, wenn die gesamte Datenmenge zur
Verfügung steht, jedoch wurde im Sinne dieser Arbeit eine Stichprobe von fünf Unternehmen aus
unterschiedlichen Branchen erhoben, um erste Tendenzen zu erkennen.
Folgende Parameter wurden verwendet:
Anzahl Intervalle: 21
Attribut: WRBTR (Buchungsbetrag)
Daten: Absolute Zahlen
Betragsspektrum: 0 - 10‘000‘000 CHF
Die Stichprobe der fünf Unternehmen enthielt 4.8 Millionen Transaktionen. Buchungen von 0-499‘000
CHF traten mit einer Häufung von 99.76% auf, bei den restlichen 0.24% handelt es sich um 11‘499
Transaktionen, welche über diesem Betrag liegen. Um die Verteilung auf die restlichen Intervalle
trotzdem sichtbar zu machen, wurde in Abbildung 5 eine logarithmische Skala für die Anzahl
Transaktionen verwendet. Der Versuch, Werte über 500 TCHF auszuschliessen funktioniert deshalb
nicht, weil sie aufgrund ihres hohen Betrages einen wesentlichen Anteil an der Gesamtsumme
darstellen. Selbst durch massive Erhöhung der Anzahl Intervalle, erweist sich eine Diskretiserung nach
gleicher Breite, als nicht verwendbar und kann so bei den vorliegenden Daten nicht durchgeführt
werden.
Abbildung 5. Diskretisierung von Kundentransaktionen nach gleicher Breite
Seite | 13
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
Aus den gewonnenen Erkenntnissen kann nur eine Diskretisierung nach gleicher Höhe auf die
vorliegenden Datensammlungen angewendet werden. Der Vorteil bei der Diskretisierung nach gleicher
Höhe ist, dass Intervallgrenzen, wie in Abbildung sechs dargestellt, intuitiv gebildet werden. Es kann
vorkommen, dass das letzte Intervall nicht exakt die genaue Höhe der anderen Intervalle hat, da es die
verbleibenden Werte beinhaltet. (Vgl. Reber 2009, Kapitel 12, S. 17)
Abbildung 6. Diskretisierung nach gleicher Höhe
4.3.5
Datenvalidierung
Nach erfolgreicher Diskretisierung müssen die Daten nochmals validiert und plausibilisiert werden z.B.
durch die Eliminierung von Ausreissern oder die Überprüfung, dass gleiche Werte nicht in
unterschiedliche Intervalle diskretisiert wurden. Als Ausreisser werden Werte bezeichnet, welche weit
ausserhalb von vergleichbaren Werten liegen und somit die Resultate verfälschen können. (Vgl. Reber
2009, Kapitel 12, S. 18-20)
Da wie bereits in Kapitel 5.3.4 erwähnt, solche Ausreisser, im Falle des Attributs Betrag, schlussendlich
einen wesentlichen Einfluss in der Jahresabschlussrechnung darstellen können, müssen alle Werte
dieses Attributs berücksichtigt werden. Eine Eliminierung von Ausreissern soll daher nicht
durchgeführt werden. Jedoch sollen die Datenformate wie auch Intervalleinteilungen mittels
Stichproben nochmals überprüft werden, bevor die Datengesamtheit für die Data Mining Methoden
freigegeben wird.
4.4
Aufwand
Die bereits beschriebenen und teilweise umfangreichen Prozeduren zur Datenaufbereitung geben einen
ersten Eindruck über den hohen Aufwand zur Verarbeitung von über zwei Milliarden Transaktionen pro
Jahr. Fraglich ist aufgrund der noch nicht untersuchten Data Mining Methoden, ob jeweils die Daten
vom aktuellen Jahr mit den Daten vom Vorjahr verglichen werden, oder ob es sinnvoller wäre, alle
historischen Daten in die Methoden miteinzubeziehen oder, ob sogar zusätzliche globale Daten von
PricewaterhouseCoopers notewendig sind. Ebenfalls ist noch nicht bekannt, ob alle DatenbereinigungsAspekte für die Beste Methode berücksichtigt werden müssen. Die Abschätzung des Aufwandes soll
daher nach der Untersuchung von möglichen Data Mining Methoden nochmals untersucht werden.
Seite | 14
Identifikation potentieller Falschdarstellungen von Jahresrechnungen
J
mittels Data Mining
Fabian Vontavon
5
5.1
Modellierung
Data Mining im Vergleich mit AbfrageAbfrage und Berichtswerkzeugen
Das Ziel bei allen Datenanalysen ist das Aufdecken der in Daten enthaltenen Informationen zur
Wissensgewinnung. Es kann davon ausgegangen werden, dass 80% des Wissens aus AbfrageAbfrage und
Berichtswerkzeugen gewonnen werden kann und 20% durch
durch Data Mining Methoden. (Vgl. Reber 2009,
Kapitel 1, S. 17)
20%
Abfrage- und Berichtswerkzeuge
Data Mining
80%
Abbildung 7. Wissensgewinnung durch Datenanalysen
Als Abfrage- und Berichtswerkzeuge sind auch die Datenanalysen zu verstehen, welche zurzeit für die
Untersuchung der Buchungseinträge bei Jahresabschlussprüfungen durch PricewaterhouseCoopers
durchgeführt werden. Falls alle zur Verfügung stehenden Datenanalysen durchgeführt werden, kann
hier ebenfalls von einer sehr hohen Wissensgewinnung ausgegangen werden. Mit der Ergänzung
entsprechender Data Mining Methoden könnte somit ein Maximum an Wissen aus den vorliegenden
Daten gewonnen werden und somit Fraud präzise erkannt werden.
5.2
Data Mining Grundlagen
Unter Data Mining versteht man die Erkennung von Mustern, Strukturen oder Abweichungen in sehr
se
grossen Datenvorkommen. Dies bedeutet jedoch noch nicht, dass diese interessant oder frei von
Fehlern sind. Bei Data Mining werden zwei Vorgehensweisen unterschieden, die datengetriebene und
modellgetriebene Analyse. Bei der datengetriebenen Analyse besteht
besteht der Ausgangspunkt aus den
Daten, aus welchen Muster erkennt werden sollen. Bei der modelgetriebenen Analyse besteht der
Ausgangspunkt aus einer Hypothese, welche durch die Daten bestätigt werden soll. (Vgl. Reber 2009,
Kapitel 1, S. 6-13)
Datengetriebene Analyse
Muster x
Muster y
Muster z
Daten
Modellgetriebene Analyse
Hypothese
Daten
Abbildung 8: Datengetriebene und Modellgetriebene Analyse
Seite | 15
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
Für die Aufstellung einer Hypothese können die Daten in einem ersten Schritt visualisiert werden. Die
Darstellung erfolgt in Diagrammklassen wie z.B. Flächen- oder Streudiagramme. Als frei erfundenes
Beispiel könnte die Datenvisualisierung wie in Abbildung 4 aussehen. Dimensionen für die Z-Achse sind
das Alter, als Y-Achse das Einkommen und als X-Achse die Anzahl erfasster Journaleinträge. Die Werte
stellen Buchhaltungsangestellte, nach Anstellungsdauer (rot, grün und blau), dar. Aus der Visualisierung
könnte man nun die Hypothese ableiten, dass Angestellte welche seit weniger als drei Jahren bei der
Unternehmung arbeiten eher jung sind, ein mittleres Einkommen haben und eine geringe Anzahl
Journaleinträge erfassen. Diese Hypothese müsste dann mittels Stichproben überprüft werden.
Anstellungsdauer:
5-10 Jahre
3-5 Jahre
0-3 Jahre
X-Achse: Alter
Y-Achse: Anzahl erfasste Journaleinträge
Z-Achse: Einkommen
Abbildung 9. Datenvisualisierungin Rapid Miner
Je nach Problemstellung können unterschiedliche Data Mining Verfahren angewendet werden. Die
wichtigsten sind nachfolgend aufgelistet und sollen nach Anwendbarkeit auf die vorliegenden Daten von
PricewaterhouseCoopers untersucht werden:
Klassifikation – Einteilung von Datensätzen in vordefinierte Klassen
Assoziation – Erkennung von einer oder mehrere Beziehungen zwischen den Daten
Clusteranalyse (Segmentierung) – Ermittlung von Gruppen mit ähnlichen Eigenschaften
Seite | 16
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
5.3
Klassifikation
Bei der Klassifikation werden bestimmte Datensätze durch bekannte Regeln in Klassen eingeteilt z.B.
Fraud und Nicht-Fraud. Die Zuteilung erfolgt aufgrund eines Klassifikators welcher die Regeln für die
Klassenzuordnung kennt. Um einen solchen Klassifikator zu entwickeln, bedarf es umfangreichem
Wissen, welches in der Klassifikation mittels Daten mit abhängigen Variablen (siehe Kapitel 6.3.1) in der
Trainingsphase gewonnen wird. (Vgl. Reber 2009, Kapitel 4, S. 2-3)
Trainingsphase
Anwendungsphase
TestDaten
Daten
Lernen
KlassenDefinition
(Modell)
Klassifizieren
Klassenzuteilung
Abbildung 10. Klassifikation
5.3.1
Trainingsphase
Klassifikationsverfahren benötigen Trainingsdaten mit abhängigen Variabeln. Abhängige Variablen
stellen die Wirkung von unabhängigen Variablen dar. Beispielsweise welche Attributeigenschaften
gegeben sein müssen, dass eine Transaktion fraudulent ist (abhängige Variable). Dies könnte
Beispielsweise aufgrund bereits diskretisierter Daten (nach gleicher Höhe) wie in Tabelle 3 dargestellt,
aussehen.
Unabhängige Variablen
Nr BUDATT BUDATM CPUDTT CPUDTM WRBTR
1
26
9
13
8
1000
2
14
6
1
6
15000
3
8
11
28
12
3000
4
31
8
25
8
8000
5
24
4
10
12
9000
6
12
9
5
9
90000
7
19
10
20
9 250000
8
2
5
25
4 160000
9
4
12
11
9
5600
10
11
11
5
11
9000
11
28
12
2
1
3000
12
25
12
5
1
20000
13
30
2
25
2
65000
14
18
4
15
4
3000
Tabelle 11. Testdaten mit abhängigen Variablen
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
HKONTUV HKONTAV
0
1
1
0
1
0
1
0
0
1
0
1
1
0
0
1
0
1
0
1
1
0
0
1
1
0
0
1
Abhängige
Variable
Fraud
Nein
Nein
Ja
Nein
Ja
Nein
Nein
Nein
Nein
Nein
Ja
Ja
Nein
Nein
Seite | 17
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
5.3.2
Anwendungsphase
Aufgrund der Trainingsdaten soll nun ein Verfahren gefunden werden, wie die Testdaten in Tabelle 12
als Fraud oder Nicht-Fraud klassifiziert werden können.
Unabhängige Variablen
Nr BUDATT BUDATM CPUDTT CPUDTM WRBTR ...
1
26
9
13
8
9000 ...
2
1
10
25
9 20000 ...
3
12
5
10
5 75000 ...
4
30
12
5
1
1000 ...
5
8
3
30
1 15000 ...
Tabelle 12. Zu klassifizierende Testdaten
5.3.3
HKONTUV
0
1
1
0
1
HKONTAV
1
0
0
1
0
Abhängige
Variable
Fraud
??
??
??
??
??
Klassifikationsmethoden
Für die Klassifikation von Daten stehen folgende Data Mining Methoden zur Auswahl: (Vgl. Reber
2009, Kapitel 4, S. 4)
Entscheidungsbäume
Neurale Netze
Verwendung zur
Bestätigung
möglichst effizienten
mathematischer
Entscheidungsfindung. Modelle mittels
biologischer neuraler
Netze.
k-Nearest Neighbor
Case-based Reasoning
Messung der
Entfernung zu anderen
Datensätzen.
Zuordnung anhand von
bereits bestehenden
Problemlösungen.
Abbildung 11. Klassifikationsmethoden
5.3.4
K-Nearest Neighbor
Die einfachste auf die vorliegenden Datenmenge anwendbare Variante der Klassifikation ist die der
Distanzmessung, auch bekannt als K-Nearest Neighbor Methode (Nächste-Nachbarn-Klassifikation).
Mittels Berechnung der euklidischen Distanz kann die Entfernung eines Datensatzes zu den
Datensätzen der Trainingsmenge gemessen werden und somit die Klasse bestimmt werden.
Euklidische Berechnung (Reber 2009, Kapitel 7, S. 21):
ඥሺ‫ݔ‬ଵ − ‫ݕ‬ଵ ሻଶ + ሺ‫ ݔ‬௡ − ‫ ݕ‬௡ ሻଶ
Berechnung Datensatz Nr. 3 der Anwendungsphase zu Datensatz Nr. 1 der Trainingsphase:
ඥሺ12 − 26ሻଶ + ሺ5 − 9ሻଶ +ሺ10 − 13ሻଶ +ሺ5 − 8ሻଶ +ሺ75000 − 1000ሻଶ +ሺ1 − 0ሻଶ +ሺ0 − 1ሻଶ
Seite | 18
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
Aufgrund der Trainingsdaten (siehe Tabelle 11, Kapitel 6.3.1) soll nun bestimmt werden, ob es sich
beim Datensatz Nr. 1 um eine Fraud-ähnlichen Transaktion handelt oder nicht.
Unabhängige Variablen
Nr BUDATT BUDATM CPUDTT CPUDTM
1
26
9
13
8
2
14
6
1
6
3
8
11
28
12
4
31
8
25
8
5
24
4
10
12
6
12
9
5
9
7
19
10
20
9
8
2
5
25
4
9
4
12
11
9
10
11
11
5
11
11
28
12
2
1
12
25
12
5
1
13
30
2
25
2
14
18
4
15
4
Tabelle 13. Euklidische Entfernung
Euklidische
Entfernung
WRBTR .. HKONTUV HKONTAV
1000 ..
0
1
15000 ..
1
0
3000 ..
1
0
8000 ..
1
0
9000 ..
0
1
90000 ..
0
1
250000 ..
1
0
160000 ..
0
1
5600 ..
0
1
9000 ..
0
1
3000 ..
1
0
20000 ..
0
1
65000 ..
1
0
3000 ..
0
1
74000
60000
72000
67000
66000
15000
175000
85000
69400
66000
72000
55000
10000
72000
Für die Bestimmung der Klassenzugehörigkeit muss ebenfalls die Klassifikationsgüte berücksichtigt
werden. „Die Klassifikationsgüte hängt von der Anzahl k der nächsten Nachbarn und der Qualität des
Entfernungsmass ab.“ (Reber 2009, Kapitel 7, S. 17)
Die Qualität des Entfernungsmass hängt nach Angaben von Prof. Andreas Reber von folgenden
Aspekten ab. (Reber 2009, Kapitel 7, S. 17):
Welche Attribute werden für den Vergleich verwendet?
Werden die Attribute gleich oder unterschiedlich gewichtet?
Kann man Informationen über die Ähnlichkeit von Attributwerten nutzen?
Bei den in Tabelle 13 durchgeführten Berechnungen der Entfernung fällt schnell auf, dass das Attribut
Betrag (WRBTR) einen wesentlichen Einfluss auf das Resultat hat. Bei einer Verwendung von k = 2
ergeben sich zwar klar Datensatz Nr. 6 und 13 als nächste Nachbarn und können somit als nicht-Fraud
identifiziert werden, jedoch kann dieses Resultat aufgrund der erwähnten zu starken Gewichtung des
Attributs Betrag als nicht aussagefähig betrachtet werden. Diesem Umstand kann mittels der
Berechung der Transinformation (engl. Mutual Information) entgegen gewirkt werden. Bei der
Transinformation wird die Grösse des stärksten statistischen Zusammenhanges zweier Zufallsgrössen
berechnet. (Vgl. Wikipedia 2009: Transinformation)
‫݌‬ሺ‫ݔ‬, ‫ݕ‬ሻ
‫ܫ‬ሺܺ; ܻሻ = ෍ ෍ ‫ ݌‬ሺ‫ݔ‬, ‫ݕ‬ሻ ∙ log ଶ ൬
൰
‫݌‬ሺ‫ݔ‬ሻ‫݌‬ሺ‫ݕ‬ሻ
௫
௬
Abbildung 12. Transinformations Berechnung nach Wahrscheinlichkeit
Seite | 19
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
5.3.5
Vorhersagekriterien
Damit während einer Untersuchung von Data Mining Modellen eine Vergleichsbasis zwischen den
verschiedenen Klassifikationsmodellen besteht, müssen Bewertungskriterien klar definiert sein. Für die
Vorhersagemodelle gelten unter anderem folgende Kriterien: Genauigkeit, Geschwindigkeit und
Verständlichkeit. (Vgl. Han u.a. 2009. S. 283)
Die Genauigkeit der Vorhersage kann wie folgt evaluiert werden (Vgl. Han u.a. 2009. S. 325-326):
Accuracy: Genauigkeit der Vorhersage (Anteil korrekt erkannte Datensätze)
Kappa-Statistik: Statistisches Mass für Interrarer-Rentabilität. Wobei hier Wert von >0.75 als gut
bis sehr gut betrachtet werden kann. (Vgl. Wikipedia 2009: Cohens Kappa)
Precision: Wahrscheinlichkeit, dass die vorausgesagte Klasse, der effektiven entspricht.
Recall: Wahrscheinlichkeit, dass eine Klasse richtig vorausgesagt wird.
5.3.6
Praxistest
Da bei den vorliegenden Daten keine abhängigen Variablen nach Fraud oder nicht Fraud vorhanden
sind, wurde der anonymisierten Benutzernamen als abhängige Variable verwendet. Dies im
Zusammenhang mit der von mir aufgestellten Hypothese, dass ein Anwender nach einem ähnlichen
Muster seine Buchungen durchführt. Die Untersuchung erfolgte in der Open Source Software Rapid
Miner.
Testspezifikation:
Methode: kNN (k-Nearest Neighbor, k=1)
Anzahl Datensätze: Dataset 1: 5’000 / Dataset 2: 10’000 / Dataset 3: 20‘000 / Dataset 4: 100‘000 /
Dataset 4: 466‘956 (Population 466'956)
Unabhängige Variablen: HKONT, CPUDTM, CPUDTT, CPUTMM, CPUTMH, WRBTR
Abhänige Variable: USNAM
Diskretisierung (Höhe = 50)
Gewichtung der Attribute
Damit ein Kontrast zum Aufwand der bestehenden Datenanalysen von PricewaterhouseCoopers
möglich ist, wurden die gleichen IT-Ressourcen eingesetzt (Mitarbeiter Notebook):
Prozessor: Intel Core Duo T2400 (2x1.83 GHz)
Ram: 2048 MiB
Harddisk: 100 GiB, 7‘200 rpm, 10 ms
Dateisystem: NTFS, 100% Verschlüsselung
Betriebssystem: Windows XP 32-Bit
Werkzeug: Rapid Miner 32-Bit, Community Version
Seite | 20
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
5.3.6.1
Visualisierung
Zur Visualisierung von Dataset 1 mit 5000 Datensätzen (Abbildung 7) wurden als X-Achse das Attribut
HKONT und als Y-Achse das Attribut WRBTR (Diskretisiert) verwendet. Die Personen, welche die
Buchungen durchgeführt haben, sind farblich dargestellt. Aus dieser Grafik könnte man z.B. ableiten,
dass Person P00013 vermehrt auf die Konten des Fremdkapitals gebucht hat. Jedoch ist hier zu
berücksichtigen, dass es sich um eine Visualisierung von Dataset 1 handelt, welches nur 5‘000 von
insgesamt 466‘956 Datensätzen beinhaltet. Gut erkennbar in der Visualisierung ist jedoch, die auf
das Attribut HKONT angewendete Diskretisierung nach gleicher Höhe. Hätte keine Diskretisierung
stattgefunden, so wären 99.76% (siehe Kapitel 4.3.4) der Werte im untersten Bin anzutreffen
gewesen.
Abbildung 13. Visualisierung von 5‘000 Datensätzen nach kNN in RapidMiner
Seite | 21
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
Vorhersage
Genauigkeit
Anders als die Visualisierung der Daten, ergibt die Messung der Vorhersagegenauigkeit ein
eindeutigeres Bild über die erreichten Klassenzuteilungen. Aus Layoutgründen wurden hier nicht alle
Klassen dargestellt. Erstaunlich ist, dass in Dataset 1 eine Accuracy von 94.7% erreicht und ein Kappa
von 0.93 erreicht wurde. Betrachtet man die einzelnen Klassen, fällt auf, dass P0004 zu 100% richtig
und P0007 zu 61.11% vorhergesagt werden kann. Diese Extremen lassen sich jedoch anhand der
geringen Anzahl Datensätze für die beiden Klassen erklären. Aus diesem Grund, wurden in einem
zweiten Durchlauf 10‘000 Datensätze berücksichtigt.
Wahr
Mitarbeiter P00013
P00004 P00018 P00005 P00009 P00010 P00007 Precision
P00013
1303
0
50
7
2
1
3
92.02%
P00008
14
0
39
5
6
0
0
92.06%
P00004
0
2
0
0
0
0
0 100.00%
P00016
0
0
1
0
0
0
0
92.31%
P00018
10
0
722
4
1
1
0
95.25%
P00014
0
0
4
2
0
0
0
95.24%
P00005
4
0
10
1493
0
0
4
98.48%
P00009
2
0
5
0
74
0
0
90.24%
P00010
0
0
1
0
0
89
0
98.89%
P00007
0
0
0
0
0
0
11 100.00%
Recall
97.75% 100.00% 86.78% 98.81% 89.16% 97.80% 61.11%
Tabelle 14. Konfusionsmatrix von 5‘000 Datensätzen
Bei einer Trainingsmenge von 10‘000 Datensätzen wurde sogar eine Steigerung der Vorhersagegenauigkeit erreicht, hier betrug die Accuracy 95.91% und der Wert für Kappa 0.94.
Vorhersage
5.3.6.2
Wahr
Mitarbeiter P00013
P00004 P00018 P00005 P00009 P00010 P00007 Precision
P00013
1757
0
89
0
7
1
1
91.23%
P00008
16
0
71
2
10
2
2
90.85%
P00004
0
4
0
0
0
0
0 100.00%
P00016
0
0
0
0
0
0
0 100.00%
P00018
13
0
1122
1
5
1
1
96.31%
P00014
6
0
19
0
1
0
0
89.08%
P00005
4
0
9
4972
1
0
2
99.50%
P00009
0
0
10
0
98
0
0
88.29%
P00010
2
0
2
1
0
165
0
95.38%
P00007
0
0
0
0
1
0
24
96.00%
Recall
97.72% 100.00% 84.87% 99.92% 79.67% 97.63% 80.00%
Tabelle 15. Konfusionsmatrix von 10‘000 Datensätzen
Seite | 22
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
5.3.6.3
Geschwindigkeit
Die Trainings- und Anwendungsphase inklusive Datenvorbereitung dauerte bei 5‘000 Datensätzen
21:49 Minuten. Dataset 3, 4 und 5 konnten aufgrund der extrem hohen Durchlaufzeiten nicht mehr
mit der zur Verfügung stehenden Hardware abgeschlossen werden. Die, bis zum Abbruch der
Analysen pro Datensatz benötigte Zeit, konnte jedoch in RapidMiner abgelesen werden. Anstatt, dass
die Durchlaufzeit pro Anzahl Datensätze gleich bleibt, musste ich feststellen, dass sich die
Durchlaufzeit bei z.B. einer Verdoppelung der Datensatzmenge drastisch erhöht.
Durchlaufzeit / Datensatz
[Sekunden]
1
2
3
4
5‘000
10‘000
20‘000
100‘000
21:49
67:26
n/a
n/a
0.26
0.40
15.14
343.85
Erfolgreich
Erfolgreich Abbruch
Abbruch
Tabelle 16. Geschwindigkeitsmessung Klassifikation
5
466‘956
n/a
7920.1
Abbruch
Durchgang
Anzahl Datensätze
Durchlaufszeit [Minuten]
Durchlaufzeit pro Datensatz [Sek.]
Status
10000
1000
100
10
1
0.1
5000
10000
20000
100000
466956
Population
Abbildung 14. Entwicklung der Durchlaufzeit pro Datensatz
5.3.7
Anwendbarkeit der Klassifikation
Obwohl die Datensätze mit sehr hoher Präzision dem Ersteller zugeordnet werden konnten, ist eine
Verwendung des Mitarbeiters als abhängige Variable in Anbetracht dessen, dass ausschlaggebende
Indikatoren in den bestehenden Datenanalysen von PricewaterhouseCoopers bereits abgedeckt
werden, doch eher uninteressant. Interessanter wäre die Methode der Klassifikation, wenn sie auf
Datenmengen mit abhängigen Variablen wie Fraud und nicht-Fraud angewendet werden könnte.
Solche abhängige Variablen liegen bei PwC jedoch nicht vor. Um eine solche Testmenge zu erheben,
müssten in Jahresabschlussprüfungen, in welchen wirtschaftlich kriminelle Aktivitäten entdeckt
wurden, alle Finanztransaktionen, welche aufgrund dieser Aktivitäten erstellt wurden, mit einer
abhängigen Variablen (Fraud-Indikatoren) versehen werden. Zusätzlich müssten möglichst viele
(Faustregel >5‘000) unterschiedliche, als Fraud und nicht-Fraud spezifisierte Transaktionen gesammelt
werden, damit über eine Klassifikationsmethode eine Einteilung in Fraud und nicht-Fraud überhaupt
möglich wäre. Eine solche Erhebung ist zwar aufgrund der weltweiten Präsenz von
PricewaterhouseCoopers möglich, jedoch müsste nebst dem hohen Aufwand auch untersucht werden,
inwiefern länderspezifische Indikatoren existieren.
Seite | 23
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
Die beiden wichtigsten Punkte im Zusammenhang der Anwendbarkeit sind jedoch die, der benötigten
IT-Ressourcen und der bedingten Falschvorhersagen von Fraud. Um das durchschnittliche
Datenvolumen (5.66 Mio.) der Kunden überhaupt in sinnvoller Zeit durchführen zu können, müssten
IT-Ressourcen zur Verfügung gestellt werden, welche mindestens das Hundertfache der
Rechenleistung eines zurzeit eingesetzten Mitarbeiternotebooks erbringen. Mit zentralen 64-Bit MultiProzessor Systemen könnte dieser Wert zwar relativ schnell erreicht werden, jedoch müssten dann die
anfallenden Kosten auch im Rahmen der Wirtschaftlichkeit untersucht werden. Der zweite Aspekt ist
der, der bedingten Falschvorhersage von Fraud und nicht-Fraud aufgrund der Tatsache, dass in den
Trainingsdaten bereits fraudulente Muster existieren könnten, welche nicht erkannt wurden und somit
als nicht-Fraud vorhergesagt werden. Somit könnte durch die Klassifikation, ähnlich wie bei den bereits
durchgeführten Datenanalysen Fraud nur aufgrund bekannter Indikatoren oder Vorfälle identifiziert
werden.
Fazit: Die Data Mining Methode Klassifikation ist unter Berücksichtigung der
vorliegenden Problematik für die präzise Erkennung von Fraud nicht verwendbar.
5.4
Assoziation
Bei der Data Mining Methode Assoziation, auch bekannt als Abhängigkeitsanalyse, werden die
Abhängigkeiten zwischen Attributen einer Transaktion beschrieben. Ein klassisches Beispiel ist hier die
Warenkorbanalyse, bei der untersucht wird, welche Waren oft gemeinsam gekauft werden wie z.B. Bier
und Salzgebäck. Solche Assoziationsregeln werden mit X → Y dargestellt, wobei für das Auftreten von
Elementen (X) einer Transaktion zur Menge (Y) führt. (Vgl. Reber 2009, Kapitel 9, S. 1-5)
Folgende Kennzahlen spielen bei der Assoziation ein grosse Bedeutung (Vgl. Reber 2009, Kap. 9, S. 6-8)
ܵ‫ ݐݎ݋݌݌ݑ‬ሺܺ → ܻሻ =
‫ܽݖ݊ܣ‬ℎ݈ ݀݁‫݊݁݉݉݋݇ݎ݋ݒ ܻ ݀݊ݑ ܺ ݊݁݊݁݀ ݊݅ ݊݁݊݋݅ݐ݇ܽݏ݊ܽݎܶ ݎ‬
‫ܽݖ݊ܣ‬ℎ݈ ݈݈ܽ݁‫݊݁݊݋݅ݐ݇ܽݏ݊ܽݎܶ ݎ‬
KonCidenz " → $ =
5678ℎ: ; <86=8>436;6, 6 ;6;6 " 26 $ ?3>3@@;6
5678ℎ: ; <86=8>436;6, 6 ;6;6 " ?3>3@@4
In einem Beispiel sollen Assoziationen zwischen den von den Mitarbeitern verwendeten Hauptbuchkonten gefunden werden (siehe Tabelle 17).
Buchungstransaktion pro Mitarbeiter / Tag
Person ‘00001‘
Verwendete Hauptbuchkonto (HKONT)
Umlaufvermögen, Ertrag, Aufwand, Fremdkapital
Person ‘00002‘
Person ‘00003‘
Ertrag, Aufwand, Anlagevermögen, Fremdkapital
Anlagevermögen, Eigenkapital
Person ‘00004‘
Fremdkapital, Aufwand
Person ‘00005‘
Umlaufvermögen, Fremdkapital
Tabelle 17. Buchungstransaktionen pro Mitarbeiter pro Tag
Seite | 24
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
Wird auf die, durch die Mitarbeiter erstellten Transaktionen, der Support und die Konfidenz berechnet,
könnte im Beispielsfall von Tabelle 15 folgende Informationen abgeleitet werden:
Die Konten Umlaufvermögen und Fremdkapital werden von 40% der Mitarbeiter bebucht.
Mitarbeiter, welche auf das Konto Ertrag buchen, buchen auch zu 100% auf das Konto
Umlaufvermögen.
5.4.1
Hauptbuchkonto X
Umlaufvermögen
Hauptbuchkonto Y
Ertrag
X+Y
1
X
2
Support
20%
Umlaufvermögen
Konfidenz
50%
Aufwand
1
2
20%
50%
Umlaufvermögen
Anlagevermögen
Fremdkapital
Ertrag
2
1
2
2
40%
20%
100%
50%
Anlagevermögen
Anlagevermögen
Aufwand
Eigenkapital
1
1
2
2
20%
20%
50%
50%
Fremdkapital
Fremdkapital
Aufwand
Umlaufvermögen
3
2
4
4
60%
40%
75%
50%
Eigenkapital
Ertrag
Ertrag
Anlagevermögen
Umlaufvermögen
Aufwand
1
1
2
1
2
2
20%
20%
40%
100%
50%
100%
Ertrag
Aufwand
Anlagevermögen
Ertrag
1
2
2
3
20%
40%
50%
67%
Aufwand
Aufwand
Umlaufvermögen
Anlagevermögen
1
1
3
3
20%
20%
33%
33%
Aufwand
Fremdkapital
3
Tabelle 18. Assoziationen (Support und Konfidenz)
3
60%
100%
Anwendbarkeit der Assoziation
Anders als bei Transaktionen von Warenhäusern oder Grosshändlern, bestehen die Werte von
finanziellen Transaktionen aus wenigen, überschaubaren Elementen (einzige Ausnahme ist das
Attribut Betrag). Die Erkennung von Assoziationen zwischen den Attributen von Datensätzen aus dem
Rechnungswesen gestaltet sich unter anderem auch deshalb als uninteressant, weil von Mitarbeitern
weitaus mehr Informationen verfügbar sind als über Kunden. Der Umstand, dass wie im
vorhergehenden Beispielsfall, 100% der Mitarbeiter die Hauptbuchkonten Fremdkapital sowie auch
die Konten des Umlaufvermögens bebuchen, ist aufgrund von Tätigkeitsbereichen und
Stellenbeschreibungen einfach erklärbar. Selbst im Falle einer allfälligen Untersuchung der
Gewaltentrennung stellt sich die Methode der Assoziation, aufgrund der unternehmensspezifischen
Tätigkeitsbereichen, als nicht effizient und präzise gegenüber herkömmlichen Abfrage- und
Berichtsanalysen heraus. Die Methode der Assoziation wurde daher nicht weiter technisch untersucht.
Fazit: Die Methode der Assoziation ist für die präzise Erkennung von Fraud in
finanziellen Transaktionen nicht geeignet.
Seite | 25
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
5.5
Clusteranalyse (Segmentierung)
Als Segmentierung oder Clustering versteht man ein Analyseverfahren, welches einzelne Objekte mit
bestimmten Eigenschaftsausprägungen in Gruppen einteilt. Im Gegensatz zur Klassifizierung ist jedoch
die Zuordnung von Objekten nicht bekannt und es werden keine abhängigen Variablen benötigt, dies
wird auch als nicht-überwachtes Lernen bezeichnet. (Vgl. Reber 2009, Kap. 8, S. 1-3)
Abbildung 15. Visualisierung von Clusterzugehörigkeiten in Rapid Miner
5.5.1
Unterschied Klassifizierung und Clusteranalyse
Der Hauptunterschied zwischen der Clusteranalyse und der Klassifizierung ist der, des Lernverhaltens.
Nach Prof. Andreas Reber können folgende Unterschiede festgestellt werden (Reber 2009, Kap. 8):
Clustering:
Die Zuordnung von Objekten ist nicht bekannt, d.h. es gibt keine abhängige Variable.
Das Kriterium für die Segmentierung ist, alle Datensätze sollen ähnlich sein.
Da im Vorfeld nicht bekannt ist, welche Objekte in welche Klasse kommen, kann die korrekte
Zuordnung nicht überprüft werden.
Klassifikation:
Für eine Menge von Beispielen sind korrekte Ergebnisse bekannt, d.h. es gibt eine abhängige
Variable, die der Klasse entspricht.
Die Korrektheit einer Zuordnung kann für die Lern- und Testmenge überprüft werden.
Seite | 26
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
5.5.2
Clusterarten
Je nach Anwendungszweck könnte aufgrund der unterschiedlichen Clusterarten, vor der Wahl der
Clustermethode bestimmt werden, welcher Zieloutput angestrebt wird (siehe Tabelle 16). Da jedoch
die Cluster noch nicht bekannt sind, müssen alle in Frage kommenden Clustermethoden durchgeführt
und nach ihrer Anwendbarkeit beurteilt werden. Nach Prof. Anderas Reber existieren vier
unterschiedliche Clusterarten (Vgl. Reber 2009, Kap. 8, S. 5):
Ausschluss
Überlappung
f
c
g
i
c
a
a
b
e
g
h
c
f
e
Wahrscheinlichkeit
i
b
c
h
Ein Datensatz
gehört nur zu
einem Cluster.
Ein Datensatz kann in
mehrere Cluster
passen.
Obj.
a
b
c
d
e
C1
0.62
0.84
0.25
0.47
0.98
C2
0.71
0.14
0.03
0.45
0.63
Ein Datensatz hat eine
Wahrscheinlichkeit, für
einen Cluster.
Hierarchie
a
i
c f
d b
Datensätze werden grob
eingeteilt und mit jeder
weiteren Ebene
verfeinert.
Abbildung 16. Clusterarten
5.5.3
Methoden
Clusteranalysen können grob gesehen, in probabilitische und deterministische Verfahren eingeteilt
werden. Während bei der probabilistischen Methode die Einteilung in ein Cluster über die Wahrscheinlichkeit der Zugehörigkeit erfolgt, wird bei dem deterministischen Verfahren binär zugeordnet.
Für das probabilistische Verfahren existieren noch weitere Möglichkeiten die Clusterbildung zu
optimieren und an den Anwendungszweck anzupassen. (Vgl. Reber 2009, Kap. 8, S. 7)
Abbildung 17. Clustermethoden
Seite | 27
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
5.5.4
5.5.4.1
Unterschiedliche Untersuchungsbereiche
Bevor die unterschiedlichen Methoden der Clusteranalyse getestet werden können, muss definiert
werden aufgrund von welchen Daten die Cluster gebildet werden sollen oder ob schon zu Beginn die
Anzahl der Cluster vorgegeben ist, z.B. Anzahl Branchen. Für die Anwendung der vorliegenden Daten
sind zwei Varianten möglich:
Daten pro Unternehmung
Analog zu den bestehenden Datenanalysen ist hier das Bestreben, durch die Einschränkung der
Transaktionen auf ein einzelnes Unternehmen, eine effiziente und schnelle Vorgehensweise zu
finden. Die jeweiligen Cluster sollen Anstellungsgruppen darstellen und somit abweichende
Buchungsverhaltensweisen der Mitarbeiter ermöglichen. Ein Clustering nach Anstellungsgruppe
könnte, wie in Abbildung 10 dargestellt, aussehen:
Vergleichsjahr
Prüfungsjahr
Cluster 1: Manager
Cluster 3: Senior
Cluster 2: Assistant
Abbildung 18. Cluster nach Anstellungsgruppen
Aufgrund der Abweichungen des Clusters 3 im Vergleich zum Vorjahr (siehe Abbildung 12), könnte
nun von Fraud oder auch nur einer grösseren Änderung des Tätigkeitsbereiches der Anstellungsgruppe Senior ausgegangen werden.
5.5.4.2
Daten von allen Unternehmen
Ein Zusammenzug aller verfügbaren Kundendaten könnte sich für die Identifikation von Fraud
insofern positiv auswirken, indem über Jahre hingezogene Betrugsfälle im Vergleich mit anderen
Unternehmen schnell auffallen würden. Die Unternehmen müssten allerdings vor der Clusteranalyse
zusätzlich charakterisiert werden, z.B. Branche und Umsatz. In einem ersten Schritt sollen die
vorliegenden Daten in Branchencluster eingeteilt werden, um danach damit eine Validierung der
Transaktionen eines zu prüfenden Unternehmens zu ermöglichen (siehe Abbildung 13 und 14 auf
Folgeseite).
Seite | 28
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
Im ersten Beispielsfall (siehe Abbildung 13) konnte ein zu prüfendes Bauunternehmen erfolgreich
dem Cluster Baugewerbe zugeordnet werden.
Branchencluster
Zu prüfendes Bauunternehmen (grün)
Cluster 1: Kreditgewerbe
Cluster 2: Chemische Industrie
Cluster 3: Versicherungsgewerbe
Cluster 4: Baugewerbe
Abbildung 19. Erfolgreiche Clusterzuordnung
Die Abweichung der im Beispielsfall zwei dargestellten Transaktionen könnten auf Fraud oder auf
aussergewöhnliche Geschäftstransaktionen hinweisen und müsste weiter untersucht werden.
Branchencluster
Zu prüfendes Versicherungsgewerbe (rot)
Cluster 1: Kreditgewerbe
Cluster 2: Chemische Industrie
Cluster 3: Versicherungsgewerbe
Cluster 4: Baugewerbe
Abbildung 20. Verdächtiges Transaktionsvorkommen
Seite | 29
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
5.5.5
5.5.5.1
Algorithmen
Für Clusteranalysen steht eine Vielzahl Algorithmen zur Verfügung. Im Zusammenhang mit dieser
Arbeit sollen drei davon kurz vorgestellt und in einem zweiten Schritt in RapidMiner angewendet
werden.
K-Means
Die K-Means Methode arbeitet nach Prof. Andreas Reber nach folgendem Verfahren (Vgl. Reber
2009, Kap. 8, S. 8):
1
2
3
4
5
5.5.5.2
EM
Der EM-Clustering Algorithmus basiert auf der Idee des K-Means Algorithmus. Zu Beginn wird auch
hier ein zufälliges Clusterzentrum gewählt. Danach werden folgende zwei Schritte solange
ausgeführt, bis die von Durchlauf zu Durchlauf erreichte Wahrscheinlichkeitsänderung der Instanzen
unter einen vorgegebenen Stellenwert sinkt. (Vgl. Wikipedia 2009: Clusteranalyse)
1
2
3
4
5.5.5.3
Spezifikation der Anzahl Cluster (k = ?).
Für k werden verschiedene Punkte als Clusterzentren ausgewählt.
Die Datensätze werden mittels der euklidischen Distanz dem nächsten Zentrum zugeordnet.
Aus dem Mittelwert aller Instanzen wird ein neues Clusterzentrum gebildet.
Wiederholung der Punkte 3 und 4 bis die Instanzen in aufeinander folgenden Durchläufen immer
in dieselben Cluster eingeteilt werden.
Spezifikation der Anzahl Cluster (k = ?).
Für k werden verschiedene Punkte als Clusterzentren ausgewählt.
Expectation: Bestimmung der Wahrscheinlichkeitsverteilung zu jeder Instanz für jeden Cluster.
Maximization: Neubestimmung der Clusterparameter z.B. durch Mittelwertvektoren.
DBSCAN
DBSCAN ist einer in der Literatur am häufigsten erwähnten Clustering Algorithmen. Im Gegensatz zu
den partitionierenden Algorithmen wie K-Means und EM benötigt DBSCAN keine vordefinierte
Anzahl Cluster. DBSCAN bestimmt die Cluster anhand der Dichteverteilung der einzelnen Instanzen
und lässt die Cluster solange wachsen, bis min_pts (minimale Anzahl Punkte zur Bildung eines
Clusters) Instanzen dichtebasiert erreichbar sind. Die restlichen Instanzen, welche nicht erreichbar
sind, werden als Rauschen oder Noise spezifiziert. DBSCAN bildet also selbstständig eine Anzahl x
Cluster und Ausreissercluster. Nebst den Vorteilen, wie z.B. die selbstständige Bestimmung der
Anzahl Cluster, bergt der Algorithmus auch einige Nachteile. So ist er z.B. bei hochdimensionalen
Daten unbrauchbar. Als hochdimensionale Daten werden Daten bezeichnet, die mehrere tausend
Dimensionen aufweisen wie z.B. medizinische Daten aus dem Bereich der DNA Forschung. (Vgl.
Wikipedia 2009: DBSCAN)
Seite | 30
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
5.5.6
Praxistest
Die in Kapitel 5.5.5 vorgestellten Algorithmen wurden jeweils mit einer unterschiedlichen Anzahl
Datensätzen in Data Mining Tool RapidMiner durchgeführt. Bei den verwendeten Daten wie auch ITRessourcen, handelt es sich um die gleichen, die auch zur Klassifizierung verwendet wurden (siehe
Kapitel 5.3.6).
Testspezifikation
5.5.6.1
Methoden: KMeans (k=5 / Optim. Durchläufe 100), EM (k=5 / Optim. Durchläufe 100), DBSCAN
Anzahl Datensätze: Dataset 1: 466‘956, Dataset 2: 5‘000 (Population 466'956),
Attribute:HKONT (aufgesplittet nach Wert), CPUDTM, CPUDTT, CPUTMM, CPUTMH, WRBTR
Datenvorbereitung: Umwandlung des Attributs HKONT in binäre Attribute wie z.B. HKONTUV
Visualisierung: K-Means
Visualisiert man die Cluster nach den Dimensionen Benutzername (USNAM) und Betrag (WRBTR),
sticht hervor, dass z.B. Person P00018 Transaktionen in Cluster 0 (gelb) durchgeführt hat, welche
nicht in ihr übliches Buchungsraster passen. Dieses Auftreten soll in den anderen Algorithmen weiter
verfolgt werden.
Abbildung 21. Visualisierung Clustering K-Means in RapidMiner nach WRBTR und USNAM
Seite | 31
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
5.5.6.2
Visualisierung: EM
Im Vergleich zum K-Means Algorithmus fällt auf, dass beim EM-Clustering die Instanzen feiner
geclustert wurden. Nach EM-Clustering ergibt sich kein auffälliges Muster mehr bei Person P00018.
Abbildung 22. Visualisierung Clustering EM in RapidMiner nach WRBTR und USNAM
5.5.6.3
Visualisierung: DBSCAN
Abbildung 23. Visualisierung Clustering DBSCAN in RapidMiner nach WRBTR und USNAM
Seite | 32
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
In Abbildung 17 ist nur Cluster 0 ersichtlich. Um alle Cluster zu visualisieren, wurde eine andere
Darstellungsform gewählt (siehe Abbildung 18). Der Algorithmus hatte alle, ausser 12 Instanzen dem
Cluster 0 zugeordnet. Als Ausreisser gelten demnach Cluster 1 und 2, worin die Person P00018
wieder auftaucht. Um diesen Umstand genauer zu untersuchen sollen nun die Datensätze der Cluster
1 und 2 herangezogen werden.
Abbildung 24. Visualisierung Clustering DBSCAN in RapidMiner nach WRBTR und CLUSTER
Bei Betrachtung der Daten fällt schnell auf, dass die „verdächtigen“ Datensätze keiner Kontenklasse
zugeordnet wurden. Der Umstand könnte aufgrund eines Fehlers in den Quelldaten oder der
Datenvorbreitung zurückzuführen sein und soll weiter untersucht werden.
USNAM CLUSTER WRBTR CPUDTT
P00018 cluster_1 38955.1 15
P00018 cluster_1 38955.1 15
P00018 cluster_1 38955.1 15
P00018 cluster_1 38955.1 15
P00018 cluster_1 38955.1 15
P00018 cluster_1 38955.1 15
P00018 cluster_2 36973.1 21
P00018 cluster_2 36973.1 21
P00018 cluster_2 36973.1 21
P00018 cluster_2 36973.1 21
P00018 cluster_2 36973.1 21
P00018 cluster_2 36973.1 21
Tabelle 19. Verdächtige Datensätze
CPUDTM
7
7
7
7
7
7
8
8
8
8
8
8
Assets
0
0
0
0
0
0
0
0
0
0
0
0
Other
0
0
0
0
0
0
0
0
0
0
0
0
Expense
0
0
0
0
0
0
0
0
0
0
0
0
Revenue
0
0
0
0
0
0
0
0
0
0
0
0
Liabilities
0
0
0
0
0
0
0
0
0
0
0
0
Seite | 33
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
Die Überprüfung der Quelldaten ergab, dass diese keine Fehler auswiesen, die Konten richtig und
vollständig spezifiziert waren und der Import der Dateien ebenfalls vollständig war. Deshalb wurden
nochmals alle Parameter und Prozessschritte in RapidMiner überprüft. Es stellte sich heraus, dass
beim Prozessschritt „Nominal2Numerical“, bei welchem die nominalen in numerische Werte
umgewandelt werden, genau bei 12 Datensätzen (siehe Tabelle 20) die als 1 gekennzeichneten
Werte in 0 umwandelte. Trotz längeren Nachforschungen konnte keine andere Erklärung für dieses
Phänomen gefunden werden, als die, dass das Modul „Nominal2Numerical“ in der von mir
verwendeten RapidMiner OpenSource Version 4.5.000 entweder fehlerhaft ist oder ich es zu einem
falschen Zweck verwendet hatte. Das Letztere dürfte aufgrund der restlichen 99.99% richtig
zugeordneten Datensätze jedoch nicht der Fall sein. Der positive Effekt der erst nachträglichen
Erkennung dieses Fehlers war, dass die drei Algorithmen entsprechend ihrer Interpretierbarkeit
besser verglichen werden konnten.
!
Datenimport und Spezifikation
Umwandeln aller Werte des Attributs HKONT in
neue Attribute mit binominalen Werten z.B. neues
Attribut HKONTA (Assets) Werte: false; true
Mapping der neuen Attribute (Assets, Expense,
Other, Revenue, Liabilites) mit binominalen Werten
zu false = 0 und true = 1
Umwandlung der nominalen Werte in nummerische
Clustermodell
Abbildung 25. Visualisierung Clustering DBSCAN in RapidMiner nach WRBTR und USNAM
Seite | 34
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
5.5.6.4
Geschwindigkeit
In Punkto Geschwindigkeit lagen die drei angewendeten Algorithmen weit auseinander. Während
mit der K-Means Algorithmus (k=5) 466‘956 Datensätze in nur 9:55 Minuten verarbeitet wurden und
damit die Spitze angeführt wird, benötigte der EM-Clustering Algorithmus (k=5) für die gleiche
Anzahl Datensätze 5:42 Stunden. DBSCAN benötigte für 10‘000 Datensätze zwar nur 6:23 Minuten
und hätte nach einer Hochrechnung mit 466‘956 Datensätzen ca. 5 Stunden benötigt, jedoch stellte
sich heraus, dass bei diesem Algorithmus ähnlich wie bei der Klassifikation die Durchlaufzeit pro
Datensatz mit Vergrösserung der Datenpopulation quadratisch ansteigt. Der Versuch, durch den
DBSCAN Algorithmus 466‘956 Datensätze zu clustern, wurde nach 38 Stunden abgebrochen. Da beim
Clustering nicht die Durchlaufzeit pro Datensatz abgelesen werden kann, kann keine eindeutige
Aussage in diesem Zusammenhang gemacht werden.
K-Means
EM
DBSCAN
DBSCAN
466‘956
466‘956
10‘000
466‘956
9:55
342:14
6:23
2280 + x
0.00127
0.0439
0.000174
0.29 + x
Erfolgreich
Erfolgreich Erfolgreich Abbruch
Tabelle 20. Geschwindikeitsmessung Clustering
5.5.7
Algorithmus
Anzahl Datensätze
Durchlaufszeit [Minuten]
Durchlaufzeit pro Datensatz [Sek.]
Status
Anwendbarkeit der Clusteranalyse
Der grosse Vorteil der Clusteranalysen ist der, dass im Vorfeld keine Indikatoren bereitgestellt werden
müssen, wie Fraud in finanziellen Transaktionen auftreten könnte. Auffällige Muster, welche zur
Identifikation von Fraud führen, ergeben sich automatisch aufgrund der vorliegenden Daten. Im
durchgeführten Praxistest konnte der Clustering Algorithmus DBSCAN, aufgrund seiner „Ausreissercluster“, die für diesen Anwendungszweck besten Resultate liefern. Es könnte also bereits durch die
Visualisierung von Clustern Hinweise auf allfällige manipulierte Transaktionen gewonnen werden,
wobei hier der Interpretationsaufwand nicht unterschätzt werden sollte.
Während im durchgeführten Praxistest mehr auf die Clusteranalyse selbst eingegangen wurde, soll die
Mächtigkeit einer Kombinatorik zwischen Clusteranalysen und der Klassifikation angesprochen
werden. Wenn man von den benötigten IT-Ressourcen absieht, wäre es sehr interessant, wenn in
einem ersten Schritt alle verfügbaren Transaktionen nach Branche geclustert würden (siehe Kapitel
5.5.4.2). In einem zweiten Schritt könnte dann ein zu prüfendes Unternehmen, mittels Klassifikation,
einem Cluster zugewiesen werden (siehe Kapitel 5.5.4.2). Fallen solche Transaktionen als für die
Branche unüblich auf, könnte diesen gezielt nachgegangen werden.
Betrachtet man jedoch den Aufwand und die benötigten IT-Ressourcen (siehe Kapitel 5.3.6.3 und
Kapitel 5.5.6.4) für die Verarbeitung von mehreren Milliarden Datensätzen (siehe Kapitel 3.2), so kann
davon ausgegangen werden, dass eine solche Kombinatorik in Anbetracht der Wirtschaftlichkeit,
absolut unrealistisch ist.
Fazit: Die Clusteranalyse kann zur Verbesserung der Frauderkennung beitragen,
ist jedoch aufgrund des hohen Aufwandes, als nicht wirtschaftlich zu betrachten.
Seite | 35
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
6
Externe Ergebnisse
Um die Resultate am Schluss dieser Arbeit zu erhärten, wurden Studien gesucht, welche die gleiche
Problematik behandeln. Nachfolgend sollen drei davon vorgestellt werden.
FRAT44
Benfordsches Gesetz
PricewaterhouseCoopers Global Crime Survey 2007
6.1
FRAT44
Das Fraud Risk Assessment Tool (FRAT44) ist eine dreijährige Studie von Stephan Knabe, Dr. Sebastian
Mika, Prof. Dr. Klaus-Robert Müller, Dr. Gunnar Rätsch und Prof. Wienand Schruff welche 2004
vorgestellt wurde. Die Studie befasste sich mit der Beurteilung des Fraud Risikos im Rahmen der
Abschlussprüfung durch maschinelles Lernen. 300 prozessorientierte Indikatoren und 300 Indikatoren
der Jahresabschlussanalyse (Jahresabschlussangaben, finanz- und erfolgswirtschaftliche Kennzahlen)
wurden von Prüfungschecklisten grosser Wirtschaftsprüfungsgesellschaften zusammengetragen.
Anschliessend wurden während drei Jahren Daten zu 115 Fraud- und Nicht-Fraud Fällen aus
Deutschland, Grossbritannien, Frankreich, den Niederlanden und der Schweiz anonymisiert für die
Studie verfügbar gemacht. (Vgl. Knabe u.a. 2004, S. 1060)
„Die verhältnismässig geringe Anzahl von Fällen (115) bei gleichzeitig hoher Zahl der Indikatoren (über
600) hat zur Folge, dass klassische statistische Verfahren nicht zur Anwendung kommen können.
Methoden wie Benford-, Zeitreihen- oder Branchenvergleichslösungen erfordern eine grössere als die
gegebene Grundgesamtheit, um hinreichend sichere Aussagen treffen zu können.“ (Knabe u.a. 2004, S.
1060)
In der Studie wurden verschiedenste Data Mining Verfahren getestet. Als Verfahren, welches die
höchste Genauigkeit, unter Berücksichtigung der wenigen Daten und unterschiedlichen Datenformen
(diskret und kontinuierlich) erreichte, stellte sich eine Klassifizierungsmethode heraus, auch bekannt als
Support Vector Maschine (SVM). Eine SVM kann aufgrund eines Trainingssatzes zwei Klassen (im Fall der
Studie Fraud und Nicht-Fraud) unterscheiden. Mit den vorliegenden Daten und Indikatoren konnten
somit die Unternehmen einem Fraud-Muster oder Nicht-Fraud-Muster zugewiesen werden. 96.5% der
Unternehmen wurden durch die SVM richtig klassifiziert.
In einem zweiten Schritt wurden nebst Konsolidierungen der ersten 600 Indikatoren auf 331, zusätzlich
336 Indikatoren aus der Analyse von Rechnungswesendaten berücksichtigt. Um einen praktikablen
Umfang der Indikatoren zu erreichen, wurde mittels eines Leave-One-Out Prozesses die Anzahl der
Indikatoren gekürzt, jedoch ohne, dass die erreichte Klassifikationsleistung aller Indikatoren drastisch
verringert wurde. Die Berechnung wurde durch ein Servercluster bestehend aus ca. 1000 Computern
durchgeführt und dauerte 13 Tage. Als Resultat wurden nur 44 von den ursprünglich 667 Indikatoren
benötigt, um eine Klassifizierung mit durchschnittlich 95% Sicherheit zu erreichen. Die Top Ten der
Indikatoren nach Klassifikationsleistung ist auf der nächsten Seite aufgelistet, die gesamte Liste mit allen
44 Indikatoren ist im Anhang 12.4 ersichtlich. (Vgl. Knabe u.a. 2004, S. 1063-1064)
Seite | 36
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
No.
Score
Titel der Frage (Indikator)
1
76,90
Ungewöhnliche Geschäftsvorfälle
2
57,60
Rechnungswesenpersonal
3
56,96
Kündigungen wegen doloser Handlungen
4
36,68
Persönliche Ziele der Gesellschafter/Manager
5
29,91
Umstrukturierungen
6
28,50
Kritische Unternehmenssituation
7
26,67
Ungewöhnliche Transaktionen
8
23,13
Wahrheitsgehalt der Angaben
9
21,78
Persönliche Verknüpfungen
10
20,87
Entlegene Niederlassungen
Tabelle 21. Top Ten Indikatoren
Eine interessante Erkenntnis aus der Studie war, dass sich unter den 100 Indikatoren mit der besten
Klassifikationsleistung, kein Indikator aus dem Bereich der Rechnungswesendaten befand. Um diesen
Umstand näher zu untersuchen, wurden zu den 44 Indikatoren mit der besten Klassifizierungsleistung
zusätzlich alle Indikatoren aus dem Bereich des Rechnungswesens berücksichtigt. Als Resultat konnte
eine Verschlechterung der Resultate um 3-4% festgestellt werden. (Vgl. Knabe u.a. 2004, S. 1064)
„Ursache für die geringe Bedeutung von Abschlussdaten für die Fraud-Risiko-Beurteilung ist
wahrscheinlich die Tatsache, dass es ja im Regelfall genau die Rechnungsweseninformationen sind, in
denen die dolosen Handlungen verschleiert werden sollen. Es ist ein vorrangiges Bestreben des Täters,
die Rechnungswesendaten so darzustellen, dass es gerade nicht zu Auffälligkeiten kommt. Natürlich
gelingt dies nicht vollständig und auch nicht jeder Täter ist überhaupt fachlich und organisatorisch in der
Lage, die Abbildung seiner Handlung im Rechnungswesen zu verschleiern.“ (Knabe u.a. 2004, S. 1064)
Im Anschluss wurden die 44 Indikatoren mit der höchsten Klassifizierungsleistung mit den Red Flags
(Fraud Risk Factors) des IDW PS 210, welches auf die internationalen Prüfungsstandards ISA240 und SAS
99 basiert, verglichen. Von den 44 Indikatoren des IDW PS 210, wurden 19 im Bereich der
Bilanzmanipulation und 3 im Bereich der Vermögensschädigung, aufgrund der FRAT44 Erkenntnisse als
statistisch signifikant bestätigt. Ein Ausschnitt dieses Vergleiches ist nachfolgend aufgeführt, die
komplette Auflistung ist im Anhang 12.3 ersichtlich. (Knabe u.a. 2004, S. 1067)
Indikator
Beherrschung des Geschäftsführungsgremiums durch eine oder wenige
Personen…..
…. ohne ein wirksames Überwachungsorgan
Undurchsichtige Organisationsstruktur
Aggressive Ausnutzung von Wahlrechten und Beurteilungsspielräumen durch
die Unternehmensleitung
Fehlende Bereitschaft zur Verbesserung des internen Kontrollsystems
Tabelle 22. Indikatoren für Fraud
Signifikant
Ja
Nein
Nein
Ja
Ja
Seite | 37
Identifikation potentieller Falschdarstellungen von Jahresrechnungen
J
mittels Data Mining
Fabian Vontavon
Dass nur 19 der 44 Indikatoren des IDW PS 210 mit dem FRAT44 Projekt übereinstimmten erklärte man
sich, dass viele der in internationalen Prüfungsstandards aufgezählten Indikatoren theoretisch zwar Sinn
machen, jedoch in der Praxis nicht ohne weiteres beurteilt werden
werden könnten. Jedoch sollten diese
Indikatoren, welche sich als statistisch unrelevant für die Beurteilung des Fraud Risikos erwiesen, nicht
als insgesamt irrelevant betrachtet werden, sondern als Denkanstösse für die Prüfung dienen.
Abschlussergebnis der Studie war, dass sich das Fraud Risiko aufgrund der bereits vorgestellten
Indikatoren Liste und hoch entwickelten mathematischen-statistischen
mathematischen statistischen Methoden zu 95% nachweisen
lässt. (Knabe u.a. 2004, S. 1067-1068)
1067
6.2
Benfordsches Gesetz
chreibt die Häufigkeiten von Zahlen. Der Ursprung dieses Gesetzes liegt im
Das Benfordsche Gesetz beschreibt
Jahre 1881, als der US-Mathematiker
Mathematiker und Astronom Simon Newcomb eine seltsame Entdeckung bei
über Jahrzehnte verwendeten Logarithmentafeln machte. Da es zu dieser Zeit noch keine
Taschenrechner
chenrechner gab, wurde für komplizierte Berechnungen Logarithmentafeln verwendet, welche in
Form eines Buches abgelegt waren. Zahlen welche mit 1 anfingen waren am Anfang und Zahlen mit 9
waren am Schluss des Buches zu finden. Newcomp fiel auf, dass die ersten
er
Seiten weitaus mehr
abgegriffen waren als die hinteren. Dies führte ihn zur Erklärung, dass kleine Zahlen häufiger
vorkommen als grosse. Diese Theorie verlor jedoch an Bedeutung, bis im Jahre 1938 der USUS
Elektroingenieur Frank Benford von einer Analyse
Analys mit über 20‘000 Zahlen-Beobachtungen
Beobachtungen berichtete. In
seiner Untersuchung kam er zum Ergebnis, dass Zahlen aus unterschiedlichsten Untersuchungsgebieten
z.B. Einwohnerzahlen von Städten, stets nach einem festen Vorkommen auftraten. (Vgl. Dambeck 2009)
35
30.1
30
25
20
17.6
Vorkommen in %
15
Trend
12.5
9.7
10
7.9
6.7
5.8
5.1
4.6
7
8
9
5
0
1
2
3
4
5
6
Abbildung 26: Ziffernvorkommen nach dem Benfordschen Gesetz
Seite | 38
Identifikation potentieller Falschdarstellungen von Jahresrechnungen
J
mittels Data Mining
Fabian Vontavon
Professor Mark J. Nigrini von der Southern Methodist University in Texas, adaptierte das Gesetz von
Benford in ein Audit Tool, welches es den Wirtschaftsprüfern ermöglicht, unnatürliche ZahlenZahlen
vorkommen in Journaltransaktionen zu erkennen. Er stellte die Hypothese auf, dass Täter beim
Manipulieren von Transaktionen nicht auf die natürliche Verteilung der Zahlen achten. Durch die
Gegenüberstellung der Erwartungswerte nach Benfords Gesetz und den gemessenen Werten konnte bei
signifikanten Abweichungen auf Fraud hingewiesen werden. (Vgl. Hamberger 2001, S. 497)
6.3
Global Economic Crime Survey 2007
Die von PricewaterhouseCoopers durchgeführte Studie Global Economic Crime Survey 2007 weist unter
anderem auch die Unterschiede in der Wahrnehmung (Abbildung 19) und Realität (Abbildung 20) des
Fraud-Auftretens
Auftretens auf. Als Erklärung für die relativ hohen Annahmen
Annahmen in dem Bereich Buchführungsbetrug
kann laut der Studie der Umstand des hohen Schadens, z.B. Rufschädigung, Aktienpreisschädigung oder
Schädigung der Geschäftbeziehungen, welcher für die Unternehmung eintreten würde, in Betracht
gezogen werden. (Vgl. PricewaterhouseCoopers
ricewaterhouseCoopers LLP, Investigations and Forensic Services 2007, Nestler
u.a., S. 5)
Anlagenveruntreung
Anlagenveruntreung
Buchführungsbetrug
Buchführungsbetrug
Bestechung & Korruption
Bestechung & Korruption
Geldwäscherei
Geldwäscherei
IP Rechtsverletzung
IP Rechtsverletzung
2007
2005
0
10
20
30
40
% Unternehmen
2003
Abbildung 27: Annahmen Fraud Auftreten
50
2007
2005
0
10 20 30 40 50
% Unternehmen
2003
Abbildung 28: Realität Fraud Auftreten
Nach der Studie könnte bei der weiter ansteigenden Anzahl an Fraud
Fraud Fällen die Schlussfolgerung
herangezogen werden, dass sich die in den letzten Jahren implementierten Kontrollen als nicht
einheitlich und effektive Lösung zur Verhinderung und Aufdeckung von Fraud erwiesen haben.
Unternehmen hätten besonders im Bereich der fehlerfreien finanziellen Berichtserstattung viele
Kontrollen eingeführt. Aspekte wie Anlagenveruntreuung oder Bestechung und Korruption würden
durch diese Kontrollen jedoch nicht vollständig abgedeckt und bedürfen einer höheren Aufmerksamkeit.
(Vgl. PricewaterhouseCoopers LLP, Investigations and Forensic Services 2007, Nestler u.a., S. 6)
Seite | 39
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
7
Resultat
Es steht unumstritten fest, dass mit Data Mining Methoden, Wissen aus grossen Datenmengen abgeleitet
werden kann, was schlussendlich zu einem relevanten, wirtschaftlichen Vorteil führen könnte. Die
zentrale Frage im Zusammenhang einer isolierten Betrachtung der finanziellen Transaktionen und der
Erkennung von Fraud ist die, wie viel Wissen zusätzlich aus den Data Mining Methoden gewonnen werden
kann und zu welchem Preis.
Bei den von PricewaterhouseCoopers durchgeführten Datenanalysen kann man davon ausgehen, dass sie
einen maximalen Aufdeckungsgrad von 80% erreichen könnten. Erste Einschränkungen ergeben sich
jedoch bereits aufgrund der Tatsache, dass die bei Jahresabschlussprüfungen durchgeführten
Datenanalysen aufgrund des meist geringen Audit Risikos weniger umfangreich ausfallen, als dies möglich
wäre. Von diesem Aspekt mal abgesehen, stellt sich die Frage, ob Data Mining bei einer maximalen
Ausschöpfung der bestehenden Analysen überhaupt noch einen wesentlichen Anteil zur Frauderkennung
beiträgt. Aufschluss auf diese Frage gibt die FRAT44 Untersuchung und die von PricewaterhouseCoopers
durchgeführte Studie Global Economic Cime Survey 2007. In beiden Studien wurde festgehalten, dass
eine isolierte Betrachtung der finanziellen Transaktionen, sich als nicht einheitliche Lösung für die
Erkennung von Fraud eignet und die intensiven Massnahmen der Unternehmen wie z.B. Kontrollimplementationen in diesem Bereich zu keiner relevanten Reduktion der Betrugsfälle geführt haben. Eine
Ausnahme stellen hier Betrugsfälle dar, welche von Personen durchgeführt werden die nicht in der Lage
sind, ihre Aktivitäten in finanziellen Transaktionen zu verschleiern. Bei einer Aufdeckung solcher
Transaktionen könnte die Clusteranalyse in Kombinatorik mit den bestehenden Analysen einen Mehrwert
liefern, sofern man vom Aufwand zur Datenbereinigung und der benötigten Rechenleistung absieht.
Die hohen Anforderungen an IT-Ressourcen, welche die für eine Untersuchung der interessanteren
Algorithmen benötigt werden, stellten sich als Kernproblem heraus. Bereits bei geringen Datenvolumen
von weniger als 500‘000 Datensätzen, wurden mehrere Tage bis Monate benötigt (falls sie aufgeführt
worden wären). Selbst wenn nur die Datenbestände von einzelnen Unternehmen untersucht würden, so
müssten spätestens für grosse Kunden, welche teilweise über 80 Millionen finanzielle Transaktionen
aufweisen, leistungsfähige IT-Ressourcen beschafft werden, um diese Datenmenge in einer akzeptablen
Zeit verarbeiten zu können.
Zusammenfassend halte ich fest, dass die isolierter Betrachtung von finanziellen Transaktionen:
a) Nur zur Fraud-Aufdeckung beitragen kann, wenn die Täter nicht in der Lage sind ihre Aktivitäten
verschleiern z.B. durch Löschen der Transaktion vor Jahresende.
b) Data-Mining Algorithmen, welche als interessant betrachtet werden können, eine extrem hohe
Rechenleistung voraussetzen.
Dadurch stellt der Einsatz von Data Mining Verfahren unter isolierter Betrachtung von finanziellen
Transaktionen, meiner Meinung nach, keinen ultimativen Mehrwert dar und ist aufgrund der benötigten
Ressourcen, im Vergleich zu den bestehenden Datenanalysen, als nicht wirtschaftlich im Zusammenhang
mit der Jahresabschlussprüfung für PricewaterhouseCoopers zu betrachten.
Seite | 40
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
8
Literatur- und Quellenverzeichnis
[1] Bernhard Hamberger (2001): Zum Umgang mit Massentransaktionen. Verhaltensmuster in
Massentransaktionen automatisiert erkennen. Der Schweizer Treuhändler 05/01
[2] Christopher Westphal (2009): Data mining for intelligence, fraud & criminal detection. Advanced Analytics
& Information Sharing Technologies. Boca Raton (USA): CRC Press
[3] Fachhochschule Nordwestschweiz, Reber Anderas (2009): Unterrichtsunterlagen Modul Data Mining.
Frühjahrssemester 2009.
[4] IAASB (2007): International Standard of Auditing 240: The Auditor´s Responsibility to Consider Fraud in an
Audit of Financial Statements (ISA 240). New York: IAASB Handbook 2007
[5] Holger Dambeck (2009): Mathematisches Gesetz verletzt. Zahlenforscher findet Hinweise auf
Wahlmanipulation in Iran. Spiegel [Online 26.06.2009], www.spiegel.de
[6] Jaiwei Han; Micheline Kamber (2001): Data Mining, Concepts and Techniques. USA: Morgan Kaufmann
Publishers
[7] Peter Zöfel (2004): Statistik für Wirtschaftswissenschaftler. München: Pearson Education
[8] PricewaterhouseCoopers LLP, Investigations and Forensic Services, Claudia Nestler; Steven Skalak; John
Wilkinson; Tony Parton; John Donker; Roger Stanley; Luis Madasi; Mona Breed; Jennifer Johnson; Prof.
Dr. Kai Bussmann; Markus Werle; Oliver Krieg; Dominic Parker (2007): Global Economic Crime Survey
2007
[9] PricewaterhouseCoopers LLP, Forensic Services, John Tracey; Andrew Gordon (2009): Fraud in a
downturn. A review of how fraud and other integrity risks will affect business in 2009
[10] PricewaterhouseCoopers LLP, Forensic Services (2009): Economy in a Downturn: Fraud is booming.
Präsentation: 03.2009
[11] PricewaterhouseCoopers AG, Systems and Process Assurance, Jay McKey (2009): SPA Data Assurance
Results for FY2009. Präsentation: 07.2009
[12] StB Stefan Knabe; Dr. Sebastian Mika; Prof. Dr. Klaus-Robert Müller; Dr. Grunnar Rätsch; Wienand Schruff
(2004): In: Die Wirtschaftsprüfung Heft 19/2004. Zur Beurteilung des Fraud-Risikos im Rahmen der
Abschlussprüfung
[13] SPSS, Pete Chapman; Julian Clinton; Randy Kerber; Thomas Khabaza; Thomas Reinartz; Colin Shearer;
Rüdiger Wirth (2000): CRISP-DM 1.0. Step-by-step data mining guide
[14] Wikipedia (2009): Begriff: Diskretisierung.[Online 05.07.2009], www.wikipedia.org
[15] Wikipedia (2009): Begriff: Transinformation (Mutual Information).[Online 15.07.2009],
www.wikipedia.org
[16] Wikipedia (2009): Begriff: Cohens Kappa.[Online 20.07.2009], www.wikipedia.org
[17] Wikipedia (2009): Begriff: DBSCAN.[Online 20.07.2009], www.wikipedia.org
Seite | 41
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
9
Abbildungsverzeichnis
Abbildung 1. CRISP-DM Model........................................................................................................................2
Abbildung 2. Konditionen für Fraud ................................................................................................................4
Abbildung 3. Datensammlung pro Kunde / Geschäftsjahr .............................................................................6
Abbildung 4. Diskretisierung nach gleicher Breite ........................................................................................12
Abbildung 5. Diskretisierung von Kundentransaktionen nach gleicher Breite .............................................13
Abbildung 6. Diskretisierung nach gleicher Höhe .........................................................................................14
Abbildung 7. Wissensgewinnung durch Datenanalysen ...............................................................................15
Abbildung 8: Datengetriebene und Modellgetriebene Analyse ...................................................................15
Abbildung 9. Datenvisualisierungin Rapid Miner ..........................................................................................16
Abbildung 10. Klassifikation ..........................................................................................................................17
Abbildung 11. Klassifikationsmethoden........................................................................................................18
Abbildung 12. Transinformations Berechnung nach Wahrscheinlichkeit .....................................................19
Abbildung 13. Visualisierung von 5‘000 Datensätzen nach kNN in RapidMiner...........................................21
Abbildung 14. Entwicklung der Durchlaufzeit pro Datensatz .......................................................................23
Abbildung 15. Visualisierung von Clusterzugehörigkeiten in Rapid Miner ...................................................26
Abbildung 16. Clusterarten ...........................................................................................................................27
Abbildung 17. Clustermethoden ...................................................................................................................27
Abbildung 18. Cluster nach Anstellungsgruppen ..........................................................................................28
Abbildung 19. Erfolgreiche Clusterzuordnung ..............................................................................................29
Abbildung 20. Verdächtiges Transaktionsvorkommen .................................................................................29
Abbildung 21. Visualisierung Clustering K-Means in RapidMiner nach WRBTR und USNAM ......................31
Abbildung 22. Visualisierung Clustering EM in RapidMiner nach WRBTR und USNAM ...............................32
Abbildung 23. Visualisierung Clustering DBSCAN in RapidMiner nach WRBTR und USNAM .......................32
Abbildung 24. Visualisierung Clustering DBSCAN in RapidMiner nach WRBTR und CLUSTER......................33
Abbildung 25. Visualisierung Clustering DBSCAN in RapidMiner nach WRBTR und USNAM .......................34
Abbildung 26: Ziffernvorkommen nach dem Benfordschen Gesetz .............................................................38
Abbildung 27: Annahmen Fraud Auftreten...................................................................................................39
Quellen
Abb.
1
2
8
26
Beschreibung
CRISP-DM Model
Konditionen für Fraud
Datengetriebene und Modellgetriebene Analyse
Ziffernvorkommen nach dem Benfordschen Gesetz
Quelle
www.crisp-dm.org
Literatur [9]
Literatur [3]
www.wikipedia.org
Seite | 42
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
10 Tabellenverzeichnis
Tabelle 1. Fraud Top Ten .................................................................................................................................3
Tabelle 2. Beispiel einiger bei PricewaterhouseCoopers durchgeführten Datenanalysen .............................5
Tabelle 3: Entwicklung des Datenvolumens....................................................................................................7
Tabelle 4. Relevante Attribute ........................................................................................................................8
Tabelle 5. Unterschiedliche Datenformate ...................................................................................................10
Tabelle 6. Zielformate und Datentypen ........................................................................................................10
Tabelle 7. Numerische Konvertierung des Attributs SHKZG .........................................................................11
Tabelle 8. Kontengruppen .............................................................................................................................11
Tabelle 9. Datensatz mit Eigenkapitalbuchung .............................................................................................11
Tabelle 10. Relevante Attribute nach Konvertierung....................................................................................12
Tabelle 11. Testdaten mit abhängigen Variablen..........................................................................................17
Tabelle 12. Zu klassifizierende Testdaten .....................................................................................................18
Tabelle 13. Euklidische Entfernung ...............................................................................................................19
Tabelle 14. Konfusionsmatrix von 5‘000 Datensätzen .................................................................................22
Tabelle 15. Konfusionsmatrix von 10‘000 Datensätzen ................................................................................22
Tabelle 16. Geschwindigkeitsmessung Klassifikation....................................................................................23
Tabelle 17. Buchungstransaktionen pro Mitarbeiter pro Tag .......................................................................24
Tabelle 18. Assoziationen (Support und Konfidenz) .....................................................................................25
Tabelle 19. Verdächtige Datensätze..............................................................................................................33
Tabelle 20. Geschwindikeitsmessung Clustering ..........................................................................................35
Tabelle 21. Top Ten Indikatoren....................................................................................................................37
Tabelle 22. Indikatoren für Fraud ..................................................................................................................37
Quellen
Tabelle
1
Top Ten Fraud
Literatur: [10]
Seite | 43
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
11 Authentizitätserklärung
Hiermit erkläre ich, die vorliegende Bachelor Thesis selbstständig, ohne Mithilfe Dritter und unter Benutzung
nur der angegebenen Quellen verfasst zu haben.
Name
Fabian Vontavon
________________________________
Datum
03. September 2009
________________________________
Unterschrift
________________________________
Seite | 44
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
12 Anhang
12.1 SAS99: Fraud Risk Factors: Misstatements Arising from Fraudulent Financial Reporting
Incentives/Pressures
1.Threatened financial stability or
profitability
• High degree of competition or
sales saturation
• High vulnerability to rapid
changes (e.g., technology,
interest rates)
• Declines in customer demand,
business failures in industry
• Operating losses
• Negative cash flows from
operations
• Rapid growth or unusual
profitability
• New accounting, statutory, or
regulatory requirements
2. Excessive pressure on
management to meet
requirements or third party
expectations due to
• Profitability or trend level
expectations
• Need for additional debt or
equity financing
• Marginal ability to meet
exchange listing requirements
• Likely poor financial results on
pending transactions
3. Management or directors’
financial situation threatened by
• Significant financial interests in
company
• Significant portions of
compensation contingent on
results of company
• Personal guarantees of debts of
company
4. Excessive pressure to meet
financial target set up by
directors or management
Opportunities
1. Industry provides opportunities
for
• Related-party transactions
beyond ordinary
• Company can dictate terms or
conditions to suppliers or
customers (may result in
inappropriate transactions)
• Accounts based on significant
estimates
• Significant, unusual or highly
complex transactions
• Significant operations across
international borders with
differing business environments
and cultures
• Significant bank accounts in tax
haven jurisdictions
2. Ineffective monitoring of
management allows
• Domination of management by
a single person or small group
without controls
• Ineffective board of director or
audit committee oversight
3. Complex or unstable
organizational structure
• Difficulty in determining
organization or individuals with
control of company
• Overly complex structure
• High turnover of senior
management, counsel, or board
members
Attitude/Rationalization
Relating to board members,
management, or employees
• Ineffective communications,
implementation, support or
enforcement of ethics
• Nonfinancial management
excessive participation in
selecting accounting principles or
determining estimates
• Known history of violations of
securities or other laws
• Excessive interest in
maintaining or increasing stock
price
• Aggressive or unrealistic
forecasts
• Failure to correct reportable
conditions on a timely basis
• Interest by management of
employing inappropriate means
to minimize earnings for tax
reasons
• Recurring management
attempts to justify marginal or
inappropriate accounting based
on materiality
• Strained relationship with
current or predecessor auditor
Internal control deficient
• Inadequate monitoring of
controls
• High turnover rates or
ineffective accounting, internal
audit or information technology
staff
• Ineffective accounting and
information systems
Seite | 45
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
12.2 SAS99: Fraud Risk Factors: Misstatements Arising from Misappropriation of Assets
Incentives/Pressures
1. Personal financial obligations
2. Adverse relationship between
company and employees
• Known or anticipated layoffs
• Changes in compensation
• Promotions, compensation or
other rewards inconsistent with
expectations
Opportunities
1. Characteristics of assets
• Large amounts of cash on hand
or processed
• Small, high value, or high
demand inventory items
• Easily convertible assets (bearer
bonds, diamonds, computer chips)
• Small marketable fixed assets
2. Inadequate internal control,
including inadequate:
• Segregation of duties
• Job applicant screening of
employees with access to assets
• Recordkeeping for assets
• Authorization or approval of
transactions
• Reconciliation of assets
• Documentation of transaction
s(e.g., credits for merchandise
returns
• Requirements for mandatory
vacations
• Management understanding of
information technology
• Access controls over automated
records
Attitude/Rationalization
Attitude or behavior of those with
access to assets susceptible to
misappropriation
• Disregard for need for
monitoring or reducing risks
• Disregard for internal control
• Behavior indicating displeasure
or dissatisfaction with company or
its treatment of employees
• Changes in behavior or lifestyle
that indicate assets may have
been misappropriated
Seite | 46
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
12.3 FRAT44: Die 44 wichtigsten Indikatoren
No.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
Score
76,90
57,60
56,96
36,68
29,91
28,50
26,67
23,13
21,78
20,87
20,79
16,99
16,38
16,34
16,11
15,72
14,63
14,48
13,50
13,30
12,48
12,31
11,73
11,07
10,59
9,83
9,50
9,05
9,00
8,77
8,37
8,20
7,87
7,87
7,57
7,08
6,92
6,82
6,45
6,40
6,35
6,22
6,15
6,04
Titel der Frage (Indikator)
Ungewöhnliche Geschäftsvorfälle
Rechnungswesenpersonal
Kündigungen wegen doloser Handlungen
Persönliche Ziele der Gesellschafter/Manager
Umstrukturierungen
Kritische Unternehmenssituation
Ungewöhnliche Transaktionen
Wahrheitsgehalt der Angaben
Persönliche Verknüpfungen
Entlegene Niederlassungen
Erlangung von Prüfungsnachweisen
Wissensabfluss
Führungsstil
Besonderheiten, Steuerberater, Rechtsanwalt, Consultant
Handel von Unternehmensteilen
Existenz, Verbreitung, Kontrolle, Anpassung eines Unternehmensleitbildes
Rechtsform
Rechnungsbegleichung (Ausgangsrechnungen)
Niederlassungen / Beteiligungen
Rechnungsbegleichung (Eingangsrechnungen)
Geschäftsvorfälle mit bestimmten Ländern
Bankkonten
Kassenführung und –kontrolle
Handhabung Buchführungsgrundsätze
Anzahl der Mitglieder und Dienstjahre Top-Management
Einstellung zu den Prüfungsergebnissen
Gesamteindruck
Funktionstrennung
Management Overview
Informationsverhalten
Leistungsabhängige Vergütung
Belegerstellung
Dokumentation der Netzwerk- und Anwendungsberechtigungen
Prüfungsergebnisse
Ausschreibungen
Machtkonzentration
Verhaltenskodex für Einkaufsmitarbeiter
Produktänderungen
Zusätzliche Aufträge
Nummerierungen
Verhalten gegenüber Aufsichtsbehörden
Beförderungen
Installationsdatenträger
Alter
Seite | 47
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
12.4 FRAT44: Die 44 wichtigsten Fragen
Indikator
Beherrschung des Geschäftsführungsgremiums durch eine oder wenige
Personen…..
…. ohne ein wirksames Überwachungsorgan
Undurchsichtige Organisationsstruktur
Aggressive Ausnutzung von Wahlrechten und Beurteilungsspielräumen durch
die Unternehmensleitung
Fehlende Bereitschaft zur Verbesserung des internen Kontrollsystems
Fehlende Bereitschaft der Unternehmensleitung, unterjährig bekannt
gewordene Fehler in
der Buchhaltung zeitnah zu korrigieren
Häufiger Personalwechsel in Führungspositionen
Dauerhafte personelle Unterbesetzung der Buchhaltungsabteilung
Häufiger Wechsel der Abschlussprüfer
Schrumpfende, stagnierende oder auch stark expandierende
Geschäftstätigkeit
Unzurechende Kapitalausstattung sowie Abhängigkeit von einzelnen
Kreditgebern
Ungünstige Ergebnisentwicklung
Risikoreiche Ertragsquellen oder steigender Anteil der nicht betrieblichen
Erträge
Notwendigkeit, Gewinnminderungen im operativen Geschäft durch
Sondermaßnahmen zu
kompensieren
Abhängigkeit von wenigen Lieferanten und Kunden
Geschäfte mit wesentlichen Gewinnauswirkungen (besonders gegen
Jahresende)
Komplizierte Geschäfte….
….oder ungewöhnliche Bilanzierung von Geschäften
Geschäft mit nahe stehenden Personen und Unternehmen
Im Verhältnis zur erhaltenen Leistung überhöhte ausgaben mit
Vermittlungsprovisionen und
für Rechts- oder Unternehmensberatung
Mangelhafte Buchungen oder Dokumentationen von Geschäftsvorfällen
Hohe Zahl von Differenzen zwischen den Ergebnissen der Buchführung und
den Bestätigugen Dritter
Schwer prüfbare Buchführungssysteme
Ausweichende oder schwer nachvollziehbare Auskünfte der gesetzlichen
Vertreter zu Anfragen des Abschlussprüfers
Fehlende Bereitschaft der gesetzlichen Vertreter, den vorhergehenden
Abschlussprüfer auf Anforderungen des Abschlussprüfers von der
Verschwiegenheitsverpflichtung zu befreien.
Hohe ergebnisabhängige Vergütungen für Mitarbeiter in leitender Funktion
Unangemessene kurze Zeit zur Erstellung des Abschlusses
Signifikant
Ja
Nein
Nein
Ja
Ja
Ja
Ja
Nein
Nein
Ja
Nein
Nein
Nein
Nein
Nein
Ja
Ja
Ja
Ja
Ja
Ja
Ja
Ja
Ja
Nein
Ja
Nein
Seite | 48
Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining
Fabian Vontavon
Die Unternehmensleitung steht unter starkem Druck, die eigenen (ggf. Bereits
veröffentlichten) Ergeniserwartungen oder die Erwartungen Dritter zu erfüllen
(z.B. Ergebniserwartungen von Analysten oder institutionellen Investoren)
Unzureichende Wirksamkeit der Internen Revision
Fehlende oder veraltete Dokumentation des Aufbaus der Dateien oder der
Programme
Zahlreiche Programmänderungen, die nicht dokumentiert, genehmigt oder
getestet sind
Zahlungen für nicht spezifizierte Dienstleistungen oder Darlehen an Berater,
nahe stehende Personen sowie Mitarbeiter des Unternehmens oder
Behörden sowie an Personen, die dem benannten Personenkreis nahe stehen.
Aussergewöhnliche Einkaufs- oder Verkaufspreise, hohe Provisionen
Aussergewöhnliche Geschäfte mit Unternehmen in Niedrigsteuerländern
Zahlungen an einen Empfänger in einem anderen Land als dem Ursprungsland
von bezogenen Waren oder Dienstleistungen
Nicht autorisierte oder ungenügend dokumentierte Geschäfte
Nachteilige Presseberichterstattung
Nein
Nein
Nein
Nein
Ja
Ja
Ja
Nein
Ja
Nein
Seite | 49
Herunterladen