Fachhochschule Nordwestschweiz Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Bachelorarbeit Autor Eingereicht bei Auftraggeber Datum Fabian Vontavon Prof. Andreas Reber PricewaterhouseCoopers AG 03. September 2009 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon Kontakt Auftraggeberschaft: PwC Cristian Manganiello PricewaterhouseCoopers AG Wirtschaftsprüfung Systems and Process Assurance St. Jakobs-Strasse 25 4002 Basel Telefon E-Mail Web +41 58 792 56 68 [email protected] www.pwc.ch Betreuender Dozent Fachhochschule Nordwestschweiz Prof. Andreas Reber, lic. phil. nat. Fachhochschule Nordwestschweiz Hochschule für Wirtschaft Riggenbachstrasse 16 4600 Olten Telefon E-Mail Web +41 62 286 01 93 [email protected] www.fhnw.ch Author Fabian Vontavon Sonnmatt 4 5070 Frick Telefon E-Mail +41 79 830 03 30 [email protected] Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon Inhalt 1 EINLEITUNG ......................................................................................................................................... 1 1.1 Ziel dieser Arbeit..........................................................................................................................................2 1.2 Vorgehensweise ..........................................................................................................................................2 1.3 Abgrenzung ................................................................................................................................................22 Geschäftsverständnis ....................................................................................................................... 3 2.1 PricewaterhouseCoopers ............................................................................................................................3 2.2 Bekämpfung der Wirtschaftskriminalität ....................................................................................................3 2.2.1 Top Ten der wirtschaftlichen Betrugsfälle ..............................................................................................3 2.2.2 Der Fraud-Triangle Ansatz .......................................................................................................................4 2.3 Datenanalysen zur Minimierung des Audit-Risikos ...................................................................................53 Datenverständnis ............................................................................................................................. 6 3.1 Relevanz.......................................................................................................................................................6 3.2 Datenquantität ............................................................................................................................................6 3.3 Attribute ....................................................................................................................................................84 Datenaufbereitung ........................................................................................................................... 9 4.1 Datenqualität ...............................................................................................................................................9 4.2 Vertraulichkeit .............................................................................................................................................9 4.3 Datenbereinigung ........................................................................................................................................9 4.3.1 Fehlende Werte .....................................................................................................................................10 4.3.2 Einheitliches Datenformat .....................................................................................................................10 4.3.3 Konvertierung nominaler Attribute .......................................................................................................10 4.3.4 Diskretisierung numerischer Attribute ..................................................................................................12 4.3.5 Datenvalidierung ...................................................................................................................................14 4.4 Aufwand ..................................................................................................................................................145 Modellierung ................................................................................................................................. 15 5.1 Data Mining im Vergleich mit Abfrage- und Berichtswerkzeugen ............................................................15 5.2 Data Mining Grundlagen ...........................................................................................................................15 5.3 Klassifikation ..............................................................................................................................................17 5.3.1 Trainingsphase .......................................................................................................................................17 5.3.2 Anwendungsphase ................................................................................................................................18 5.3.3 Klassifikationsmethoden .......................................................................................................................18 5.3.4 K-Nearest Neighbor ............................................................................................................................... 18 5.3.5 Vorhersagekriterien............................................................................................................................... 20 5.3.6 Praxistest ...............................................................................................................................................20 5.3.7 Anwendbarkeit der Klassifikation..........................................................................................................23 5.4 Assoziation.................................................................................................................................................24 5.4.1 Anwendbarkeit der Assoziation.............................................................................................................25 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 5.5 Clusteranalyse (Segmentierung)................................................................................................................26 5.5.1 Unterschied Klassifizierung und Clusteranalyse ....................................................................................26 5.5.2 Clusterarten ...........................................................................................................................................27 5.5.3 Methoden ..............................................................................................................................................27 5.5.4 Unterschiedliche Untersuchungsbereiche ............................................................................................28 5.5.5 Algorithmen ...........................................................................................................................................30 5.5.6 Praxistest ...............................................................................................................................................31 5.5.7 Anwendbarkeit der Clusteranalyse .......................................................................................................35 6 EXTERNE ERGEBNISSE ........................................................................................................................ 36 6.1 FRAT44 .......................................................................................................................................................36 6.2 Benfordsches Gesetz ................................................................................................................................. 38 6.3 Global Economic Crime Survey 2007 .........................................................................................................39 7 RESULTAT .......................................................................................................................................... 40 8 LITERATUR- UND QUELLENVERZEICHNIS ............................................................................................. 41 9 ABBILDUNGSVERZEICHNIS ................................................................................................................. 42 10 TABELLENVERZEICHNIS ...................................................................................................................... 43 11 AUTHENTIZITÄTSERKLÄRUNG ............................................................................................................ 44 12 ANHANG ........................................................................................................................................... 45 12.1 SAS99: Fraud Risk Factors: Misstatements Arising from Fraudulent Financial Reporting ........................45 12.2 SAS99: Fraud Risk Factors: Misstatements Arising from Misappropriation of Assets ..............................46 12.3 FRAT44: Die 44 wichtigsten Indikatoren ...................................................................................................47 12.4 FRAT44: Die 44 wichtigsten Fragen ...........................................................................................................48 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon Management Summary Die Wirtschaftsprüfung von PricewaterhouseCoopers muss nach dem International Standart on Auditing angemessene Prüfungsaktivitäten zur Erkennung von Fehlern oder betrügerischen Aktivitäten durchführen. Dies beinhaltet unter anderem auch die Prüfung von Journaleinträgen. Zur Zeit wird dies mittels Datenanalysen sichergestellt, welche auf vorgängigen Annahmen beruhen wie die Täter vorgehen. Um jedoch ebenfalls betrügerische Aktivitäten zu erkennen, welche unbekannte Indikatoren enthalten, wurde in einem Zeitraum von zwei Monaten untersucht, ob diese Muster mittels Data Mining erkannt werden können. Als Data Mining wird eine Datenanalyseform bezeichnet, welche es ermöglicht Muster, Strukturen oder Abweichungen in sehr grossen Datenvorkommen zu erkennen. Zielsetzung war ebenfalls, dass die Data Mining Methoden mit einem vergleichbaren Aufwand, wie die bestehenden Datenanalysen, durchführbar sind. Die Untersuchung der Data Mining Ansätze wurde in Anlehnung an eine industrie- und werkzeugneutrale Vorgehensweise (CRISP-DM), welche aus sechs Phasen besteht, durchgeführt. In der ersten Phase wurde die Notwendigkeit der Analysen auf Buchungsebene und die Anforderungen an die Data Mining Verfahren eruiert. Als wichtigste Anforderung stellte sich heraus, dass eine Erkennung von betrügerischen Aktivitäten, ohne jegliche Vorahnung wie diese durchgeführt wurde, ermöglicht werden muss. In der zweiten und dritten Phase wurden die vorliegenden Daten von PricewaterhouseCoopers plausibilisiert, das Datenvolumen abgeschätzt und der Aufwand für die Datenaufbereitung untersucht. Nach einer Berechnung betrug das Datenvolumen, welches für die Analysen als relevant betrachtet werden muss, 1.1 TiB für das Geschäftsjahr 08/09. Dies entspricht über zwei Milliarden Transaktionen, welche bei Unternehmensübergreifenden Analysen durch die Data Mining Verfahren verarbeitet werden müssen. Die vierte und fünfte Phase bestand aus einer Untersuchung von verschiedenen Data Mining Methoden. Diese wurden zuerst auf einer theoretischen Basis untersucht und danach mit anonymisierten Kundendaten in einem Data Mining Werkzeug durchgeführt. Dabei stellte sich besonders die Methode der Clusteranalyse und ein Verfahren mit dem Namen DBSCAN als interessant heraus. Die Kernproblematik stellten jedoch die benötigten IT-Ressourcen dar, welche bereits für weniger als eine halbe Million Datensätze benötigt wurden. Nicht durchgeführt wurde die sechste Phase der CRIP-DM Vorgehensweise. Dies hätte einer produktiven Umsetzung entsprochen. Jedoch wurde, um einen Kontrast zu den eigenen Untersuchungen zu erhalten, die externen Studien FRAT44 und die des PricewaterhouseCoopers Global Crime Survey hinzugezogen. Als abschliessendes Resultat der Arbeit stellte sich heraus, dass der Einsatz von Data Mining Verfahren unter isolierter Betrachtung von finanziellen Transaktionen zwar zusätzlichen Komfort für die Aufdeckung von Betrug darstellen könnte, falls die Täter nicht in der Lage sind finanzielle Transaktionen zu verschleiern, jedoch im Gesamtzusammenhang keinen ultimativen Mehrwert neben den bereits durchgeführten Datenanalysen darstellen. Ebenfalls ergab sich aufgrund der benötigten IT-Rechenleistung die Erkenntnis, dass im Vergleich zu den bestehenden Datenanalysen, die Data Mining Verfahren wirtschaftlich nicht durchführbar sind. Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 1 Einleitung Wirtschaftliche Kriminalität ist eines der grössten Probleme welchem sich Unternehmen, aus allen Branchen, aus allen Ländern und allen unterschiedlichen Unternehmensgrössen stellen müssen. In einer der weltweit grössten, durch PricewaterhouseCoopers im Jahr 2007 durchgeführten Studien, stellte sich heraus, dass von 5‘428 Unternehmen aus 40 unterschiedlichen Staaten, über 43 Prozent dieser Unternehmen mindestens einen Fall von wirtschaftlich kriminellen Aktivitäten meldeten. Im Vergleich zu der im Jahr 2005 durchgeführten Studie, entspricht dies einer Verringerung von zwei Prozent. Berücksichtigt man ebenfalls die hohen Investitionen der Unternehmen in Massnahmen gegen Betrug z.B. die Implementation von Kontrollsystemen, wäre hier eher ein massiver Rückgang der Betrugsfälle zu erwarten gewesen. Eine Erklärung für dieses Phänomen ist laut der Studie, die in den letzen Jahren gestiegene Unternehmenstransparenz, die Bereitschaft der Unternehmen Betrug zuzugestehen und letztendlich auch der Umstand, dass durch die Implementation der Kontrollsysteme, Betrugsfälle, welche vorher nicht identifiziert werden konnten, aufgedeckt wurden. Trotz dieses Umstandes sind sich Experten jedoch sicher, dass während der globalen Wirtschaftskrise, die Anzahl der Betrugsfälle noch weiter ansteigen wird. (Vgl. PricewaterhouseCoopers LLP, Investigations and Forensic Services 2007, Nestler u.a., S. 4-6) Eine grosse Verantwortung kommt der Wirtschaftsprüfung zu, welche nach den Vorgaben des International Standards on Auditing angemessene Prüfungsaktivitäten zur Identifizierung von Falschdarstellungen innerhalb von Jahresrechnung durchführen muss. Betrugsfälle umfassen unter anderem auch die Manipulation, beziehungsweise Falscherfassung von Buchungstransaktionen in der Finanzbuchhaltung. Es ist nicht unüblich, dass während eines Geschäftsjahres in einem Unternehmen mehrere Millionen dieser Transaktionen in IT Systemen verarbeitet werden. Der Wirtschaftsprüfung steht somit eine Datenflut entgegen, aus der nur sehr schwer erkennbar ist, ob sich darin manipulierte Transaktionen enthalten. Solche unüberschaubare Datenmengen treten jedoch auch in anderen Branchen auf. Als Beispiel kann hier die so genannte Warenkorbanalyse bei einem Lebensmittelgrosshändler genannt werden. Bei der Warenkorbanalyse geht es darum, Abhängigkeiten zwischen Produkten und Verbrauchergruppen aufzudecken, um somit einen wirtschaftlichen Vorteil erzielen zu können. Nebst den herkömmlichen Einkaufstransaktionen behelfen sich die Grosshändler zusätzlich mit Kundentreuesystemen, welche als positiven Effekt zusätzliche Daten über die Kunden sammeln z.B. ob es sich um einen Mann, eine Frau oder eine Familie handelt. Es kann also untersucht werden, welche Produkte zusammen, von welchen Kundengruppen gekauft werden. Durch eine zusätzliche Charakterisierung dieser Gruppen kann z.B. ein optimales Einkaufscenterlayout entworfen werden. Wenn also im einfachen Beispielsfall bekannt ist, dass Männer im Alter zwischen 20-30 Jahren oft Bier zusammen mit Salzstangen kaufen und bekannt ist, dass diese Zielgruppe nur wenig Zeit zum Einkaufen aufwendet, dann müssten diese zwei Produkte nahe zusammen und auf direktem Weg vom Eingang zur Kasse erreichbar sein, um eine maximale Anzahl an Verkäufen aus dieser Kundengruppe zu ermöglichen. Es existieren also Beispiele, wie aus enormen Datenmengen Wissen gewonnen werden kann und genau hier stellt sich dann die Frage, wie man auch aus Transaktionen der Rechnungslegung Muster, welche auf wirtschaftlicher Kriminalität hindeuten, erkennen kann. Seite | 1 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 1.1 Ziel dieser Arbeit Ziel dieser Arbeit ist es, für die Wirtschaftsprüfung von PricewaterhouseCoopers, Ansätze zu finden, wie mittels Data Mining Methoden, potentielle Falschdarstellungen in Jahresrechnungen aufgrund von Mustern in Buchhaltungstransaktionen, effizient und präzise identifiziert werden können. Die Ansätze sollen den eingeschränkten Informationsgehalt von Buchungsinformationen (ausgehend von SAP Finance Standardinformationen) berücksichtigen. Der nötigen Effizienz von ca. 1-2 Tagen pro Analyse pro Kunde Rechnung getragen werden. Die Möglichkeiten der Kombinatorik zwischen den bestehenden ISA240 Datenanalysen von Pricewaterhousecoopers und den erarbeiteten Data Mining Ansätzen soll untersucht werden. Die Ansätze sollen aufgrund des Standards ISA240 erarbeitet werden. 1.2 Vorgehensweise Die Untersuchung der Aufgabenstellung wird in Anlehnung an den Cross-Industry Standard Process for Data- Mining 1.0 (CRISP-DM) durchgeführt. CRISP-DM ist ein Industrie- und Werkzeugneutrales Data Mining Modell, welches von den europäischen Unternehmen Daimler AG, SPSS, Teradata und Ohra entwickelt wurde. Das CRISP-DM Model besteht aus sechs Phasen, welche zum Teil mehrmals wiederholt werden. (Vgl. SPSS, Chapman u.a. 2000) Abbildung 1. CRISP-DM Model 1.3 Abgrenzung Eine produktive Umsetzung der Data Mining Methoden oder eine entsprechende Werkzeugevaluation wird nicht durchgeführt, da dies den für diese Arbeit zur Verfügung stehenden Umfang sprengen würde. Seite | 2 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 2 Geschäftsverständnis 2.1 PricewaterhouseCoopers PricewaterhouseCoopers (PwC) ist eine der weltweit grössten professionellen Dienstleistungsfirmen. Das Unternehmen beschäftigte im Geschäftsjahr 2008/2009 mehr als 155'000 Mitarbeitende in 150 Ländern. PwC bietet börsenkotierten Unternehmen und Privatgesellschaften ein umfassendes Angebot von Prüfungs- und Beratungsdienstleistungen für internationale und lokal führende Unternehmen, sowie für den öffentlichen Sektor an. Das Dienstleistungsangebot umfasst: Steuer- und Rechtsberatung, Wirtschaftsprüfung und Wirtschaftsberatung. 2.2 Bekämpfung der Wirtschaftskriminalität Die Wirtschaftsprüfung muss nach den Vorgaben des International Standards on Auditing angemessene Prüfungsaktivitäten zur Identifizierung von Unregelmässigkeiten innerhalb von Jahresrechnungen durchführen. Als Unregelmässigkeit versteht man entweder unbeabsichtigte Fehler z.B. durch Rechenfehler oder beabsichtigte Verstösse. Die Wirtschaftsprüfung ist jedoch nicht für die Aufdeckung von Unregelmässigkeiten verantwortlich, welche keinen wesentlichen Einfluss auf die gesamte Jahresrechnung darstellen. (Vgl. IAASB ISA240 2007, S. 217-220) Aufgrund von natürlichen Limitationen kann eine Prüfung der Jahresrechnung keine absolute Sicherheit darüber geben, dass alle wesentlichen Unregelmässigkeiten aufgedeckt wurden. Als natürliche Limitation zählt unter anderem auch die Limitation des internen Kontrollsystems z.B. die Möglichkeit des Managements oder der Geschäftsleitung Kontrollen zu umgehen oder auch das Umgehen von Kontrollen aufgrund von betrügerischen Absprachen. Das Risiko, welches sich aufgrund natürlicher Limitationen ergibt wird auch als Audit Risiko bezeichnet. Eine annehmbare Sicherheit, dass wesentliche Unregelmässigkeiten in der Jahresrechnung aufgedeckt wurden, ist dann erreicht, wenn das Audit Risiko auf ein Minimum reduziert wurde. (Vgl. IAASB ISA240 2007, S. 217-218) Bei Unregelmässigkeiten in der Jahresrechnung aufgrund von Fraud können Manipulationen in der Rechnungslegung mitinvolviert sein z.B. das unauthorisierte Aufzeichnen von Journaleinträgen am Jahres- oder Periodenende oder Anpassungen an Beträgen in der Jahresrechnung ohne gültigen Nachweis in den Journaleinträgen. Daher stellt die Prüfung der Angemessenheit der Journaleinträge des Hauptbuches einen Teil zur Reduktion des Audit Risikos dar. (Vgl. IAASB ISA240 2007, S. 289-290) 2.2.1 Top Ten der wirtschaftlichen Betrugsfälle 1 2 3 4 5 6 7 8 9 10 Bribery & Corruption Revenue Leakage Supply Chain Losses Third Party Fraud Cyber Crime & Data Theft Rogue Traders Fraudulent Borrowing Cartel Fraud Money Laundring Misrepresentation of Financial and Non-Financial Data Tabelle 1. Fraud Top Ten Bestechung und Korruption Unterbewertung des Gewinnes Verluste in der Beschaffungskette Fraud von Dritten Internetkriminalität und Datendiebstahl Schurkenhändler Betrügerische Finanzmittelbeschaffung Kartellbetrug Geldwäscherei Falschdarstellung von finanziellen und nicht-finanziellen Daten Seite | 3 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 2.2.2 Der Fraud-Triangle Ansatz Der Fraud-Triangle Ansatz, welcher von Dr. D. Cressey entwickelt wurde, beschreibt drei Konditionen welche häufig gleichzeitig in wirtschaftlichen Betrugsfällen auftreten. Die erste Kondition ist die, die Möglichkeit Fraud zu begehen. Dies kann entweder durch Kontrolllücken oder die Abwesenheit von Kontrollen der Fall sein, wobei im letzteren Fall zu Zeiten der globalen Wirtschaftskrise und den damit verbunden Personalabbau eine besondere Bedeutung zukommt. (Vgl. PricewaterhouseCoopers LLP, Forensic Services, Tracey u.a. 2009, S. 5-6) Die zweite Kondition ist die, ein Motiv aufgrund eines persönlichen Nutzens oder durch auferlegten Druck zu haben. Oft wird hier von einem persönlichen finanziellen Nutzen ausgegangen. Die Realität ist jedoch einiges komplexer und nebst dem persönlichen, finanziellen Nutzen findet sich als Motiv häufig auch der Druck nach Anerkennung innerhalb der Organisation. (Vgl. PricewaterhouseCoopers LLP, Forensic Services, Tracey u.a 2009, S. 6) Die dritte Kondition ist die der Rationalisierung. Der Täter muss die betrügerischen Handlungen entweder kulturell oder charakterlich rechtfertigen können. „Es gibt Individuen, die charakterlich eher bereit sind, wissentlich und gewollt betrügerische Handlungen zu begehen. Aber auch ehrliche Menschen werden unter starken Druck in die Lage versetzt, betrügerisches Handeln zu akzeptieren.“ (Knabe u.a. 2004, S. 1058) Ein Rationalisierungsgedanke eines Täters könnte beispielsweise so aussehen: „Wenn die Manager der Grossbanken während der Wirtschaftskrise weiterhin ihre Millionen an Bonus erhalten, dann kann ich wohl auch ein wenig profitieren.“ (Vgl. PricewaterhouseCoopers LLP, Forensic Services, Tracey u.a 2009, S. 6) Fraud Abbildung 2. Konditionen für Fraud „Gemäss dem Modell des Fraud Triangel ist das Fraud-Risiko gering, wenn einer der oben genannten drei Faktoren nicht gegeben ist. Wenn z.B. die Wahrscheinlichkeit der Existenz von Möglichkeiten für Fraud gering ist, dann ist auch das Fraud-Risiko insgesamt gering.“ (Knabe u.a. 2004, S. 1059) Seite | 4 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 2.3 Datenanalysen zur Minimierung des Audit-Risikos Je nach Beurteilung des Fraud-Risikos durch die Wirtschaftsprüfung und unter Berücksichtigung der International Standards on Auditing, führen spezialisierte Teams bei PricewaterhouseCoopers mehr oder weniger umfangreiche Finanzdatenanalysen durch. Diese Analysen beruhen auf vorgängigen Annahmen, wie Betrugsfälle auf Transaktionsebene durchgeführt werden könnten. Mit dieser Vorgehensweise wurde ein effizienter Ansatz für die breite und komplexe Kundenlandschaft von PricewaterhouseCoopers gefunden. Analyse Beschreibung User Analysis Summe der Buchungsbeträge pro Person Post-Close Entires Buchungen nach Periodenabschluss Unusual Times Buchungen weit ausserhalb der üblichen Geschäftszeiten ID Dup / Gap Analysis Buchungssequenzen mit fehlenden Identifikationsnummern Stratification Analytics Stratifizierung der Buchungsbeträge Tabelle 2. Beispiel einiger bei PricewaterhouseCoopers durchgeführten Datenanalysen Die Resultate dieser Datenanalysen werden durch die Wirtschaftsprüfung in einen Kontext zu den regulären Prüfungshandlungen gebracht, um gegebenenfalls betrügerische Aktivitäten zu erkennen. Während ein Teil dieser Ergebnisse eindeutige Beurteilungen ohne Rückschlüsse zulassen, können die Resultate anderer Analysen z.B. Buchungen nach Periodenabschluss, in der Anzahl sehr umfangreich sein und müssen nochmals eingegrenzt werden, damit sie im Rahmen der Jahresabschlussprüfung in praktikabler Zeit durchführbar sind. Solche Eingrenzungen enthalten beispielsweise nur eine Auflistung der 50 Buchungen nach Periodenabschluss, welche den höchsten Buchungswert aufweisen. Dadurch könnten Transaktionen, welche Fraud-Charakteristiken aufweisen, nicht in die zu untersuchende Menge miteinbezogen werden z.B. viele Transaktionen mit kleinen Buchungswerten. Da jedoch pro Datenanalysenprojekt immer mehrere Auswertungen durchgeführt werden, welche sich im Kontext für die Wirtschaftsprüfung ergänzen, ist dieses Risiko als eher gering einzuschätzen. Zusätzlich muss ebenfalls berücksichtigt werden, dass durch die im Beispielsfall erwähnten 50 wertmässig höchsten Buchungen, auch die Buchungen, welche die grössten finanziellen Auswirkungen in der Jahresrechnung darstellen würden, abgedeckt sind. In diesem Zusammenhang und wie in Kapitel 3.2 erwähnt, müssen nur Unregelmässigkeiten durch die Wirtschaftsprüfung aufgedeckt werden, welche einen wesentlichen Einfluss auf die Jahresrechnung haben. Das Ausmass dieser Wesentlichkeit wird durch die Wirtschaftsprüfung kundenspezifisch bestimmt und kann Werte von wenigen Tausend bis mehreren Millionen Franken aufweisen. Bestehen Differenzen, welche diese Wesentlichkeit überschreiten, so ist die Jahresrechnung abzulehnen. Im Gegensatz zum nicht Berücksichtigen von Transaktionen mit eher tiefem Buchwert, gehen die für die Datenanalysen spezialisierten Teams von PricewaterhouseCoopers von einem weitaus höheren Risiko aus, welches durch die Nicht-Erkennung von manipulierten Buchungen aufgrund unbekannten betrügerischen Indikatoren oder Mustern besteht. Daher sollen durch diese Arbeit insbesondere Ansätze für Erkennungsmethoden berücksichtigt werden, welche nicht auf vorgängige Annahmen basieren. Seite | 5 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 3 3.1 Datenverständnis Relevanz Die meisten Kunden von PricewaterhouseCoopers setzen SAP Finance für die Buchführung ein. Pro Kunde, bei welchem bereits eine Datenanalyse durchgeführt wurde, besteht eine Datensammlung mit jeweils allen Transaktionen eines Geschäftsjahres (teilweise auch nur von einzelnen Buchungsperioden). Relevant sind jedoch nur manuell erfasste Transaktionen, welche zur Beurteilung der zu prüfenden Jahresabschlussrechnung dienen. Als manuelle Transaktionen gelten durch einen Anwender direkt im System eingebuchte Belege, automatische Transaktionen hingegen werden durch das System selbst erstellt z.B. von Vorsystemen. Transaktionen Automatisch Manuell (relevant) Abbildung 3. Datensammlung pro Kunde / Geschäftsjahr 3.2 Datenquantität Nach Angaben des Datenanalysespezialisten Jay McKey wurden im Geschäftsjahr 2008/2009 in der Schweiz 355 Datenanalysen von PricewaterhouseCoopers durchgeführt. Aufgrund der Entwicklung in den letzten drei Jahren, ist davon auszugehen, dass die Anzahl der Datenanalysen und insbesondere das Datenvolumen in Zukunft weiter steigen wird. (Vgl. PricewaterhouseCoopers LLP, Systems and Process Assurance, McKey 2009) Zur Bestimmung der vorliegenden Datenquantität ist Folgendes zu berücksichtigen: In den Datensammlungen befindet sich ein hoher Anteil nicht relevanter Daten. Die Datensammlungen weisen unterschiedlich viele Attribute auf. Für die Umwandlungen der Datenformate wurden jeweils neue Attribute generiert. Der Komprimierungsgrad der abgespeicherten Datensammlungen ist unterschiedlich. Der Speicherort der Datensammlungen ist dezentral. Eine exakte Bestimmung des relevanten Datenvolumens kann aufgrund dieser Aspekte nur mit einem sehr hohen Aufwand durchgeführt werden, welcher nicht in den durchführbaren Zeitrahmen dieser Arbeit passt. Um jedoch trotzdem ein Bild über die vorliegende relevante Datenmenge zu erhalten, wird versucht, anhand einiger Annahmen und durchschnittlichen Werten aus Stichproben, die Quantität zu bestimmen. Seite | 6 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon Zur Berechnung des Datenvolumens des Geschäftsjahres 08/09 werden folgende Werte verwendet: 33.5 GiB komprimiertes Datenvolumen von 69 Datenanalysen der Geschäftsstelle Basel (Juli 09). 91.4% Komprimierungsgrad der Daten (Durchschnitt von 10 Datensammlungen). 50% des Datenvolumens besteht aus Duplikaten, welche sich aufgrund der im Analysevorgehen generierten zusätzlichen Tabellen mit manuellen und automatischen Transaktionen ergeben. 5% des Datenvolumens besteht aus in den Analysen generierten Resultattabellen (Schätzwert). 1.74 KiB werden für das Abspeichern eines Datensatzes mit 22 Attributen benötigt (Durchschnitt von 10 Datensammlungen). Ableitung zur Bestimmung des relevanten Datenvolumens: 33.5 ∙ ܤ݅ܩ0.55 ∙ 355 = 1102.3 ܤ݅ܩ 0.086 ∙ 69 Ableitung zur Bestimmung der relevanten Transaktionsmenge: 1102.3 ∙ ܤ݅ܩ1024 ∙ 1024 ∙ 1.74 = ܤ݅ܭ2,011 ݀ݎܯ. Das bei PricewaterhouseCoopers in der Schweiz relevante Datenvolumen für das Geschäftsjahr 08/09 könnte sich anhand dieser groben Berechnung auf 1.1 TiB oder 2 Milliarden Transaktionen belaufen. Dies ergibt ein durchschnittliches, relevantes Datenvolumen von 3.1 GiB oder 5.66 Millionen Transaktionen pro Kunde. Diese Erkenntnis ist wichtig für eine spätere Abschätzung der benötigten IT Ressourcen und die damit verbundene Wirtschaftlichkeit, welche für die Verarbeitung dieser Datenmenge zur Verfügung stehen muss. Zur Abschätzung von zukünftigen Datenmengen kann unter der Annahme, dass sich die Anzahl der Transaktionen pro Kunde aufgrund der Wirtschaftskrise nicht rapide erhöht, bei gleichzeitiger Zunahme der Datenanalysenprojekte (40% Jahr 09/10, 20% Jahr 10/11) aufgrund des erhöhten Fraud-Risikos, von folgenden Volumen ausgegangen werden: Geschäftsjahr Anzahl Datenanalysen 06/07 53 07/08 134 08/09 355 09/10 497 10/11 596 Total 1635 Tabelle 3: Entwicklung des Datenvolumens Volumen (TiB) 0.165 0.416 1.102 1.543 1.851 5.077 Datensätze (Mrd.) 0.300 0.759 2.011 2.815 3.376 9.261 Seite | 7 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 3.3 Attribute Um die Möglichkeit offen zu behalten, zu einem späteren Zeitpunkt auch Daten von anderen Buchführungssystemen ausser SAP zu berücksichtigen, müssen in einem ersten Schritt SAP spezifische Attribute eliminiert werden. In einem zweiten Schritt muss geprüft werden, ob die Daten aufgrund von unterschiedlichen Systemen zur Informationsgewinnung überhaupt verwendbar sind. Schlussendlich muss unterschieden werden können, welche Attribute für die Einbeziehung in die Data Mining Modelle verwendet werden und welche nur der Datenvorbereitung dienen. Die Datengesamtheit für die Data Mining Methoden besteht also aus Attributen, welche: - Eine breite und sinnvolle Abdeckung in allen Buchführungssystemen aufweisen - Keine systembedingten Daten aufweisen - Nicht der Datenvorbereitung dienen Nr SAP Feldname Bedeutung 1 BUKRS Buchungskreis 2 BELNR Belegnummer 3 GJAHR Geschäftsjahr 4 BLART Belegart 5 BUDAT Buchungsdatum 6 MONAT Periode 7 CPUDT Erfassungsdatum 8 CPUTM Erfassungszeit 9 USNAM Benutzername 10 TCODE Transaktionsnummer 11 WAERS Währung 12 BKTXT Buchungskopftext 13 BSTAT Belegstatus 14 GRPID Name des Batchinputs 15 BUZEI Buchungszeile 16 BSCHL Buchungsschlüssel 17 SHKZG Soll / Haben Zuweisung 18 WRBTR Betrag 19 PSWBT Hauptbuchbetrag 20 HKONT Hauptbuchkonto 20 HKONT Hauptbuchkonto 21 DMBTR Lokaler Betrag 22 SGTXT Buchungszeilentext Tabelle 4. Relevante Attribute SAP spezifisch SystemDatenAttribute Daten vorbereitung Nein Ja Nein Nein Ja Ja Nein Nein Ja Ja Ja Ja Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Nein Ja Nein Ja Nein Nein Ja Ja Nein Ja Ja Nein Nein Ja Nein Ja Ja Nein Ja Ja Nein Nein Nein Nein Nein Nein Nein Ja Ja Nein Nein Ja Ja Nein Ja Ja Ja Ja Nein Nein Ja Nein Für die zu untersuchenden Data Mining Methoden kommen sieben Attribute in Frage (in Tabelle 4, grün markiert). Zusätzlich werden zur Datenvorbereitung (in Tabelle 4, blau markiert) fünf Attribute benötigt. Im Fall von SAP sind dies, das Attribut GJAHR für die Selektion des zu untersuchenden Geschäftsjahres, BLART für Identifikation von manuellen Buchungseinträgen sowie BELNR, BUZEI und HKONT zur Überprüfung der Datenvollständigkeit. Seite | 8 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 4 Datenaufbereitung Es kann davon ausgegangen werden, dass 70% - 80% des Aufwandes, welcher für die Durchführung einer Data Mining Methode benötigt wird, in der Datenaufbereitung anfällt. (Vgl. Reber 2009, Kapitel 12, S. 2) 4.1 Datenqualität Die Datenqualität hat einen enormen Einfluss auf die Durchführbarkeit der Analysen, den Aufwand für die Datenvorbereitung sowie schlussendlich auf die Verwendbarkeit und Genauigkeit der Ergebnisse. PricewaterhouseCoopers wendet bei allen Datenanalysenprojekte mehrere Verfahren an, um die Genauigkeit, Validität und Vollständigkeit der Daten sicherzustellen. Im Gegensatz zu Datenaquisitationen müssen diese Verfahren bei den vorliegenden Datenmengen nicht wiederholt werden. Allerdings ergaben sich in einigen der Datenanalyseprojekten Differenzen in Bezug auf die Vollständigkeit im Vergleich mit den Quellsystemen. Diese Differenzen wurden mittels Nachforschungen dokumentiert und führten bei nicht Verwendbarkeit der Daten zu einer erneuten Anforderung der Kundendaten oder zu einer Einschränkung der Aussagefähigkeit der Resultate. Bei einem Zusammenzug aller Datensammlungen müsste dieser Umstand berücksichtigt werden und die Vollständigkeit und damit Verwendbarkeit für die Data Mining Methoden, durch die erstellte Dokumentation nochmals geprüft werden. Ein standardisiertes Verfahren für die Aufbewahrung und Dokumentation der Datensammlungen, würde diesen Aufwand bei zukünftigen Datenzusammenzügen minimieren. 4.2 Vertraulichkeit Die Vertraulichkeit der Kundendaten muss in jedem Fall durch PricewaterhouseCoopers gewährleistet werden. Dazu gehören auch die Daten des Rechnungswesen. Damit bei dem Datenzusammenzug keine Rückschlüsse auf Unternehmen oder Personen durch unauthorisierte Angestellte möglich sind, müssen Daten, welche solche Rückschlüsse zulassen würden, anonymisiert werden. Das Attribut USNAM (Benutzername) enthält Hinweise, welche zur Identifikation einer Personen führen könnten. Aus diesem Grund wurde im Sinne dieser Arbeit, jede Person in eine Zahl umgewandelt (Zielformat P00000 -> Erste Person = P00001). Damit bei späteren Unternehmensübergreifenden Analysen keine Personenduplikate auftreten, soll die Nummerierung zu jeder neuen Datensammlung fortlaufend sein. Die Diskretisierung der Daten (siehe Kapitel 5.3.3) trägt ebenfalls einen Teil zur Datenanonymisierung bei, indem numerische Attribute wie z.B. der genaue Buchungsbetrag nicht mehr ersichtlich sind. 4.3 Datenbereinigung Folgende Aspekte zur Datenbeschaffung und Datenbereinigung sind zu berücksichtigen (Reber 2009, Kapitel 12, S. 3): Fehlende Werte Einheitliches Datenformat Konvertierung nominaler zu numerischen Attributen Diskretisierung numerischer Attribute Datenvalidierung Seite | 9 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 4.3.1 Fehlende Werte Fehlende Werte, wie z.B. der Betrag CHF 0.00 (kein Einfluss auf Jahresrechnung) oder ein fehlendes Buchungsdatum in einer Transaktion sollten bei den vorliegenden, relevanten Daten aufgrund der Tatsache, dass Buchführungssysteme über Eingabekontrollen verfügen, nicht vorkommen. Datensätze mit fehlenden Werten sind Untersuchungsgegenstand der bereits von PricewaterhouseCoopers durchgeführten Datenanalysen und sollen für die Data Mining Methoden nicht berücksichtigt werden. 4.3.2 Einheitliches Datenformat Bei den meisten vorliegenden Datensammlungen existiert kein einheitliches Datenformat. Um Data Mining Methoden unter Berücksichtigung von mehreren Datensammlungen überhaupt durchführen zu können, müssen alle Daten in ein vordefiniertes Format gebracht werden. Zusätzlich muss sichergestellt werden, dass bei neuen Datenanalyseprojekten ein einheitliches Datenformat eingehalten wird, damit der Aufwand für zukünftige Datenzusammenzüge mit weniger Aufwand durchgeführt werden kann. Die Möglichkeiten zur unterschiedlichen Datendarstellung sind gross, einige Beispiele dafür sind in Tabelle 5 ersichtlich. Attribut Interpretation Format 1 Datum 23. Januar 2009 23-01-2009 Zeit 19:30 Uhr 19:30 Betrag 2000 CHF 2000.00 Tabelle 5. Unterschiedliche Datenformate Format 2 Format 3 Format 4 23012009 1930 2‘000.00 20092301 19:30:00 2.000,00 01/23/2009 193000 2‘000 Bei den vorliegenden Attributen wurden zur Untersuchung möglicher Data Mining Ansätzen folgende, in Tabelle 6 dargestellte, Zielformate verwendet. In Anbetracht der folgenden Datenaufbereitungsschritte, soll ebenfalls der Datentyp definiert werden. Nr SAP Bedeutung Feldname 1 BUDAT Buchungsdatum 2 CPUDT Erfassungsdatum 3 CPUTM Erfassungszeit 4 USNAM Benutzername 5 SHKZG Soll / Haben Zuweisung 6 WRBTR Betrag 7 HKONT Hauptbuchkonto Tabelle 6. Zielformate und Datentypen 4.3.3 Zielformat Datentyp TTMMJJJJ TTMMJJJJ HHMM 00000 0 ############0.00 0 Numerisch Numerisch Numerisch Nominal Nominal Numerisch Nominal Konvertierung nominaler Attribute Zwar können einige Data Mining Methoden nominale Werte verarbeiten, um jedoch keine Einschränkungen in einer späteren technischen Untersuchung und der möglichen Methoden zu haben, sollen alle nominalen Werte in numerische Werte konvertiert werden. Ebenfalls sollen bei mehrwertigen nominalen Attributen, für jeden möglichen Wert ein binäres Attribut erstellt werden. (Vgl. Reber 2009, Kapitel 12, S. 12) Seite | 10 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon Bei dem Benutzernamen und der verbundenen Anonymisierung, kann wie in Kapitel 5.2 beschrieben, vorgegangen werden. Für das Attribut SHKZG soll jeweils für Soll (S) der Wert 1 gelten und für Haben (H) der Wert 0. SAP Feldname Bezeichnung Wert bei “S“ SHKZG Soll / Haben Zuweisung Tabelle 7. Numerische Konvertierung des Attributs SHKZG Wert bei “H“ 1 0 Beim Attribut HKONT ist darauf zu achten, dass die ursprünglichen Kontennummern bereits in die nominalen Kontengruppen, Umlaufvermögen, Anlagevermögen, Fremdkapital, Eigenkapital, Ertrag und Aufwand aufgeteilt wurden. Diese Gruppierungen sollten bei der Durchführung der bestehenden Datenanalyseprojekten bereits durchgeführt worden sein. Für neue Datenaquisitationen müsste die Kontenzuteilung erneut anhand eines Kontenplans gemacht werden. SAP Feldname HKONT Bezeichnung Hauptbuchkonto Werte (nach Kontengruppierung) Umlaufvermögen (UV) Anlagevermögen (AV) Fremdkapital (FK) Eigenkapital (EK) Ertrag (E) Aufwand (A) Tabelle 8. Kontengruppen Durch die Aufsplittung der möglichen Werte des Attributs HKONT entstehen somit sechs neue Attribute mit binären Werten. Als Attributnamen soll jeweils der ursprüngliche Attributname zusammen mit einer Kurzform des Wertenamens verwendet werden (HKONT + Umlaufvermögen = HKONTUV). Im Beispiel einer Transaktion mit Einfluss auf das Eigenkapital würde der Datensatz folgendermassen aussehen: # HKONTUV HKONTAV HKONTFK 1 0 0 Tabelle 9. Datensatz mit Eigenkapitalbuchung 0 HKONTEK HKONTE HKONTA 1 0 0 Die Attribute Buchungsdatum, Erfassungsdatum und Buchungszeit sind bereits numerisch vorhanden, enthalten jedoch pro Wert mehrere Informationen (Tag, Monat, Jahr). Um die Verarbeitung in den späteren Data Mining Methoden zu beschleunigen, sollen pro Teilwert neue Attribute erstellt werden. Dies ergibt zusätzlich drei neue Attribute für das Buchungs- und Erfassungsdatum, sowie zwei neue Attribute für die Erfassungszeit. Für die Namensvergebung der neuen Attribute soll der ursprüngliche Attributsname zusammen mit der Kurzform des Teilwertes verwendet werden z.B. Erfassungsmonat = CPUDT + M (Monat). Seite | 11 Identifikation potentieller Falschdarstellungen von Jahresrechnungen J mittels Data Mining Fabian Vontavon Unter Berücksichtigung aller Konvertierungen ergeben sie hiermit folgende Attribute: Nr Attribut Bedeutung 1 BUDATT Buchungstag 2 BUDATM Buchungsmonat 3 BUDATJ Buchungsjahr 4 CPUDTT Erfassungstag 5 CPUDTM Erfassungsmonat 6 CPUDTJ Erfassungsjahr 7 CPUTMH Erfassungsstunde 8 CPUTMM Erfassungsminute 9 USNAM Benutzername 10 SHKZG Soll / Haben Zuweisung 11 WRBTR Betrag 12 HKONTUV Konto: Umlaufvermögen 13 HKONTAV Konto: Anlagevermögen 14 HKONTFK Konto: Fremdkapital 15 HKONTEK Konto: Eigenkapital 16 HKONTE Konto: Ertrag 17 HKONTA Konto: Aufwand Tabelle 10. Relevante Attribute nach Konvertierung Diskretisierung numerischer Attribute Nebst der bereits erwähnten Konvertierung der Attribute, ist es für einige Data Mining Methoden notwendig, numerische Attribute zusätzlich zu diskretisieren. Unter der Diskretisierung versteht man die Gewinnung einer diskreten Teilmenge aus einer kontinuierlichen Informationsmenge. Ziel der Diskretisierung ist es diese Teilmenge in endlicher Zeit und unter Berücksichtigung von endlichen Ressourcen en bearbeiten zu können. Allerdings hat die Diskretisierung auch den Nachteil, dass einige Informationen verloren gehen. (Vgl. Wikipedia 2009: Diskretisierung) Numerische Werte können nach gleicher Breite oder gleicher Höhe diskretisiert werden. Diskretisierung nach gleicher Breite bedeutet, dass kontinuierliche Datenmengen in Intervalle (Bins) gleicher Breite, wie in Abbildung 4 dargestellt, eingeteilt werden. (Vgl. Vgl. Reber 2009, Kapitel 12, S. 15) Anzahl Journaleinträge 4.3.4 Datentyp Numerisch Numerisch Numerisch Numerisch Numerisch Numerisch Numerisch Numerisch Numerisch Numerisch Numerisch Binär Binär Binär Binär Binär Binär 140000 120000 100000 80000 60000 40000 20000 0 0-200 200-400 400-600 600-800 800-1000 Betrag in TCHF Abbildung 4. Diskretisierung nach gleicher Breite Seite | 12 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon Wie im Beispiel auf Abbildung 4 zu erkennen ist, kann eine Diskretisierung nach gleicher Breite zu einer Häufung führen, welche die Interpretation späterer Data Mining Resultate stark beeinträchtigt bis verunmöglicht. Es ist zu erwarten, dass sich ebenfalls vergleichbare Häufungen beim Attribut Betrag, bei den vorliegenden Daten von PricewaterhouseCoopers oder generell bei finanziellen Transaktionen, befinden. Eine Endgültige Beurteilung ist zwar erst möglich, wenn die gesamte Datenmenge zur Verfügung steht, jedoch wurde im Sinne dieser Arbeit eine Stichprobe von fünf Unternehmen aus unterschiedlichen Branchen erhoben, um erste Tendenzen zu erkennen. Folgende Parameter wurden verwendet: Anzahl Intervalle: 21 Attribut: WRBTR (Buchungsbetrag) Daten: Absolute Zahlen Betragsspektrum: 0 - 10‘000‘000 CHF Die Stichprobe der fünf Unternehmen enthielt 4.8 Millionen Transaktionen. Buchungen von 0-499‘000 CHF traten mit einer Häufung von 99.76% auf, bei den restlichen 0.24% handelt es sich um 11‘499 Transaktionen, welche über diesem Betrag liegen. Um die Verteilung auf die restlichen Intervalle trotzdem sichtbar zu machen, wurde in Abbildung 5 eine logarithmische Skala für die Anzahl Transaktionen verwendet. Der Versuch, Werte über 500 TCHF auszuschliessen funktioniert deshalb nicht, weil sie aufgrund ihres hohen Betrages einen wesentlichen Anteil an der Gesamtsumme darstellen. Selbst durch massive Erhöhung der Anzahl Intervalle, erweist sich eine Diskretiserung nach gleicher Breite, als nicht verwendbar und kann so bei den vorliegenden Daten nicht durchgeführt werden. Abbildung 5. Diskretisierung von Kundentransaktionen nach gleicher Breite Seite | 13 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon Aus den gewonnenen Erkenntnissen kann nur eine Diskretisierung nach gleicher Höhe auf die vorliegenden Datensammlungen angewendet werden. Der Vorteil bei der Diskretisierung nach gleicher Höhe ist, dass Intervallgrenzen, wie in Abbildung sechs dargestellt, intuitiv gebildet werden. Es kann vorkommen, dass das letzte Intervall nicht exakt die genaue Höhe der anderen Intervalle hat, da es die verbleibenden Werte beinhaltet. (Vgl. Reber 2009, Kapitel 12, S. 17) Abbildung 6. Diskretisierung nach gleicher Höhe 4.3.5 Datenvalidierung Nach erfolgreicher Diskretisierung müssen die Daten nochmals validiert und plausibilisiert werden z.B. durch die Eliminierung von Ausreissern oder die Überprüfung, dass gleiche Werte nicht in unterschiedliche Intervalle diskretisiert wurden. Als Ausreisser werden Werte bezeichnet, welche weit ausserhalb von vergleichbaren Werten liegen und somit die Resultate verfälschen können. (Vgl. Reber 2009, Kapitel 12, S. 18-20) Da wie bereits in Kapitel 5.3.4 erwähnt, solche Ausreisser, im Falle des Attributs Betrag, schlussendlich einen wesentlichen Einfluss in der Jahresabschlussrechnung darstellen können, müssen alle Werte dieses Attributs berücksichtigt werden. Eine Eliminierung von Ausreissern soll daher nicht durchgeführt werden. Jedoch sollen die Datenformate wie auch Intervalleinteilungen mittels Stichproben nochmals überprüft werden, bevor die Datengesamtheit für die Data Mining Methoden freigegeben wird. 4.4 Aufwand Die bereits beschriebenen und teilweise umfangreichen Prozeduren zur Datenaufbereitung geben einen ersten Eindruck über den hohen Aufwand zur Verarbeitung von über zwei Milliarden Transaktionen pro Jahr. Fraglich ist aufgrund der noch nicht untersuchten Data Mining Methoden, ob jeweils die Daten vom aktuellen Jahr mit den Daten vom Vorjahr verglichen werden, oder ob es sinnvoller wäre, alle historischen Daten in die Methoden miteinzubeziehen oder, ob sogar zusätzliche globale Daten von PricewaterhouseCoopers notewendig sind. Ebenfalls ist noch nicht bekannt, ob alle DatenbereinigungsAspekte für die Beste Methode berücksichtigt werden müssen. Die Abschätzung des Aufwandes soll daher nach der Untersuchung von möglichen Data Mining Methoden nochmals untersucht werden. Seite | 14 Identifikation potentieller Falschdarstellungen von Jahresrechnungen J mittels Data Mining Fabian Vontavon 5 5.1 Modellierung Data Mining im Vergleich mit AbfrageAbfrage und Berichtswerkzeugen Das Ziel bei allen Datenanalysen ist das Aufdecken der in Daten enthaltenen Informationen zur Wissensgewinnung. Es kann davon ausgegangen werden, dass 80% des Wissens aus AbfrageAbfrage und Berichtswerkzeugen gewonnen werden kann und 20% durch durch Data Mining Methoden. (Vgl. Reber 2009, Kapitel 1, S. 17) 20% Abfrage- und Berichtswerkzeuge Data Mining 80% Abbildung 7. Wissensgewinnung durch Datenanalysen Als Abfrage- und Berichtswerkzeuge sind auch die Datenanalysen zu verstehen, welche zurzeit für die Untersuchung der Buchungseinträge bei Jahresabschlussprüfungen durch PricewaterhouseCoopers durchgeführt werden. Falls alle zur Verfügung stehenden Datenanalysen durchgeführt werden, kann hier ebenfalls von einer sehr hohen Wissensgewinnung ausgegangen werden. Mit der Ergänzung entsprechender Data Mining Methoden könnte somit ein Maximum an Wissen aus den vorliegenden Daten gewonnen werden und somit Fraud präzise erkannt werden. 5.2 Data Mining Grundlagen Unter Data Mining versteht man die Erkennung von Mustern, Strukturen oder Abweichungen in sehr se grossen Datenvorkommen. Dies bedeutet jedoch noch nicht, dass diese interessant oder frei von Fehlern sind. Bei Data Mining werden zwei Vorgehensweisen unterschieden, die datengetriebene und modellgetriebene Analyse. Bei der datengetriebenen Analyse besteht besteht der Ausgangspunkt aus den Daten, aus welchen Muster erkennt werden sollen. Bei der modelgetriebenen Analyse besteht der Ausgangspunkt aus einer Hypothese, welche durch die Daten bestätigt werden soll. (Vgl. Reber 2009, Kapitel 1, S. 6-13) Datengetriebene Analyse Muster x Muster y Muster z Daten Modellgetriebene Analyse Hypothese Daten Abbildung 8: Datengetriebene und Modellgetriebene Analyse Seite | 15 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon Für die Aufstellung einer Hypothese können die Daten in einem ersten Schritt visualisiert werden. Die Darstellung erfolgt in Diagrammklassen wie z.B. Flächen- oder Streudiagramme. Als frei erfundenes Beispiel könnte die Datenvisualisierung wie in Abbildung 4 aussehen. Dimensionen für die Z-Achse sind das Alter, als Y-Achse das Einkommen und als X-Achse die Anzahl erfasster Journaleinträge. Die Werte stellen Buchhaltungsangestellte, nach Anstellungsdauer (rot, grün und blau), dar. Aus der Visualisierung könnte man nun die Hypothese ableiten, dass Angestellte welche seit weniger als drei Jahren bei der Unternehmung arbeiten eher jung sind, ein mittleres Einkommen haben und eine geringe Anzahl Journaleinträge erfassen. Diese Hypothese müsste dann mittels Stichproben überprüft werden. Anstellungsdauer: 5-10 Jahre 3-5 Jahre 0-3 Jahre X-Achse: Alter Y-Achse: Anzahl erfasste Journaleinträge Z-Achse: Einkommen Abbildung 9. Datenvisualisierungin Rapid Miner Je nach Problemstellung können unterschiedliche Data Mining Verfahren angewendet werden. Die wichtigsten sind nachfolgend aufgelistet und sollen nach Anwendbarkeit auf die vorliegenden Daten von PricewaterhouseCoopers untersucht werden: Klassifikation – Einteilung von Datensätzen in vordefinierte Klassen Assoziation – Erkennung von einer oder mehrere Beziehungen zwischen den Daten Clusteranalyse (Segmentierung) – Ermittlung von Gruppen mit ähnlichen Eigenschaften Seite | 16 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 5.3 Klassifikation Bei der Klassifikation werden bestimmte Datensätze durch bekannte Regeln in Klassen eingeteilt z.B. Fraud und Nicht-Fraud. Die Zuteilung erfolgt aufgrund eines Klassifikators welcher die Regeln für die Klassenzuordnung kennt. Um einen solchen Klassifikator zu entwickeln, bedarf es umfangreichem Wissen, welches in der Klassifikation mittels Daten mit abhängigen Variablen (siehe Kapitel 6.3.1) in der Trainingsphase gewonnen wird. (Vgl. Reber 2009, Kapitel 4, S. 2-3) Trainingsphase Anwendungsphase TestDaten Daten Lernen KlassenDefinition (Modell) Klassifizieren Klassenzuteilung Abbildung 10. Klassifikation 5.3.1 Trainingsphase Klassifikationsverfahren benötigen Trainingsdaten mit abhängigen Variabeln. Abhängige Variablen stellen die Wirkung von unabhängigen Variablen dar. Beispielsweise welche Attributeigenschaften gegeben sein müssen, dass eine Transaktion fraudulent ist (abhängige Variable). Dies könnte Beispielsweise aufgrund bereits diskretisierter Daten (nach gleicher Höhe) wie in Tabelle 3 dargestellt, aussehen. Unabhängige Variablen Nr BUDATT BUDATM CPUDTT CPUDTM WRBTR 1 26 9 13 8 1000 2 14 6 1 6 15000 3 8 11 28 12 3000 4 31 8 25 8 8000 5 24 4 10 12 9000 6 12 9 5 9 90000 7 19 10 20 9 250000 8 2 5 25 4 160000 9 4 12 11 9 5600 10 11 11 5 11 9000 11 28 12 2 1 3000 12 25 12 5 1 20000 13 30 2 25 2 65000 14 18 4 15 4 3000 Tabelle 11. Testdaten mit abhängigen Variablen ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... HKONTUV HKONTAV 0 1 1 0 1 0 1 0 0 1 0 1 1 0 0 1 0 1 0 1 1 0 0 1 1 0 0 1 Abhängige Variable Fraud Nein Nein Ja Nein Ja Nein Nein Nein Nein Nein Ja Ja Nein Nein Seite | 17 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 5.3.2 Anwendungsphase Aufgrund der Trainingsdaten soll nun ein Verfahren gefunden werden, wie die Testdaten in Tabelle 12 als Fraud oder Nicht-Fraud klassifiziert werden können. Unabhängige Variablen Nr BUDATT BUDATM CPUDTT CPUDTM WRBTR ... 1 26 9 13 8 9000 ... 2 1 10 25 9 20000 ... 3 12 5 10 5 75000 ... 4 30 12 5 1 1000 ... 5 8 3 30 1 15000 ... Tabelle 12. Zu klassifizierende Testdaten 5.3.3 HKONTUV 0 1 1 0 1 HKONTAV 1 0 0 1 0 Abhängige Variable Fraud ?? ?? ?? ?? ?? Klassifikationsmethoden Für die Klassifikation von Daten stehen folgende Data Mining Methoden zur Auswahl: (Vgl. Reber 2009, Kapitel 4, S. 4) Entscheidungsbäume Neurale Netze Verwendung zur Bestätigung möglichst effizienten mathematischer Entscheidungsfindung. Modelle mittels biologischer neuraler Netze. k-Nearest Neighbor Case-based Reasoning Messung der Entfernung zu anderen Datensätzen. Zuordnung anhand von bereits bestehenden Problemlösungen. Abbildung 11. Klassifikationsmethoden 5.3.4 K-Nearest Neighbor Die einfachste auf die vorliegenden Datenmenge anwendbare Variante der Klassifikation ist die der Distanzmessung, auch bekannt als K-Nearest Neighbor Methode (Nächste-Nachbarn-Klassifikation). Mittels Berechnung der euklidischen Distanz kann die Entfernung eines Datensatzes zu den Datensätzen der Trainingsmenge gemessen werden und somit die Klasse bestimmt werden. Euklidische Berechnung (Reber 2009, Kapitel 7, S. 21): ඥሺݔଵ − ݕଵ ሻଶ + ሺ ݔ − ݕ ሻଶ Berechnung Datensatz Nr. 3 der Anwendungsphase zu Datensatz Nr. 1 der Trainingsphase: ඥሺ12 − 26ሻଶ + ሺ5 − 9ሻଶ +ሺ10 − 13ሻଶ +ሺ5 − 8ሻଶ +ሺ75000 − 1000ሻଶ +ሺ1 − 0ሻଶ +ሺ0 − 1ሻଶ Seite | 18 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon Aufgrund der Trainingsdaten (siehe Tabelle 11, Kapitel 6.3.1) soll nun bestimmt werden, ob es sich beim Datensatz Nr. 1 um eine Fraud-ähnlichen Transaktion handelt oder nicht. Unabhängige Variablen Nr BUDATT BUDATM CPUDTT CPUDTM 1 26 9 13 8 2 14 6 1 6 3 8 11 28 12 4 31 8 25 8 5 24 4 10 12 6 12 9 5 9 7 19 10 20 9 8 2 5 25 4 9 4 12 11 9 10 11 11 5 11 11 28 12 2 1 12 25 12 5 1 13 30 2 25 2 14 18 4 15 4 Tabelle 13. Euklidische Entfernung Euklidische Entfernung WRBTR .. HKONTUV HKONTAV 1000 .. 0 1 15000 .. 1 0 3000 .. 1 0 8000 .. 1 0 9000 .. 0 1 90000 .. 0 1 250000 .. 1 0 160000 .. 0 1 5600 .. 0 1 9000 .. 0 1 3000 .. 1 0 20000 .. 0 1 65000 .. 1 0 3000 .. 0 1 74000 60000 72000 67000 66000 15000 175000 85000 69400 66000 72000 55000 10000 72000 Für die Bestimmung der Klassenzugehörigkeit muss ebenfalls die Klassifikationsgüte berücksichtigt werden. „Die Klassifikationsgüte hängt von der Anzahl k der nächsten Nachbarn und der Qualität des Entfernungsmass ab.“ (Reber 2009, Kapitel 7, S. 17) Die Qualität des Entfernungsmass hängt nach Angaben von Prof. Andreas Reber von folgenden Aspekten ab. (Reber 2009, Kapitel 7, S. 17): Welche Attribute werden für den Vergleich verwendet? Werden die Attribute gleich oder unterschiedlich gewichtet? Kann man Informationen über die Ähnlichkeit von Attributwerten nutzen? Bei den in Tabelle 13 durchgeführten Berechnungen der Entfernung fällt schnell auf, dass das Attribut Betrag (WRBTR) einen wesentlichen Einfluss auf das Resultat hat. Bei einer Verwendung von k = 2 ergeben sich zwar klar Datensatz Nr. 6 und 13 als nächste Nachbarn und können somit als nicht-Fraud identifiziert werden, jedoch kann dieses Resultat aufgrund der erwähnten zu starken Gewichtung des Attributs Betrag als nicht aussagefähig betrachtet werden. Diesem Umstand kann mittels der Berechung der Transinformation (engl. Mutual Information) entgegen gewirkt werden. Bei der Transinformation wird die Grösse des stärksten statistischen Zusammenhanges zweier Zufallsgrössen berechnet. (Vgl. Wikipedia 2009: Transinformation) ሺݔ, ݕሻ ܫሺܺ; ܻሻ = ሺݔ, ݕሻ ∙ log ଶ ൬ ൰ ሺݔሻሺݕሻ ௫ ௬ Abbildung 12. Transinformations Berechnung nach Wahrscheinlichkeit Seite | 19 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 5.3.5 Vorhersagekriterien Damit während einer Untersuchung von Data Mining Modellen eine Vergleichsbasis zwischen den verschiedenen Klassifikationsmodellen besteht, müssen Bewertungskriterien klar definiert sein. Für die Vorhersagemodelle gelten unter anderem folgende Kriterien: Genauigkeit, Geschwindigkeit und Verständlichkeit. (Vgl. Han u.a. 2009. S. 283) Die Genauigkeit der Vorhersage kann wie folgt evaluiert werden (Vgl. Han u.a. 2009. S. 325-326): Accuracy: Genauigkeit der Vorhersage (Anteil korrekt erkannte Datensätze) Kappa-Statistik: Statistisches Mass für Interrarer-Rentabilität. Wobei hier Wert von >0.75 als gut bis sehr gut betrachtet werden kann. (Vgl. Wikipedia 2009: Cohens Kappa) Precision: Wahrscheinlichkeit, dass die vorausgesagte Klasse, der effektiven entspricht. Recall: Wahrscheinlichkeit, dass eine Klasse richtig vorausgesagt wird. 5.3.6 Praxistest Da bei den vorliegenden Daten keine abhängigen Variablen nach Fraud oder nicht Fraud vorhanden sind, wurde der anonymisierten Benutzernamen als abhängige Variable verwendet. Dies im Zusammenhang mit der von mir aufgestellten Hypothese, dass ein Anwender nach einem ähnlichen Muster seine Buchungen durchführt. Die Untersuchung erfolgte in der Open Source Software Rapid Miner. Testspezifikation: Methode: kNN (k-Nearest Neighbor, k=1) Anzahl Datensätze: Dataset 1: 5’000 / Dataset 2: 10’000 / Dataset 3: 20‘000 / Dataset 4: 100‘000 / Dataset 4: 466‘956 (Population 466'956) Unabhängige Variablen: HKONT, CPUDTM, CPUDTT, CPUTMM, CPUTMH, WRBTR Abhänige Variable: USNAM Diskretisierung (Höhe = 50) Gewichtung der Attribute Damit ein Kontrast zum Aufwand der bestehenden Datenanalysen von PricewaterhouseCoopers möglich ist, wurden die gleichen IT-Ressourcen eingesetzt (Mitarbeiter Notebook): Prozessor: Intel Core Duo T2400 (2x1.83 GHz) Ram: 2048 MiB Harddisk: 100 GiB, 7‘200 rpm, 10 ms Dateisystem: NTFS, 100% Verschlüsselung Betriebssystem: Windows XP 32-Bit Werkzeug: Rapid Miner 32-Bit, Community Version Seite | 20 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 5.3.6.1 Visualisierung Zur Visualisierung von Dataset 1 mit 5000 Datensätzen (Abbildung 7) wurden als X-Achse das Attribut HKONT und als Y-Achse das Attribut WRBTR (Diskretisiert) verwendet. Die Personen, welche die Buchungen durchgeführt haben, sind farblich dargestellt. Aus dieser Grafik könnte man z.B. ableiten, dass Person P00013 vermehrt auf die Konten des Fremdkapitals gebucht hat. Jedoch ist hier zu berücksichtigen, dass es sich um eine Visualisierung von Dataset 1 handelt, welches nur 5‘000 von insgesamt 466‘956 Datensätzen beinhaltet. Gut erkennbar in der Visualisierung ist jedoch, die auf das Attribut HKONT angewendete Diskretisierung nach gleicher Höhe. Hätte keine Diskretisierung stattgefunden, so wären 99.76% (siehe Kapitel 4.3.4) der Werte im untersten Bin anzutreffen gewesen. Abbildung 13. Visualisierung von 5‘000 Datensätzen nach kNN in RapidMiner Seite | 21 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon Vorhersage Genauigkeit Anders als die Visualisierung der Daten, ergibt die Messung der Vorhersagegenauigkeit ein eindeutigeres Bild über die erreichten Klassenzuteilungen. Aus Layoutgründen wurden hier nicht alle Klassen dargestellt. Erstaunlich ist, dass in Dataset 1 eine Accuracy von 94.7% erreicht und ein Kappa von 0.93 erreicht wurde. Betrachtet man die einzelnen Klassen, fällt auf, dass P0004 zu 100% richtig und P0007 zu 61.11% vorhergesagt werden kann. Diese Extremen lassen sich jedoch anhand der geringen Anzahl Datensätze für die beiden Klassen erklären. Aus diesem Grund, wurden in einem zweiten Durchlauf 10‘000 Datensätze berücksichtigt. Wahr Mitarbeiter P00013 P00004 P00018 P00005 P00009 P00010 P00007 Precision P00013 1303 0 50 7 2 1 3 92.02% P00008 14 0 39 5 6 0 0 92.06% P00004 0 2 0 0 0 0 0 100.00% P00016 0 0 1 0 0 0 0 92.31% P00018 10 0 722 4 1 1 0 95.25% P00014 0 0 4 2 0 0 0 95.24% P00005 4 0 10 1493 0 0 4 98.48% P00009 2 0 5 0 74 0 0 90.24% P00010 0 0 1 0 0 89 0 98.89% P00007 0 0 0 0 0 0 11 100.00% Recall 97.75% 100.00% 86.78% 98.81% 89.16% 97.80% 61.11% Tabelle 14. Konfusionsmatrix von 5‘000 Datensätzen Bei einer Trainingsmenge von 10‘000 Datensätzen wurde sogar eine Steigerung der Vorhersagegenauigkeit erreicht, hier betrug die Accuracy 95.91% und der Wert für Kappa 0.94. Vorhersage 5.3.6.2 Wahr Mitarbeiter P00013 P00004 P00018 P00005 P00009 P00010 P00007 Precision P00013 1757 0 89 0 7 1 1 91.23% P00008 16 0 71 2 10 2 2 90.85% P00004 0 4 0 0 0 0 0 100.00% P00016 0 0 0 0 0 0 0 100.00% P00018 13 0 1122 1 5 1 1 96.31% P00014 6 0 19 0 1 0 0 89.08% P00005 4 0 9 4972 1 0 2 99.50% P00009 0 0 10 0 98 0 0 88.29% P00010 2 0 2 1 0 165 0 95.38% P00007 0 0 0 0 1 0 24 96.00% Recall 97.72% 100.00% 84.87% 99.92% 79.67% 97.63% 80.00% Tabelle 15. Konfusionsmatrix von 10‘000 Datensätzen Seite | 22 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 5.3.6.3 Geschwindigkeit Die Trainings- und Anwendungsphase inklusive Datenvorbereitung dauerte bei 5‘000 Datensätzen 21:49 Minuten. Dataset 3, 4 und 5 konnten aufgrund der extrem hohen Durchlaufzeiten nicht mehr mit der zur Verfügung stehenden Hardware abgeschlossen werden. Die, bis zum Abbruch der Analysen pro Datensatz benötigte Zeit, konnte jedoch in RapidMiner abgelesen werden. Anstatt, dass die Durchlaufzeit pro Anzahl Datensätze gleich bleibt, musste ich feststellen, dass sich die Durchlaufzeit bei z.B. einer Verdoppelung der Datensatzmenge drastisch erhöht. Durchlaufzeit / Datensatz [Sekunden] 1 2 3 4 5‘000 10‘000 20‘000 100‘000 21:49 67:26 n/a n/a 0.26 0.40 15.14 343.85 Erfolgreich Erfolgreich Abbruch Abbruch Tabelle 16. Geschwindigkeitsmessung Klassifikation 5 466‘956 n/a 7920.1 Abbruch Durchgang Anzahl Datensätze Durchlaufszeit [Minuten] Durchlaufzeit pro Datensatz [Sek.] Status 10000 1000 100 10 1 0.1 5000 10000 20000 100000 466956 Population Abbildung 14. Entwicklung der Durchlaufzeit pro Datensatz 5.3.7 Anwendbarkeit der Klassifikation Obwohl die Datensätze mit sehr hoher Präzision dem Ersteller zugeordnet werden konnten, ist eine Verwendung des Mitarbeiters als abhängige Variable in Anbetracht dessen, dass ausschlaggebende Indikatoren in den bestehenden Datenanalysen von PricewaterhouseCoopers bereits abgedeckt werden, doch eher uninteressant. Interessanter wäre die Methode der Klassifikation, wenn sie auf Datenmengen mit abhängigen Variablen wie Fraud und nicht-Fraud angewendet werden könnte. Solche abhängige Variablen liegen bei PwC jedoch nicht vor. Um eine solche Testmenge zu erheben, müssten in Jahresabschlussprüfungen, in welchen wirtschaftlich kriminelle Aktivitäten entdeckt wurden, alle Finanztransaktionen, welche aufgrund dieser Aktivitäten erstellt wurden, mit einer abhängigen Variablen (Fraud-Indikatoren) versehen werden. Zusätzlich müssten möglichst viele (Faustregel >5‘000) unterschiedliche, als Fraud und nicht-Fraud spezifisierte Transaktionen gesammelt werden, damit über eine Klassifikationsmethode eine Einteilung in Fraud und nicht-Fraud überhaupt möglich wäre. Eine solche Erhebung ist zwar aufgrund der weltweiten Präsenz von PricewaterhouseCoopers möglich, jedoch müsste nebst dem hohen Aufwand auch untersucht werden, inwiefern länderspezifische Indikatoren existieren. Seite | 23 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon Die beiden wichtigsten Punkte im Zusammenhang der Anwendbarkeit sind jedoch die, der benötigten IT-Ressourcen und der bedingten Falschvorhersagen von Fraud. Um das durchschnittliche Datenvolumen (5.66 Mio.) der Kunden überhaupt in sinnvoller Zeit durchführen zu können, müssten IT-Ressourcen zur Verfügung gestellt werden, welche mindestens das Hundertfache der Rechenleistung eines zurzeit eingesetzten Mitarbeiternotebooks erbringen. Mit zentralen 64-Bit MultiProzessor Systemen könnte dieser Wert zwar relativ schnell erreicht werden, jedoch müssten dann die anfallenden Kosten auch im Rahmen der Wirtschaftlichkeit untersucht werden. Der zweite Aspekt ist der, der bedingten Falschvorhersage von Fraud und nicht-Fraud aufgrund der Tatsache, dass in den Trainingsdaten bereits fraudulente Muster existieren könnten, welche nicht erkannt wurden und somit als nicht-Fraud vorhergesagt werden. Somit könnte durch die Klassifikation, ähnlich wie bei den bereits durchgeführten Datenanalysen Fraud nur aufgrund bekannter Indikatoren oder Vorfälle identifiziert werden. Fazit: Die Data Mining Methode Klassifikation ist unter Berücksichtigung der vorliegenden Problematik für die präzise Erkennung von Fraud nicht verwendbar. 5.4 Assoziation Bei der Data Mining Methode Assoziation, auch bekannt als Abhängigkeitsanalyse, werden die Abhängigkeiten zwischen Attributen einer Transaktion beschrieben. Ein klassisches Beispiel ist hier die Warenkorbanalyse, bei der untersucht wird, welche Waren oft gemeinsam gekauft werden wie z.B. Bier und Salzgebäck. Solche Assoziationsregeln werden mit X → Y dargestellt, wobei für das Auftreten von Elementen (X) einer Transaktion zur Menge (Y) führt. (Vgl. Reber 2009, Kapitel 9, S. 1-5) Folgende Kennzahlen spielen bei der Assoziation ein grosse Bedeutung (Vgl. Reber 2009, Kap. 9, S. 6-8) ܵ ݐݎݑሺܺ → ܻሻ = ܽݖ݊ܣℎ݈ ݀݁݊݁݉݉݇ݎݒ ܻ ݀݊ݑ ܺ ݊݁݊݁݀ ݊݅ ݊݁݊݅ݐ݇ܽݏ݊ܽݎܶ ݎ ܽݖ݊ܣℎ݈ ݈݈ܽ݁݊݁݊݅ݐ݇ܽݏ݊ܽݎܶ ݎ KonCidenz " → $ = 5678ℎ: ; <86=8>436;6, 6 ;6;6 " 26 $ ?3>3@@;6 5678ℎ: ; <86=8>436;6, 6 ;6;6 " ?3>3@@4 In einem Beispiel sollen Assoziationen zwischen den von den Mitarbeitern verwendeten Hauptbuchkonten gefunden werden (siehe Tabelle 17). Buchungstransaktion pro Mitarbeiter / Tag Person ‘00001‘ Verwendete Hauptbuchkonto (HKONT) Umlaufvermögen, Ertrag, Aufwand, Fremdkapital Person ‘00002‘ Person ‘00003‘ Ertrag, Aufwand, Anlagevermögen, Fremdkapital Anlagevermögen, Eigenkapital Person ‘00004‘ Fremdkapital, Aufwand Person ‘00005‘ Umlaufvermögen, Fremdkapital Tabelle 17. Buchungstransaktionen pro Mitarbeiter pro Tag Seite | 24 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon Wird auf die, durch die Mitarbeiter erstellten Transaktionen, der Support und die Konfidenz berechnet, könnte im Beispielsfall von Tabelle 15 folgende Informationen abgeleitet werden: Die Konten Umlaufvermögen und Fremdkapital werden von 40% der Mitarbeiter bebucht. Mitarbeiter, welche auf das Konto Ertrag buchen, buchen auch zu 100% auf das Konto Umlaufvermögen. 5.4.1 Hauptbuchkonto X Umlaufvermögen Hauptbuchkonto Y Ertrag X+Y 1 X 2 Support 20% Umlaufvermögen Konfidenz 50% Aufwand 1 2 20% 50% Umlaufvermögen Anlagevermögen Fremdkapital Ertrag 2 1 2 2 40% 20% 100% 50% Anlagevermögen Anlagevermögen Aufwand Eigenkapital 1 1 2 2 20% 20% 50% 50% Fremdkapital Fremdkapital Aufwand Umlaufvermögen 3 2 4 4 60% 40% 75% 50% Eigenkapital Ertrag Ertrag Anlagevermögen Umlaufvermögen Aufwand 1 1 2 1 2 2 20% 20% 40% 100% 50% 100% Ertrag Aufwand Anlagevermögen Ertrag 1 2 2 3 20% 40% 50% 67% Aufwand Aufwand Umlaufvermögen Anlagevermögen 1 1 3 3 20% 20% 33% 33% Aufwand Fremdkapital 3 Tabelle 18. Assoziationen (Support und Konfidenz) 3 60% 100% Anwendbarkeit der Assoziation Anders als bei Transaktionen von Warenhäusern oder Grosshändlern, bestehen die Werte von finanziellen Transaktionen aus wenigen, überschaubaren Elementen (einzige Ausnahme ist das Attribut Betrag). Die Erkennung von Assoziationen zwischen den Attributen von Datensätzen aus dem Rechnungswesen gestaltet sich unter anderem auch deshalb als uninteressant, weil von Mitarbeitern weitaus mehr Informationen verfügbar sind als über Kunden. Der Umstand, dass wie im vorhergehenden Beispielsfall, 100% der Mitarbeiter die Hauptbuchkonten Fremdkapital sowie auch die Konten des Umlaufvermögens bebuchen, ist aufgrund von Tätigkeitsbereichen und Stellenbeschreibungen einfach erklärbar. Selbst im Falle einer allfälligen Untersuchung der Gewaltentrennung stellt sich die Methode der Assoziation, aufgrund der unternehmensspezifischen Tätigkeitsbereichen, als nicht effizient und präzise gegenüber herkömmlichen Abfrage- und Berichtsanalysen heraus. Die Methode der Assoziation wurde daher nicht weiter technisch untersucht. Fazit: Die Methode der Assoziation ist für die präzise Erkennung von Fraud in finanziellen Transaktionen nicht geeignet. Seite | 25 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 5.5 Clusteranalyse (Segmentierung) Als Segmentierung oder Clustering versteht man ein Analyseverfahren, welches einzelne Objekte mit bestimmten Eigenschaftsausprägungen in Gruppen einteilt. Im Gegensatz zur Klassifizierung ist jedoch die Zuordnung von Objekten nicht bekannt und es werden keine abhängigen Variablen benötigt, dies wird auch als nicht-überwachtes Lernen bezeichnet. (Vgl. Reber 2009, Kap. 8, S. 1-3) Abbildung 15. Visualisierung von Clusterzugehörigkeiten in Rapid Miner 5.5.1 Unterschied Klassifizierung und Clusteranalyse Der Hauptunterschied zwischen der Clusteranalyse und der Klassifizierung ist der, des Lernverhaltens. Nach Prof. Andreas Reber können folgende Unterschiede festgestellt werden (Reber 2009, Kap. 8): Clustering: Die Zuordnung von Objekten ist nicht bekannt, d.h. es gibt keine abhängige Variable. Das Kriterium für die Segmentierung ist, alle Datensätze sollen ähnlich sein. Da im Vorfeld nicht bekannt ist, welche Objekte in welche Klasse kommen, kann die korrekte Zuordnung nicht überprüft werden. Klassifikation: Für eine Menge von Beispielen sind korrekte Ergebnisse bekannt, d.h. es gibt eine abhängige Variable, die der Klasse entspricht. Die Korrektheit einer Zuordnung kann für die Lern- und Testmenge überprüft werden. Seite | 26 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 5.5.2 Clusterarten Je nach Anwendungszweck könnte aufgrund der unterschiedlichen Clusterarten, vor der Wahl der Clustermethode bestimmt werden, welcher Zieloutput angestrebt wird (siehe Tabelle 16). Da jedoch die Cluster noch nicht bekannt sind, müssen alle in Frage kommenden Clustermethoden durchgeführt und nach ihrer Anwendbarkeit beurteilt werden. Nach Prof. Anderas Reber existieren vier unterschiedliche Clusterarten (Vgl. Reber 2009, Kap. 8, S. 5): Ausschluss Überlappung f c g i c a a b e g h c f e Wahrscheinlichkeit i b c h Ein Datensatz gehört nur zu einem Cluster. Ein Datensatz kann in mehrere Cluster passen. Obj. a b c d e C1 0.62 0.84 0.25 0.47 0.98 C2 0.71 0.14 0.03 0.45 0.63 Ein Datensatz hat eine Wahrscheinlichkeit, für einen Cluster. Hierarchie a i c f d b Datensätze werden grob eingeteilt und mit jeder weiteren Ebene verfeinert. Abbildung 16. Clusterarten 5.5.3 Methoden Clusteranalysen können grob gesehen, in probabilitische und deterministische Verfahren eingeteilt werden. Während bei der probabilistischen Methode die Einteilung in ein Cluster über die Wahrscheinlichkeit der Zugehörigkeit erfolgt, wird bei dem deterministischen Verfahren binär zugeordnet. Für das probabilistische Verfahren existieren noch weitere Möglichkeiten die Clusterbildung zu optimieren und an den Anwendungszweck anzupassen. (Vgl. Reber 2009, Kap. 8, S. 7) Abbildung 17. Clustermethoden Seite | 27 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 5.5.4 5.5.4.1 Unterschiedliche Untersuchungsbereiche Bevor die unterschiedlichen Methoden der Clusteranalyse getestet werden können, muss definiert werden aufgrund von welchen Daten die Cluster gebildet werden sollen oder ob schon zu Beginn die Anzahl der Cluster vorgegeben ist, z.B. Anzahl Branchen. Für die Anwendung der vorliegenden Daten sind zwei Varianten möglich: Daten pro Unternehmung Analog zu den bestehenden Datenanalysen ist hier das Bestreben, durch die Einschränkung der Transaktionen auf ein einzelnes Unternehmen, eine effiziente und schnelle Vorgehensweise zu finden. Die jeweiligen Cluster sollen Anstellungsgruppen darstellen und somit abweichende Buchungsverhaltensweisen der Mitarbeiter ermöglichen. Ein Clustering nach Anstellungsgruppe könnte, wie in Abbildung 10 dargestellt, aussehen: Vergleichsjahr Prüfungsjahr Cluster 1: Manager Cluster 3: Senior Cluster 2: Assistant Abbildung 18. Cluster nach Anstellungsgruppen Aufgrund der Abweichungen des Clusters 3 im Vergleich zum Vorjahr (siehe Abbildung 12), könnte nun von Fraud oder auch nur einer grösseren Änderung des Tätigkeitsbereiches der Anstellungsgruppe Senior ausgegangen werden. 5.5.4.2 Daten von allen Unternehmen Ein Zusammenzug aller verfügbaren Kundendaten könnte sich für die Identifikation von Fraud insofern positiv auswirken, indem über Jahre hingezogene Betrugsfälle im Vergleich mit anderen Unternehmen schnell auffallen würden. Die Unternehmen müssten allerdings vor der Clusteranalyse zusätzlich charakterisiert werden, z.B. Branche und Umsatz. In einem ersten Schritt sollen die vorliegenden Daten in Branchencluster eingeteilt werden, um danach damit eine Validierung der Transaktionen eines zu prüfenden Unternehmens zu ermöglichen (siehe Abbildung 13 und 14 auf Folgeseite). Seite | 28 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon Im ersten Beispielsfall (siehe Abbildung 13) konnte ein zu prüfendes Bauunternehmen erfolgreich dem Cluster Baugewerbe zugeordnet werden. Branchencluster Zu prüfendes Bauunternehmen (grün) Cluster 1: Kreditgewerbe Cluster 2: Chemische Industrie Cluster 3: Versicherungsgewerbe Cluster 4: Baugewerbe Abbildung 19. Erfolgreiche Clusterzuordnung Die Abweichung der im Beispielsfall zwei dargestellten Transaktionen könnten auf Fraud oder auf aussergewöhnliche Geschäftstransaktionen hinweisen und müsste weiter untersucht werden. Branchencluster Zu prüfendes Versicherungsgewerbe (rot) Cluster 1: Kreditgewerbe Cluster 2: Chemische Industrie Cluster 3: Versicherungsgewerbe Cluster 4: Baugewerbe Abbildung 20. Verdächtiges Transaktionsvorkommen Seite | 29 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 5.5.5 5.5.5.1 Algorithmen Für Clusteranalysen steht eine Vielzahl Algorithmen zur Verfügung. Im Zusammenhang mit dieser Arbeit sollen drei davon kurz vorgestellt und in einem zweiten Schritt in RapidMiner angewendet werden. K-Means Die K-Means Methode arbeitet nach Prof. Andreas Reber nach folgendem Verfahren (Vgl. Reber 2009, Kap. 8, S. 8): 1 2 3 4 5 5.5.5.2 EM Der EM-Clustering Algorithmus basiert auf der Idee des K-Means Algorithmus. Zu Beginn wird auch hier ein zufälliges Clusterzentrum gewählt. Danach werden folgende zwei Schritte solange ausgeführt, bis die von Durchlauf zu Durchlauf erreichte Wahrscheinlichkeitsänderung der Instanzen unter einen vorgegebenen Stellenwert sinkt. (Vgl. Wikipedia 2009: Clusteranalyse) 1 2 3 4 5.5.5.3 Spezifikation der Anzahl Cluster (k = ?). Für k werden verschiedene Punkte als Clusterzentren ausgewählt. Die Datensätze werden mittels der euklidischen Distanz dem nächsten Zentrum zugeordnet. Aus dem Mittelwert aller Instanzen wird ein neues Clusterzentrum gebildet. Wiederholung der Punkte 3 und 4 bis die Instanzen in aufeinander folgenden Durchläufen immer in dieselben Cluster eingeteilt werden. Spezifikation der Anzahl Cluster (k = ?). Für k werden verschiedene Punkte als Clusterzentren ausgewählt. Expectation: Bestimmung der Wahrscheinlichkeitsverteilung zu jeder Instanz für jeden Cluster. Maximization: Neubestimmung der Clusterparameter z.B. durch Mittelwertvektoren. DBSCAN DBSCAN ist einer in der Literatur am häufigsten erwähnten Clustering Algorithmen. Im Gegensatz zu den partitionierenden Algorithmen wie K-Means und EM benötigt DBSCAN keine vordefinierte Anzahl Cluster. DBSCAN bestimmt die Cluster anhand der Dichteverteilung der einzelnen Instanzen und lässt die Cluster solange wachsen, bis min_pts (minimale Anzahl Punkte zur Bildung eines Clusters) Instanzen dichtebasiert erreichbar sind. Die restlichen Instanzen, welche nicht erreichbar sind, werden als Rauschen oder Noise spezifiziert. DBSCAN bildet also selbstständig eine Anzahl x Cluster und Ausreissercluster. Nebst den Vorteilen, wie z.B. die selbstständige Bestimmung der Anzahl Cluster, bergt der Algorithmus auch einige Nachteile. So ist er z.B. bei hochdimensionalen Daten unbrauchbar. Als hochdimensionale Daten werden Daten bezeichnet, die mehrere tausend Dimensionen aufweisen wie z.B. medizinische Daten aus dem Bereich der DNA Forschung. (Vgl. Wikipedia 2009: DBSCAN) Seite | 30 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 5.5.6 Praxistest Die in Kapitel 5.5.5 vorgestellten Algorithmen wurden jeweils mit einer unterschiedlichen Anzahl Datensätzen in Data Mining Tool RapidMiner durchgeführt. Bei den verwendeten Daten wie auch ITRessourcen, handelt es sich um die gleichen, die auch zur Klassifizierung verwendet wurden (siehe Kapitel 5.3.6). Testspezifikation 5.5.6.1 Methoden: KMeans (k=5 / Optim. Durchläufe 100), EM (k=5 / Optim. Durchläufe 100), DBSCAN Anzahl Datensätze: Dataset 1: 466‘956, Dataset 2: 5‘000 (Population 466'956), Attribute:HKONT (aufgesplittet nach Wert), CPUDTM, CPUDTT, CPUTMM, CPUTMH, WRBTR Datenvorbereitung: Umwandlung des Attributs HKONT in binäre Attribute wie z.B. HKONTUV Visualisierung: K-Means Visualisiert man die Cluster nach den Dimensionen Benutzername (USNAM) und Betrag (WRBTR), sticht hervor, dass z.B. Person P00018 Transaktionen in Cluster 0 (gelb) durchgeführt hat, welche nicht in ihr übliches Buchungsraster passen. Dieses Auftreten soll in den anderen Algorithmen weiter verfolgt werden. Abbildung 21. Visualisierung Clustering K-Means in RapidMiner nach WRBTR und USNAM Seite | 31 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 5.5.6.2 Visualisierung: EM Im Vergleich zum K-Means Algorithmus fällt auf, dass beim EM-Clustering die Instanzen feiner geclustert wurden. Nach EM-Clustering ergibt sich kein auffälliges Muster mehr bei Person P00018. Abbildung 22. Visualisierung Clustering EM in RapidMiner nach WRBTR und USNAM 5.5.6.3 Visualisierung: DBSCAN Abbildung 23. Visualisierung Clustering DBSCAN in RapidMiner nach WRBTR und USNAM Seite | 32 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon In Abbildung 17 ist nur Cluster 0 ersichtlich. Um alle Cluster zu visualisieren, wurde eine andere Darstellungsform gewählt (siehe Abbildung 18). Der Algorithmus hatte alle, ausser 12 Instanzen dem Cluster 0 zugeordnet. Als Ausreisser gelten demnach Cluster 1 und 2, worin die Person P00018 wieder auftaucht. Um diesen Umstand genauer zu untersuchen sollen nun die Datensätze der Cluster 1 und 2 herangezogen werden. Abbildung 24. Visualisierung Clustering DBSCAN in RapidMiner nach WRBTR und CLUSTER Bei Betrachtung der Daten fällt schnell auf, dass die „verdächtigen“ Datensätze keiner Kontenklasse zugeordnet wurden. Der Umstand könnte aufgrund eines Fehlers in den Quelldaten oder der Datenvorbreitung zurückzuführen sein und soll weiter untersucht werden. USNAM CLUSTER WRBTR CPUDTT P00018 cluster_1 38955.1 15 P00018 cluster_1 38955.1 15 P00018 cluster_1 38955.1 15 P00018 cluster_1 38955.1 15 P00018 cluster_1 38955.1 15 P00018 cluster_1 38955.1 15 P00018 cluster_2 36973.1 21 P00018 cluster_2 36973.1 21 P00018 cluster_2 36973.1 21 P00018 cluster_2 36973.1 21 P00018 cluster_2 36973.1 21 P00018 cluster_2 36973.1 21 Tabelle 19. Verdächtige Datensätze CPUDTM 7 7 7 7 7 7 8 8 8 8 8 8 Assets 0 0 0 0 0 0 0 0 0 0 0 0 Other 0 0 0 0 0 0 0 0 0 0 0 0 Expense 0 0 0 0 0 0 0 0 0 0 0 0 Revenue 0 0 0 0 0 0 0 0 0 0 0 0 Liabilities 0 0 0 0 0 0 0 0 0 0 0 0 Seite | 33 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon Die Überprüfung der Quelldaten ergab, dass diese keine Fehler auswiesen, die Konten richtig und vollständig spezifiziert waren und der Import der Dateien ebenfalls vollständig war. Deshalb wurden nochmals alle Parameter und Prozessschritte in RapidMiner überprüft. Es stellte sich heraus, dass beim Prozessschritt „Nominal2Numerical“, bei welchem die nominalen in numerische Werte umgewandelt werden, genau bei 12 Datensätzen (siehe Tabelle 20) die als 1 gekennzeichneten Werte in 0 umwandelte. Trotz längeren Nachforschungen konnte keine andere Erklärung für dieses Phänomen gefunden werden, als die, dass das Modul „Nominal2Numerical“ in der von mir verwendeten RapidMiner OpenSource Version 4.5.000 entweder fehlerhaft ist oder ich es zu einem falschen Zweck verwendet hatte. Das Letztere dürfte aufgrund der restlichen 99.99% richtig zugeordneten Datensätze jedoch nicht der Fall sein. Der positive Effekt der erst nachträglichen Erkennung dieses Fehlers war, dass die drei Algorithmen entsprechend ihrer Interpretierbarkeit besser verglichen werden konnten. ! Datenimport und Spezifikation Umwandeln aller Werte des Attributs HKONT in neue Attribute mit binominalen Werten z.B. neues Attribut HKONTA (Assets) Werte: false; true Mapping der neuen Attribute (Assets, Expense, Other, Revenue, Liabilites) mit binominalen Werten zu false = 0 und true = 1 Umwandlung der nominalen Werte in nummerische Clustermodell Abbildung 25. Visualisierung Clustering DBSCAN in RapidMiner nach WRBTR und USNAM Seite | 34 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 5.5.6.4 Geschwindigkeit In Punkto Geschwindigkeit lagen die drei angewendeten Algorithmen weit auseinander. Während mit der K-Means Algorithmus (k=5) 466‘956 Datensätze in nur 9:55 Minuten verarbeitet wurden und damit die Spitze angeführt wird, benötigte der EM-Clustering Algorithmus (k=5) für die gleiche Anzahl Datensätze 5:42 Stunden. DBSCAN benötigte für 10‘000 Datensätze zwar nur 6:23 Minuten und hätte nach einer Hochrechnung mit 466‘956 Datensätzen ca. 5 Stunden benötigt, jedoch stellte sich heraus, dass bei diesem Algorithmus ähnlich wie bei der Klassifikation die Durchlaufzeit pro Datensatz mit Vergrösserung der Datenpopulation quadratisch ansteigt. Der Versuch, durch den DBSCAN Algorithmus 466‘956 Datensätze zu clustern, wurde nach 38 Stunden abgebrochen. Da beim Clustering nicht die Durchlaufzeit pro Datensatz abgelesen werden kann, kann keine eindeutige Aussage in diesem Zusammenhang gemacht werden. K-Means EM DBSCAN DBSCAN 466‘956 466‘956 10‘000 466‘956 9:55 342:14 6:23 2280 + x 0.00127 0.0439 0.000174 0.29 + x Erfolgreich Erfolgreich Erfolgreich Abbruch Tabelle 20. Geschwindikeitsmessung Clustering 5.5.7 Algorithmus Anzahl Datensätze Durchlaufszeit [Minuten] Durchlaufzeit pro Datensatz [Sek.] Status Anwendbarkeit der Clusteranalyse Der grosse Vorteil der Clusteranalysen ist der, dass im Vorfeld keine Indikatoren bereitgestellt werden müssen, wie Fraud in finanziellen Transaktionen auftreten könnte. Auffällige Muster, welche zur Identifikation von Fraud führen, ergeben sich automatisch aufgrund der vorliegenden Daten. Im durchgeführten Praxistest konnte der Clustering Algorithmus DBSCAN, aufgrund seiner „Ausreissercluster“, die für diesen Anwendungszweck besten Resultate liefern. Es könnte also bereits durch die Visualisierung von Clustern Hinweise auf allfällige manipulierte Transaktionen gewonnen werden, wobei hier der Interpretationsaufwand nicht unterschätzt werden sollte. Während im durchgeführten Praxistest mehr auf die Clusteranalyse selbst eingegangen wurde, soll die Mächtigkeit einer Kombinatorik zwischen Clusteranalysen und der Klassifikation angesprochen werden. Wenn man von den benötigten IT-Ressourcen absieht, wäre es sehr interessant, wenn in einem ersten Schritt alle verfügbaren Transaktionen nach Branche geclustert würden (siehe Kapitel 5.5.4.2). In einem zweiten Schritt könnte dann ein zu prüfendes Unternehmen, mittels Klassifikation, einem Cluster zugewiesen werden (siehe Kapitel 5.5.4.2). Fallen solche Transaktionen als für die Branche unüblich auf, könnte diesen gezielt nachgegangen werden. Betrachtet man jedoch den Aufwand und die benötigten IT-Ressourcen (siehe Kapitel 5.3.6.3 und Kapitel 5.5.6.4) für die Verarbeitung von mehreren Milliarden Datensätzen (siehe Kapitel 3.2), so kann davon ausgegangen werden, dass eine solche Kombinatorik in Anbetracht der Wirtschaftlichkeit, absolut unrealistisch ist. Fazit: Die Clusteranalyse kann zur Verbesserung der Frauderkennung beitragen, ist jedoch aufgrund des hohen Aufwandes, als nicht wirtschaftlich zu betrachten. Seite | 35 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 6 Externe Ergebnisse Um die Resultate am Schluss dieser Arbeit zu erhärten, wurden Studien gesucht, welche die gleiche Problematik behandeln. Nachfolgend sollen drei davon vorgestellt werden. FRAT44 Benfordsches Gesetz PricewaterhouseCoopers Global Crime Survey 2007 6.1 FRAT44 Das Fraud Risk Assessment Tool (FRAT44) ist eine dreijährige Studie von Stephan Knabe, Dr. Sebastian Mika, Prof. Dr. Klaus-Robert Müller, Dr. Gunnar Rätsch und Prof. Wienand Schruff welche 2004 vorgestellt wurde. Die Studie befasste sich mit der Beurteilung des Fraud Risikos im Rahmen der Abschlussprüfung durch maschinelles Lernen. 300 prozessorientierte Indikatoren und 300 Indikatoren der Jahresabschlussanalyse (Jahresabschlussangaben, finanz- und erfolgswirtschaftliche Kennzahlen) wurden von Prüfungschecklisten grosser Wirtschaftsprüfungsgesellschaften zusammengetragen. Anschliessend wurden während drei Jahren Daten zu 115 Fraud- und Nicht-Fraud Fällen aus Deutschland, Grossbritannien, Frankreich, den Niederlanden und der Schweiz anonymisiert für die Studie verfügbar gemacht. (Vgl. Knabe u.a. 2004, S. 1060) „Die verhältnismässig geringe Anzahl von Fällen (115) bei gleichzeitig hoher Zahl der Indikatoren (über 600) hat zur Folge, dass klassische statistische Verfahren nicht zur Anwendung kommen können. Methoden wie Benford-, Zeitreihen- oder Branchenvergleichslösungen erfordern eine grössere als die gegebene Grundgesamtheit, um hinreichend sichere Aussagen treffen zu können.“ (Knabe u.a. 2004, S. 1060) In der Studie wurden verschiedenste Data Mining Verfahren getestet. Als Verfahren, welches die höchste Genauigkeit, unter Berücksichtigung der wenigen Daten und unterschiedlichen Datenformen (diskret und kontinuierlich) erreichte, stellte sich eine Klassifizierungsmethode heraus, auch bekannt als Support Vector Maschine (SVM). Eine SVM kann aufgrund eines Trainingssatzes zwei Klassen (im Fall der Studie Fraud und Nicht-Fraud) unterscheiden. Mit den vorliegenden Daten und Indikatoren konnten somit die Unternehmen einem Fraud-Muster oder Nicht-Fraud-Muster zugewiesen werden. 96.5% der Unternehmen wurden durch die SVM richtig klassifiziert. In einem zweiten Schritt wurden nebst Konsolidierungen der ersten 600 Indikatoren auf 331, zusätzlich 336 Indikatoren aus der Analyse von Rechnungswesendaten berücksichtigt. Um einen praktikablen Umfang der Indikatoren zu erreichen, wurde mittels eines Leave-One-Out Prozesses die Anzahl der Indikatoren gekürzt, jedoch ohne, dass die erreichte Klassifikationsleistung aller Indikatoren drastisch verringert wurde. Die Berechnung wurde durch ein Servercluster bestehend aus ca. 1000 Computern durchgeführt und dauerte 13 Tage. Als Resultat wurden nur 44 von den ursprünglich 667 Indikatoren benötigt, um eine Klassifizierung mit durchschnittlich 95% Sicherheit zu erreichen. Die Top Ten der Indikatoren nach Klassifikationsleistung ist auf der nächsten Seite aufgelistet, die gesamte Liste mit allen 44 Indikatoren ist im Anhang 12.4 ersichtlich. (Vgl. Knabe u.a. 2004, S. 1063-1064) Seite | 36 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon No. Score Titel der Frage (Indikator) 1 76,90 Ungewöhnliche Geschäftsvorfälle 2 57,60 Rechnungswesenpersonal 3 56,96 Kündigungen wegen doloser Handlungen 4 36,68 Persönliche Ziele der Gesellschafter/Manager 5 29,91 Umstrukturierungen 6 28,50 Kritische Unternehmenssituation 7 26,67 Ungewöhnliche Transaktionen 8 23,13 Wahrheitsgehalt der Angaben 9 21,78 Persönliche Verknüpfungen 10 20,87 Entlegene Niederlassungen Tabelle 21. Top Ten Indikatoren Eine interessante Erkenntnis aus der Studie war, dass sich unter den 100 Indikatoren mit der besten Klassifikationsleistung, kein Indikator aus dem Bereich der Rechnungswesendaten befand. Um diesen Umstand näher zu untersuchen, wurden zu den 44 Indikatoren mit der besten Klassifizierungsleistung zusätzlich alle Indikatoren aus dem Bereich des Rechnungswesens berücksichtigt. Als Resultat konnte eine Verschlechterung der Resultate um 3-4% festgestellt werden. (Vgl. Knabe u.a. 2004, S. 1064) „Ursache für die geringe Bedeutung von Abschlussdaten für die Fraud-Risiko-Beurteilung ist wahrscheinlich die Tatsache, dass es ja im Regelfall genau die Rechnungsweseninformationen sind, in denen die dolosen Handlungen verschleiert werden sollen. Es ist ein vorrangiges Bestreben des Täters, die Rechnungswesendaten so darzustellen, dass es gerade nicht zu Auffälligkeiten kommt. Natürlich gelingt dies nicht vollständig und auch nicht jeder Täter ist überhaupt fachlich und organisatorisch in der Lage, die Abbildung seiner Handlung im Rechnungswesen zu verschleiern.“ (Knabe u.a. 2004, S. 1064) Im Anschluss wurden die 44 Indikatoren mit der höchsten Klassifizierungsleistung mit den Red Flags (Fraud Risk Factors) des IDW PS 210, welches auf die internationalen Prüfungsstandards ISA240 und SAS 99 basiert, verglichen. Von den 44 Indikatoren des IDW PS 210, wurden 19 im Bereich der Bilanzmanipulation und 3 im Bereich der Vermögensschädigung, aufgrund der FRAT44 Erkenntnisse als statistisch signifikant bestätigt. Ein Ausschnitt dieses Vergleiches ist nachfolgend aufgeführt, die komplette Auflistung ist im Anhang 12.3 ersichtlich. (Knabe u.a. 2004, S. 1067) Indikator Beherrschung des Geschäftsführungsgremiums durch eine oder wenige Personen….. …. ohne ein wirksames Überwachungsorgan Undurchsichtige Organisationsstruktur Aggressive Ausnutzung von Wahlrechten und Beurteilungsspielräumen durch die Unternehmensleitung Fehlende Bereitschaft zur Verbesserung des internen Kontrollsystems Tabelle 22. Indikatoren für Fraud Signifikant Ja Nein Nein Ja Ja Seite | 37 Identifikation potentieller Falschdarstellungen von Jahresrechnungen J mittels Data Mining Fabian Vontavon Dass nur 19 der 44 Indikatoren des IDW PS 210 mit dem FRAT44 Projekt übereinstimmten erklärte man sich, dass viele der in internationalen Prüfungsstandards aufgezählten Indikatoren theoretisch zwar Sinn machen, jedoch in der Praxis nicht ohne weiteres beurteilt werden werden könnten. Jedoch sollten diese Indikatoren, welche sich als statistisch unrelevant für die Beurteilung des Fraud Risikos erwiesen, nicht als insgesamt irrelevant betrachtet werden, sondern als Denkanstösse für die Prüfung dienen. Abschlussergebnis der Studie war, dass sich das Fraud Risiko aufgrund der bereits vorgestellten Indikatoren Liste und hoch entwickelten mathematischen-statistischen mathematischen statistischen Methoden zu 95% nachweisen lässt. (Knabe u.a. 2004, S. 1067-1068) 1067 6.2 Benfordsches Gesetz chreibt die Häufigkeiten von Zahlen. Der Ursprung dieses Gesetzes liegt im Das Benfordsche Gesetz beschreibt Jahre 1881, als der US-Mathematiker Mathematiker und Astronom Simon Newcomb eine seltsame Entdeckung bei über Jahrzehnte verwendeten Logarithmentafeln machte. Da es zu dieser Zeit noch keine Taschenrechner chenrechner gab, wurde für komplizierte Berechnungen Logarithmentafeln verwendet, welche in Form eines Buches abgelegt waren. Zahlen welche mit 1 anfingen waren am Anfang und Zahlen mit 9 waren am Schluss des Buches zu finden. Newcomp fiel auf, dass die ersten er Seiten weitaus mehr abgegriffen waren als die hinteren. Dies führte ihn zur Erklärung, dass kleine Zahlen häufiger vorkommen als grosse. Diese Theorie verlor jedoch an Bedeutung, bis im Jahre 1938 der USUS Elektroingenieur Frank Benford von einer Analyse Analys mit über 20‘000 Zahlen-Beobachtungen Beobachtungen berichtete. In seiner Untersuchung kam er zum Ergebnis, dass Zahlen aus unterschiedlichsten Untersuchungsgebieten z.B. Einwohnerzahlen von Städten, stets nach einem festen Vorkommen auftraten. (Vgl. Dambeck 2009) 35 30.1 30 25 20 17.6 Vorkommen in % 15 Trend 12.5 9.7 10 7.9 6.7 5.8 5.1 4.6 7 8 9 5 0 1 2 3 4 5 6 Abbildung 26: Ziffernvorkommen nach dem Benfordschen Gesetz Seite | 38 Identifikation potentieller Falschdarstellungen von Jahresrechnungen J mittels Data Mining Fabian Vontavon Professor Mark J. Nigrini von der Southern Methodist University in Texas, adaptierte das Gesetz von Benford in ein Audit Tool, welches es den Wirtschaftsprüfern ermöglicht, unnatürliche ZahlenZahlen vorkommen in Journaltransaktionen zu erkennen. Er stellte die Hypothese auf, dass Täter beim Manipulieren von Transaktionen nicht auf die natürliche Verteilung der Zahlen achten. Durch die Gegenüberstellung der Erwartungswerte nach Benfords Gesetz und den gemessenen Werten konnte bei signifikanten Abweichungen auf Fraud hingewiesen werden. (Vgl. Hamberger 2001, S. 497) 6.3 Global Economic Crime Survey 2007 Die von PricewaterhouseCoopers durchgeführte Studie Global Economic Crime Survey 2007 weist unter anderem auch die Unterschiede in der Wahrnehmung (Abbildung 19) und Realität (Abbildung 20) des Fraud-Auftretens Auftretens auf. Als Erklärung für die relativ hohen Annahmen Annahmen in dem Bereich Buchführungsbetrug kann laut der Studie der Umstand des hohen Schadens, z.B. Rufschädigung, Aktienpreisschädigung oder Schädigung der Geschäftbeziehungen, welcher für die Unternehmung eintreten würde, in Betracht gezogen werden. (Vgl. PricewaterhouseCoopers ricewaterhouseCoopers LLP, Investigations and Forensic Services 2007, Nestler u.a., S. 5) Anlagenveruntreung Anlagenveruntreung Buchführungsbetrug Buchführungsbetrug Bestechung & Korruption Bestechung & Korruption Geldwäscherei Geldwäscherei IP Rechtsverletzung IP Rechtsverletzung 2007 2005 0 10 20 30 40 % Unternehmen 2003 Abbildung 27: Annahmen Fraud Auftreten 50 2007 2005 0 10 20 30 40 50 % Unternehmen 2003 Abbildung 28: Realität Fraud Auftreten Nach der Studie könnte bei der weiter ansteigenden Anzahl an Fraud Fraud Fällen die Schlussfolgerung herangezogen werden, dass sich die in den letzten Jahren implementierten Kontrollen als nicht einheitlich und effektive Lösung zur Verhinderung und Aufdeckung von Fraud erwiesen haben. Unternehmen hätten besonders im Bereich der fehlerfreien finanziellen Berichtserstattung viele Kontrollen eingeführt. Aspekte wie Anlagenveruntreuung oder Bestechung und Korruption würden durch diese Kontrollen jedoch nicht vollständig abgedeckt und bedürfen einer höheren Aufmerksamkeit. (Vgl. PricewaterhouseCoopers LLP, Investigations and Forensic Services 2007, Nestler u.a., S. 6) Seite | 39 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 7 Resultat Es steht unumstritten fest, dass mit Data Mining Methoden, Wissen aus grossen Datenmengen abgeleitet werden kann, was schlussendlich zu einem relevanten, wirtschaftlichen Vorteil führen könnte. Die zentrale Frage im Zusammenhang einer isolierten Betrachtung der finanziellen Transaktionen und der Erkennung von Fraud ist die, wie viel Wissen zusätzlich aus den Data Mining Methoden gewonnen werden kann und zu welchem Preis. Bei den von PricewaterhouseCoopers durchgeführten Datenanalysen kann man davon ausgehen, dass sie einen maximalen Aufdeckungsgrad von 80% erreichen könnten. Erste Einschränkungen ergeben sich jedoch bereits aufgrund der Tatsache, dass die bei Jahresabschlussprüfungen durchgeführten Datenanalysen aufgrund des meist geringen Audit Risikos weniger umfangreich ausfallen, als dies möglich wäre. Von diesem Aspekt mal abgesehen, stellt sich die Frage, ob Data Mining bei einer maximalen Ausschöpfung der bestehenden Analysen überhaupt noch einen wesentlichen Anteil zur Frauderkennung beiträgt. Aufschluss auf diese Frage gibt die FRAT44 Untersuchung und die von PricewaterhouseCoopers durchgeführte Studie Global Economic Cime Survey 2007. In beiden Studien wurde festgehalten, dass eine isolierte Betrachtung der finanziellen Transaktionen, sich als nicht einheitliche Lösung für die Erkennung von Fraud eignet und die intensiven Massnahmen der Unternehmen wie z.B. Kontrollimplementationen in diesem Bereich zu keiner relevanten Reduktion der Betrugsfälle geführt haben. Eine Ausnahme stellen hier Betrugsfälle dar, welche von Personen durchgeführt werden die nicht in der Lage sind, ihre Aktivitäten in finanziellen Transaktionen zu verschleiern. Bei einer Aufdeckung solcher Transaktionen könnte die Clusteranalyse in Kombinatorik mit den bestehenden Analysen einen Mehrwert liefern, sofern man vom Aufwand zur Datenbereinigung und der benötigten Rechenleistung absieht. Die hohen Anforderungen an IT-Ressourcen, welche die für eine Untersuchung der interessanteren Algorithmen benötigt werden, stellten sich als Kernproblem heraus. Bereits bei geringen Datenvolumen von weniger als 500‘000 Datensätzen, wurden mehrere Tage bis Monate benötigt (falls sie aufgeführt worden wären). Selbst wenn nur die Datenbestände von einzelnen Unternehmen untersucht würden, so müssten spätestens für grosse Kunden, welche teilweise über 80 Millionen finanzielle Transaktionen aufweisen, leistungsfähige IT-Ressourcen beschafft werden, um diese Datenmenge in einer akzeptablen Zeit verarbeiten zu können. Zusammenfassend halte ich fest, dass die isolierter Betrachtung von finanziellen Transaktionen: a) Nur zur Fraud-Aufdeckung beitragen kann, wenn die Täter nicht in der Lage sind ihre Aktivitäten verschleiern z.B. durch Löschen der Transaktion vor Jahresende. b) Data-Mining Algorithmen, welche als interessant betrachtet werden können, eine extrem hohe Rechenleistung voraussetzen. Dadurch stellt der Einsatz von Data Mining Verfahren unter isolierter Betrachtung von finanziellen Transaktionen, meiner Meinung nach, keinen ultimativen Mehrwert dar und ist aufgrund der benötigten Ressourcen, im Vergleich zu den bestehenden Datenanalysen, als nicht wirtschaftlich im Zusammenhang mit der Jahresabschlussprüfung für PricewaterhouseCoopers zu betrachten. Seite | 40 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 8 Literatur- und Quellenverzeichnis [1] Bernhard Hamberger (2001): Zum Umgang mit Massentransaktionen. Verhaltensmuster in Massentransaktionen automatisiert erkennen. Der Schweizer Treuhändler 05/01 [2] Christopher Westphal (2009): Data mining for intelligence, fraud & criminal detection. Advanced Analytics & Information Sharing Technologies. Boca Raton (USA): CRC Press [3] Fachhochschule Nordwestschweiz, Reber Anderas (2009): Unterrichtsunterlagen Modul Data Mining. Frühjahrssemester 2009. [4] IAASB (2007): International Standard of Auditing 240: The Auditor´s Responsibility to Consider Fraud in an Audit of Financial Statements (ISA 240). New York: IAASB Handbook 2007 [5] Holger Dambeck (2009): Mathematisches Gesetz verletzt. Zahlenforscher findet Hinweise auf Wahlmanipulation in Iran. Spiegel [Online 26.06.2009], www.spiegel.de [6] Jaiwei Han; Micheline Kamber (2001): Data Mining, Concepts and Techniques. USA: Morgan Kaufmann Publishers [7] Peter Zöfel (2004): Statistik für Wirtschaftswissenschaftler. München: Pearson Education [8] PricewaterhouseCoopers LLP, Investigations and Forensic Services, Claudia Nestler; Steven Skalak; John Wilkinson; Tony Parton; John Donker; Roger Stanley; Luis Madasi; Mona Breed; Jennifer Johnson; Prof. Dr. Kai Bussmann; Markus Werle; Oliver Krieg; Dominic Parker (2007): Global Economic Crime Survey 2007 [9] PricewaterhouseCoopers LLP, Forensic Services, John Tracey; Andrew Gordon (2009): Fraud in a downturn. A review of how fraud and other integrity risks will affect business in 2009 [10] PricewaterhouseCoopers LLP, Forensic Services (2009): Economy in a Downturn: Fraud is booming. Präsentation: 03.2009 [11] PricewaterhouseCoopers AG, Systems and Process Assurance, Jay McKey (2009): SPA Data Assurance Results for FY2009. Präsentation: 07.2009 [12] StB Stefan Knabe; Dr. Sebastian Mika; Prof. Dr. Klaus-Robert Müller; Dr. Grunnar Rätsch; Wienand Schruff (2004): In: Die Wirtschaftsprüfung Heft 19/2004. Zur Beurteilung des Fraud-Risikos im Rahmen der Abschlussprüfung [13] SPSS, Pete Chapman; Julian Clinton; Randy Kerber; Thomas Khabaza; Thomas Reinartz; Colin Shearer; Rüdiger Wirth (2000): CRISP-DM 1.0. Step-by-step data mining guide [14] Wikipedia (2009): Begriff: Diskretisierung.[Online 05.07.2009], www.wikipedia.org [15] Wikipedia (2009): Begriff: Transinformation (Mutual Information).[Online 15.07.2009], www.wikipedia.org [16] Wikipedia (2009): Begriff: Cohens Kappa.[Online 20.07.2009], www.wikipedia.org [17] Wikipedia (2009): Begriff: DBSCAN.[Online 20.07.2009], www.wikipedia.org Seite | 41 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 9 Abbildungsverzeichnis Abbildung 1. CRISP-DM Model........................................................................................................................2 Abbildung 2. Konditionen für Fraud ................................................................................................................4 Abbildung 3. Datensammlung pro Kunde / Geschäftsjahr .............................................................................6 Abbildung 4. Diskretisierung nach gleicher Breite ........................................................................................12 Abbildung 5. Diskretisierung von Kundentransaktionen nach gleicher Breite .............................................13 Abbildung 6. Diskretisierung nach gleicher Höhe .........................................................................................14 Abbildung 7. Wissensgewinnung durch Datenanalysen ...............................................................................15 Abbildung 8: Datengetriebene und Modellgetriebene Analyse ...................................................................15 Abbildung 9. Datenvisualisierungin Rapid Miner ..........................................................................................16 Abbildung 10. Klassifikation ..........................................................................................................................17 Abbildung 11. Klassifikationsmethoden........................................................................................................18 Abbildung 12. Transinformations Berechnung nach Wahrscheinlichkeit .....................................................19 Abbildung 13. Visualisierung von 5‘000 Datensätzen nach kNN in RapidMiner...........................................21 Abbildung 14. Entwicklung der Durchlaufzeit pro Datensatz .......................................................................23 Abbildung 15. Visualisierung von Clusterzugehörigkeiten in Rapid Miner ...................................................26 Abbildung 16. Clusterarten ...........................................................................................................................27 Abbildung 17. Clustermethoden ...................................................................................................................27 Abbildung 18. Cluster nach Anstellungsgruppen ..........................................................................................28 Abbildung 19. Erfolgreiche Clusterzuordnung ..............................................................................................29 Abbildung 20. Verdächtiges Transaktionsvorkommen .................................................................................29 Abbildung 21. Visualisierung Clustering K-Means in RapidMiner nach WRBTR und USNAM ......................31 Abbildung 22. Visualisierung Clustering EM in RapidMiner nach WRBTR und USNAM ...............................32 Abbildung 23. Visualisierung Clustering DBSCAN in RapidMiner nach WRBTR und USNAM .......................32 Abbildung 24. Visualisierung Clustering DBSCAN in RapidMiner nach WRBTR und CLUSTER......................33 Abbildung 25. Visualisierung Clustering DBSCAN in RapidMiner nach WRBTR und USNAM .......................34 Abbildung 26: Ziffernvorkommen nach dem Benfordschen Gesetz .............................................................38 Abbildung 27: Annahmen Fraud Auftreten...................................................................................................39 Quellen Abb. 1 2 8 26 Beschreibung CRISP-DM Model Konditionen für Fraud Datengetriebene und Modellgetriebene Analyse Ziffernvorkommen nach dem Benfordschen Gesetz Quelle www.crisp-dm.org Literatur [9] Literatur [3] www.wikipedia.org Seite | 42 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 10 Tabellenverzeichnis Tabelle 1. Fraud Top Ten .................................................................................................................................3 Tabelle 2. Beispiel einiger bei PricewaterhouseCoopers durchgeführten Datenanalysen .............................5 Tabelle 3: Entwicklung des Datenvolumens....................................................................................................7 Tabelle 4. Relevante Attribute ........................................................................................................................8 Tabelle 5. Unterschiedliche Datenformate ...................................................................................................10 Tabelle 6. Zielformate und Datentypen ........................................................................................................10 Tabelle 7. Numerische Konvertierung des Attributs SHKZG .........................................................................11 Tabelle 8. Kontengruppen .............................................................................................................................11 Tabelle 9. Datensatz mit Eigenkapitalbuchung .............................................................................................11 Tabelle 10. Relevante Attribute nach Konvertierung....................................................................................12 Tabelle 11. Testdaten mit abhängigen Variablen..........................................................................................17 Tabelle 12. Zu klassifizierende Testdaten .....................................................................................................18 Tabelle 13. Euklidische Entfernung ...............................................................................................................19 Tabelle 14. Konfusionsmatrix von 5‘000 Datensätzen .................................................................................22 Tabelle 15. Konfusionsmatrix von 10‘000 Datensätzen ................................................................................22 Tabelle 16. Geschwindigkeitsmessung Klassifikation....................................................................................23 Tabelle 17. Buchungstransaktionen pro Mitarbeiter pro Tag .......................................................................24 Tabelle 18. Assoziationen (Support und Konfidenz) .....................................................................................25 Tabelle 19. Verdächtige Datensätze..............................................................................................................33 Tabelle 20. Geschwindikeitsmessung Clustering ..........................................................................................35 Tabelle 21. Top Ten Indikatoren....................................................................................................................37 Tabelle 22. Indikatoren für Fraud ..................................................................................................................37 Quellen Tabelle 1 Top Ten Fraud Literatur: [10] Seite | 43 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 11 Authentizitätserklärung Hiermit erkläre ich, die vorliegende Bachelor Thesis selbstständig, ohne Mithilfe Dritter und unter Benutzung nur der angegebenen Quellen verfasst zu haben. Name Fabian Vontavon ________________________________ Datum 03. September 2009 ________________________________ Unterschrift ________________________________ Seite | 44 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 12 Anhang 12.1 SAS99: Fraud Risk Factors: Misstatements Arising from Fraudulent Financial Reporting Incentives/Pressures 1.Threatened financial stability or profitability • High degree of competition or sales saturation • High vulnerability to rapid changes (e.g., technology, interest rates) • Declines in customer demand, business failures in industry • Operating losses • Negative cash flows from operations • Rapid growth or unusual profitability • New accounting, statutory, or regulatory requirements 2. Excessive pressure on management to meet requirements or third party expectations due to • Profitability or trend level expectations • Need for additional debt or equity financing • Marginal ability to meet exchange listing requirements • Likely poor financial results on pending transactions 3. Management or directors’ financial situation threatened by • Significant financial interests in company • Significant portions of compensation contingent on results of company • Personal guarantees of debts of company 4. Excessive pressure to meet financial target set up by directors or management Opportunities 1. Industry provides opportunities for • Related-party transactions beyond ordinary • Company can dictate terms or conditions to suppliers or customers (may result in inappropriate transactions) • Accounts based on significant estimates • Significant, unusual or highly complex transactions • Significant operations across international borders with differing business environments and cultures • Significant bank accounts in tax haven jurisdictions 2. Ineffective monitoring of management allows • Domination of management by a single person or small group without controls • Ineffective board of director or audit committee oversight 3. Complex or unstable organizational structure • Difficulty in determining organization or individuals with control of company • Overly complex structure • High turnover of senior management, counsel, or board members Attitude/Rationalization Relating to board members, management, or employees • Ineffective communications, implementation, support or enforcement of ethics • Nonfinancial management excessive participation in selecting accounting principles or determining estimates • Known history of violations of securities or other laws • Excessive interest in maintaining or increasing stock price • Aggressive or unrealistic forecasts • Failure to correct reportable conditions on a timely basis • Interest by management of employing inappropriate means to minimize earnings for tax reasons • Recurring management attempts to justify marginal or inappropriate accounting based on materiality • Strained relationship with current or predecessor auditor Internal control deficient • Inadequate monitoring of controls • High turnover rates or ineffective accounting, internal audit or information technology staff • Ineffective accounting and information systems Seite | 45 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 12.2 SAS99: Fraud Risk Factors: Misstatements Arising from Misappropriation of Assets Incentives/Pressures 1. Personal financial obligations 2. Adverse relationship between company and employees • Known or anticipated layoffs • Changes in compensation • Promotions, compensation or other rewards inconsistent with expectations Opportunities 1. Characteristics of assets • Large amounts of cash on hand or processed • Small, high value, or high demand inventory items • Easily convertible assets (bearer bonds, diamonds, computer chips) • Small marketable fixed assets 2. Inadequate internal control, including inadequate: • Segregation of duties • Job applicant screening of employees with access to assets • Recordkeeping for assets • Authorization or approval of transactions • Reconciliation of assets • Documentation of transaction s(e.g., credits for merchandise returns • Requirements for mandatory vacations • Management understanding of information technology • Access controls over automated records Attitude/Rationalization Attitude or behavior of those with access to assets susceptible to misappropriation • Disregard for need for monitoring or reducing risks • Disregard for internal control • Behavior indicating displeasure or dissatisfaction with company or its treatment of employees • Changes in behavior or lifestyle that indicate assets may have been misappropriated Seite | 46 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 12.3 FRAT44: Die 44 wichtigsten Indikatoren No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 Score 76,90 57,60 56,96 36,68 29,91 28,50 26,67 23,13 21,78 20,87 20,79 16,99 16,38 16,34 16,11 15,72 14,63 14,48 13,50 13,30 12,48 12,31 11,73 11,07 10,59 9,83 9,50 9,05 9,00 8,77 8,37 8,20 7,87 7,87 7,57 7,08 6,92 6,82 6,45 6,40 6,35 6,22 6,15 6,04 Titel der Frage (Indikator) Ungewöhnliche Geschäftsvorfälle Rechnungswesenpersonal Kündigungen wegen doloser Handlungen Persönliche Ziele der Gesellschafter/Manager Umstrukturierungen Kritische Unternehmenssituation Ungewöhnliche Transaktionen Wahrheitsgehalt der Angaben Persönliche Verknüpfungen Entlegene Niederlassungen Erlangung von Prüfungsnachweisen Wissensabfluss Führungsstil Besonderheiten, Steuerberater, Rechtsanwalt, Consultant Handel von Unternehmensteilen Existenz, Verbreitung, Kontrolle, Anpassung eines Unternehmensleitbildes Rechtsform Rechnungsbegleichung (Ausgangsrechnungen) Niederlassungen / Beteiligungen Rechnungsbegleichung (Eingangsrechnungen) Geschäftsvorfälle mit bestimmten Ländern Bankkonten Kassenführung und –kontrolle Handhabung Buchführungsgrundsätze Anzahl der Mitglieder und Dienstjahre Top-Management Einstellung zu den Prüfungsergebnissen Gesamteindruck Funktionstrennung Management Overview Informationsverhalten Leistungsabhängige Vergütung Belegerstellung Dokumentation der Netzwerk- und Anwendungsberechtigungen Prüfungsergebnisse Ausschreibungen Machtkonzentration Verhaltenskodex für Einkaufsmitarbeiter Produktänderungen Zusätzliche Aufträge Nummerierungen Verhalten gegenüber Aufsichtsbehörden Beförderungen Installationsdatenträger Alter Seite | 47 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon 12.4 FRAT44: Die 44 wichtigsten Fragen Indikator Beherrschung des Geschäftsführungsgremiums durch eine oder wenige Personen….. …. ohne ein wirksames Überwachungsorgan Undurchsichtige Organisationsstruktur Aggressive Ausnutzung von Wahlrechten und Beurteilungsspielräumen durch die Unternehmensleitung Fehlende Bereitschaft zur Verbesserung des internen Kontrollsystems Fehlende Bereitschaft der Unternehmensleitung, unterjährig bekannt gewordene Fehler in der Buchhaltung zeitnah zu korrigieren Häufiger Personalwechsel in Führungspositionen Dauerhafte personelle Unterbesetzung der Buchhaltungsabteilung Häufiger Wechsel der Abschlussprüfer Schrumpfende, stagnierende oder auch stark expandierende Geschäftstätigkeit Unzurechende Kapitalausstattung sowie Abhängigkeit von einzelnen Kreditgebern Ungünstige Ergebnisentwicklung Risikoreiche Ertragsquellen oder steigender Anteil der nicht betrieblichen Erträge Notwendigkeit, Gewinnminderungen im operativen Geschäft durch Sondermaßnahmen zu kompensieren Abhängigkeit von wenigen Lieferanten und Kunden Geschäfte mit wesentlichen Gewinnauswirkungen (besonders gegen Jahresende) Komplizierte Geschäfte…. ….oder ungewöhnliche Bilanzierung von Geschäften Geschäft mit nahe stehenden Personen und Unternehmen Im Verhältnis zur erhaltenen Leistung überhöhte ausgaben mit Vermittlungsprovisionen und für Rechts- oder Unternehmensberatung Mangelhafte Buchungen oder Dokumentationen von Geschäftsvorfällen Hohe Zahl von Differenzen zwischen den Ergebnissen der Buchführung und den Bestätigugen Dritter Schwer prüfbare Buchführungssysteme Ausweichende oder schwer nachvollziehbare Auskünfte der gesetzlichen Vertreter zu Anfragen des Abschlussprüfers Fehlende Bereitschaft der gesetzlichen Vertreter, den vorhergehenden Abschlussprüfer auf Anforderungen des Abschlussprüfers von der Verschwiegenheitsverpflichtung zu befreien. Hohe ergebnisabhängige Vergütungen für Mitarbeiter in leitender Funktion Unangemessene kurze Zeit zur Erstellung des Abschlusses Signifikant Ja Nein Nein Ja Ja Ja Ja Nein Nein Ja Nein Nein Nein Nein Nein Ja Ja Ja Ja Ja Ja Ja Ja Ja Nein Ja Nein Seite | 48 Identifikation potentieller Falschdarstellungen von Jahresrechnungen mittels Data Mining Fabian Vontavon Die Unternehmensleitung steht unter starkem Druck, die eigenen (ggf. Bereits veröffentlichten) Ergeniserwartungen oder die Erwartungen Dritter zu erfüllen (z.B. Ergebniserwartungen von Analysten oder institutionellen Investoren) Unzureichende Wirksamkeit der Internen Revision Fehlende oder veraltete Dokumentation des Aufbaus der Dateien oder der Programme Zahlreiche Programmänderungen, die nicht dokumentiert, genehmigt oder getestet sind Zahlungen für nicht spezifizierte Dienstleistungen oder Darlehen an Berater, nahe stehende Personen sowie Mitarbeiter des Unternehmens oder Behörden sowie an Personen, die dem benannten Personenkreis nahe stehen. Aussergewöhnliche Einkaufs- oder Verkaufspreise, hohe Provisionen Aussergewöhnliche Geschäfte mit Unternehmen in Niedrigsteuerländern Zahlungen an einen Empfänger in einem anderen Land als dem Ursprungsland von bezogenen Waren oder Dienstleistungen Nicht autorisierte oder ungenügend dokumentierte Geschäfte Nachteilige Presseberichterstattung Nein Nein Nein Nein Ja Ja Ja Nein Ja Nein Seite | 49