Peter N. Posch Ziffernanalyse in Theorie und Praxis Testverfahren zur Fälschungsaufspürung mit Benfords Gesetz Berichte aus der Statistik Peter N. Posch Ziffernanalyse in Theorie und Praxis Testverfahren zur Fälschungsaufspürung mit Benfords Gesetz Shaker Verlag Aachen 2005 Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar. Bei »Zugl.:« Uni ändern ! Es wurde nicht angegeben, ob »Diss« oder »Habil« bei »Zugl.:« ! , ansonsten : Copyright Shaker Verlag 2005 Alle Rechte, auch das des auszugsweisen Nachdruckes, der auszugsweisen oder vollständigen Wiedergabe, der Speicherung in Datenverarbeitungsanlagen und der Übersetzung, vorbehalten. Printed in Germany. ISBN 3-8322-4492-1 ISSN 1619-0963 Shaker Verlag GmbH • Postfach 101818 • 52018 Aachen Telefon: 02407 / 95 96 - 0 • Telefax: 02407 / 95 96 - 9 Internet: www.shaker.de • eMail: [email protected] Zusammenfassung Diese Arbeit untersucht das empirische Phänomen der ersten Ziffern“, nach einem frühen ” Bearbeiter auch Benfords Gesetz“ genannt. Hierbei sind die Anfangsziffern in bestimmten ” Tabellenwerken nicht gleichverteilt, sondern folgen einer logarithmischen Verteilung. Es wird diese Verteilung aus einer Mantissenverteilung hergeleitet sowie eine allgemeine Form für beliebige Basen und beliebige Ziffernpositionen gegeben. Neben der Herleitung einiger Eigenschaften dieser Benford-Verteilung, wie Skalen-, Basen-, Summen- und Multiplikationsinvarianz, wird eine statistische Herleitung angeführt, die in einen Grenzwertsatz für logarithmische Verteilungen mündet. Die theoretischen Grundlagen werden hiernach für die Entwicklung neuer Anpassungstests genutzt. Anhand von Steuererklärungen wird gezeigt, wie die Ziffernanalyse zur Aufspürung manipulierter Einträge genutzt werden kann. Untersuchungen ökonomischer Datensätze eröffnen schließlich neue Anwendungsmöglichkeiten des Gesetzes. Danksagung Die vorliegende Arbeit entstand an der Rheinischen Friedrich-Wilhelms-Universität Bonn in der Abteilung Statistik von Prof. D. Sondermann und Prof. K. Schürger. Sie wurde dort als Abschlussarbeit im Diplomstudiengang Volkswirtschaftslehre an der Rechts- und Staatswissenschaftlichen Fakultät eingereicht und angenommen. Ich bin Herrn Prof. K. Schürger für seine ermunternde Unterstützung sehr dankbar. Ferner danke ich Prof. Th. Hill und A. Jamain für wertvolle Hinweise sowie Th. Zinnel vom Bundesministerium der Finanzen und H. Kurth vom Finanzministerium NRW für die Bereitstellung der Datenbasis. Bonn, 07. Mai 2003 Peter N. Posch ([email protected]) Inhaltsverzeichnis 1. Einleitung 1 2. Theoretische Herleitungen 3 2.1. Das Gesetz der signifikanten Ziffern . . . . . . . . . . . . . . . . . . . . . . 3 2.1.1. Mantissenverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1.2. Gemeinsame Verteilung der ersten k Ziffern . . . . . . . . . . . . . 5 2.1.3. Verteilung der Ziffern an n-ter Stelle . . . . . . . . . . . . . . . . . 5 2.1.4. Konvergenz gegen die Gleichverteilung . . . . . . . . . . . . . . . . 6 2.1.5. Generierung von Benford-Zufallsvariablen . . . . . . . . . . . . . . 7 2.2. Eine statistische Herleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2.1. Wahrscheinlichkeitsraum . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2.2. Skalen- und Baseninvarianz . . . . . . . . . . . . . . . . . . . . . . 10 2.2.3. Stichproben zufälliger Verteilungen . . . . . . . . . . . . . . . . . . 12 2.2.4. Logarithmischer Grenzwertsatz . . . . . . . . . . . . . . . . . . . . 14 2.3. Weitere Invarianzeigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.3.1. Summeninvarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.3.2. Inversion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3.3. Multiplikation und Division . . . . . . . . . . . . . . . . . . . . . . 18 2.3.4. Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.4. Folgen und Verteilungen mit Benford-Eigenschaften . . . . . . . . . . . . . 20 2.4.1. Bedingungen für Benford-Folgen . . . . . . . . . . . . . . . . . . . . 20 2.4.2. Beispiele für Benford-Folgen . . . . . . . . . . . . . . . . . . . . . . 21 2.4.3. Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . 22 3. Empirische Resultate und Anwendungen 24 3.1. Testverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.1.1. Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.1.2. Invarianz-Testverfahren . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.2. Fälschungsaufspürung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.2.1. Verzerrungsfaktor-Modell . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2.2. Zifferntests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2.3. Steuervermeidung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 i Inhaltsverzeichnis 3.3. Ökonomische Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.3.1. Preisindizes und Inflationsraten . . . . . . . . . . . . . . . . . . . . 36 3.3.2. Wertpapiermärkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.4. Weitere empirische Resultate und Anwendungen . . . . . . . . . . . . . . . 38 4. Schlussbemerkung 39 5. Mathematischer Anhang 42 5.1. Das Gesetz der signifikanten Ziffern . . . . . . . . . . . . . . . . . . . . . . 42 5.1.1. Mantissenverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5.1.2. Gemeinsame Verteilung der ersten k Ziffern . . . . . . . . . . . . . 43 5.1.3. Verteilung der n-ten Ziffer . . . . . . . . . . . . . . . . . . . . . . . 45 5.1.4. Konvergenz gegen die Gleichverteilung . . . . . . . . . . . . . . . . 45 5.1.5. Generierung von Benford-Zufallsvariablen . . . . . . . . . . . . . . 49 5.2. Eine statistische Herleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 51 5.2.1. Wahrscheinlichkeitsraum . . . . . . . . . . . . . . . . . . . . . . . . 51 5.2.2. Skalen- und Baseninvarianz . . . . . . . . . . . . . . . . . . . . . . 52 5.2.3. Stichproben zufälliger Verteilungen . . . . . . . . . . . . . . . . . . 58 5.2.4. Logarithmischer Grenzwertsatz . . . . . . . . . . . . . . . . . . . . 59 5.3. Weitere Invarianz-Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . 60 5.3.1. Summeninvarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.3.2. Inverse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 5.3.3. Multiplikation und Addition . . . . . . . . . . . . . . . . . . . . . . 61 5.3.4. Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.4. Folgen und Verteilungen mit Benford-Eigenschaften . . . . . . . . . . . . . 64 5.4.1. Bedingungen für Benford-Folgen . . . . . . . . . . . . . . . . . . . . 64 5.4.2. Beispiele für Benford Folgen . . . . . . . . . . . . . . . . . . . . . . 65 5.4.3. Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.4.4. Lognormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.5. Testverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.5.1. Spezifische Benford Tests . . . . . . . . . . . . . . . . . . . . . . . . 70 5.6. Fälschungsaufspürung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.6.1. Verzerrungfaktor Modell . . . . . . . . . . . . . . . . . . . . . . . . 72 5.7. Steuererklärungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5.8. Untersuchungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.8.1. Fibonacci-Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.8.2. Inflationsrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.8.3. Wertpapiermärkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 5.9. Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.10. Benford Daten Analyse - Ein Programm . . . . . . . . . . . . . . . . . . . 83 ii Häufig verwendete Abkürzungen BF d.i. Dichte f.s. g.v. MAD MSE mod 1 SB sig. sog. u.i.v. VF W.-Raum W.-Maß ZWM ZGS ZV Benford-Folge(n) (vgl. Kapitel 2.4) das ist Dichtefunktion fast sicher gleichverteilt (oft auch: ∼ U N I(a, b)) Mittlere absolute Abweichung (vgl. Kapitel 3.1.1) Mittlerer quadratischer Fehler (vgl. Kapitel 3.1.1) Modulo Eins Sachbereich(e) (vgl. Kapitel 3.2.3) signifikant(e) so genannte (stochastisch) unabhängig und identisch verteilt (kumulative) Verteilungsfunktion Wahrscheinlichkeitsraum Wahrscheinlichkeitsmaß Zufalls-Wahrscheinlichkeits-Maß (vgl. Kapitel 2.2) Zentraler Grenzwertsatz Zufallsvariable(n) Notation Folgende Notationen und Definitionen werden in der vorliegenden Arbeit benutzt. • R bezeichnet die Menge der reellen Zahlen, R+ die reellen Zahlen in ]0, ∞[, N die Menge der natürlichen Zahlen (0 ∈ / N), N∗ := N ∪ {0} und Z bezeichnet die Menge der ganzen Zahlen. • logb (x) bezeichnet den Logarithmus von x (x ∈ R+ ) zur Basis b. Es gilt b ∈ N, b > 1; log x ohne Subskript bezeichnet den dekadischen Logarithmus, d.i. der Logarithmus , wobei ln den natürlichen Logarithmus zur Basis 10. Man beachte: logb (x) = ln(x) ln(b) bezeichnet. • < x > notiert den Nachkommateil von x ∈ R. x bezeichnet die größte natürliche Zahl ≤ x ,x ∈ R.1 Offensichtlich gilt x = x + < x >. • Eine reelle Zahl x modulo n ist definiert als x( mod n) := x − nx n mit n ∈ N. • [a, b] bezeichnet das abgeschlossene reelle Intervall: [a, b] := {x|a ≤ x ≤ b, x ∈ R}. Analog bezeichnet [a, b[ das rechtsoffene und ]a, b] das linksoffene reelle Intervall. 1 Die Notation folgt Graham u. a. (1994). In einigen älteren Arbeiten (so z.B. Diaconis (1977)) findet sich das Symbol [x] anstatt x. • (xn )n∈N bezeichnet die reelle Folge x1 , x2 , .... • R bezeichnet die Borel-σ-Algebra auf R, d.i. R := σ{ ]a, b[ |∞ < a < b < ∞} ⊂ P(R). Eine Menge B ∈ R heißt Borel-Menge. Die σ-Algebra R(B) := {A ⊂ B|A ∈ R} heißt die Spur von R auf der Borel-Menge B. Es gilt: R+ := R(R+ ). Eine Menge C aus R(B) heißt Borel-Teilmenge von B.2 • Für eine beliebige Menge A ⊂ R und b ∈ R bezeichnet bA (oder b · A) die Menge {b·a|a ∈ A}, b+A die Menge {b+a|a ∈ A}, sowie Ab := {ab |a ∈ A} und A mod b die Menge {a mod b|a ∈ A}. Für abzählbare Mengen A bezeichnet #A die Kardinalzahl von A. • Als Mantisse zur Basis b von x (x ∈ R+ ) wird die eindeutig bestimmte Zahl mb bezeichnet, für die gilt: x = mb · bk für ein k ∈ Z und mb ∈ [1, b[. Als normalisierte Mantisse zur Basis b wird die eindeutig bestimmte Zahl m∗b := mbb bezeichnet. Hiervon ist der Begriff der logarithmischen Mantisse abzugrenzen. Dieser bezeichnet den Nachkommateil des (dekadischen) Logarithmus’ einer reellen Zahl: log(|x|) − log(|x|).3 • IA oder I(A) bezeichnet die Indikatorfunktion des Ereignisses A, d.i. IA (ω) = 1 für / A. ω ∈ A und IA (ω) = 0 für ω ∈ • (n-te) Ziffer“ bezieht sich jeweils auf die (n-te) signifikante (kurz: sig.) Ziffer. Die ” erste sig. Ziffer ist diejenige natürliche Zahl aus {1, ..., b − 1}, die am weitesten links steht, die zweite sig. Ziffer die rechts neben der ersten sig. Ziffer stehende natürliche Zahl aus {0, 1, ..., b − 1} usw. • Sofern nicht anders angegeben werden alle Konstanten im Dezimalsystem notiert. • Um Konformität mit computergestützten Resultaten zu erreichen wird als Dezimaltrennzeichen ein Punkt verwendet. 2 3 Vgl. Schürger (1998), S. 24f. und S. 26. P(R) bezeichnet die Potenzmenge von R. Bronstein u. a. (1999), S. 9. Vgl. auch Knuth (1997), S. 214 sowie Weisstein (2002), S. 1852.