Peter N. Posch Ziffernanalyse in Theorie und Praxis

Werbung
Peter N. Posch
Ziffernanalyse in Theorie und Praxis
Testverfahren zur Fälschungsaufspürung mit Benfords Gesetz
Berichte aus der Statistik
Peter N. Posch
Ziffernanalyse in Theorie und Praxis
Testverfahren zur Fälschungsaufspürung mit Benfords Gesetz
Shaker Verlag
Aachen 2005
Bibliografische Information der Deutschen Bibliothek
Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen
Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über
http://dnb.ddb.de abrufbar.
Bei »Zugl.:« Uni ändern ! Es
wurde nicht angegeben, ob
»Diss« oder »Habil« bei
»Zugl.:« ! , ansonsten :
Copyright Shaker Verlag 2005
Alle Rechte, auch das des auszugsweisen Nachdruckes, der auszugsweisen
oder vollständigen Wiedergabe, der Speicherung in Datenverarbeitungsanlagen und der Übersetzung, vorbehalten.
Printed in Germany.
ISBN 3-8322-4492-1
ISSN 1619-0963
Shaker Verlag GmbH • Postfach 101818 • 52018 Aachen
Telefon: 02407 / 95 96 - 0 • Telefax: 02407 / 95 96 - 9
Internet: www.shaker.de • eMail: [email protected]
Zusammenfassung
Diese Arbeit untersucht das empirische Phänomen der ersten Ziffern“, nach einem frühen
”
Bearbeiter auch Benfords Gesetz“ genannt. Hierbei sind die Anfangsziffern in bestimmten
”
Tabellenwerken nicht gleichverteilt, sondern folgen einer logarithmischen Verteilung. Es
wird diese Verteilung aus einer Mantissenverteilung hergeleitet sowie eine allgemeine Form
für beliebige Basen und beliebige Ziffernpositionen gegeben. Neben der Herleitung einiger
Eigenschaften dieser Benford-Verteilung, wie Skalen-, Basen-, Summen- und Multiplikationsinvarianz, wird eine statistische Herleitung angeführt, die in einen Grenzwertsatz für
logarithmische Verteilungen mündet. Die theoretischen Grundlagen werden hiernach für
die Entwicklung neuer Anpassungstests genutzt. Anhand von Steuererklärungen wird gezeigt, wie die Ziffernanalyse zur Aufspürung manipulierter Einträge genutzt werden kann.
Untersuchungen ökonomischer Datensätze eröffnen schließlich neue Anwendungsmöglichkeiten des Gesetzes.
Danksagung
Die vorliegende Arbeit entstand an der Rheinischen Friedrich-Wilhelms-Universität Bonn
in der Abteilung Statistik von Prof. D. Sondermann und Prof. K. Schürger. Sie wurde
dort als Abschlussarbeit im Diplomstudiengang Volkswirtschaftslehre an der Rechts- und
Staatswissenschaftlichen Fakultät eingereicht und angenommen. Ich bin Herrn Prof. K.
Schürger für seine ermunternde Unterstützung sehr dankbar. Ferner danke ich Prof. Th.
Hill und A. Jamain für wertvolle Hinweise sowie Th. Zinnel vom Bundesministerium der
Finanzen und H. Kurth vom Finanzministerium NRW für die Bereitstellung der Datenbasis.
Bonn, 07. Mai 2003
Peter N. Posch
([email protected])
Inhaltsverzeichnis
1. Einleitung
1
2. Theoretische Herleitungen
3
2.1. Das Gesetz der signifikanten Ziffern . . . . . . . . . . . . . . . . . . . . . .
3
2.1.1. Mantissenverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2.1.2. Gemeinsame Verteilung der ersten k Ziffern . . . . . . . . . . . . .
5
2.1.3. Verteilung der Ziffern an n-ter Stelle . . . . . . . . . . . . . . . . .
5
2.1.4. Konvergenz gegen die Gleichverteilung . . . . . . . . . . . . . . . .
6
2.1.5. Generierung von Benford-Zufallsvariablen . . . . . . . . . . . . . .
7
2.2. Eine statistische Herleitung . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.2.1. Wahrscheinlichkeitsraum . . . . . . . . . . . . . . . . . . . . . . . .
8
2.2.2. Skalen- und Baseninvarianz . . . . . . . . . . . . . . . . . . . . . . 10
2.2.3. Stichproben zufälliger Verteilungen . . . . . . . . . . . . . . . . . . 12
2.2.4. Logarithmischer Grenzwertsatz . . . . . . . . . . . . . . . . . . . . 14
2.3. Weitere Invarianzeigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.1. Summeninvarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.2. Inversion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.3. Multiplikation und Division . . . . . . . . . . . . . . . . . . . . . . 18
2.3.4. Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4. Folgen und Verteilungen mit Benford-Eigenschaften . . . . . . . . . . . . . 20
2.4.1. Bedingungen für Benford-Folgen . . . . . . . . . . . . . . . . . . . . 20
2.4.2. Beispiele für Benford-Folgen . . . . . . . . . . . . . . . . . . . . . . 21
2.4.3. Verteilungsfunktionen
. . . . . . . . . . . . . . . . . . . . . . . . . 22
3. Empirische Resultate und Anwendungen
24
3.1. Testverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.1. Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.2. Invarianz-Testverfahren . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2. Fälschungsaufspürung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1. Verzerrungsfaktor-Modell . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.2. Zifferntests
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.3. Steuervermeidung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
i
Inhaltsverzeichnis
3.3. Ökonomische Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.1. Preisindizes und Inflationsraten . . . . . . . . . . . . . . . . . . . . 36
3.3.2. Wertpapiermärkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4. Weitere empirische Resultate und Anwendungen . . . . . . . . . . . . . . . 38
4. Schlussbemerkung
39
5. Mathematischer Anhang
42
5.1. Das Gesetz der signifikanten Ziffern . . . . . . . . . . . . . . . . . . . . . . 42
5.1.1. Mantissenverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.1.2. Gemeinsame Verteilung der ersten k Ziffern . . . . . . . . . . . . . 43
5.1.3. Verteilung der n-ten Ziffer . . . . . . . . . . . . . . . . . . . . . . . 45
5.1.4. Konvergenz gegen die Gleichverteilung . . . . . . . . . . . . . . . . 45
5.1.5. Generierung von Benford-Zufallsvariablen . . . . . . . . . . . . . . 49
5.2. Eine statistische Herleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2.1. Wahrscheinlichkeitsraum . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2.2. Skalen- und Baseninvarianz . . . . . . . . . . . . . . . . . . . . . . 52
5.2.3. Stichproben zufälliger Verteilungen . . . . . . . . . . . . . . . . . . 58
5.2.4. Logarithmischer Grenzwertsatz . . . . . . . . . . . . . . . . . . . . 59
5.3. Weitere Invarianz-Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3.1. Summeninvarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3.2. Inverse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.3.3. Multiplikation und Addition . . . . . . . . . . . . . . . . . . . . . . 61
5.3.4. Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4. Folgen und Verteilungen mit Benford-Eigenschaften . . . . . . . . . . . . . 64
5.4.1. Bedingungen für Benford-Folgen . . . . . . . . . . . . . . . . . . . . 64
5.4.2. Beispiele für Benford Folgen . . . . . . . . . . . . . . . . . . . . . . 65
5.4.3. Verteilungsfunktionen
. . . . . . . . . . . . . . . . . . . . . . . . . 67
5.4.4. Lognormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.5. Testverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.5.1. Spezifische Benford Tests . . . . . . . . . . . . . . . . . . . . . . . . 70
5.6. Fälschungsaufspürung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.6.1. Verzerrungfaktor Modell . . . . . . . . . . . . . . . . . . . . . . . . 72
5.7. Steuererklärungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.8. Untersuchungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.8.1. Fibonacci-Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.8.2. Inflationsrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.8.3. Wertpapiermärkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.9. Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.10. Benford Daten Analyse - Ein Programm . . . . . . . . . . . . . . . . . . . 83
ii
Häufig verwendete Abkürzungen
BF
d.i.
Dichte
f.s.
g.v.
MAD
MSE
mod 1
SB
sig.
sog.
u.i.v.
VF
W.-Raum
W.-Maß
ZWM
ZGS
ZV
Benford-Folge(n) (vgl. Kapitel 2.4)
das ist
Dichtefunktion
fast sicher
gleichverteilt (oft auch: ∼ U N I(a, b))
Mittlere absolute Abweichung (vgl. Kapitel 3.1.1)
Mittlerer quadratischer Fehler (vgl. Kapitel 3.1.1)
Modulo Eins
Sachbereich(e) (vgl. Kapitel 3.2.3)
signifikant(e)
so genannte
(stochastisch) unabhängig und identisch verteilt
(kumulative) Verteilungsfunktion
Wahrscheinlichkeitsraum
Wahrscheinlichkeitsmaß
Zufalls-Wahrscheinlichkeits-Maß (vgl. Kapitel 2.2)
Zentraler Grenzwertsatz
Zufallsvariable(n)
Notation
Folgende Notationen und Definitionen werden in der vorliegenden Arbeit benutzt.
• R bezeichnet die Menge der reellen Zahlen, R+ die reellen Zahlen in ]0, ∞[, N die
Menge der natürlichen Zahlen (0 ∈
/ N), N∗ := N ∪ {0} und Z bezeichnet die Menge
der ganzen Zahlen.
• logb (x) bezeichnet den Logarithmus von x (x ∈ R+ ) zur Basis b. Es gilt b ∈ N, b > 1;
log x ohne Subskript bezeichnet den dekadischen Logarithmus, d.i. der Logarithmus
, wobei ln den natürlichen Logarithmus
zur Basis 10. Man beachte: logb (x) = ln(x)
ln(b)
bezeichnet.
• < x > notiert den Nachkommateil von x ∈ R. x bezeichnet die größte natürliche
Zahl ≤ x ,x ∈ R.1 Offensichtlich gilt x = x + < x >.
• Eine reelle Zahl x modulo n ist definiert als x( mod n) := x − nx n mit n ∈ N.
• [a, b] bezeichnet das abgeschlossene reelle Intervall: [a, b] := {x|a ≤ x ≤ b, x ∈ R}.
Analog bezeichnet [a, b[ das rechtsoffene und ]a, b] das linksoffene reelle Intervall.
1
Die Notation folgt Graham u. a. (1994). In einigen älteren Arbeiten (so z.B. Diaconis (1977)) findet
sich das Symbol [x] anstatt x.
• (xn )n∈N bezeichnet die reelle Folge x1 , x2 , ....
• R bezeichnet die Borel-σ-Algebra auf R, d.i. R := σ{ ]a, b[ |∞ < a < b < ∞} ⊂
P(R). Eine Menge B ∈ R heißt Borel-Menge. Die σ-Algebra R(B) := {A ⊂ B|A ∈
R} heißt die Spur von R auf der Borel-Menge B. Es gilt: R+ := R(R+ ). Eine Menge
C aus R(B) heißt Borel-Teilmenge von B.2
• Für eine beliebige Menge A ⊂ R und b ∈ R bezeichnet bA (oder b · A) die Menge
{b·a|a ∈ A}, b+A die Menge {b+a|a ∈ A}, sowie Ab := {ab |a ∈ A} und A mod b die
Menge {a mod b|a ∈ A}. Für abzählbare Mengen A bezeichnet #A die Kardinalzahl
von A.
• Als Mantisse zur Basis b von x (x ∈ R+ ) wird die eindeutig bestimmte Zahl mb
bezeichnet, für die gilt: x = mb · bk für ein k ∈ Z und mb ∈ [1, b[. Als normalisierte
Mantisse zur Basis b wird die eindeutig bestimmte Zahl m∗b := mbb bezeichnet.
Hiervon ist der Begriff der logarithmischen Mantisse abzugrenzen. Dieser bezeichnet
den Nachkommateil des (dekadischen) Logarithmus’ einer reellen Zahl: log(|x|) −
log(|x|).3
• IA oder I(A) bezeichnet die Indikatorfunktion des Ereignisses A, d.i. IA (ω) = 1 für
/ A.
ω ∈ A und IA (ω) = 0 für ω ∈
• (n-te) Ziffer“ bezieht sich jeweils auf die (n-te) signifikante (kurz: sig.) Ziffer. Die
”
erste sig. Ziffer ist diejenige natürliche Zahl aus {1, ..., b − 1}, die am weitesten links
steht, die zweite sig. Ziffer die rechts neben der ersten sig. Ziffer stehende natürliche
Zahl aus {0, 1, ..., b − 1} usw.
• Sofern nicht anders angegeben werden alle Konstanten im Dezimalsystem notiert.
• Um Konformität mit computergestützten Resultaten zu erreichen wird als Dezimaltrennzeichen ein Punkt verwendet.
2
3
Vgl. Schürger (1998), S. 24f. und S. 26. P(R) bezeichnet die Potenzmenge von R.
Bronstein u. a. (1999), S. 9. Vgl. auch Knuth (1997), S. 214 sowie Weisstein (2002), S. 1852.
Herunterladen