Übungsaufgaben -Benford Gesetz__________________________________________________________________________________________ Aufgabe 1) Benford Verteilung Nach dem Benford Gesetz gilt: Die Wahrscheinlichkeit, dass eine Zahl mit der Ziffer n beginnt, ist: P( X n) log 10(1 1n ) Demnach ergeben sich für die Ziffern 1 bis 9 folgende Wahrscheinlichkeiten: erste Ziffer n Wahrscheinlichkeit für erste Ziffer P(X=n) 1 2 3 4 5 6 7 8 9 0,301 0,176 0,125 0,097 0,079 0,067 0,058 0,051 0,046 a) Beschreiben Sie die beiden Eigenschaften von diskreten Verteilungen und in welchen drei Formen lassen sich diskrete Verteilungen darstellen? b) Zeigen Sie anhand der Eigenschaften, dass es sich bei der obigen Tabelle um eine Verteilung handelt! c) Stellen Sie sowohl die Wahrscheinlichkeitsverteilung der Zufallsgröße als auch die kumulierte Wahrscheinlichkeitsverteilung tabellarisch und grafisch im TIVoyage 200 dar! Übungsaufgaben -Benford Gesetz__________________________________________________________________________________________ Aufgabe 2) Das Gesetz der großen Zahlen a) Der untenstehenden Tabelle kann man entnehmen, wie häufig bei den Ländergrößen die erste Ziffer gleich n ist. Dabei haben wir einmal nach alphabetischer Reihenfolge die ersten 50 Länder analysiert und ein weiteres Mal die absoluten Häufigkeiten bei allen 193 Ländern beobachtet. Berechnen Sie zuerst die relativen Häufigkeiten beider Versuchsreihen. absolute Häufigkeit relative Häufigkeit absolute Häufigkeit relative Häufigkeit bei 50 Ländern bei 193 Ländern 54 bei 193 Ländern 1 bei 50 Ländern 11 2 13 39 0,17609126 3 5 23 0,12493874 4 7 20 0,09691001 5 5 14 0,07918125 6 3 13 0,06694679 7 3 12 0,05799195 8 2 8 0,05115252 9 1 10 0,04575749 Summe 50 193 1 erste Ziffer n BenfordVerteilung 0,30103 b) Stellen Sie die relativen Häufigkeiten grafisch im TI-Voyage 200 in zwei Koordinatensystemen dar. Vergleichen Sie die beiden Grafiken mit denen der Benford Verteilung. Dazu sollen die Wahrscheinlichkeiten der ersten Ziffer nach dem Benford Gesetz zusätzlich in die beiden Koordinatensysteme gezeichnet werden. c) Die nachstehende Abbildung bezieht sich auf ein Zufallsexperiment, bei dem ganze Zufallszahlen im Intervall [1;9] gezogen wurden. Die Anzahl der Zufallszahlen wurde bei jedem Versuch von anfangs 10 bis auf 2000 erhöht. Durch das Betrachten der relativen Häufigkeiten einer Zahl, z.B. der „6“, in Abhängigkeit von der Anzahl der erzeugten Zahlen, ergab sich folgende Grafik: y 0.25 0.2 0.15 0.1 0.05 0 0 500 1000 1500 2000 x Erklären Sie an diesem Beispiel, was das „Gesetz der großen Zahlen“ aussagt! Übungsaufgaben -Benford Gesetz__________________________________________________________________________________________ Aufgabe 3) Binomialverteilung Sie sind bei der Zifex GmbH in der Innenrevision beschäftigt. Dort überprüfen Sie Einkaufsrechnungen. Dabei stellen Sie fest, dass bei den insgesamt 250 Zahlen auf den Rechnungen 32 Zahlen mit der Ziffer „4“ beginnen. a) Kann man bei der Aneinanderreihung der obigen 250 Zufallsexperimente von einer Bernoulli-Kette sprechen? Welche Voraussetzungen müssen dafür erfüllt sein? b) Wie groß ist die Wahrscheinlichkeit, dass von den insgesamt 250 Zahlen in den Rechnungen 32 Zahlen mit der Ziffer „4“ beginnen, wenn das Datenmaterial dem Benford Gesetz unterliegt? c) Mit welcher Wahrscheinlichkeit hat ein 250 Zahlen umfassendes Datenmaterial bei weniger als 32 Zahlen eine „4“ als Anfangsziffer? Wie hoch ist die Irrtumswahrscheinlichkeit, wenn man bei dem obigen Beispiel der Einkaufsrechnungen behauptet, dass die Daten manipuliert sind. Übungsaufgaben -Benford Gesetz__________________________________________________________________________________________ Aufgabe 4) Chi-Quadrat-Test für Verteilungen Überprüfe mit Hilfe des 2 Tests , ob sich die Benford Verteilung und die Verteilung der ersten Ziffer bei den Länderflächen signifikant unterscheiden. Hierfür kann man in der mittleren Spalte der nachstehenden Tabelle die absoluten Häufigkeiten der ersten Ziffer bei insgesamt 50 Ländern entnehmen. In der rechten Spalte stehen die Wahrscheinlichkeiten für die erste Ziffer nach der theoretischen Benford Verteilung. erste Ziffer absolute Häufigkeit Benford Verteilung i für n=50 P(X=i)=pi 1 2 3 4 5 6 7 8 9 11 13 5 7 5 3 3 2 1 0,3010 0,1761 0,1249 0,0969 0,0792 0,0669 0,0580 0,0512 0,0458 Unterscheiden sich diese beiden Verteilungen signifikant? Übungsaufgaben -Benford Gesetz__________________________________________________________________________________________ Lösung zu Aufgabe 1) a) Die Wahrscheinlichkeitsfunktion einer Zufallsgröße X besitzt die folgenden Eigenschaften: ● Wenn man alle möglichen Ausprägungen xi der Zufallsvariablen X betrachtet und deren Wahrscheinlichkeiten addiert, folgt die Eigenschaft, dass die Summe der Wahrscheinlichkeiten aller Ausprägungen einer Zufallsvariablen gleich 1 ist: f X ( xi ) 1 i ● Des Weiteren ergibt sich aus der Definition der Wahrscheinlichkeit die weitere Eigenschaft, dass alle Eintrittswahrscheinlichkeiten zwischen 0 und 1 liegen: 0 fX ( xi ) 1 Eine diskrete Verteilung lässt sich in drei Formen darstellen: ● (1) eine vollständige Liste ( xi, P( X xi )) [Tabelle in der Aufgabenstellung) ● (2) eine Formel; die Wahrscheinlichkeitsfunktion fX ( xi ) [Formel in der Aufgabenstellung] ● (3) ein Histogramm bei diskreten Verteilungen; eine Kurve (genannt Wahrscheinlichkeitsdichtefunktion) bei stetigen Verteilungen. b) Aus der Tabelle ist ersichtlich, dass die Wahrscheinlichkeiten für die einzelnen Ziffern im Intervall [0;1] liegen. Weiterhin ergibt sich durch das Aufsummieren der 9 Wahrscheinlichkeiten die Summe 1. Damit sind die beiden Eigenschaften erfüllt. c) Darstellung der Wahrscheinlichkeitsverteilung und der Wahrscheinlichkeitsverteilung im TI-Voyage 200 in tabellarischer Form: Säulendiagramm für P( X n) und P( X n) : kumulierten Übungsaufgaben -Benford Gesetz__________________________________________________________________________________________ zu Aufgabe 2) a) erste Ziffer n 1 2 3 4 5 6 7 8 9 Summe absolute Häufigkeit für n=50 11 13 5 7 5 3 3 2 1 50 b) relative Häufigkeit für n=50 0,22 0,26 0,1 0,14 0,1 0,06 0,06 0,04 0,02 1 absolute Häufigkeit für n=193 54 39 23 20 14 13 12 8 10 193 relative Häufigkeit für n=193 0,27979275 0,20207254 0,11917098 0,10362694 0,07253886 0,06735751 0,06217617 0,04145078 0,05181347 1 BenfordVerteilung n->∞ 0,30103 0,17609126 0,12493874 0,09691001 0,07918125 0,06694679 0,05799195 0,05115252 0,04575749 1 für n=50: für n=193: c) Die relative Häufigkeit hn( X 6) für das Auftreten des Ereignisses „Die Zahl ist 6“ nähert sich beliebig nah der Wahrscheinlichkeit P( X 6) P(6) für dieses Ereignis, wenn man nur die Anzahl n der Versuche, bei denen das Ereignis auftreten kann, beliebig groß macht. Betrachten wir weiterhin das obige Zufallsexperiment, in dem ganze Zufallszahlen von 1 bis 9 erzeugt werden, und interessieren uns für die Häufigkeit einer Ziffer, lässt sich am Beispiel der Zahl „6“ sagen: Die relativen Häufigkeiten hn( X 6) stabilisieren Vorgangsrealisierungen gegen den Wert sich 1 9 . mit wachsender Anzahl n von Übungsaufgaben -Benford Gesetz__________________________________________________________________________________________ zu Aufgabe 3) a) Voraussetzung für einen Bernoulliversuch: ● Es liegt eine Bernoulli-Kette der Länge n vor. (Hier ist n=250) ● Das zugehörige (einstufige) Zufallsexperiment muss ein Ja/Nein-Versuch sein. Es dürfen nur zwei Ereignisse möglich sein. (Hier sind nur die beiden Ereignisse „Erste Ziffer ist gleich 4“ und „Erste Ziffer ist ungleich 4“ möglich.) ● Die Erfolgswahrscheinlichkeit p für P(Y=4) muss in jeder Stufe der BernoulliKette gleich sein. Hier ist P (Y 4) log 10(1 14 ) 0,0969 ● Die Gegenwahrscheinlichkeit q für P(Y=“Die erste Ziffer ist ungleich 4“) ist q=1-p. (Hier: q=0,9031) Die Zufallsgröße X, welche die Werte 0;1;2;…;n mit den Wahrscheinlichkeiten P( X k ) Bn; p; k ( kn) * p k * (1 p)nk annimmt, heißt binomialverteilt mit den Parametern n und p. Die zu X gehörende Wahrscheinlichkeitsverteilung nennt man Binomialverteilung. Somit liegt eine Bernoulli-Kette vor. b) Gegeben sind die Werte: n 250; p log 10(1 14 ) 0,0969; k 32 Diese werden in der Formel der Binomialverteilung eingesetzt: P( X 32) B 250; 0, 0969; 32 ( 250 ) * 0,096932 * (1 0,0969) 25032 32 Dies lässt sich mit dem TI-Voyage 200 folgendermaßen berechnen: Die Wahrscheinlichkeit, dass bei einem 250 Zahlen umfassten Datenmaterial, welches dem Benford Gesetz unterliegt, insgesamt 32 Mal die „4“ Anfangsziffer ist, beträgt etwa 2,12%. Übungsaufgaben -Benford Gesetz__________________________________________________________________________________________ c) Betrachten der kumulierten Wahrscheinlichkeitsfunktion: 31 P( X 31) ( 250 ) * 0,096931 * (1 0.0969) 25031 31 i 0 Berechnen mit dem TI-Voyage 200: Bei 250 Zahlen beginnen zu etwa 93,6% weniger als 32 Zahlen mit einer „4“. Bei der Behauptung „Die Daten sind manipuliert, denn die Wahrscheinlichkeit für eine „4“ ist höher als 9,69%!“ beträgt die Irrtumswahrscheinlichkeit 6,4%. Übungsaufgaben -Benford Gesetz__________________________________________________________________________________________ zu Aufgabe 4) Bei dem Chi-Quadrat-Test auf die Benford Verteilung ergibt sich folgender ChiQuadrat-Wert (gelb markiert): erste Ziffer absolute Benford Häufigkeit Verteilung Hn ( X i ) n * pi i für n=50 P(X=i)=pi n*pi =delta delta^2/(n*pi) 1 2 3 4 5 6 7 8 9 11 13 5 7 5 3 3 2 1 0,3010 0,1761 0,1249 0,0969 0,0792 0,0669 0,0580 0,0512 0,0458 15,0514998 8,80456295 6,24693685 4,84550065 3,9590623 3,3473395 2,89959735 2,5576261 2,28787455 4,0514998 -4,19543705 1,24693685 -2,15449935 -1,0409377 0,3473395 -0,10040265 0,5576261 1,28787455 Chi-Quadrat = 1,09056578 1,99915568 0,24889823 0,95797479 0,27368887 0,03604198 0,00347658 0,12157636 0,72496145 5,45633972 Nun muss der berechnete Wert mit denen in der Chi-Quadrat-Tabelle verglichen werden. Hierbei ist zu beachten, dass die Anzahl der Freiheitsgerade (FG) um einen kleiner ist, als die Menge der verschiedenen xi: FG=9-1=8 Wenn der Tabellenwert (2FG , ) kleinegleich ist als der berechnete Wert (2gemessen) , dann kann man mit einer Irrtumswahrscheinlichkeit α behaupten, dass den ersten Ziffern der Länderflächen wohl eine andere Verteilung als die Benford Verteilung zugrunde liegt. Aus dem Blick in die Chi-Quadrat-Tabelle in der Spalte für 8 Freiheitsgerade erhält man für α=5%:, (2FG , ) (2gemessen ) (2FG ,5%) (2gemessen ) 15,5 5,5 Somit lässt sich nicht behaupten, dass sich die Verteilung der ersten Ziffer bei den Länderflächen und die Benford Verteilung signifikant unterscheiden.