Statistik: Anwendung der Bendfordverteilung

Hallo,

ich bräuchte etwas Interpretationshilfe für einen Einsatz des Bendfordgesetzes zur Ziffernverteilung als Vergleichshilfe, da ich mir nicht sicher bin, ob ich das Ding korrekt eingesetzt habe.

Beim Datensatz handelt es sich um die Rohdaten zur Bundestagswahl, aber nicht denen aus jedem Wahllokal, sondern dem aggregierten Ergebnis für Deutschland, sowie den Ergebnissen der 17 Bundesländer zusammengeballt in einem Datensatz.

Gezählt habe ich die Zahlen aller gültigen Stimmen, jeweils für die Erst- und Zweitstimme.

Frage1: Ist das ok? Sind Ziffern der Aggregate von natürlichen Zufallszahlenverteilungen auch wieder bendfordverteilt, oder folgen sie einer anderen (natürlichen) Verteilung?

Vorbemerkung zum Zahlensalat:
Einzelne (Prozent-)Zahlen sind gerundet, ausserdem ist es trotz Sorgfalt beim aufbereiten möglich, dass da Fehler drin sind, dh alle Angaben ohne Gewär!

Bei der Erststimme kam folgendes heraus:

Zahl    Anzahl    Anteil    Bendford
1    68    0.26    0.30
2    60    0.23    0.18

Guten Morgen,

das Benford’sche Gesetzt solltest du dir nicht vorstellen, wie einem mathematischen Satz, der beweisen ist. Vielmehr handelt es sich um eine empirische Beobachtung der Verteilung von Ziffern in deinem Datensatz.

Zudem reicht es nicht aus, einfach die Häufigkeit der einzelen Ziffern zu betrachten. Wichtig ist dabei auch, an welcher Stelle diese Ziffern vorkommen. Für Dezimalzahlen gibt es wieder eine andere Vorgehensweise.

Falls du diesen Artikel noch nicht kennst, lohnt sich ein Blick:

http://de.wikipedia.org/wiki/Benfordsches_Gesetz

Weiter ist deine Datengrundlage nicht sehr umfangreich. Die von dir beobachteten Abweichungen von der erwarteten Verteilung kann also durchaus zufällig sein. Der o. g. Link enthält auch Hinweise auf Signifikanztests.

Selbst wenn du das alles berücksichtigt hast und die Abweichung tatsächlich signifikant sind, ist diese Tatsache noch kein Beweis dafür, dass mit deiner Datenbasis etwas nicht stimmt, z. B. manipuliert wurde. Allenfalls hast du dann eine Indikation dafür, dass es sich lohnt, hier nochmals genauer hinzusehen und zu prüfen.

Grüße

powerblue

Hallo,

danke fürs antworten…

Zudem reicht es nicht aus, einfach die Häufigkeit der einzelen
Ziffern zu betrachten. Wichtig ist dabei auch, an welcher
Stelle diese Ziffern vorkommen. Für Dezimalzahlen gibt es
wieder eine andere Vorgehensweise.

Das habe ich beachtet. Es handelt sich um die erste Ziffer von links. Was die Dezimalzahlen betrifft verstehe ich den Unterschied nicht so ganz. Das Komma ist doch blos willkürlich gesetzt, damit wir bequemer rechnen können. Vor wie nach dem Komma gehts doch im 10er System voran. Im Unterschied zur Uhrzeit also nach dem selben Schema. Daher sollte es nach der Logik doch auch nach dem selben Muster verteilt sein, oder?

Weiter ist deine Datengrundlage nicht sehr umfangreich. Die
von dir beobachteten Abweichungen von der erwarteten
Verteilung kann also durchaus zufällig sein. Der o. g. Link
enthält auch Hinweise auf Signifikanztests.

Danke, den Link kannte ich. Habe mir den Chi-Quadrat Relevanztest mal angeschaut und ich muss sagen. Statistik Erklärungen sind etwas seltsam: Man braucht Statistikbegriffs- und Buchstabenkenntnisse um Statistikerklärungen zu verstehen. Nicht sehr originell muss ich sagen;p

Daher wüsste ich gerne ob ich den Chi-Quadrat-Test richtig verstanden habe:

Man nimmt das Quadrat der Differenz zwischen gemessenem Wert an einer bestimmten Stelle und dem, der dort theoretisch dort vorkommenden müsste und teilt das Produkt durch den theoretisch richtigen Wert. Das macht das mit allen Zahlen und summiert sie. Die Summe entspricht dann dem Chi-Quadrat?? Stimmt das?

Und wenn ich einen Wert von über 0.05 rausbekomme, dann ist davon auszugehen, dass die gemessenen Zahlenreihe und die als Vorbild vorliegende nicht wirklich/mangelhaft übereinstimmen. Sie weichen „signifikant“ voneinander ab. Richtig?

Ich probiers mal mit den Werten der Zweitstimme:

Zahl Anzahl Anteil Bendford Chi-Quadrat
A B C D
1 71 0.27 0.3 0.003
2 48 0.18 0.18 0.000
3 47 0.18 0.12 0.030
4 20 0.08 0.1 0.004
5 26 0.1 0.08 0.005
6 17 0.06 0.07 0.001
7 14 0.05 0.06 0.002
8 9 0.03 0.05 0.008
9 13 0.05 0.05 0.000
->0.053