Repräsentativität - Stichprobe

Ich habe mal folgende Frage - bezieht sich zwar eher auf Statistik (ist ja aber ein Teilbereich von Mathe)

Kennt jemand eine Formel oder ein Hilfsmittel, mit welchem man Repräsentativitäten von Stichproben ermitteln kann?

Konkret: Ich habe eine Umfrage vor mir liegen, in denen die Einstellung zu Steuerhinterziehung (ist ja nebenbei auch noch ein aktuelles Thema :wink: ) bestimmter Berufsgruppen

erfragt wurde.
(und noch ein paar andere Fragen)

Die Gruppen sind sehr feingliedrig, also ich habe da sogar Lehrer und Studenten, Mediziner, Arbeiter…

Jetzt muss ich was zur Repäsentativität der Stichprobe sagen, also konkret:

Wie viele Befragte pro Gruppe bräuchte ich, damit die Stichprobe repräsentativ ist?

Und genau da hackt es bei mir.

Soll ich damit eine reine Gewichtung durchführen, also sagen wir, in der Grundgesamtheit haben wir 10% Studenten, also müsste ich die Studenten umgewichten oder soll ich herausfinden, wie viele Studenten ich brauch, damit die Aussagen über die Studenten gültig sind?

(wenn ich bloss 8 Studenten habe, dann sind deren Antworten ja vielleicht nicht „repräsentativ“)

Wäre über Tips jeder Art dankbar,
Grüsse
Stefan

Hi,

ich denke Wikipedia dürfte dir ganz gut behilflich sein
http://de.wikipedia.org/wiki/Stichprobenumfang

gruß no.one

Hi no.one,

aber nicht vollständig.
Ein wesentlicher Punkt ist, dass der Stichprobenumfang nicht der Repräsentaivität entspricht. Konkret im vorliegenden Fall: selbst wenn man alle Studen Deutschlands befragte, hätte man eine immense Stichprobe, die aber kaum repräsentativ ist.
Und hier liegt der zweite Hund begraben: repräsentativ bezieht sich immer auf eine Menge.
Im vorliegenden Fall ist dies noch nicht deklariert worden, aber es wäre sinnvoll, alle Arbeitnehmer anzunehmen. Wichtig ist also, dass alle Befragten überhaupt in die Lage kommen, Steuern hinterziehen zu können.
Die Frage, ob sich nun Beamte anders als Studenten verhalten wäre dann eine Subgruppenanalyse. Ob die jeweilige Subgruppe repr. ist hängt dann von deren Stichprobengröße und Power ab.
Kurzum: Um eine aussage üner die Repr. einer Studie machen zu können, müsste man im Vorfeld eine Stichprobenschätzung machen, um zu ermitteln, wieviele Befragte (mit einem bestimmten Merkmal) man braucht um einen Unteschied von soundsoviel bei einer power von soundsoviel mit einem alpha von soundsoviel zu entdecken.

Grüße,
JPL

1 Like

Hi JPL,

Also ich bin neugierig und habs nicht so sehr mit der Statistik, deswegen frage ich einfach nochmal nach:

(zu 2.)
führe ich eine Subgruppenanalyse durch, und bestimme für jede den minimalen Stichprobenumfang, und befrage dann solange zufällig ausgewählte Personen bis jede Subgruppe die Mindestanzahl erreicht hat - dann dürfte doch alles okay sein?
Anders formuliert, wie in dem Fall, da die Daten schon erhoben sind müsste ich dann die Subgruppen mit zu kleiner Anzahl rauswerfen?

(zu 1.)
Vorausgesetzt ich berücksichtige in der Subgruppen nur tatsächlich Steuern zahlende (beispielsweise Studenten mit versteuertem Einkommen)?
?!
gruß no.one

1 Like

Hi no.one

(zu 2.)
führe ich eine Subgruppenanalyse durch, und bestimme für jede
den minimalen Stichprobenumfang, und befrage dann solange
zufällig ausgewählte Personen bis jede Subgruppe die
Mindestanzahl erreicht hat - dann dürfte doch alles okay sein?
Anders formuliert, wie in dem Fall, da die Daten schon erhoben
sind müsste ich dann die Subgruppen mit zu kleiner Anzahl
rauswerfen?

Bis auf das Rauswerfen korrekt. Du kannst dann nur keine fundierte Aussage über die zu kleine Subguppe machen. Explorativ kann man das dann aber immer noch mitlaufen lassen.

(zu 1.)
Vorausgesetzt ich berücksichtige in der Subgruppen nur
tatsächlich Steuern zahlende (beispielsweise Studenten mit
versteuertem Einkommen)?

Ich hoffe, ich verstehe dich richtig: Für die Befragung müssen alle Befragten ein bestimmtes Hauptmerkmal aufweisen (hier Steuern zahlen), fü die Subgruppen ein zusätzliches (z.B. Student sein).
Wird nicht auf das Hauptmerkmal geachtet, kommt es oft zu der Angabe „keine Aussage“.
Ist dieser Pozentsatz hoch, ist i.a. in der Befragung etwas schief gelaufen. Dann ist zwar die Stichprobe möglicherweise groß, aber es sind zuwenig auswertbare Daten vorhanden.
Eerklärt’s das in etwa?

Viele Grüße,
JPL

1 Like

hi zusamnmen,

vielen dank für eure antworten, ich habe sie jetzt erst gesehen und were mich nachfolgend erst mal genauer damit auseinandersetzen…

aber eine frage schon vorab:

also wie häufig die berufsgruppen in der ggs auftreten weiss ich zwar, aber ich habe das jetzt so verstanden, dass ich auch für jede subgruppe wissen muss wie viele es sind???

also z.B. hab ich noch eine self-centered-variable
also wie individuell vs. sozial jemand eingestellt ist.
(von 1-5)

müsste ich jetzt also auch wissen, wie viele gross die gruppe self-cent.1 in den studenten in der ggs. is???

und wenn ich nun noch die gruppe in student x selfcent.1 x keine affinität zur steuerhinterziehung einteile, müsste ich wissen, wie hoch diese in der ggs ist?

da brauch ich ja eine umfragen mehr :frowning:

hoffe ich hab es nur falsch verstanden
grüsse
stefan

Hi,
Also wider besseren Wissens, dass ich mich nicht soweit aus dem Fenster lehnen sollte, da ich wirklich mit Statistik auf dem Kriegsfuß befinde:

also z.B. hab ich noch eine self-centered-variable
also wie individuell vs. sozial jemand eingestellt ist.
(von 1-5)

Also um rauszufinden, ob jemand Steuern hinterzieht, muss derjenige überhaupt in der Lage sein Steuern zu zahlen. Du müsstest also beispielsweise in der Gruppe der Studenten schauen, ob genügend potentielle Steuerzahler hast (wenn du nur faule Studenten hast die nicht arbeiten […kein Kommentar], also keine Einkommensteuer oder so bezahlen dann kannst ja auch nicht schauen, wie das mit Steuerhinterziehung ist, auch wenn du tausende hast… oder, Herr JPL?! Stimmt das so?)

Also nachdem du jetzt alle Studenten rausgesiebt hast (machst du das mit SAS oder so?) die keine Steuern zahlen (etc.), und du dann eine Analyse à la Beruf * Sozialfaktor * Affinität machst, dann ist das glaube ich Wurst mit dem Sozialfaktor, weil du vorher sichergestellt hast dass es keine ‚faulen‘ Studenten (oder vielleicht auch pensionierte Beamte) in dem Datensatz sind.

Sooo soweit zu meiner umwerfenden Theorie, die höchswahrscheinlich falsch ist und beweist, dass ihr beide in Statistik mehr drauf habt…
gruß no.one

1 Like

Hi Stefan,

no.one hat schon richtig dargestellt, dass du nicht zuviele nicht arbeitende Befragte in deine Umfrage haben solltest.

Nun zum Rest:

Deine Fragen zeigen, dass du es verstanden hast. Nun brauchst du dir aber keine Sorgen zu machen, dass alle deine aussagen nichts wert wären - unter einer Bedingung: du willst due gruppen nicht stat. miteinander vergleichen.

Soll heissen: Du kannst von jeder noch kleinen Subgruppe (z.B. Studenten x center_variable=1 x Bundesland) eine deskritive angeben aber solange die Anzahl der in diese Subgruppe fallenden klein ist (ich nenne hier bewusst keine Zahlen), steht jeder stat. Vergleich auf tönernen Füssen.

du musst dir also überlegen, was du zeigen willst bzw. wen du mit wem vergleich willst. Diese Gruppengrößen musst du maximieren.

Extremes Beispiel wie es auch verkehrt läuft: Angenommen du hast 5 Gruppen die dich interssieren und weißt, dass die zu einem bestimmten Prozentsatz (sagen wir mal 20%, 10%, 15%, 15%, 40%) in der Bevölkerung vorkommen. Mit N=20 insgesamt und subgruppengrößen 4,2,3,3,8 würdest du das Verhältnis der Bevölkerung in deiner Studie genau nachbilden. Trotzdem ist das n pro gruppe viel zu klein, um aussagefähige Statistik zu machen.

Viele Grüße,
JPL

1 Like

Hi

Danke für die Antwort - im Prinzip ist das unten aufgeführte Bespiel genau das, was ich will…

Du kannst von jeder noch kleinen Subgruppe (z.B.
Studenten x center_variable=1 x Bundesland) eine deskritive
angeben aber solange die Anzahl der in diese Subgruppe
fallenden klein ist (ich nenne hier bewusst keine Zahlen),
steht jeder stat. Vergleich auf tönernen Füssen.

Extremes Beispiel wie es auch verkehrt läuft: Angenommen du
hast 5 Gruppen die dich interssieren und weißt, dass die zu
einem bestimmten Prozentsatz (sagen wir mal 20%, 10%, 15%,
15%, 40%) in der Bevölkerung vorkommen. Mit N=20 insgesamt und
subgruppengrößen 4,2,3,3,8 würdest du das Verhältnis der
Bevölkerung in deiner Studie genau nachbilden. Trotzdem ist
das n pro gruppe viel zu klein, um aussagefähige Statistik zu
machen.

Ich will im Prinzip für jede Berufsgruppe eigene Aussagen machen können und wenn wir annehmen, ich habe wie du oben dargestellt hast in der ggs. 20% 10% 15% 15% und 40% (und das ist leider alles was ich weiss - ich habe jetzt also keine anderen verteilungen)

und meine frage ist eben: wie viele brauch ich aus jeder gruppe, damit es aussagefähig ist.

ich hab im internet formeln und beispiele gefunden, aber die beziehen sich immer nur auf den fall von zwei gruppen - männern und frauen und bei mir sind es leider über 100 gruppen

vielen dank

hi, danke für deine Antwort

Also um rauszufinden, ob jemand Steuern hinterzieht, muss
derjenige überhaupt in der Lage sein Steuern zu zahlen

naja, ich will ned nur rausfinden ob jemand steuern hinterzieht, die frage ist so konkret gar nicht gestellt „hinterziehen sie steuern?“

ich hab das beispiel student nur deshalb hier leider aufgeführt, weil ich eben selbst einer bin … aber prinzipiell geb ich dir recht, studenten sind hier nicht der ideale themgegenstand

grüsse

Hi

Danke für die Antwort - im Prinzip ist das unten aufgeführte
Bespiel genau das, was ich will…

… und das ist leider ein negativ-Beispiel :frowning:

Ich will im Prinzip für jede Berufsgruppe eigene Aussagen
machen können und wenn wir annehmen, ich habe wie du oben
dargestellt hast in der ggs. 20% 10% 15% 15% und 40% (und das
ist leider alles was ich weiss - ich habe jetzt also keine
anderen verteilungen)

und meine frage ist eben: wie viele brauch ich aus jeder
gruppe, damit es aussagefähig ist.

Dazu müsste deine power ab besten über 80% liegen; es hängt aber auch von der erwarteten Differenz, der Streuung, deinem alpha-Niveau ab. dafür ist es jetzt aber zu spät. Ausserdem kommt es noch auf das stat. Verfahren an, dass du benutzt.
Es ist schwer, dir da was konkretes zu sagen, ohne weitere Einzelheiten zu kennen. Aber im Grunde kannst du alles unter n=50 eigentlich nicht als aussagenkräftig ansehen.

Was mir da noch ins Auge springt: Du hast 100 Gruppen - wenn du die alle vergleichen willst, kannst du das eh vergessen. Jede Adjustierung (by the way: Bonferroni-Holm wäre wohl angebracht) vernichtet dir da jede Signifiknaz.

Viele Grüße,
JPL

ich hab im internet formeln und beispiele gefunden, aber die
beziehen sich immer nur auf den fall von zwei gruppen -
männern und frauen und bei mir sind es leider über 100 gruppen

vielen dank

hallo JPL,

Danke für Deine, Antwort - kann ich die Gruppen aber zusammenfassen?

Oben hab ich einen neuen Post eröffnet, in dem ich mal eine Beispielrechnung durchgeführt habe, und eigentlich nur wissen wollte, ob die theoretisch richtig wäre.

Eigentlich habe ich gehofft, so meine Frage besser zu kommunizieren zu können, aber ich glaube das war eher ein Fehler.

ich fass es hier noch mal kürzer:

konkret:

ich habe in der grundgesamtheit z.B. 5 Gruppen und mir ist auch deren relativer anteil in der grundgesamtheit bekannt.

A = 0.9000
B = 0.0900
C = 0.0090
D = 0.0009
E = 0.0001

Wenn mir die relativen Anteile an der GGS bekannt ist, kann ich somit auch die Varianz der GGS berechnen.

Dies habe ich in Excel getan: VARIANZ(A,B,C,D,E) = 0.1545

Nun habe ich eine Formel gefunden, nach der man angeblich die geforderte Stichprobengrösse berechnen kann:

N=(ALPHA/E)*(ALPHA/E)*VARIANZ

N - Stichprobengrösse
ALPHA - ist dieses Konfidenzintervall, was wohl meist 1.95 ist
E - ist der akzeptierte Fehler (meist 0.01)
VARIANZ - oben berechente Varianz

Wenn ich nun einfach einsetze:

N=(1.95/0.01)*(1.95/0.01)*0.1545
so ist N=5877 - was mir etwas zu viel ist, worauf hin ich ALPHA herab- und E heraufsetze.

N=(1.90/0.02)*(1.90/0.02)*0.1545
N=1395

was schon abzeptabler erscheint.

Frage: Ich muss für Gruppe A 0.9000 * 1395 Respondents befragen?

Richtig?

Wäre super, wenn Du mir sagen würdest: Ja, so ist`s richtig :wink:

Grüsse
Stefan

Hi Stefan!

Danke für Deine, Antwort - kann ich die Gruppen aber
zusammenfassen?

Komtm auf die differnzierenden Merkmale an, die du verwendest. Jede Gruppe lässt sich immer weiter aufspalten (nach Wohnort, Geschlecht, Einkommen, Beruf, etc). Wenn du bereits getrennte Gruppen (z.B. Studenten und Azubis) zusammenfassen wieder willst, musst du das Merkmal wieder ändern (z.B. Arbeitnehmer in der Ausbildung). Zulässig wäre das dann, wenn du die Daten noch nicht analysiert hast.

Oben hab ich einen neuen Post eröffnet, in dem ich mal eine
Beispielrechnung durchgeführt habe, und eigentlich nur wissen
wollte, ob die theoretisch richtig wäre.
Eigentlich habe ich gehofft, so meine Frage besser zu
kommunizieren zu können, aber ich glaube das war eher ein
Fehler.
ich fass es hier noch mal kürzer - konkret:
ich habe in der grundgesamtheit z.B. 5 Gruppen und mir ist
auch deren relativer anteil in der grundgesamtheit bekannt.

A = 0.9000
B = 0.0900
C = 0.0090
D = 0.0009
E = 0.0001

das sind die Anteile?

Wenn mir die relativen Anteile an der GGS bekannt ist, kann
ich somit auch die Varianz der GGS berechnen.

Dies habe ich in Excel getan: VARIANZ(A,B,C,D,E) = 0.1545

Allerdings sagt dir das nichts aus. Der Mittelwert von 0.2 hat ja auch keine weitere Bedeutung (der mittlere Anteil beträgt 20% sagt dir ja nichts über die Gruppen selber)

Nun habe ich eine Formel gefunden, nach der man angeblich die
geforderte Stichprobengrösse berechnen kann:

N=(ALPHA/E)*(ALPHA/E)*VARIANZ

N - Stichprobengrösse
ALPHA - ist dieses Konfidenzintervall, was wohl meist 1.95 ist
E - ist der akzeptierte Fehler (meist 0.01)
VARIANZ - oben berechente Varianz

Normalerweise ist alpha das Signifikanzniveau (also i.a. 0.05). Auch das E kommt mir seltsam vor. Kannst du mal den link posten, woher du die Formel hast?
Ein wenig Theorie: die 5 Größen N, alpha, beta, erwarteter Unterschied und erwartete Streuung bilden im Zusammenhang mit dem zugrundeliegenden Test eine Einheit, so dass man aus vier bekannten die 5. berechnen kann.
In der obigen Formel fehlt mindestens eine Größe, so dass es sich entweder um eine Näherug handeln muss oder die formel in einem anderen Kontext verwendet wird. Müste man sich mal ansehen.

Wenn ich nun einfach einsetze:
N=(1.95/0.01)*(1.95/0.01)*0.1545
so ist N=5877 - was mir etwas zu viel ist, worauf hin ich
ALPHA herab- und E heraufsetze.

N=(1.90/0.02)*(1.90/0.02)*0.1545
N=1395

was schon abzeptabler erscheint.

Frage: Ich muss für Gruppe A 0.9000 * 1395 Respondents
befragen?
Richtig?

Gerechnet hast du richtig *g* aber das Ganze geht glaube ich immer noch in die falsche Richtung. Selbst wenn du 1395 Leute befragen würdest, muss dein Anteil nicht den obigen entsprechen. Diese sagen nur aus, wie groß die Wahrscheinlichkeit wäre, jemanden aus der Gruppe zu befragen, wenn du an einem Ort bist an dem jede der Gruppen mit gleicher Wahrscheiinlichkeit auftaucht. D.h. also, dass schon dein Befragungsort nicht zu einer Verfälschung der befragten Gruppen führen darf (an einer Uni wirst du z.B. kaum Azubis antreffen).
Um das zu schaffen, müsstest du entweder Leute abhängig davon befragen, wie viele leute derselben Gruppe du schon befragt hast. Keine gute Idee.
um noch einmal zu deinem Rechenbeispiel zurückzukommen: mit den 1395 Befragten und einem tatsächlichen anteil von 0,0001 in Gruppe E würdest du da nicht einmal 1 befragen, und nur dir Gruppen A und B wären einigermassen stark besetzt, dass man überhaupt was sagen könnte.
Die Repräsentativität hängt nicht vom tatsächlichen Anteil in der Bevölkerung ab, sondern vom Anteil in deiner Stichprobe!

Viele Grüße,
JPL