Hi Stefan!
Danke für Deine, Antwort - kann ich die Gruppen aber
zusammenfassen?
Komtm auf die differnzierenden Merkmale an, die du verwendest. Jede Gruppe lässt sich immer weiter aufspalten (nach Wohnort, Geschlecht, Einkommen, Beruf, etc). Wenn du bereits getrennte Gruppen (z.B. Studenten und Azubis) zusammenfassen wieder willst, musst du das Merkmal wieder ändern (z.B. Arbeitnehmer in der Ausbildung). Zulässig wäre das dann, wenn du die Daten noch nicht analysiert hast.
Oben hab ich einen neuen Post eröffnet, in dem ich mal eine
Beispielrechnung durchgeführt habe, und eigentlich nur wissen
wollte, ob die theoretisch richtig wäre.
Eigentlich habe ich gehofft, so meine Frage besser zu
kommunizieren zu können, aber ich glaube das war eher ein
Fehler.
ich fass es hier noch mal kürzer - konkret:
ich habe in der grundgesamtheit z.B. 5 Gruppen und mir ist
auch deren relativer anteil in der grundgesamtheit bekannt.
A = 0.9000
B = 0.0900
C = 0.0090
D = 0.0009
E = 0.0001
das sind die Anteile?
Wenn mir die relativen Anteile an der GGS bekannt ist, kann
ich somit auch die Varianz der GGS berechnen.
Dies habe ich in Excel getan: VARIANZ(A,B,C,D,E) = 0.1545
Allerdings sagt dir das nichts aus. Der Mittelwert von 0.2 hat ja auch keine weitere Bedeutung (der mittlere Anteil beträgt 20% sagt dir ja nichts über die Gruppen selber)
Nun habe ich eine Formel gefunden, nach der man angeblich die
geforderte Stichprobengrösse berechnen kann:
N=(ALPHA/E)*(ALPHA/E)*VARIANZ
N - Stichprobengrösse
ALPHA - ist dieses Konfidenzintervall, was wohl meist 1.95 ist
E - ist der akzeptierte Fehler (meist 0.01)
VARIANZ - oben berechente Varianz
Normalerweise ist alpha das Signifikanzniveau (also i.a. 0.05). Auch das E kommt mir seltsam vor. Kannst du mal den link posten, woher du die Formel hast?
Ein wenig Theorie: die 5 Größen N, alpha, beta, erwarteter Unterschied und erwartete Streuung bilden im Zusammenhang mit dem zugrundeliegenden Test eine Einheit, so dass man aus vier bekannten die 5. berechnen kann.
In der obigen Formel fehlt mindestens eine Größe, so dass es sich entweder um eine Näherug handeln muss oder die formel in einem anderen Kontext verwendet wird. Müste man sich mal ansehen.
Wenn ich nun einfach einsetze:
N=(1.95/0.01)*(1.95/0.01)*0.1545
so ist N=5877 - was mir etwas zu viel ist, worauf hin ich
ALPHA herab- und E heraufsetze.
N=(1.90/0.02)*(1.90/0.02)*0.1545
N=1395
was schon abzeptabler erscheint.
Frage: Ich muss für Gruppe A 0.9000 * 1395 Respondents
befragen?
Richtig?
Gerechnet hast du richtig *g* aber das Ganze geht glaube ich immer noch in die falsche Richtung. Selbst wenn du 1395 Leute befragen würdest, muss dein Anteil nicht den obigen entsprechen. Diese sagen nur aus, wie groß die Wahrscheinlichkeit wäre, jemanden aus der Gruppe zu befragen, wenn du an einem Ort bist an dem jede der Gruppen mit gleicher Wahrscheiinlichkeit auftaucht. D.h. also, dass schon dein Befragungsort nicht zu einer Verfälschung der befragten Gruppen führen darf (an einer Uni wirst du z.B. kaum Azubis antreffen).
Um das zu schaffen, müsstest du entweder Leute abhängig davon befragen, wie viele leute derselben Gruppe du schon befragt hast. Keine gute Idee.
um noch einmal zu deinem Rechenbeispiel zurückzukommen: mit den 1395 Befragten und einem tatsächlichen anteil von 0,0001 in Gruppe E würdest du da nicht einmal 1 befragen, und nur dir Gruppen A und B wären einigermassen stark besetzt, dass man überhaupt was sagen könnte.
Die Repräsentativität hängt nicht vom tatsächlichen Anteil in der Bevölkerung ab, sondern vom Anteil in deiner Stichprobe!
Viele Grüße,
JPL