Wie groß muss n sein, damit Umfrage repräsentativ?

Hi,

Das hört sich aber doch mal sehr gut an! Wie würde ich diese
Fragestellung denn angehen („wie groß müsste
die Stichprobe sein, damit das 95% Konfi für die proportion
von Merkmal X eine maximale Breite von z hat“)?

Das Merkmal X kann k Ausprägungen haben (geschlecht hätte 2, Kinder deutlich mehr), die müsste man erstmal festlegen und auch, ob man mehrere Merkmale untersuchen will.
Dann kann man ganz simpel messen (oder zuerst einmal annehmen), dass n1 Leute der Stichprobe der größe n in X_1 fallen, n_2 in X_2 und so weiter und n_k in X_k, wobei n_1+…+n_k=n ist.
Dann kann man einfach mittels n_i/n (i=1,…,k) die proportionp_i ausrechnen mit der Merkmal X_i vorkommt.
Das (explorative) 95%KI für p_i erhält man dann über das Wilson Score interval (as kann ich dir eingescannt schicken, im Grunde ist das recht einfach aber die Lit dazu liest sich recht kompliziert), das du mittels R (-> http://www.r-project.org/) oder sogar Excel berechnen kannst (falls du R verwendest, kann ich dir auch den Code schicken).
Um dann allerdings eine vorgebene Breite des Konfis zu erhalten muss man n, n_1,…n_k simulieren und schauen wie groß die sien müssten, damit man die vorgegebene Breite erreichen würde. Das ist etwas Aufwand, mit R aber kein großes Ding. Du müsstest nur bedenken, dass du alle KIs simultan begrenzen willst, das macht es geringfügig komplizierter.
Damit erhälst du dann ein gesamt n und die n_1,…,n_k, die du treffen müsstest (vorausgesetzt deine Annahmen über p_i stimmen).
Das war’s dann, anschließend muss man dann die Stichprobe ‚ziehen‘ und etwas hoffen.
Klar sollte sein, dass je mehr Merkmale mit je mehr Kategorien und je kleiner die Breite des KI sein soll die Gesamtgröße steigt.

Viele Grüße,
JPL

Vielen Dank! Der Code für R wäre super, ich hab allerdings gerade erst angefangen mich mit dem Programm zu beschäftigen (von der Uni her wurde immer SPSS benutzt).

Ich muss allerdings gestehen dass ich deine Erklärung nicht 100%ig verstehe. Könntest du mir das noch mal ein bisschen einfacher ausgedrückt beschreiben? Also was genau ich machen muss?

Mein Merkmal wäre ja quasi das Kreuzchen auf dem Antwortbogen, oder? Also k = 4 = sehr zufrieden / zufrieden / unzufrieden / sehr unzufrieden. Oder ist das die Anzahl der Items?

Dann versuche ich die proportion i auszurechnen: n_1 / n, n_2/n und so weiter. Aber welches n nehme ich da?

Und bei der simultanen Simulation der KIs hab ich dich dann ganz verloren :confused:

Ich wäre dir wirklich sehr, sehr dankbar wenn du mir das ganze irgendwie in praktischen Schritten erklären könntest.

Viele Liebe Grüße und Danke!!!

Hi,

Ich muss allerdings gestehen dass ich deine Erklärung nicht
100%ig verstehe. Könntest du mir das noch mal ein bisschen
einfacher ausgedrückt beschreiben? Also was genau ich machen
muss?

Mein Merkmal wäre ja quasi das Kreuzchen auf dem Antwortbogen,
oder? Also k = 4 = sehr zufrieden / zufrieden / unzufrieden /
sehr unzufrieden. Oder ist das die Anzahl der Items?

Weder noch. Repräsentativität hat gar nichts mit der eigentlich Auswertung zu tun sondern NUR mit Stichprobe selber- Wenn du z.B. eine Untersuchung über das Kaufverhalten von Frauen machen willst, sollten keine Männer in der Stichprobe vorkommen und die altersstruktur in der Stichprobe (Kinder, Jugendliche, Erwachsene, Senioren) sollte in etwa der der Gesamtheit entsprechen, über die du eineAussagen treffen willst. Das wäre dann ein Merkmal mit 4 Kategorien.
Man könnte das dann noch weitere komplizieren, indem man weitere Merkmale hinzunimmt, z.B. Einkommen, Schulabschluß etc.

Dann versuche ich die proportion i auszurechnen: n_1 / n,
n_2/n und so weiter. Aber welches n nehme ich da?

Das wäre erst noch zu bestimmen - das ist ja genau die Frage gewesen. :smile:

Hier erstmal der Code:

Wilson score interval for one sample

provide dat as to counts: event, total number

one_samp = function (dat, alpha=0.05)
{ r = dat[1] # number of indvs with „event“
n = dat[2] # total number of indvs
p = r/n # rate of „events“
q = 1-p # rate of „non-events“
z = qnorm(p=1-alpha/2)
A = 2*r + z^2
B = z*sqrt(z^2 + 4*r*q)
C = 2*(n + z^2)
lcl = (A-B)/C
ucl = (A+B)/C
cl = data.frame(p, lcl, ucl, level=1-alpha)
return(cl)
}

Bsp. für ein 95% KI wenn 5 von 20 eine bestimmte Eigenschaft erfüllen.

one_samp(dat=c(5,20), alpha=0.05)

p ist die proportion (hier offensichtlich 1/4) und lcl und ucl sind die untere und obere Grenze des KI, hier 11.1 und 46.8%.
Wenn du das KI nun verschmälern willst musst du das n (also die 2. Zahl im bsp) erhöhen und den Anteil aber konstant lassen, z.b.:

one_samp(dat=c(50,200), alpha=0.05)

was dann nur noch von 19 bis 31% geht.
So müsste man das durchspielen, bis die gewünschte Breite erreicht ist.

Nun musst du kein 95%CI verwenden, 80% würde wohl reichen, nehme ich an.

Grüße,
JPL

Schluss von Firma x auf den Rest:

Die Wahrscheinlichkeit, dass die von dieser Firma die Grundgesamtheit repräsentieren ist einfach sehr klein. Ist halt doch eine bestimmte Firma, mit bestimmter Firmenkultur, bestimmten Bildungsmaßnahmen etc.

Man kann aber natürlich annehmen, dass die genau so aufgestellt sind wie die Grundgesamtheit - wirklich zutreffen wird das aber wahrscheinlich nicht…

Viele Grüße
Robert

Danke für diese ausführliche Erklärung!

Leider steh ich aber immer noch auf dem Schlauch :frowning: Mein Merkmal ist dann quasi „teilgenommen / nicht teilgenommen“, oder? Also k=2.

Was genau muss ich jetzt aber in den Code einsetzen? „Wenn 5 von 20 eine bestimmte Eigenschaft erfüllen“: Welche Eigenschaft? Am Training teilgenommen? Aber das haben sie ja alle…

Und warum ist die Proportion 1/4?

Danke!!!

Lg

Hi,

du musst dich von deiner Auswertung lösen. mit Merkmale meine ich demographische Merkmale.

Leider steh ich aber immer noch auf dem Schlauch :frowning: Mein
Merkmal ist dann quasi „teilgenommen / nicht teilgenommen“,
oder? Also k=2.

Nein. Du kannst ja nur die Teilnehmer auswerten, also haben die alle dieselbe Merkmalsausprägung.

Was genau muss ich jetzt aber in den Code einsetzen? „Wenn 5
von 20 eine bestimmte Eigenschaft erfüllen“: Welche
Eigenschaft? Am Training teilgenommen? Aber das haben sie ja
alle…

Nein, eben die demographischen Merkmale, die seine Stichprobe haben soll damit sie denen der Gesamtheit ähnelt.
Ich kenne deine Studie nicht, daher kann ich dir keine auf dich passenden Bsp kontruieren …

Und warum ist die Proportion 1/4?

naja, 5/20 = ?

Viele Grüße,
JPL

Huhu,

Die „Studie“ (es ist nich wirklich eine Studie sondern eine Umfrage) sieht folgendermaßen aus:

Eine Schulung hat 50 Teilnehmer. Von diesen 50 Teilnehmern stammen 20 aus meiner Abteilung. Diesen 20 Personen wird ein Meinungsfragebogen vorgelegt, auf dem sie die Schulung bewerten können. Er besteht aus unterschiedlichen Items mit je 4 Antwortalternativen. Wir möchten nun wissen, ab wievielen n (= Teilnehmer aus unserer Abteilung) angenommen werden kann, dass ihre Meinung für N (= alle Schulungsteilnehmer) repräsentativ ist.

Das ist quasi der Ausgangsgedanke. Auch wenn klar ist, dass das alles nicht so 100% wissenschaftlich ist. Ausserdem möchte ich Korrelationen zwischen den einzelnen Items errechnen. Dafür hatte ich mir jetzt die Spearman Rang Korrelation vorgenommen.

Könntest du mir erklären, wie ich das Wilson Score Interval auf meine Stichprobe anwende?

Vielen, vielen Dank!

Hi,

Eine Schulung hat 50 Teilnehmer. Von diesen 50 Teilnehmern
stammen 20 aus meiner Abteilung. Diesen 20 Personen wird ein
Meinungsfragebogen vorgelegt, auf dem sie die Schulung
bewerten können. Er besteht aus unterschiedlichen Items mit je
4 Antwortalternativen. Wir möchten nun wissen, ab wievielen n
(= Teilnehmer aus unserer Abteilung) angenommen werden kann,
dass ihre Meinung für N (= alle Schulungsteilnehmer)
repräsentativ ist.

Wie gesagt, das hängt davon ab, was die 50 für Eigenschaften haben könnten, die die Antworten beeinflussen. Für wen war denn die Schulung? Inwiefern könnte sich deine Abteilung von den anderen unterscheiden?

Das ist quasi der Ausgangsgedanke. Auch wenn klar ist, dass
das alles nicht so 100% wissenschaftlich ist. Ausserdem möchte
ich Korrelationen zwischen den einzelnen Items errechnen.
Dafür hatte ich mir jetzt die Spearman Rang Korrelation
vorgenommen.

Ja, das geht. Den braucht man i.a. nicht testen, sondern bescheibt nur das Ausmaß des Zusammenhangs.

Grüße,
JPL

die formel bezieht sich wohl auf binäre merkmale, also fragen die mit ja oder nein beantwortet werden.
das problem ist nicht ganz klar, geht es darum ob (im zahlenbeispiel) die 15 personen als subsample der 50 teilnehmer ausreichen?

www.masta-support.de