Hallo zusammen,
ich will intervallskalierten Daten aus einer kleinen Stichprobe (n=29) mit einer großen Stichprobe vergleichen (n=9000.
In der kleinen Stichprobe habe ich eine annähernde Normalverteilung von Altersgruppen & in der großen eine Gleichverteilung.
Die kleine Stichprobe stammt aus der Grundgesamtheit der 9000.
Jetzt meine Frage: Welchen Test gibt es, um diese beiden Gruppen zu vergleichen? Oder sollte ich das ganze rein deskriptiv abhandeln?
Ganz vielen Dank schonmal für Kommentare!
LG
Chaosimkopf
Hier bieten sich die parameterfreien Signifikanztests an. Bei denen ist die Verteilungsform und die Homogenität der Varianzen vollkommen unwichtig.
Für die intervallskalierten Daten passt sehr gut der U-Test von MANN&WHITNEY.
Auf keinen Fall passt ein T-Test oder eine Varianzanalyse, weil die Grundgesamtheit NICHT normalverteilt ist.
Hier tritt noch ein Sonderfall der Signifikanz-Prüfung auf: Die Grundgesamtheit ist nicht unendlich groß, sondern hat „nur“ 9000 Fälle. Aber damit ist sie schon so groß, dass es keinerlei Korrektur des Signifikanzwertes braucht.
Viel Erfolg!
Günther Zier, mag.psych.
Hi,
was meinst du mit
Die kleine Stichprobe stammt aus der Grundgesamtheit
(GG) der 9000.
?
Die 29 sind keine teilmenge von den 9000, oder?
Wenn aber die 29 und die 9000 aus der gleichen GG stammen, dann ist es seltsam, dass die große eine Gleichverteilung hat und die kleine eine Normalverteilung.
Was für eine abh. Variable hast du genau?
Auf den ersten Blick unterscheiden sich die beiden Stichproben wohl vorwiegend durch die Verteilung, also würde ich Unterschiede daran festmachen.
Grüße,
JPL
Hallo Chaosimkopf!
Ich glaub die Frage ist davor. Was bringt dich dazu - und WIE kriegst du eine Stichprobe aus einer Grundgesamtheit.
Weshalb willst du die beiden Vergleichen und im Hinblick auf was?
UND: Gleichverteilte Altersgruppen der Grundgesamtheit entsprechen nicht der normalen Altersverteilung der Bevölkerung. Wie kommst du dazu - und was hat das dann mit der Realität zu tun?
Tut mir leid - schon wieder viel mehr Fragen und keine Antwort - aber ich weiß nicht wie ich dir da ohne Hintergrundinfos helfen kann…
Grüße!
Robert
Hallo Chaosimkopf,
wenn die kleine Stichprobe aus der großen stammt, dann ist die große Stichprobe keine Stichprobe, sondern die Population mit Mittelwert mü und Standardabweichung sigma.
Die Frage, die du untersuchen willst ist: Mit welcher Wahrscheinlichkeit stammt meine Stichprobe (n=29) mit Mittelwert M(X) aus dieser Population.
Du kannst dafür den Z-Test nehmen (Basis Normalverteilung) oder den t-Test (dafür vernachlässigst du sigma und nimmst statt dessen SD(X), die Standardabweichung aus der Stichprobe).
Es kommt wohl darauf an, wen du fragst ob Z-, oder t-Test. Ich tendiere zum Z-Test, weil die SD der Population genauer ist, als der Schätzer aus der Stichprobe.
Ein fundamentales Problem sind die Verteilungen. Wie kommt es, dass eine Stichprobe in etwa N-verteilt ist, wenn die Population in etwa gleich verteilt ist.
Oder habe ich das ganz falsch verstanden und die Stichproben n=29 und n=30 stammen aus der gleichen Population? Dann würde ich die Variation des t-Tests, den W-Test (Welch) empfehlen, da dieser Unterschiede in den definitiv bestehenden unterschiedlichen Varianzen am ehesten berücksichtigt und konservativer ist; die Entscheidung aus dem Test ist behutsamer.
Gruß, Walter.
Mehrere sind möglich.
Wenn die Stichprobenmenge klein ist, gilt der zentrale Grenzwertsatz nicht mehr, weil die Schätzungen von σ2 unzuverlässig werden. Deshalb muss man die t-Verteilung zu Hilfe nehmen. Für den t-Test müssen einige Bedingungen erfüllt sein:
* Die Stichproben müssen voneinander unabhängig sein.
* Die Varianzen müssen gleich sein. Dies ist durch einen F-Test zu überprüfen.
* Die Stichproben müssen einer Normalverteilung folgen. Zur Überprüfung kann man entweder den Chi-Quadrat-Test oder den Kolmogorov-Smirnow heranziehen.
Weil wir annehmen, dass σ12 und σ22 gleich sind, können wir eine gepoolte (zusammengelegte) Varianz sp2 (engl. pooled variance) berechnen. Die Zweckmäßigkeit für die Zusammenlegung der Varianzen liegt darin, eine bessere Schätzung der Varianz zu erhalten. Die gepoolte Varianz ist eine gewichtete Summe der Einzelvarianzen. Also ist, wenn n1 gleich n2 ist, sp2 nur der Durchschnitt der einzelnen Varianzen. Die Gesamtzahl der Freiheitsgrade ergibt sich aus der Summe der individuellen Freiheitsgrade der zwei Stichproben:
df = df1 +df2 = (n1-1) + (n2-1) = n1+ n2 - 2
oder bei sehr großen Stichproben:
Wir definieren eine neue Variable, die Differenz
der Mittelwerte und der zwei Stichproben. Der Mittelwert dieser Variable d ist , seine Standardabweichung ist gegeben durch
und wird auch Standardfehler genannt. Für große Stichproben ist die Verteilung der Differenzen d annähernd normal. Also können wir dieselben Methoden wie für den Ein-Stichproben-t-Test für große Stichproben anwenden, nur dass wir hier die neue Variable d verwenden.
Ich hoffe ichg konnte helfen.
Grüße
Fredo
Hallo,
wenn ich das richtig verstehe, dann ist die „große Stichprobe“ gleichzeitig die Grundgesamtheit. Dann macht aber ein statistischer Test überhaupt keinen Sinn, weil du ja den Grundgesamtheitsparameter kennst. Wenn du aber unbedingt testen möchtest (warum auch immer), dann würde ich keinen Zwei-Stichprobentest machen, sondern die Ergebnissse der kleinen Stichprobe gegen den Wert der Grundgesamtheit mit einem einfachen Ein-Stichprobentest testen.
Davon abgesehen eine kurze Bemerkung: Eine Stichprobe hat niemals eine Verteilung, sondern eine Grundgesamtheit hat eine Verteilung. Du sagst jetzt, dass du aufgrund der kleinen Stichprobe von einer Normalverteilung ausgehst (ich nehme an, du hast das getestet). Wenn du aber schon weißt, dass die Grundgesamtheit gleichverteilt ist und du trotzdem mit einer Normalverteilung arbeitest, dann bewegst du dich auf verdammt dünnem Eis.
Herzliche Grüße
Andreas
Schau einmal unter 1-Stichproben T-Test nach.
Danke, ist immer nett, auch nochmal eine Expertenmeinung zu hören! So werd ich’s probieren.
Habe selber wenige 14 & 19-jährige & viel dazwischen & in der großen Datenbank, aus der die kleine Stichprobe entnommen ist, sind jw. etwa gleich viele 14, 15, 16, … & 19-jährige.
Hallo Chaosimkopf!
Ich glaub die Frage ist davor. Was bringt dich dazu - und WIE
kriegst du eine Stichprobe aus einer Grundgesamtheit.Weshalb willst du die beiden Vergleichen und im Hinblick auf
was?
Will die beiden vergleichen im Hinblick auf die Uhrzeit ihres Schlafmittelpunktes.
UND: Gleichverteilte Altersgruppen der Grundgesamtheit
entsprechen nicht der normalen Altersverteilung der
Bevölkerung. Wie kommst du dazu - und was hat das dann mit der
Realität zu tun?
Habe selber wenige 14 & 19-jährige & viel dazwischen & in der großen Datenbank, aus der die kleine Stichprobe entnommen ist, sind jw. etwa gleich viele 14, 15, 16, … & 19-jährige.
Tut mir leid - schon wieder viel mehr Fragen und keine
Antwort - aber ich weiß nicht wie ich dir da ohne
Hintergrundinfos helfen kann…Grüße!
Robert
Bzw. zusammengefasst: ich will schauen, ob meine kleine Stichprobe repräsentativ für die große steht. Geschlecht & Alter sind kein großes Problem, da wir die bereits aus der Uhrzeit als Einfluss herausgerechnet haben - jetzt nicht fragen, wie - war auf jeden Fall kein Problem
Hallo Chaosimkopf!
Ich glaub die Frage ist davor. Was bringt dich dazu - und WIE
kriegst du eine Stichprobe aus einer Grundgesamtheit.Weshalb willst du die beiden Vergleichen und im Hinblick auf
was?
Will die beiden vergleichen im Hinblick auf die Uhrzeit ihres Schlafmittelpunktes.
UND: Gleichverteilte Altersgruppen der Grundgesamtheit
entsprechen nicht der normalen Altersverteilung der
Bevölkerung. Wie kommst du dazu - und was hat das dann mit der
Realität zu tun?
Habe selber wenige 14 & 19-jährige & viel dazwischen & in der großen Datenbank, aus der die kleine Stichprobe entnommen ist, sind jw. etwa gleich viele 14, 15, 16, … & 19-jährige.
Tut mir leid - schon wieder viel mehr Fragen und keine
Antwort - aber ich weiß nicht wie ich dir da ohne
Hintergrundinfos helfen kann…Grüße!
Robert
Hallo Chaosimkopf,
wenn die kleine Stichprobe aus der großen stammt, dann ist
die große Stichprobe keine Stichprobe, sondern die Population
mit Mittelwert mü und Standardabweichung sigma.Die Frage, die du untersuchen willst ist: Mit welcher
Wahrscheinlichkeit stammt meine Stichprobe (n=29) mit
Mittelwert M(X) aus dieser Population.
Danke für die schnelle Antwort! Die Frage ist allerdings nicht, ob meine Stichprobe aus der großen Population stammt - das tut sie, sondern ob meine kleine Gruppe mit Mittelwert etc. repräsentativ für die große steht.
LG
Du kannst dafür den Z-Test nehmen (Basis Normalverteilung)
oder den t-Test (dafür vernachlässigst du sigma und nimmst
statt dessen SD(X), die Standardabweichung aus der
Stichprobe).Es kommt wohl darauf an, wen du fragst ob Z-, oder t-Test.
Ich tendiere zum Z-Test, weil die SD der Population genauer
ist, als der Schätzer aus der Stichprobe.Ein fundamentales Problem sind die Verteilungen. Wie kommt
es, dass eine Stichprobe in etwa N-verteilt ist, wenn die
Population in etwa gleich verteilt ist.Oder habe ich das ganz falsch verstanden und die Stichproben
n=29 und n=30 stammen aus der gleichen Population? Dann würde
ich die Variation des t-Tests, den W-Test (Welch) empfehlen,
da dieser Unterschiede in den definitiv bestehenden
unterschiedlichen Varianzen am ehesten berücksichtigt und
konservativer ist; die Entscheidung aus dem Test ist
behutsamer.Gruß, Walter.
Wow, danke für die umfangreiche Antwort! Ich werd jetzt mal anfangen, es so zu probieren!
Hallo Andreas,
jetzt fällt mir auf, dass ich mich nicht klar ausgedrückt habe: ich möchte zwischen beiden Gruppen einen Wert (Schlafmittelpunkt, geschlechts- & Alterskorrigiert, intervallskaliert) vergleichen, um zu sehen, ob meine Stichprobe mit vielen 17-jährigen & wenigen 14 & 19-jährigen die große Gruppe repräsentiert.
LG & danke schonmal für die Antwort!
okay, danke!
Schau einmal unter 1-Stichproben T-Test nach.
Irgendwie ist das diesmal ziemlich kompliziert. Deine Frage kannst du ganz ohne Statistik beantworten.
Alle statistischen Methoden für Stichproben beschäftigen sich vor allem damit, Aussagen für die Grundgesamtheit zu treffen. Es ist also per se so, dass die Stichprobe die Grundgesamtheit repräsentiert.
2 Ausnahmen:
- du verwendest die falschen Tests um von der Stichprobe auf die Grundgesamtheit zu schließen
- du nimmst deine Stichprobe falsch
Ich weiß, dass ich mich ein bisschen im Kreis drehe - aber - weshalb willst du das mit dem Schlafmittelpunkt beweisen? Du hast die Daten doch eh von 9000 Leuten. Da kannst du doch alles draus berechnen. Geht’s drum zu sehen ob sich der Mittelpunkt bei jüngeren bzw. älteren verschiebt?
Wenn ich deinen Satz „ich will schauen, ob meine kleine Stichprobe repräsentativ für die große steht“ nehme ist die Antwort einfach. Eine Stichprobe die eine so unterschiedliche Verteilung von der Grundgesamtheit hat kann nicht represäntativ sein. Representativ heißt charakteristisch/in Vertretung - und das ist da schon von der Verteilung nicht gegeben.
Grüße!
Robert
Hallo,
ich denk das Problem ist, dass zum einen normalverteilte und geleichverteilte Stichproben vorliegen. Bei ersterem verwendet man normal andere Tests als bei nicht-normalverteilten (hier würde man nicht-parametrische Tests anwenden) verwenden. Zum anderen sind die Stichproben ja auch nicht nur verbunden (d.h. sie wurden an einer PErson in zeitlicher Abfolge z.B. gemessen), sondern der eine ist die „Mutterstichprobe“ des anderen. Aus diesen beiden Gründen würde ich wahrscheinlich die beiden Stichproben mit Hilfe von Boxplots und anderen deskriptiven Verfahren untersuchen…
Viel Erfolg und viele Grüße
Der von mir beschriebene Test beantwortet die Frage:
Was ist die Wahrscheinlichkeit, eine Stichprobe mit erhaltenem Mittelwert zu erzielen, wenn die Population wie durch mü und sigma beschrieben aussieht. Wenn die Wahrscheinlichkeit groß ist, ist sie eher repräsentativ, wobei dies kein Ausdruck aus der Statistik ist.
Was Repräsentativität ausmacht, darüber lässt sich trefflich streiten. Eines ist sicher, dass grössere Stichproben nicht notwendiger Weise repräsentativer sind als kleine. Wie du die untescheidlich Verteilungen schilderst (Normal, vs Gleichverteilung), dann spricht das schon gegen die R.
Gruß, Walter.
Mhm, bin noch Statistik-Anfängerin, was es nicht besser macht…
Ich glaube, an deinem letzten Absatz könnte was dran sein! Danke für’s Mitdenken!
Wenn ich deinen Satz „ich will schauen, ob meine kleine
Stichprobe repräsentativ für die große steht“ nehme ist die
Antwort einfach. Eine Stichprobe die eine so unterschiedliche
Verteilung von der Grundgesamtheit hat kann nicht
represäntativ sein. Representativ heißt charakteristisch/in
Vertretung - und das ist da schon von der Verteilung nicht
gegeben.Grüße!
Robert