Statistik: Urteilerübereinstimmung

Hallo!

Ich habe folgenden Versuchsplan:

Versuchspersonen sollen Objekte hinsichtlich ihrer Qualität auf einer ordinalen 10-Punkte-Skala bewerten. Die Bewertungen soll jede Versuchsperson für sich vornehmen. Allerdings hat die Hälfte der Versuchspersonen vorher an einem Training zur Qualitätsbeurteilung teilgenommen, die andere Hälfte nicht (Kontrollgruppe).

Die Nullhypothese lautet: Die Urteilerübereinstimmung ist in beiden Gruppen gleich.
Die alternative Hypothese ist: Die trainierten Versuchspersonen sind sich hinsichtlich ihrer Beurteilung einiger als die untrainierten.

Meine bisherigen Überlegungen:

Ein mögliches Maß für die Urteilerübereinstimmung per Objekt wäre die Varianz der Beurteilungen des Objekts in der jeweiligen Gruppe (hohe Varianz -> geringe Urteilerübereinstimmung). Bei 40 Objekten hätte ich 40 Varianzen in der trainierten Gruppe und 40 Varianzen in der untrainierten Gruppe.

Ab hier komme ich nicht weiter. Ich habe zwar überlegt, ob man die 40 Varianzen der einen mit den 40 Varianzen der anderen Gruppe per t-Test für gepaarte Stichproben vergleichen kann. Was mir dabei seltsam und daher illegitim vorkommt, ist dass die Stichprobengröße nun gleich der Anzahl der Objekte ist und nicht gleich der Anzahl der Beurteiler.

Wer hilft kann mir auf die Sprünge helfen?

Viele Grüße von Hans-Peter

Hallo HansPeter,

Hallo!

Ich habe folgenden Versuchsplan:

Versuchspersonen sollen Objekte hinsichtlich ihrer Qualität
auf einer ordinalen 10-Punkte-Skala bewerten. Die Bewertungen
soll jede Versuchsperson für sich vornehmen. Allerdings hat
die Hälfte der Versuchspersonen vorher an einem Training zur
Qualitätsbeurteilung teilgenommen, die andere Hälfte nicht
(Kontrollgruppe).

Die Nullhypothese lautet: Die Urteilerübereinstimmung ist in
beiden Gruppen gleich.
Die alternative Hypothese ist: Die trainierten
Versuchspersonen sind sich hinsichtlich ihrer Beurteilung
einiger als die untrainierten.

Zu erst würde ich das Hypothesenpaar ändern, da es so nicht ganz korrekt bzw. eindeutig ist. Wenn ich es richtig verstehe hast du zwei Gruppen der Größe k und m wobei m+k=n und n die Anzahl deiner Versuchspersonen ist. Nun untersuchst du die Varianzen in beiden Gruppen?!

Dein Hypothsenpaar lautete:

Die Nullhypothese lautet: Die Urteilerübereinstimmung ist in
beiden Gruppen gleich.
Die alternative Hypothese ist: Die trainierten
Versuchspersonen sind sich hinsichtlich ihrer Beurteilung
einiger als die untrainierten.

Das Problem hierbei ist, dass die Nullhypothese ein zweiseitiger Test ist, die Gegenhypothese einen einseitigen Test impliziert.

Mögliche Hypothsenpaare wären:

Die Nullhypothese : Die Urteilerübereinstimmung ist in
beiden Gruppen gleich.

Die alternative Hypothese ist: Die Urteilerübereinstimmung sind in beiden Gruppen ungleich.

oder auch:

Die Nullhypothese : Die Urteilerübereinstimmung ist in
der trainierten Gruppe größer.

Die alternative Hypothese ist: Die Urteilerübereinstimmung ist in der trainierten Gruppe nicht größer.

Hierbei muss man beachten, dass die Wahl der Hypothese und der Teststatistik darüber entscheiden kann, ob die Hypothese abgelehnt wird oder nicht.

Meine bisherigen Überlegungen:

Ein mögliches Maß für die Urteilerübereinstimmung per Objekt
wäre die Varianz der Beurteilungen des Objekts in der
jeweiligen Gruppe (hohe Varianz -> geringe
Urteilerübereinstimmung). Bei 40 Objekten hätte ich 40
Varianzen in der trainierten Gruppe und 40 Varianzen in der
untrainierten Gruppe.

Da ich nicht weiß wieviele Menschen du befragst, stellt sich die Frage, welche Verteilung die Punkte haben. Wenn es genug sind, könnten die Punkte einer Normalverteilung folgen. Dann sind die Varianzen allerdings Chi^2-Verteilt und ein t-test ist dann völlig fehl am Platz.

Ab hier komme ich nicht weiter. Ich habe zwar überlegt, ob man
die 40 Varianzen der einen mit den 40 Varianzen der anderen
Gruppe per t-Test für gepaarte Stichproben vergleichen kann.
Was mir dabei seltsam und daher illegitim vorkommt, ist dass
die Stichprobengröße nun gleich der Anzahl der Objekte ist und
nicht gleich der Anzahl der Beurteiler.

Das liegt daran, dass du Varianzen vergleichst. Du vergleichst 40 Varianzen, daher ist deine Stichprobengröße 40.

Wer hilft kann mir auf die Sprünge helfen?

Viele Grüße von Hans-Peter

Hallo!

Schon einmal vielen Dank für die Antwort!

Die Nullhypothese : Die Urteilerübereinstimmung ist in
der trainierten Gruppe größer.

Die alternative Hypothese ist: Die Urteilerübereinstimmung ist
in der trainierten Gruppe nicht größer.

Dies meine ich, wobei ich dann noch die Definition der alternativen H. mit der Null-H. vertausche.

Da ich nicht weiß wieviele Menschen du befragst, stellt sich
die Frage, welche Verteilung die Punkte haben. Wenn es genug
sind, könnten die Punkte einer Normalverteilung folgen. Dann
sind die Varianzen allerdings Chi^2-Verteilt und ein t-test
ist dann völlig fehl am Platz.

Jede Gruppe besteht aus genau 30 Personen. Insgesamt also 60. Leider bin ich es gewohnt, normalerweise jegliche Statistikfrage mit t-Tests und ANOVA/MANOVA zu erschlagen. Chi2 sagt mir nur etwas im Zusammenhang mit Unabhängigkeit von Variablen in Kontingenztafeln.

Das liegt daran, dass du Varianzen vergleichst. Du vergleichst
40 Varianzen, daher ist deine Stichprobengröße 40.

Welche Bedeutung hat dann aber die Anzahl der Personen pro Gruppe in diesem Fall? Bisher war bei meinen Fragestellungen immer die Anzahl der Versuchspersonen gleich der Stichprobengröße und ich konnte die Power erhöhen, indem ich mehr Versuchspersonen rekrutierte. In dieser Untersuchung müsste ich dafür die Anzahl der zu bewertenden Objekte erhöhen?

Mal angenommen, ich hätte eine unterschiedliche Anzahl von Versuchspersonen in den Gruppen; in der einen nur eine einzige. Die wäre sich ja mit sich selbst immer zu 100 % hinsichtlich der Objektbewertung einig und alle Varianzen in der Gruppe wäre 0. Das macht zwar keinen Sinn im Bezug zur Fragestellung, zeigt aber doch, dass die Anzahl der Personen pro Gruppe eine Rolle spielen sollte, oder?

Viele Grüße

Hans-Peter

Hallo!

Schon einmal vielen Dank für die Antwort!

gern geschehen

Die Nullhypothese : Die Urteilerübereinstimmung ist in
der trainierten Gruppe größer.

Die alternative Hypothese ist: Die Urteilerübereinstimmung ist
in der trainierten Gruppe nicht größer.

Dies meine ich, wobei ich dann noch die Definition der
alternativen H. mit der Null-H. vertausche.

So geht es nicht! Wenn du die Hypothesenpaare tauschst, dann wäre unklar, was deine Hypothese ist. Sie kann dann Gleichheit oder Kleinergleich sein. Also zweiseitig oder einseitig …

Du hast quasi je eine Realisationen zweier Experimente. Wenn du davon ausgehst, dass sie Realisationen, zwei verschiedener Verteilungen sind, dann kannst du keine vergleichende statistische Aussage machen.

Dann kannst du nur Sätze sagen wie: „Die Wahrscheinlichkeit, dass die Varianz der ersten Gruppe in Wahrheit den Wert hat, den du für die zweite Gruppe schätzt, ist p!“ Du kannst aber NICHT vergleichen, da sie ja aus verschiedenen Verteilungen sind.

Anders gesagt: Wenn du annimmst, sie stammen aus zwei unabhängigen Verteilungen, dann kann als Differenz ALLES rauskommen, da du die „WAHREN“ Prozesse ja nicht kennst.

Wenn du einen einseitigen Test machst, lautet H_NULL Gleichheit, und H_EINS lautet a größer b. Dann wird H_NULL schneller verworfen.

Wenn du einen zweiseitigen Test auf Ungleicheit machst, lautet H_EINS a ungleich b. Dann ist dein Intervall wird dann breiter.

Es kann also passieren, dass er dir die NULLHYPOTHESE auf GLEICHHEIT im zweiseitigen Test nicht verwerfen kann, ABER die NULLHYPOTHESE auf GLEICHHEIT im einseitigen Test kann verworfen werden.

Da ich nicht weiß wieviele Menschen du befragst, stellt sich
die Frage, welche Verteilung die Punkte haben. Wenn es genug
sind, könnten die Punkte einer Normalverteilung folgen. Dann
sind die Varianzen allerdings Chi^2-Verteilt und ein t-test
ist dann völlig fehl am Platz.

Jede Gruppe besteht aus genau 30 Personen. Insgesamt also 60.
Leider bin ich es gewohnt, normalerweise jegliche
Statistikfrage mit t-Tests und ANOVA/MANOVA zu erschlagen.
Chi2 sagt mir nur etwas im Zusammenhang mit Unabhängigkeit von
Variablen in Kontingenztafeln.

Jetzt wird es spannend! :smile: Fangen wir mal vorne an.

  1. Die T-Verteilung gilt, wenn du einen Quotienten aus Standardnormalverteilung und Chi^2-Verteilung hast. SONST NICHT!
    Also schauen wir erstmal welche Verteilung deine Punkte haben. Nimm hierfür die Ergebnisse der 30 Personen und mach ein Jarque-Bera-Test. (Machen viele Programme standardmäßig in der Ausgabe)
    Bei 30 Beobachtungen ist dieser Test recht tolerant. Also wenn der Test H_0 (Normalverteilung) verwirft, solltest du dir Gedanken machen!!!

Von Kolgomorow-Smirnov rate ich ab, da er bei kleinen Stichproben verzerrt ist. Bei großen Stichprobem aber zuverlässiger…

  1. Haben wir nun festgestellt, dass unsere Größen Normalverteilt sind, können wir die Varianzen schätzen. Da wir nun die wahre Varianz nicht kennen, haben wir ein Problem. Würden wir nun die Mittelwerte der beiden Gruppen vergleichen wollen, wäre der T-Test richtig. WOLLEN wir aber NICHT!

Wir wollen Varianzen vergleichen. Also Schätzen wir die Varianz folgender Maßen:

s^2=\frac{1}{n}\sum_{k=1}^n \left(P_k-\bar{P}\right)^2

Hierbei ist \bar{P} der jeweilige Gruppenmittelwert als Schätzer für den Erwartungswert. Diese Größe ist aber noch nicht \chi^2 verteilt, da P-\bar{P} zwar Normalverteilt mit Mittelwert 0 ist, aber die Varianz ist \sigma^2, die wahre unbekannte Varianz! Also dividieren wir durch die wahre aber unbekannte Standartabweichung \sigma, dann gilt:

s^2=\frac{1}{\sigma^2\cdot (n-1)}\sum_{k=1}^n \left(P_k-\bar{P}\right)^2\sim \chi^2_{n-1}

Nun haben wir immernoch unser unbekanntes sigma drin! DOOOOF!

Nun können wir aber das mit beiden Stichproben machen, den Quotienten bilden, und wir sehen, dass sich unter H_0, dass beide Stichproben die gleiche Varianz haben, sich \sigma^2 rauskürzt:

\frac{s_1^2}{s_2^2}=\frac{\frac{1}{\sigma^2\cdot (n-1)}\sum_{k=1}^n \left(P_{1k}-\bar{P_1}\right)^2}{\frac{1}{\sigma^2\cdot (n-1)}\sum_{k=1}^n \left(P_{2k}-\bar{P_2}\right)^2}\sim F_{n-1,n-1}

Wir erhalten durch kürzen:

\frac{s_1^2}{s_2^2}=\frac{\sum_{k=1}^n \left(P_{1k}-\bar{P_1}\right)^2}{\sum_{k=1}^n \left(P_{2k}-\bar{P_2}\right)^2}\sim F_{n-1,n-1}

Wenn ich deinen Versuchsaufbau richtig verstehe, hast du Zwei Gruppen mit je 30 Leuten, die 40 identische Dinge bewerten. (richtig?!)

Wenn das so ist, kannst du 40 mal diesen Test mit jeweils 30 Teilnehmer pro Gruppe machen. n-1 ist dann 29.

Eine weitere Möglichkeit wäre, wenn du annimmst, dass die Varianzen über die verschiedenen, zu bewertenden Gegenständen, innerhalb der zwei Gruppen gleich sind, kannst du den Test mit je 40*30=1200 machen. Du fässt quasi die einzelnen Bewertungen einer Gruppe zusammen. Du tust also so, als ob die Varianz der Bewertung unabhängig vom Objekt ist.

Das liegt daran, dass du Varianzen vergleichst. Du vergleichst
40 Varianzen, daher ist deine Stichprobengröße 40.

Welche Bedeutung hat dann aber die Anzahl der Personen pro
Gruppe in diesem Fall? Bisher war bei meinen Fragestellungen
immer die Anzahl der Versuchspersonen gleich der
Stichprobengröße und ich konnte die Power erhöhen, indem ich
mehr Versuchspersonen rekrutierte.

Das kannst du prinzipiell IMMER.

In dieser Untersuchung
müsste ich dafür die Anzahl der zu bewertenden Objekte
erhöhen?

Wäre sicher auch interessant. Hier könnte man schauen, ob die Varianz vom Mittelwert abhängt. Wäre ziemlich plausibel.

Mal angenommen, ich hätte eine unterschiedliche Anzahl von
Versuchspersonen in den Gruppen; in der einen nur eine
einzige. Die wäre sich ja mit sich selbst immer zu 100 %
hinsichtlich der Objektbewertung einig und alle Varianzen in
der Gruppe wäre 0. Das macht zwar keinen Sinn im Bezug zur

Richtig, und deine Freiheitsgrade(n-1) auch. Dies zeigt statistisch, dass deine Sicherheit gegen NULL geht, wenn du nur eine Beobachtung hast.

Fragestellung, zeigt aber doch, dass die Anzahl der Personen
pro Gruppe eine Rolle spielen sollte, oder?

Macht sie ja auch! IN n!

Viele Grüße

Hans-Peter

Ich hoffe ich konnte alle Klarheiten beseitigen?!

Hallo Hans-Peter,

ich frage mich, ob Du da mit einem paarweisen Vergleich nicht weiter kommst. Also nicht über die Varianzen gehen, sondern über die Mittelwerte.

Erstmal beide Bewertungen sortieren, dadurch Paare bilden und dann mit den Differenzen weiter arbeiten.

Die Nullhypothese bliebe dann „beide Gruppen sind gleich“

da ich mit dem LaTeX hier nicht so fit bin füge ich die weiteren Formeln mal so bei:
http://www.uploadagent.de/show-191207-1364633622.html

n wäre die Anzahl der Werte-Paare und der t-Test dient dann als Differenzen-Test.

Ich weiß nicht, ob der paarweise Vergleich zum Erfolg führt, aber probiers doch mal aus, wenns nicht allzu aufwendig ist.

Gruß, Steff

sollte die Nullhypothese verworfen werden, dann besteht ein signifikanter Unterschied zwischen den Gruppen von Dunten bis Doben (Irrtumsrisiko (1-a /2))

Berechnung der Differenzen:
http://www.uploadagent.de/show-191217-1364657897.html

Gruß, Steff

Hallo Steff,

wenn ich Hans-Peter richtig verstanden habe, geht es nicht darum, ob eine Gruppe ein Objekt besser bewertet oder nicht, sondern ob die Bewertungen innerhalb der Gruppen signifikant stärker Streuen!

Also anders: Ob die geschulte Gruppe, einheitlicher Bewertet oder nicht. Also Mittelwertvergleich wäre hier nicht korrekt. Vorrausgesetzt ich habe die Frage richtig verstanden…

Hallo Helferlein,

ich hatte es so verstanden, daß auch die gesamte Befragung analysiert werden müßte, nicht nur ein Teilaspekt.

Aber für den Vergleich von Varianzen gibt’s ja den Chiquadrat-Test.

Gruß, Steff

Hallo!

War über Ostern weg, darum antworte ich erst jetzt. Noch einmal herzlichen Dank für die viele Mühe.

Die Nullhypothese: Die Urteilerübereinstimmung ist in
der trainierten Gruppe größer.

Die alternative Hypothese ist: Die Urteilerübereinstimmung ist
in der trainierten Gruppe nicht größer.


Dies meine ich, wobei ich dann noch die Definition der
alternativen H. mit der Null-H. vertausche.


So geht es nicht! Wenn du die Hypothesenpaare tauschst, dann
wäre unklar, was deine Hypothese ist. Sie kann dann Gleichheit
oder Kleinergleich sein. Also zweiseitig oder einseitig …

Vielleicht habe ich mich unklar ausgedrückt.

H_Null: Urteilerübereinstimmung_untrainiert >= Urteilerübereinstimmung_trainiert
H_Eins: Urteilerübereinstimmung_untrainiert Es gibt 40 Weine (Bsp. zur Einfachheit, tatsächlich sind es andere Objekte). Jede Versuchsperson bekommt alle Weine hintereinander präsentiert. Immer wenn ein Wein präsentiert wird, soll dieser von der Versuchsperson auf einer 10-Punkt-Skala hinsichtlich der Qualität bewertet werden. Es gibt 60 Versuchspersonen. 30 haben zuvor an einem Wein-Seminar teilgenommen.

Also schauen wir erstmal welche Verteilung deine Punkte haben.
Nimm hierfür die Ergebnisse der 30 Personen und mach ein
Jarque-Bera-Test. (Machen viele Programme standardmäßig in der
Ausgabe)

Über alle 60 Personen oder je Gruppe? Über alle Objekte oder je Objekt?

Wenn ich deinen Versuchsaufbau richtig verstehe, hast du Zwei
Gruppen mit je 30 Leuten, die 40 identische Dinge bewerten.
(richtig?!)

Es sind zwar 40 unterschiedliche Objekte (Weine), aber beide Gruppen bekommen dieselben 40 zur Beurteilung.

Wenn das so ist, kannst du 40 mal diesen Test mit jeweils 30
Teilnehmer pro Gruppe machen. n-1 ist dann 29.

40 mal den Test zu machen klingt nicht legitim, ohne den alpha-Wert anzupassen, damit ich keinen Fehler 1. Art mache.

Ich hoffe ich konnte alle Klarheiten beseitigen?!

Ja :smile:

Hallo Steff,

auch Dir vielen Dank für Deine Antwort.

Ich sehe keine Möglichkeiten in meinem Versuch, Mittelwertsvergleiche anzustellen. Hier noch einmal mein Versuchsaufbau, ausführlicher beschrieben:

Es gibt 40 Weine (Bsp. zur Einfachheit, tatsächlich sind es andere Objekte). Jede Versuchsperson bekommt alle Weine hintereinander präsentiert. Immer wenn ein Wein präsentiert wird, soll dieser von der Versuchsperson auf einer 10-Punkt-Skala hinsichtlich der Qualität bewertet werden. Es gibt 60 Versuchspersonen. 30 haben zuvor an einem Wein-Seminar teilgenommen.

Die (alternative) Hypothese ist, dass diejenigen, die zuvor am Seminar teilgenommen haben, den einzelnen Weinen ähnliche Bewertungen geben (= hohe Urteilerübereinstimmung = geringe Varianz der Beurteilungen je Wein), wohingegen die Bewertungen der „untrainierten“ zu jedem einzelnen Wein sehr unterschiedlich ausfallen (= geringe Urteilerübereinstimmung = hohe Varianz der Beurteilungen je Wein). Die Nullhypothese besagt, dass sich die Seminarteilnehmer nicht einiger bei ihren Weinbewertungen sind, als die untrainierten.

Viele Grüße

Hans-Peter

Hallo Steff,

auch Dir vielen Dank für Deine Antwort.

Ich sehe keine Möglichkeiten in meinem Versuch,
Mittelwertsvergleiche anzustellen. Hier noch einmal mein
Versuchsaufbau, ausführlicher beschrieben:

Es gibt 40 Weine (Bsp. zur Einfachheit, tatsächlich sind es
andere Objekte). Jede Versuchsperson bekommt alle Weine
hintereinander präsentiert. Immer wenn ein Wein präsentiert
wird, soll dieser von der Versuchsperson auf einer
10-Punkt-Skala hinsichtlich der Qualität bewertet werden. Es
gibt 60 Versuchspersonen. 30 haben zuvor an einem Wein-Seminar
teilgenommen.

Die (alternative) Hypothese ist, dass diejenigen, die zuvor am
Seminar teilgenommen haben, den einzelnen Weinen ähnliche
Bewertungen geben (= hohe Urteilerübereinstimmung = geringe
Varianz der Beurteilungen je Wein), wohingegen die Bewertungen
der „untrainierten“ zu jedem einzelnen Wein sehr
unterschiedlich ausfallen (= geringe Urteilerübereinstimmung =
hohe Varianz der Beurteilungen je Wein). Die Nullhypothese
besagt, dass sich die Seminarteilnehmer nicht einiger bei
ihren Weinbewertungen sind, als die untrainierten.

DEINE NULLHYPOTHESE ist wieder anders. Wenn sich die Seminar nicht einiger sind als die untrainierten, dann ist es gleichbedeutend mit der H_0, dass sie gleich sind. Also zweiseitiger Test auf Gleichheit!

Du merkst, es ist wichtig, die H_0 richtig zu definieren.

Viele Grüße

Hans-Peter

Hallo,

Vielleicht habe ich mich unklar ausgedrückt.

H_Null: Urteilerübereinstimmung_untrainiert >=
Urteilerübereinstimmung_trainiert
H_Eins: Urteilerübereinstimmung_untrainiert Es gibt 40 Weine (Bsp. zur Einfachheit, tatsächlich sind es
andere Objekte). Jede Versuchsperson bekommt alle Weine
hintereinander präsentiert. Immer wenn ein Wein präsentiert
wird, soll dieser von der Versuchsperson auf einer
10-Punkt-Skala hinsichtlich der Qualität bewertet werden. Es
gibt 60 Versuchspersonen. 30 haben zuvor an einem Wein-Seminar
teilgenommen.

Also schauen wir erstmal welche Verteilung deine Punkte haben.
Nimm hierfür die Ergebnisse der 30 Personen und mach ein
Jarque-Bera-Test. (Machen viele Programme standardmäßig in der
Ausgabe)

Über alle 60 Personen oder je Gruppe? Über alle Objekte oder
je Objekt?

Es kommt drauf an! Du kannst es in jeder Gruppe machen. Dann vergleiche die geschätzten Varianzen, und schau an, ob sie z.B. mit der durchschnittlichen Bewertung korrelieren. Könnte ja sein, dass die Varianz in den Punkten bei besonders guten bzw. extrem schlechten Weinen kleiner ist, da die Qualität eindeutiger bestimmbar ist.

Wenn ich deinen Versuchsaufbau richtig verstehe, hast du Zwei
Gruppen mit je 30 Leuten, die 40 identische Dinge bewerten.
(richtig?!)

Es sind zwar 40 unterschiedliche Objekte (Weine), aber beide
Gruppen bekommen dieselben 40 zur Beurteilung.

Ja meinte ich auch, also identisch war eher darauf bezogen, dass beide Gruppen die selben Weine bekommen haben. War etwas unklar von mir formuliert. Aber ich denke so langsam verstehen wir uns. :wink:

Wenn das so ist, kannst du 40 mal diesen Test mit jeweils 30
Teilnehmer pro Gruppe machen. n-1 ist dann 29.

40 mal den Test zu machen klingt nicht legitim, ohne den
alpha-Wert anzupassen, damit ich keinen Fehler 1. Art mache.

Wieso den Alpha-Fehler? Den legst du doch fest! Im Grunde kannst du 40 mal die Varianz der Bewertungen der untrainierten und trainierten Gruppe vergleichen.

Wenn du animmst, dass die Varianz konstant innerhalb einer Gruppe ist, und unabhängig von der Qualität des Weines, kannst du sie auch zusammenfassen. Also den Test über je 1200 Bewertungen pro Gruppe machen! Dann hast du 1998 Freiheitsgrade.

Ich hoffe ich konnte alle Klarheiten beseitigen?!

Ja :smile:

Hallo Hans-Peter,

Es gibt 40 Weine … Jede Versuchsperson bekommt alle Weine hintereinander
präsentiert. Immer wenn ein Wein präsentiert wird, soll dieser von der
Versuchsperson auf einer 10-Punkt-Skala hinsichtlich der Qualität bewertet
werden. Es gibt 60 Versuchspersonen. 30 haben zuvor an einem Wein-Seminar
teilgenommen.

Dieser Versuchsaufbau liefert folglich 240 Ergebnisse. Zu jedem der 40 Weine gibt es 60 Bewertungen - 30 von trainierten Bewertern und 30 von untrainierten.

Zur Analyse des Ergebnisses stellen sich also zwei Fragen:

  1. Bewerten Trainierte anders als Untrainierte? (Differenzen-Test)

  2. Bewerten Trainierte einstimmiger als Untrainierte? (Varianzanalyse, Chi²-Test)

zu Pkt 1 meine ich, es mal mit dem paarweisen Vergleich auszuprobieren. Zu jedem der 40 Weine gibt es immerhin 30 Werte-Paare, damit lassen sich schon Aussagen machen, ob Trainierte anders bewerten als Untrainierte.
Ich traue mich sogar wetten, daß es Weine geben wird, bei denen es keine Unterschiede gibt und Weine, bei denen tatsächlich Differenzen auftreten. Und dann stellt sich natürlich die Frage, woran das liegen könnte und da sind dann die Wein-Kenner gefragt.
Mit Excel hat man die Werte-Paare und die weitere Berechnung jedenfalls schnell erstellt, man muß das nicht händisch rechnen.

und Pkt 2 betrifft die bereits diskutierte Schwankung innerhalb der beiden Gruppen, also die Einstimmigkeit der Bewertungen. Wie Helferlein ganz richtig sagt ist es entscheidend, die Nullhypothese sauber zu definieren.

Gruß, Steff

Und wieder herzlichen Dank! Du bringst mich auf die richtige Spur.

Wenn das so ist, kannst du 40 mal diesen Test mit jeweils 30
Teilnehmer pro Gruppe machen. n-1 ist dann 29.

40 mal den Test zu machen klingt nicht legitim, ohne den
alpha-Wert anzupassen, damit ich keinen Fehler 1. Art mache.

Wieso den Alpha-Fehler? Den legst du doch fest! Im Grunde
kannst du 40 mal die Varianz der Bewertungen der untrainierten
und trainierten Gruppe vergleichen.

Entweder brauche ich doch einen Omnibus-Test, der eine pauschale Antwort für die Bewertungen aller Weine trifft; oder wenn ich je einen Test für jeden der 40 Weine mache, muss ich die Bonferroni-Korrektur anwenden: Bei alpha = .05 und 40 Tests wäre das Signifikanzniveau je Test: .05 / 40 = .00125

Wenn du animmst, dass die Varianz konstant innerhalb einer
Gruppe ist, und unabhängig von der Qualität des Weines, kannst
du sie auch zusammenfassen. Also den Test über je 1200
Bewertungen pro Gruppe machen! Dann hast du 1998
Freiheitsgrade.

Das ist leider kaum anzunehmen. Egal ob trainiert oder untrainiert werden die sehr schlechten Weine von allen eindeutig als solche erkannt.

Viele Grüße

Hans-Peter

Stimmt. S. korrekte Formulierung in anderem Thread
s. o.

Hallo Steff,

vielen Dank für Deine Antwort.

  1. Bewerten Trainierte anders als Untrainierte?
    (Differenzen-Test)

Wäre prinzipiell eine mögliche Fragestellung, bei der aber vermutlich nichts rauskommt, weil

a) mutmaßlich die Varianzen (die ja dann Error-Varianzen sind) der Bewertungen in der untrainierten Gruppe sehr groß sind;

b) es dieses Phänomen gibt, dass Laien in der Masse zu relativ guten Einschätzungen kommen. Soll z. B. bei einem Gewinnspiel die Anzahl Bohnen in einem großen Glas geschätzt werden (wer am dichtesten dran ist bekommt einen Preis), dann ist der Durchschnittswert oft sehr dicht am tatsächlichen Wert dran. Ich gehe also davon aus, dass die durchschnittlichen Bewertungen der Untrainierten ähnlich denen der Trainierten sind. (Was mich aber nicht davon abhalten muss, es zu testen).

  1. Bewerten Trainierte einstimmiger als Untrainierte?
    (Varianzanalyse, Chi²-Test)

Das ist jetzt das Ziel.

Viele Grüße

Hans-Peter