Hallo!
Ich stecke gerade in einer Situation, in der ich es als sehr schwierig empfinde zu entscheiden, ob ich nun abhängige oder unabhängige Daten habe. Könnt Ihr mir helfen?
Mir liegen viele aus einer Befragung stammende Äußerungen (qualitative Daten) vor, die ich in ein Kategoriensystem eingeordnet und so quantifiziert habe. Dabei wurden die Äußerungen durchaus auch gesplittet, wenn sie mehrere Themenbereiche behandelten. Somit ist es also möglich, dass ein Untersuchungsteilnehmer gleich mehrfach Daten in eine Kategorie und/oder in mehrere Kategorien einbringt. Jeder Äußerungsteil, der in eine Kategorie eingeordnet wurde, wurde von einem externen Rater auf einer dreistufigen Skala auf ein Merkmal hin bewertet. Ich möchte nun testen, ob sich die verschiedenen Kategorien bzgl. dieses extern bewerteten Merkmals im Mittel voneinander unterscheiden. Aber welchen statistischen Test wähle ich nun? Kruskal-Wallis (für unabhängige Stichproben, Ordinaldaten) oder Friedman (für abhängige Stichproben, Ordinaldaten)?
Vielen Dank!
Hi Michael,
Somit ist es also möglich, dass ein Untersuchungsteilnehmer gleich
mehrfach Daten in eine Kategorie und/oder in mehrere Kategorien
einbringt.
Damit hast du dann aus einer einfachmessung pro Proband eine Mehrfachmessung pro Proband gemacht. Da eine Äußerung aber ein inhaltich sinnvolles Element ist, ergibt die Splittung in kleinere Einheiten (Äußerungsteile) keine unabhängigen Daten.
Kleine Anmerkung: Wenn du ein Element sogar in mehrere verschiedene Kategiroen eingeordnet hast, ist dein Kategoriensystem Müll.
Jeder Äußerungsteil, der in eine Kategorie eingeordnet wurde, wurde
von einem externen Rater auf einer dreistufigen Skala auf ein
Merkmal hin bewertet. Ich möchte nun testen, ob sich die
verschiedenen Kategorien bzgl. dieses extern bewerteten Merkmals im
Mittel voneinander unterscheiden.
Aber welchen statistischen Test wähle ich nun? Kruskal-Wallis (für
unabhängige Stichproben, Ordinaldaten) oder Friedman (für abhängige
Stichproben, Ordinaldaten)?
keinen davon, denn
a) Mittelwerte von Skalen sind nicht sinnvoll
b) Kruskal-Wallis passt wegen der Abhängigkeit nicht und weil er nicht für ordinale Daten konzipiert ist, sondern für ein stetiges Merkmal in mehreren Gruppen, wenn die Normalverteilungsannahme nicht zutreffend ist (vgl. http://udel.edu/~mcdonald/statkruskalwallis.html). Ordinal kommt daher, dass statt den metrischen daten deren Ränge verwendet werden.
c) Friedmann passt aus demselben Grund wie Kruskal nicht
d) dein problem ist die Inter-rater reliability (http://en.wikipedia.org/wiki/Inter-rater_reliability), lies dich da mal ein (http://www.stataxis.com/interrater.htm).
Grüße,
JPL
Hi JPL!
Cool, vielen Dank für die schnelle Antwort und die zahlreichen Links! Das hat mir schon sehr weitergeholfen.
Es gibt bei mir keine Codiereinheit, die in mehrere Kategorien zugleich eingeordnet wurde; von daher hoffe ich, dass mein Kategoriensystem kein Müll ist
zu a) Ja, deshalb verwende ich keine metrische ANOVA.
zu b und c) insbesondere zu Ordinal: Ah, interessant! Aber gerade dadurch, dass die beiden Tests Ränge verwenden, sind sie doch eben gerade für Ordinaldaten geeignet, oder? Stetiges Merkmal: Oh je, mein untersuchtes Merkmal mag ja stetig sein, aber wenn ich es über eine dreistufige Skala erfasse, ist von der Stetigkeit nichts mehr übrig, oder?
zu d) Das verstehe ich noch nicht: Wie kann ich über die Interrater-Reliabilität statistisch signifikante Unterschiede zwischen den Kategorien feststellen? Angenommen, meine Interraterreliabilität zwischen mehreren Beurteilern wäre sehr gut, dann haben sie ihre Kreuzchen auf der dreistufigen Skala sehr ähnlich gesetzt. Dadurch weiß ich aber noch nicht, ob bei Kategorie 1 überwiegend der erste Skalenpunkt gewählt wurde und bei Kategorie 2 hingegen überwiegend der dritte (und zwar statistisch signifikant häufiger als in Kategorie 1)
Viele Grüße und vielen Dank!
H Michael,
prima, dass es dir hilft!
zu b und c) insbesondere zu Ordinal: Ah, interessant! Aber gerade
dadurch, dass die beiden Tests Ränge verwenden, sind sie doch eben
gerade für Ordinaldaten geeignet, oder?
Nahe dran, würde ich sagen. Wenn du von einem Merkmal Ränge bildest überführst du es tatsächlich in eine ordinale Struktur. Wenn das Merkmal stetig war, dann hast du i.a. keine Bindungen (ties), wenn du aber ein ordinales Merkmal hattest, dann haben alle Werte einer Klasse der Odrinalskala denselben Wert. Dann liegen nicht nur viele ties vor, sondern es wird auch ein ganz anderer Schnack, die Varianz für die Teststatistik zu berechnen.
Stetiges Merkmal: Oh je, mein untersuchtes Merkmal mag ja stetig
sein, aber wenn ich es über eine dreistufige Skala erfasse, ist von
der Stetigkeit nichts mehr übrig, oder?
richtig, deswegen würde ich auch keinen Friedman verwenden.
zu d) Das verstehe ich noch nicht: Wie kann ich über die Interrater-:Reliabilität statistisch signifikante Unterschiede zwischen den
Kategorien feststellen? Angenommen, meine Interraterreliabilität
zwischen mehreren Beurteilern wäre sehr gut, dann haben sie ihre
Kreuzchen auf der dreistufigen Skala sehr ähnlich gesetzt. Dadurch
weiß ich aber noch nicht, ob bei Kategorie 1 überwiegend der erste
Skalenpunkt gewählt wurde und bei Kategorie 2 hingegen überwiegend
der dritte (und zwar statistisch signifikant häufiger als in
Kategorie 1)
Sorry, dann hab ich dich falsch verstanden gehabt.
Für diese fragestellung kannst du erstmal rein deskriptiv eine Häufigkeitstabelle machen und desweiteren dann einen McNemar-Test (ich meine der geht auch für 2xk tables, muss ich aber noch mal morgen nachsehen).
Bei vielen Items läufst du dann natürlich wieder in das „Problem“ von Multiplizität rein.
Die Interraterrel würde ich trotzdem mal rechnen, denn wenn die mies ist wird es schwierig, einen Wert pro Kat und Proband zu ermitteln.
Grüße,
JPL
Hallo JPL,
noch einmal vielen Dank für die Antwort! Das ist wirklich äußerst hilfreich und die Augen öffnend. In der Tat liegen bei mir (massig) Ties vor. Dass dieser Umstand nicht besonders förderlich für einen Friedman-Test ist, der auf Varianz setzt, sehe ich ein. Zugleich bedeutet das aber, dass ich hier auf mein Ordinalskalenniveau nicht viel zu geben brauche (oder?) und deshalb gleich runter auf Nominalskalenniveau gehen kann ==> den McNemar-Test sprachst Du an, mir kommt zusätzlich gerade Chi-Quadrat-Test für mehrstufige Merkmale in den Sinn. Wie in meinem oberen Posting angesprochen, möchte ich gern alle Kategorien miteinander vergleichen; dann müsste ich für jede Kategorien-Kombination aus zwei Kategorien einen solchen Test machen ==> Bezahle ich dieses Vorgehen nicht mit einer immensen Alpha-Fehler-Inflation? Oder gibt es so etwas wie die Varianzanalyse (Intervallskala) bzw. Kruskal-Wallis/Friedman (Ordinalskala) auch auf Nominalskala, sodass man gleich mehrere Gruppen innerhalb nur eines Testdurchgangs miteinander vergleicht?
Viele Grüße und vielen Dank,
- Michael
Hi Michael,
Zugleich bedeutet das aber, dass ich
hier auf mein Ordinalskalenniveau nicht viel zu geben brauche
(oder?) und deshalb gleich runter auf Nominalskalenniveau gehen kann
Nicht unbedingt. Es gibt durchaus wege, die eine ordinale Struktur berücksichtigen und das sollt man natürlich bevorzugen, weil dann alle Informationen berücksichtigt werden.
Z.B. der Cochran-Armitage test of trend eigent sich für 2xk tables (und icst auch ein Chi²-Type-test).
einen generellen Chi²-Test für einen nxk table würde ich nicht machen, denn dann weißt su nur, dass es irgendwo Unterscheide geben könnte, aber eben nicht wo. und dann hast du eh wieder die paarweisen Vergleiche am Hacken.
Noch was: Wenn du drei ratings hast, musst du eigentlich ein Maß daraus machen, sonst hast du repeated measurements on ordinal scale … das geht auch, aber wenn die interrater reliability (say) > 0.9 ist, würde ich den einen wert nehmen, der da rauskommt.
==> den McNemar-Test sprachst Du an, mir kommt zusätzlich gerade
Chi-Quadrat-Test für mehrstufige Merkmale in den Sinn. Wie in meinem
oberen Posting angesprochen, möchte ich gern alle Kategorien
miteinander vergleichen; dann müsste ich für jede Kategorien-:Kombination aus zwei Kategorien einen solchen Test machen ==>
Bezahle ich dieses Vorgehen nicht mit einer immensen Alpha-Fehler-:Inflation?
Beides völlig richtig. Zum einen kannst du Inflation „einsapren“ indem du weniger testest (z.b. weil einige Vergleiche inhaltich keinen Sinn machen), zum anderen kannst du immer eine Bonferroni-Holm-Adjustierung der p-Werte machen (http://de.wikipedia.org/wiki/Alphafehler-Kumulierung), dann hälst du das Niveau immer noch ein.
Oder gibt es so etwas wie die Varianzanalyse (Intervallskala) bzw.
Kruskal-Wallis/Friedman (Ordinalskala) auch auf Nominalskala, sodass
man gleich mehrere Gruppen innerhalb nur eines Testdurchgangs
miteinander vergleicht?
Was dir aber nichts bringen würde, da du ja ein Einzelvergleichen interessiert bist.
Ganz gute Lit. ist das Buch von Armitage, Berry, Matthews: Statistical methods in medical research, kap. 15.
Grüße,
JPL
Hallo JPL!
Das waren wieder sehr wertvolle Tipps! Von dem Cochran-Armitage test of trend hatte ich bisher noch nie gehört. Eine Kurzrecherche bei SPSS zeigt mir den Cochran’s Q-Test an und die Beschreibung klingt sehr ähnlich zu dem, was Du schriebst; das scheint der Test zu sein.
Meine Interrater-Reliabilität liegt laut SPSS bei ca. .70 (trotz nur geringer Unterschiede zwischen den Ratings der Beurteiler. Ich nehme an, dass hier der Faktor eine große Rolle spielt, dass bei nur drei Skalenpunkte die Chance eines rein zufällig gleichen Ratings zwischen den Beurteilern sehr hoch ist, was die Interraterreliabilität nach unten drückt). Von daher kann ich dann wohl kein „vereinigtes“ Maß aus meinen Werten machen… Rein interessehalber: Wie würde das gehen? Ich kann ja bei meiner Ordinalskala keine Mittelwerte o.ä. ziehen.
Der Bonferroni-Holm-Tipp ist super! Vielen Dank!
- Michael
Hi Michael,
kurz gesagt: Ja, Cochran’s Q müsste passen.
Eine „Mittelung“ der drei Werte wäre - wenn die Interraterrel. >0.9 wäre - z.B. den Modus der drei Werte zu verwenden.
Übrigens: durch die wenigen Klassen wird die Interraterrel eher nach noch oben grdrückt.
Grüße,
JPL
Hallo JPL,
vielen Dank für die Informationen! Du hast mir sehr weitergeholfen!
- Michael
Gerne!
du weißt doch: „wer nicht fragt bleibt dumm“
Grüße und viel Erfolg beim Auswerten,
JPL