Hallo!
ich habe einen Versuch gemacht und möchte jetzt sehen ob es zwischen 2 Leistungen eine Korrelation gibt. Meine Daten sind nicht normalverteilt, also kann ich keine Pearson Korrelation machen. Eine Voraussetzung für die Spearman Korrelation ist aber dass es eine monotone Beziehung zwischen meinen beiden Leistungen gibt. Die gibt es aber nicht. Was soll ich also machen? ich weiß dass man Daten transformieren kann. das macht aber denk ich nicht bei all meinen Daten Sinn… Gibt es einen anderen Test den ich machen kann?
Vielen Dank für Hilfe!!!
Lg Corinna
Hallo Corinna,
das kommt jetzt entscheidend auch darauf an, welche Skalenniveaus Deine Variablen haben. Kannst Du mir dazu noch ne Info geben?
Lg,
JuMaHe
Hi,
also ich denke das müssten beides Ordinalskalen sein. Es sind Leistungen. Die Probanden konnten in 2 Tests maximal 20 Punkte erreichen. Davon wurde der Mittelwert berechnet (für jeden einzelnen) und das sind meine Daten. Also Ordinal, oder?
Achso und: in einem anderen Fall will ich wissen ob das Alter eine Rolle für die Leistung spielt. Da wäre es allerdings dann eine Verhältnisskala und eine Ordinalskala. Nehm ich mal an
Achso und
Achso und: in einem anderen Fall will ich wissen ob das Alter
eine Rolle für die Leistung spielt. Da wäre es allerdings dann
eine Verhältnisskala und eine Ordinalskala. Nehm ich mal an
Hallo,
Und was willst du im ersten Fall wissen? Eine Korrelation benötigt doch mindestens zwei Merkmale, zwischen denen ein Zusammenhang nachgewiesen werden soll. Kannst du dich mal ein wenig klarer ausdrücken.
Gruß
Peter
hallo!
Ich habe zwei verschiedene Tests. Ich würde gerne wissen ob es einen Zusammenhang zwischen der Leistung in Test 1 (=Leistung1) und der Leistung in Test 2 (=Leistung2) gibt. z.B: Ist die Leistung2 gut wenn auch Leistung1 gut ist?
Das kann ich doch mit einer Korrelation machen, oder nicht?
Danke!!
Lg
Corinna
Hallo liebe Corinna,
Pearson-Korrelationskoeffizient ist nicht zwingend an die Normalverteilung gekoppelt. Er ist jedoch linear. Er misst also nur lineare Zusammenhänge!
Um Statistik richtig zu betreiben, muss man systematisch rangehen. Leider wird das in vieeeelen Studien, gerade im Bereich der Psychologie und anderen Geisteswissenschaften eher fehlerhaft bis komplett falsch gemacht.
- Schritt: Wir müssen deinen Versuchsaufbau verstehen, und daraus eine Hypothese und Verteilung für deine Daten ableiten.
Wenn ist es richtig verstehe, hast du Probanden 2 Test machen lassen, und willst die Punkte in beiden Tests vergleichen. In beiden Test konnte man je 20 Punkte erreichen.
Nun stellt sich die Frage: Gibt es einen Zusammenhang zwischen den beiden erreichten Punkten?!
-
Schritt: Welcher Verteilung folgen die Daten? Ich würde erwarten, dass sie wahrscheinlich Normalverteilt sind, für jeden Test allein!!! Hast du das getestet oder nur die Punktwerte aus beiden Tests oder die Summe der Punkte?! Wieviel Beobachtungen hast du? Welchen Test auf Normalverteilung hast du verwendet?
-
Schritt: Folgen die Daten keiner gängigen Verteilung, könnte man über eine stetig monotone Transformation der Daten nachdenken! In diesem Zusammenhang stellt sie die Frage nach nicht-linearen Zusammenhängen!? Sind nicht die absoluten sondern die relativen Abweichungen vom Mittelwert eventuell Normalverteilt?
-
Schritt: Nehmen wir an, die transformierten Daten sind nun normalverteilt , dann kann man die Test alle so machen, jedoch muss die Interpretation angepasst werden!
Folgen die Daten immer noch keiner Verteilung, bieten sich verteilungsfreie Verfahren an!
Beispielsweise der Spearmans-Rangkorrelationskoeffizient oder Kendals-Tau. Auch könnte man Kolgomorov-Smirnov verwenden, um zu Überprüfen, ob beide Punktwerte aus der selben Verteilung stammen! So kann man zwar erstmal nichts direkt über den Mittelwert sagen, aber über die Homogenität!
Nun zum Abschluß mal allgemein:
KEIN TEST in der Statistik kann dir zuverlässig eine Korrelation zeigen oder nicht. Entscheidend ist IMMER die NULLHYPOTHESE, die DU!!! aufstellst. ALSO: immer zu erst überlegen: WAS WILLST DU ZEIGEN?
viele Grüße
Vielen dank für deine Antwort, du hast mir jetzt schon sehr geholfen!!
Schritt 1: das hast du richtig verstanden
schritt 2: Die Daten sind nicht normalverteilt. Ich habe für jeden Test 12 Teilnehmer. Ich habe die Normalverteilung mit dem Shapio Wilk’s Test getestet. Für jeden Test einzeln. Also erreichte Punktzahl jedes Teilnehmers pro Test in eine Spalte in SPSS --> 12 Zeilen --> Shapiro Wilk test laufen lassen und dann das gleiche für den zweiten Test.
schritt 3: ich würde bevorzugen wenn ich meine daten nich transformieren müsste… das scheint mir doch ziemlich kompliziert…
ich hab mir jetzt ein paar sachen über diesen Kendals-Tau test durchgelesen, der hört sich für mich ganz gut an. Vor allem weil ich ja auch nicht so ein großes N habe. Für ihn brauche ich anscheinend auch keinen monotonen oder linearen zusammenhang, oder?
)
na obwohl… anscheinend hat der kendall’s Tau test doch die gleichen voraussetzungen an die daten wie die spearman korrelation… es is echt nich ganz leicht informationen über sowas aus dem internet zu ziehen
Zu Schritt2: Shapiro-Wilk ist ein Test der sehr empfindlich gegen Ausreißer ist. Hast du zur Kontrolle mal ein Jarque-Bera oder Kolgomorrow-Smirnov-Test gemacht? Verwerfen die auch die Normalverteilung?
zu Schritt 3: Das ist ganz einfach. Zum Beispiel kannst du den Logarithmus der Werte nehmen und diese dann untersuchen. Statt z.B. 5 nimmst du ln(5) u.s.w.
Zu Kendals-Tau: Wie man sieht hat er so seine Probleme bei kleinem n. Und 20 ist klein!!!
Außerdem stellt sich noch die Frage: Willst du auf Ungleichheit der Tests testen oder willst du die Hypothese, dass Testergebnis 1 besser ist als Test 2??? Denn Wie es scheint testet Kendals-Tau nur auf Gleichheit!
viele grüße
schritt 2: ich hab den shapiro wilk test gemacht weil ich gelesen hab dass dessen güte ist. ich hab aber gleichzeitig immer den kolgomorrow test gemacht und es waren dann zwar nicht immer die gleichen werte aber das ergebnis blieb gleich. wenn der eine nicht normalverteilt angezeigt hat dann der andere auch und andersrum.
schritt 3: ok, ich denk dann werd ich als nächstes wohl versuchen müssen meine daten zu transformieren… ich hoffe das bekomm ich hin.
ich will testen ob eine gute leistung in test 1 auch eine gute leistung in test2 zur folge hat. oder ob zB das alter einen einfluss auf die leistung hat.
du wohnst nich zufällig in wien oder münchen oder?
schritt 2: ich hab den shapiro wilk test gemacht weil ich
gelesen hab dass dessen güte ist. ich hab aber gleichzeitig
immer den kolgomorrow test gemacht und es waren dann zwar
nicht immer die gleichen werte aber das ergebnis blieb gleich.
wenn der eine nicht normalverteilt angezeigt hat dann der
andere auch und andersrum.
Na dann probiere doch mal ein Test auf T-Verteilung!
schritt 3: ok, ich denk dann werd ich als nächstes wohl
versuchen müssen meine daten zu transformieren… ich hoffe
das bekomm ich hin.ich will testen ob eine gute leistung in test 1 auch eine gute
leistung in test2 zur folge hat. oder ob zB das alter einen
einfluss auf die leistung hat.
Bist du dir sicher? Ich denke nicht! Ein Beispiel soll es verdeutlichen!
Stell dir vor im 1. Test haben 5 Leute 20 Punkte und 15 Leute haben 0 Punkte!
Im 2. Test haben alle 20 Punkte. Deine Hypothese ist bestätigt, denn alle die im ersten Test gut waren, sind es auch im 2.Test. Du wirst aber wahrscheinlich keine Korrelation finden, denn die Ergebnisse des zweiten Test variieren nicht. Das bedeutet, die Covarianz ist 0!
Um deine Hypothese zu analysieren, müsstest du erstmal „GUT“ definieren. Alle über 10 Punkte? 16 Punkte oder nur bei voller Punktzahl??? Was ist gut? Wenn du aber ALLE analysierst, werden die schlechten immer einen Einfluss auf deine Korrelation haben.
Wie ist denn der Test aufgebaut? MC-Test?! Dann wäre vielleicht Binominalverteilung noch eine Option!
du wohnst nich zufällig in wien oder münchen oder?
Ich bin aus Berlin. Also wäre der Weg weit zum Kaffee trinken!
viele liebe Grüße aus Berlin
ohje… das wird ja immer komplizierter, bzw. fehlt mir einfach so viel wissen über statistik…
in dem test haben sie eine 50% 50% chance richtig zu wählen (wenn sie blind drauf los wählen würden). also zwei antwortmöglichkeiten von der sie eine wählen können.
es ist so, dass sie am anfang nicht wissen worum es geht, da müssen sie tatsächlich quasi blind wählen. im verlauf des ersten tests könnte es aber sein dass sie so langsam dahinter kommen worum es geht. die lösung des test 2 baut auf dem gleichen prinzip/lösungsweg wie test1 auf. wenn ein proband die lösung von test1 durchblickt hat und dadurch eine höhere punktzahl in test1 hat, ist es wahrscheinlich dass er auch in test2 gut ist. andersrum, hat der proband nicht verstanden worum es in test1 geht wird er wenig punkte erziehlt haben und dann auch in test2 schlechter sein. aber test2 verdeutlicht die lösung des problems besser. das heißt wenn jemand in test1 nicht verstanden hat worum es geht wird er es im laufe von test2 verstanden haben.
was ich also eigentlich wissen will mit meinem test ist, ob sie im test1 schon irgendwas durchblickt haben…
also bei einer binomialverteilung is die chance richtig zu wählen ja auch 50%/50%… meinst du ich könnte dann also einen binomialtest machen?? aber damit berechne ich doch nur zB wie wahrscheinlich es ist dass das ergebnis auf zufall beruht… ? welche daten würd ich denn dann da genau einfügen?
Lg!
Hallo Corinna,
aber damit berechne ich doch nur zB wie
wahrscheinlich es ist dass das ergebnis auf zufall beruht… ?
Genau DAS ist STATISTIK!
Wir grenzen Zufall dadurch ab, dass wir die Wahrscheinlichkeit unter der Annahme der Zufälligkeit(H0) berechnen! DAS ist IMMER dein p-wert! Vielleicht versteht du ja jetzt, weshalb ein kleiner P-wert zum Verwerfen der H0 führt. WEIL es eben zu UNWAHRSCHEINLICH wäre.!
Und genau das machst du auch mit deinen Probanden.
- Schritt: Man würde erstmal ermitteln, wer überhaupt Signifikant besser ist, als Raten.
Bei 20 Fragen mit 50% Wahrscheinlichkeit der richtigen Antwort, wird im Schnitt 10 Punkte bei reinem Raten erreicht.
Mittels EViews(Statistiksoftware) habe ich folgende Werte:
Der Wert der Verteilungsfunktion an der Stelle 15 Punkte hat den Wert 0.994
Der Wert der Verteilungsfunktion an der Stelle 14 Punkte hat den Wert 0.979 (ungefähr 0.98)
Der Wert der Verteilungsfunktion an der Stelle 13 Punkte hat den Wert 0.942 (ungefähr 0.94)
Der Wert der Verteilungsfunktion an der Stelle 12 Punkte hat den Wert 0.868 (ungefähr 0.87)
Wie interpretiert man diese Werte? Im Durchschnitt haben 98 von 100 Probanden mit einer Punktzahl von 14 Punkten oder mehr, nicht nur geraten.
Im Durchschnitt haben 94 von 100 Probanden mit einer Punktzahl von 14 Punkten oder mehr, nicht nur geraten. Oder andersherum: Im Durchschnitt haben 6 von 100 Probanden mit einer Punktzahl von 14 Punkten oder mehr, die Punktzahl ausschließlich durch raten erreicht.
Im Durchschnitt haben nur 6 von 1000 Probanden mit einer Punktzahl von 15 Punkten oder mehr, die Punktzahl ausschließlich durch raten erreicht.
Jetzt drehen wir es um uns sagen:
Von 1000 Probanden die 14 Punkte oder mehr erreicht haben, werden im Durchschnitt nur 21 Probanden das Ergebnis ausschließlich durch Raten erlangt haben.
Da wir relativ wenig Beobachtungen haben, und rein empirisch Arbeiten würde ich mindestens zum 5%-Niveau(13 Punkte) testen, besser zum 10%-Niveau (12 Punkte).
Also kannst du sagen, wer mehr als 13 Punkte im ersten Test hat, ist signifikant besser als Raten ( zum 5%-Niveau), und hat somit sehr wahrscheinlich das Prinzip des Testes verstanden. Diese Gruppe sollte somit nicht nur besser im zweiten Test sein, sondern auch signifikant besser abschneiden als im ersten Test!
Jetzt zum 2.Schritt:
Hier können wir mehrere Fälle unterscheiden.
1.Fall: Wenn das Prinzip im zweiten Test klarer wird, als im ersten Test, sollte die durchschnittliche Punktzahl über alle Teilnehmer im zweiten Test höher sein.
Also:
H0: Beide Mittelwerte sind gleich
H1: Beide Mittelwerte sind nicht gleich.
Nehmen wir an, das jede einzelne Frage geraten wird und es gibt KEIN Lernprozess, dann würde jeder bei jeder Frage Raten. Also du hast 12 Teilnehmer die je 20 Fragen beantworten. Sollten alle raten, wäre die Gesamtzahl der richtigen Antworten Binominalverteilt.
Der Erwartungswert ist: 120
Das 90%-Konfidenzintervall ist: 106 bis 133
Das 95%-Konfidenzintervall ist: 104 bis 135
Was bringt uns das?
Zu erst kann man Fragen: Sind beide Punktwerte(Test 1 und 2) Außerhalb dieser Intervalle?! Wenn es beide Mittelwerte sind, dann haben auf jeden Fall die Leute in beiden Test nicht nur geraten.
Um in diesem Fall die Tests mit einander vergleich zu können, musst du die Teststatistik rumdrehen, denn weil die Leute eben nicht nur raten, sind die Puktezahlen nicht mehr Binominalverteilt mit einem p von 0.5 sondern einem anderen p, das größer als 0.5 ist.
Und dann testest du auf Gleichheit dieses p in beiden Tests! Du testest als, ob die Wahrscheinlichkeit einer richtigen Antwort in beiden Test gleichgroß ist!
verstanden!? So, nun aber erstmal Schluß, ich muss noch andere Sachen machen. Ich schau später nochmal vorbei
bis dann