Statistik: Korrelationsanalyse

hallo statistik-experten,

ich werte z.zt. daten eines experiments aus und bräuchte dabei hilfe. im rahmen der untersuchung wurden 15 tests durchgeführt, die verschiedene fähigkeiten messen sollen. meine hypothese ist, dass bestimmte tests miteinander korrelieren, andere hingegen nicht.

nun zu meinen fragen:

(1) da die messwerte alle mindestens intervallskaliert sind, würde sich der korrelationskoeffizient nach PEARSON-BRVAIS anbieten. aber laut K-S-test sind nur zwei der 15 variablen normalverteilt. kann ich trotzdem PEARSON-BRVAIS anwenden? irgendwo habe ich nämlich gelesen, dass man bei einer stichprobegroße von N>50 nährungsweise von einer normalverteilung ausgehen kann.

(2) die teilnehmer der untersuchung wurden anhand einer selbstauskunft in zwei gruppen geteilt (laien und experten). laut literatur sollen die experten bessere testergebnisse erzielen, was ich in meiner stichprobe leider nur bedingt nachweisen konnte. macht es sinn, eine partielle korrelation durchführen, um den einfluss der gruppe herauszurechnen? (vorrausgesetzt natürlich, dass ich PEARSON-BRVAIS anwenden darf)

vielen dank für eure hilfe im voraus!
beste grüße aus bayern
CHA

Hallo,

(1) da die messwerte alle mindestens intervallskaliert sind,
würde sich der korrelationskoeffizient nach PEARSON-BRVAIS
anbieten. aber laut K-S-test sind nur zwei der 15 variablen
normalverteilt. kann ich trotzdem PEARSON-BRVAIS anwenden?

a) wie groß ist Deine Stichprobe? Tests auf Normalverteilung liefern meistens erst verläßliche Ergebnisse, wenn die Stichprobe groß genug ist.

b) Ob man den Pearson-Korrelationskoeffizienten sinnvollerweise berechnen kann, hängt nicht davon ab, ob die Verteilung normal ist. Wenn die Verteilung nicht normal ist, kann der Korrelationskoeffizient u.U. zwar nicht sein theoretisches Maximum erreichen, diese Begrenzung des linearen Zusammenhangs ist aber kein Artefakt (siehe Cohen et al., Applied multiple regression / correlation analysis for the behavioral sciences).
Etwas anderes ist es, wenn man die Höhe der Korrelation inferenzstatistisch gegenüber irgendeinem Wert prüfen möchte. In dem Fall setzt der gängige Test voraus, daß die beiden Variablen bivariat normalverteilt sind.

(2) die teilnehmer der untersuchung wurden anhand einer
selbstauskunft in zwei gruppen geteilt (laien und experten).
laut literatur sollen die experten bessere testergebnisse
erzielen, was ich in meiner stichprobe leider nur bedingt
nachweisen konnte. macht es sinn, eine partielle korrelation
durchführen, um den einfluss der gruppe herauszurechnen?

Das verstehe ich nicht. Es geht Dir doch gerade um den Effekt der Gruppe, also daß sich die Versuchspersonen in Experten und Laien gruppieren lassen. Eine naheliegende Möglichkeit, die Hypothese zu prüfen, ist deshalb ein t-Test für unabhängige Stichproben, in dem die Mittelwerte der beiden Gruppen miteinander verglichen werden. Zum selben Ergebnis kommt man übrigens, wenn man Korrelationen jeweils zwischen der Gruppierungsvariablen und einer Deiner 15 Variablen rechnet.

Grüße

Salut,

Hallo,

(1) da die messwerte alle mindestens intervallskaliert sind,
würde sich der korrelationskoeffizient nach PEARSON-BRVAIS
anbieten. aber laut K-S-test sind nur zwei der 15 variablen
normalverteilt. kann ich trotzdem PEARSON-BRVAIS anwenden?

a) wie groß ist Deine Stichprobe? Tests auf Normalverteilung
liefern meistens erst verläßliche Ergebnisse, wenn die
Stichprobe groß genug ist.

ach was? Der Nullklassentest von David tut das schon bei N unter 10 ganz passabel.

Vorsichtshalber sollten bei Abweichungen SPEARMAN-Rangkorrelationen verwendet werden, die bei Nichtnormalverteilung die bessere Schätzung sein können.
Es hängt allerdings davon ab, welche Verletzung der Normalverteilung vorliegt: Ausreißer? Schiefe Verteilung? Oder geringe Anzahl der Antwortklassen (hier reagiert SPSS z.B. „übersensibel“).

b) Ob man den Pearson-Korrelationskoeffizienten
sinnvollerweise berechnen kann, hängt nicht davon ab, ob die
Verteilung normal ist. Wenn die Verteilung nicht normal ist,
kann der Korrelationskoeffizient u.U. zwar nicht sein
theoretisches Maximum erreichen, diese Begrenzung des linearen
Zusammenhangs ist aber kein Artefakt (siehe Cohen et al.,
Applied multiple regression / correlation analysis for the
behavioral sciences).

bei Ausreißern kann die Korrelation (auch bei großen Stichproben) deutlich unter- oder auch überschätzt werden.

Etwas anderes ist es, wenn man die Höhe der Korrelation
inferenzstatistisch gegenüber irgendeinem Wert prüfen möchte.
In dem Fall setzt der gängige Test voraus, daß die beiden
Variablen bivariat normalverteilt sind.

jo

(2) die teilnehmer der untersuchung wurden anhand einer
selbstauskunft in zwei gruppen geteilt (laien und experten).
laut literatur sollen die experten bessere testergebnisse
erzielen, was ich in meiner stichprobe leider nur bedingt
nachweisen konnte. macht es sinn, eine partielle korrelation
durchführen, um den einfluss der gruppe herauszurechnen?

Wenn keine Mittelwertsunterschiede gerechnet werden sollen (oder nur geringe gefunden wurden), bietet sich vielleicht eine Diskriminanzanalyse an. Je nach Datenlage käme auch eine Clusteranalyse in Betracht.
Das erst einmal, ohne die Daten zu kennen.

Grüße vom Vieux

Hallo,

ach was? Der Nullklassentest von David tut das schon bei N
unter 10 ganz passabel.

auch dann, wenn die geprüfte Normalverteilung aus den empirischen Daten geschätzt wurde? Oder gilt das nur, wenn a priori eine bestimmte Normalverteilung mit bekanntem Erwartungswert und bekannter Varianz geprüft wird?

b) Ob man den Pearson-Korrelationskoeffizienten
sinnvollerweise berechnen kann, hängt nicht davon ab, ob die
Verteilung normal ist. Wenn die Verteilung nicht normal ist,
kann der Korrelationskoeffizient u.U. zwar nicht sein
theoretisches Maximum erreichen, diese Begrenzung des linearen
Zusammenhangs ist aber kein Artefakt (siehe Cohen et al.,
Applied multiple regression / correlation analysis for the
behavioral sciences).

bei Ausreißern kann die Korrelation (auch bei großen
Stichproben) deutlich unter- oder auch überschätzt werden.

Hier ging’s darum, ob die Normalverteiltheit der Daten eine notwendige Bedingung ist, um den Korrelationskoeffizienten sinnvollerweise berechnen zu können. Die Diskussion um Ausreißer setzt in der Regel voraus, daß die Merkmalsverteilung in Wahrheit normal ist und nur die Stichprobenverteilung von der wahren Verteilung abweicht und Ausreißer enthält. Wenn die Stichprobenverteilung jedoch die wahre Verteilung annähernd richtig wiedergibt, das zugrundeliegende Merkmal also tatsächlich nicht normalverteilt ist, dann handelt es sich bei den Extremwerten nicht um Ausreißer, sondern um Charakteristika des zugrundeliegenden Merkmals. In dem Fall gibt die empirische Korrelation den tatsächlichen Zusammenhang richtig wieder. Es ist also keine notwendige Bedingung für die sinnvolle Berechnung der Korrelation, daß das Merkmal normalverteilt ist. Siehe Cohen et al. für eine Diskussion dieses Punktes und Zahlenbeispiele für ein empirisches Beispiel.

Abgesehen davon hat meine kleine Ad-hoc-Simulation bzgl. der Stichprobengröße gezeigt, daß die Beeinflussung durch Ausreißer mit zunehmender Stichprobengröße abnimmt. Steht auch bei Bortz.

Grüße

Moin

Hallo,

ach was? Der Nullklassentest von David tut das schon bei N
unter 10 ganz passabel.

auch dann, wenn die geprüfte Normalverteilung aus den
empirischen Daten geschätzt wurde? Oder gilt das nur, wenn a
priori eine bestimmte Normalverteilung mit bekanntem
Erwartungswert und bekannter Varianz geprüft wird?

So ist es, aber eben nur passabel …

bei Ausreißern kann die Korrelation (auch bei großen
Stichproben) deutlich unter- oder auch überschätzt werden.

Hier ging’s darum, ob die Normalverteiltheit der Daten eine
notwendige Bedingung ist, um den Korrelationskoeffizienten
sinnvollerweise berechnen zu können. Die Diskussion um
Ausreißer setzt in der Regel voraus, daß die
Merkmalsverteilung in Wahrheit normal ist und nur die
Stichprobenverteilung von der wahren Verteilung abweicht und
Ausreißer enthält. Wenn die Stichprobenverteilung jedoch die
wahre Verteilung annähernd richtig wiedergibt, das
zugrundeliegende Merkmal also tatsächlich nicht normalverteilt
ist, dann handelt es sich bei den Extremwerten nicht um
Ausreißer, sondern um Charakteristika des zugrundeliegenden
Merkmals. In dem Fall gibt die empirische Korrelation den
tatsächlichen Zusammenhang richtig wieder.

Tja, aber wer weiß, wie die „wahre“ Verteilung denn nun ist? Gerade in psychologischen Datenerhebungen mit Fragebögen weiß keiner, welche Werte Ausreißer sind und welche „echt“. Vpn nehmen die Untersuchungen nicht immer ernst: Die Folgen (auf die Verteilung der Werte) kann man sich schon vorstellen: genügend (un-) und absichtliche Verzerrungen.
Ergo: Besser mit Rangdaten arbeiten.

Es ist also keine
notwendige Bedingung für die sinnvolle Berechnung der
Korrelation, daß das Merkmal normalverteilt ist. Siehe Cohen
et al. für eine Diskussion dieses Punktes und Zahlenbeispiele
für ein empirisches Beispiel.

Abgesehen davon hat meine kleine Ad-hoc-Simulation bzgl. der
Stichprobengröße gezeigt, daß die Beeinflussung durch
Ausreißer mit zunehmender Stichprobengröße abnimmt. Steht auch
bei Bortz.

Hier irrt Bortz. Richtig ist zwar, dass (bei steigender Stichprobengröße) die absolute Abweichung von einem „wahren r“ immer geringer wird. Aber erstens werden auch die Differenzen zu Signifikanzgrenzen immer geringer und zweitens steigt die Wahrscheinlichkeit des Auftretens von Ausreißern – und die können sich sowohl gegenseitig verstärken als auch verringern als auch ohne Wechselseitige Bedingung wirken. Die relative Wirkung der Abweichung bleibt nahezu bestehen.

Die Prüfung der Verteilungsform und die Folgen auf anschließende Testverfahren sollten wir hier allerdings nicht weiterführen – eher gemeinsam ein weiteres interessantes und wirkungsloses Lehrbuch im Bereich der Statistik schreiben … so viele Überlegungen gibt es da.

Grüße vom Vieux

Hallo,

Die Prüfung der Verteilungsform und die Folgen auf
anschließende Testverfahren sollten wir hier allerdings nicht
weiterführen

obwohl ich noch ein paar Anmerkungen hätte, kann ich Deinen Vorschlag verstehen. Dann schreiben wir halt

eher gemeinsam ein weiteres interessantes und
wirkungsloses Lehrbuch im Bereich der Statistik

:wink:

Grüße