Moin
Hallo,
ach was? Der Nullklassentest von David tut das schon bei N
unter 10 ganz passabel.
auch dann, wenn die geprüfte Normalverteilung aus den
empirischen Daten geschätzt wurde? Oder gilt das nur, wenn a
priori eine bestimmte Normalverteilung mit bekanntem
Erwartungswert und bekannter Varianz geprüft wird?
So ist es, aber eben nur passabel …
bei Ausreißern kann die Korrelation (auch bei großen
Stichproben) deutlich unter- oder auch überschätzt werden.
Hier ging’s darum, ob die Normalverteiltheit der Daten eine
notwendige Bedingung ist, um den Korrelationskoeffizienten
sinnvollerweise berechnen zu können. Die Diskussion um
Ausreißer setzt in der Regel voraus, daß die
Merkmalsverteilung in Wahrheit normal ist und nur die
Stichprobenverteilung von der wahren Verteilung abweicht und
Ausreißer enthält. Wenn die Stichprobenverteilung jedoch die
wahre Verteilung annähernd richtig wiedergibt, das
zugrundeliegende Merkmal also tatsächlich nicht normalverteilt
ist, dann handelt es sich bei den Extremwerten nicht um
Ausreißer, sondern um Charakteristika des zugrundeliegenden
Merkmals. In dem Fall gibt die empirische Korrelation den
tatsächlichen Zusammenhang richtig wieder.
Tja, aber wer weiß, wie die „wahre“ Verteilung denn nun ist? Gerade in psychologischen Datenerhebungen mit Fragebögen weiß keiner, welche Werte Ausreißer sind und welche „echt“. Vpn nehmen die Untersuchungen nicht immer ernst: Die Folgen (auf die Verteilung der Werte) kann man sich schon vorstellen: genügend (un-) und absichtliche Verzerrungen.
Ergo: Besser mit Rangdaten arbeiten.
Es ist also keine
notwendige Bedingung für die sinnvolle Berechnung der
Korrelation, daß das Merkmal normalverteilt ist. Siehe Cohen
et al. für eine Diskussion dieses Punktes und Zahlenbeispiele
für ein empirisches Beispiel.
Abgesehen davon hat meine kleine Ad-hoc-Simulation bzgl. der
Stichprobengröße gezeigt, daß die Beeinflussung durch
Ausreißer mit zunehmender Stichprobengröße abnimmt. Steht auch
bei Bortz.
Hier irrt Bortz. Richtig ist zwar, dass (bei steigender Stichprobengröße) die absolute Abweichung von einem „wahren r“ immer geringer wird. Aber erstens werden auch die Differenzen zu Signifikanzgrenzen immer geringer und zweitens steigt die Wahrscheinlichkeit des Auftretens von Ausreißern – und die können sich sowohl gegenseitig verstärken als auch verringern als auch ohne Wechselseitige Bedingung wirken. Die relative Wirkung der Abweichung bleibt nahezu bestehen.
Die Prüfung der Verteilungsform und die Folgen auf anschließende Testverfahren sollten wir hier allerdings nicht weiterführen – eher gemeinsam ein weiteres interessantes und wirkungsloses Lehrbuch im Bereich der Statistik schreiben … so viele Überlegungen gibt es da.
Grüße vom Vieux