Multivariate regression: welche variablen?

Hallo,

ich muss in der Uni eine multivariate Regression rechnen. Ich habe 20 Fälle und sehr viele unabhängige Variablen. Wegen Freiheitsgraden kann ich nur wenige, max. 7 unabhängige Variablen, in die Analyse einführen.

Der Dozent meinte, ich soll ein best-fit-Modell der multivariaten Regression erstellen, also mit dem höchsten Varianzaufklärungspotential und möglichst nur signifikanten Ergebnissen; dazu solle ich puzzeln.

Ich verstehe nicht, welche Variablen und nach welcher Strategie ich die Variablen in die Regression eingeben soll. Willkürlich? Und was ist wichtiger, Varianzaufklärungspotential oder Signifikanzen.

Bei den ersten Variablen ist es immer recht einfach, aber nach drei Variablen in der multivariaten Regression steigt das Varianzaufklärungspotential mit fast jeder zusätzlichen Variable, aber das zerschießt immer die Signifikanzen.

Ich hoffe, jemand versteht mein Problem, und kann mir irgendwie helfen. Nach welchem Muster soll ich die Variablen einführen, was ist wichtiger Aufklärungspotential oder Signifikanzen, nach wievielen Variablen soll ich aufhören usw.

Tausend Dank!

Hi clam3i,

das fällt unter das Stichwort Variablenselektion, zu dem es keine generelle Lösung, aber haufenweise Literatur gibt.
Das vorgehen ist i.a. diejenigen Vars zu selektieren, die das modell am besten fitten, und nicht über die Sigs zu gehen.
Grund: Man will ein gutes Modell finden, und erst dann prüfen, ob es Unterschiede gibt nicht einfach nur die Zahl der Sigs maximieren (fishing for significance) - in dem Zusammenhang auch immer Multiplizität beachten!
ein brauchbares Kriterium für Varselektion ist z.b. BIC und likelihood-ratio test. Das BIC stellt nicht nur die erklärte Streuung der Gesamtstreuung gegenüber, sondern lässt auch die Zahl der Vars mit einfliessen. D.h., wenn man zuviele Vars verwendet, wird das BIC wieder schlechter. Denn jede Var hat ein (wie klein auch immer) Erklärungspotenzial, so dass mehr Vars immer eine bessere Erklärung geben.
Gleichzeitig passiert aber auch das, was du schon beobachtet hast: Die Sigs verschwinden wieder. Das u.a. daran, dass jede neue Variable den anderen Streuung „abzwackt“, wodruch die Teststaitsik kleiner werden kann(!) und damit der P-wert größer.

schlußendlich muss man immer bedenken, dass die Vars auch inhaltich einen Sinn ergeben müssen. So kann man ggf. schon eine Menge vorab rauswerfen.

HTH,
JPL

Hallo,

ich muss in der Uni eine multivariate Regression rechnen. Ich
habe 20 Fälle und sehr viele unabhängige Variablen.

ist das nicht eine multiple Regression und keine multivariate? Du hast viele Prädiktoren und nur ein Kriterium?

Im übrigen: 20 Fälle sind sehr wenig für eine Regressionsanalyse. Es gibt Faustregeln, nach denen man berechnen kann, wie groß das Verhältnis Stichprobe zu Prädiktoren ist. Ich habe sie jetzt nicht im Kopf, aber 10 Fälle pro Prädiktor sollte die unterste vertretbare Grenze sein. Ich halte daher maximal Modelle mit 2 oder 3 Prädiktoren für sinnvoll.

Der Dozent meinte, ich soll ein best-fit-Modell der
multivariaten Regression erstellen, also mit dem höchsten
Varianzaufklärungspotential und möglichst nur signifikanten
Ergebnissen; dazu solle ich puzzeln.

Das nennt man „snooping in the data“.
Was ich machen würde, wenn ich überhaupt so etwas freiwillig rechnen würde: Erst einmal die Prädiktoren zusammenfassen, z.B. über eine Faktorenanalyse. Dann hat man zumindest Untermengen von miteinander höher korrelierenden Prädiktoren, die man in verschiedenen Kombinationen in die Regressionsanalyse stecken kann. Oder man rechnet gleich mit den Faktorwerten weiter.

Als Analysemethode bei der Regression könnte man „stepwise regression“ nehmen und festlegen, ab welchem Signifikanzniveau ein Prädiktor aufgenommen werden soll und ab welchem er ausgeschlossen werden soll.

Beste Grüße

Oliver