Signifikanz und Ausreisser

Hallo liebe Experten!

Ich habe endlich die einfache Regression geschafft:smile:. Nur, die Daten, die mir der Computer rausgespuckt hat, scheinen mir ein wenig seltsam. Zum einen, sind der Regressionskoeffizient (-2,3 Prozenteinheiten->bezieht sich auf GDP) und das R2 sehr tief(0,072), doch die Signifikanz liegt seltsamerweise bei 0,012 oder gar 0 wenn ich ein paar extreme Ausreisser ausschliesse. Ist dies überhaupt möglich? Wenn die Vorhersagegüte des Modells schlecht ist, sollte doch auch die Signifikanz tief sein?!

Ist es ausserdem ratsam, einen Fall nicht auszuschliessen, wenn sich bei einem Ausschluss der Regressionskoeffizient zwar von-2,3 auf -3,2 Prozenteinheiten steigt, aber die Signifikanz nur minim sich ändert(von 0,012 auf 0)? Denn wenn ich es noch richtig in Erinnerung habe, sollte man Ausreisser nur ausschliessen, wenn es stark auf die Signifikanz oder den Regressionskoeffizienten einwirkt. Ich bin nun in einem kleinen Dilemma^^.

Danke schon mal für eure Mithilfe!

lg
Niandra

Hi Nianrda,

Zum einen, sind der Regressionskoeffizient (-2,3 Prozenteinheiten -> :bezieht sich auf GDP) und das R2 sehr tief(0,072), doch die :Signifikanz liegt seltsamerweise bei 0,012 oder gar 0 wenn ich :ein paar extreme Ausreisser ausschliesse. Ist dies überhaupt :möglich? Wenn die Vorhersagegüte des Modells schlecht ist, :sollte doch auch die Signifikanz tief sein?!

Der P-Wert zum R² gibt dir nur an, on dR² sig von 0 verschieden ist. Das ist (nur teilweise) unabhängig von der Größe des R² udn zeigt sehr deutlich, dass Relevanz (dazu sollte der R² > 0.7 sein) nichts mit Signifikanz zu tun hat.
Die Koeffizienten geben dir nur die Werte der Gereaden an, die die Punkte datstellen soll, welche Werte da Sinn machen kann man nur unter Kenntnis der Werte selber entscheiden.
Aussreißer einfach auszuschließen bis man etwas signifikantes hat ist wie fälschen der Daten. Wenn du einen nachweislichen Fehler in der Messung hast, kannst du Daten ausschlißen, aber nicht einfach weil sie dir „zu groß“ erscheinen.

Ist es ausserdem ratsam, einen Fall nicht auszuschliessen, wenn sich :bei einem Ausschluss der Regressionskoeffizient zwar von-2,3 :auf -3,2 Prozenteinheiten steigt, aber die Signifikanz nur minim :sich ändert(von 0,012 auf 0)? Denn wenn ich es noch richtig in :Erinnerung habe, sollte man Ausreisser nur ausschliessen, wenn es :stark auf die Signifikanz oder den Regressionskoeffizienten :einwirkt.

Es ist nie ratsam einen Fall auszuschließne, wenn der oben genannte Fall nicht zutrifft. Gerade „dein“ Kriterium ist extemes fishing for significance. Zudem: Was ist eine starke Änderung? Mit solch schwammigen Kriterien erzeugt man nur nicht reproduzierbare Ergebnisse, die sogar an der richtigen Verteilung völlig vorbeigehen können.

Wenn dein R² zu niedrig ist, versuche eine quadratische oder kubische Anpassung, vielleicht geht das besser. Das Kriterium hier ist ganz klar, R² zu maximieren, unabhängig vom p-Wert.

Grüße,
JPL

Hey JPL

Danke einmal mehr für deine HIlfe! Ich hab mich ein wenig über die kubische,quadratische Anpassung eingelesen. Das Problem bei mir ist, dass ich eigentlich neben der unabhängigen Variable noch 3 Kontrollvariablen einfügen möchte und soviel ich begriffen habe, ist Kurvenanpassung nur bei einer unabhängigen Variable möglich. Da mein Ziel die Prüfung der Hypothese ist, müsste ich nicht bei der einfachen linearen Regression bereits abbrechen und sagen, dass die Güte niedrig ist und Signifikanz (42% bei 2. Hypothese…) nicht existiert? Oder ist mein niedriges R2 ein Hinweis darauf, dass die lineare Regression nicht für meine Daten geeignet ist, ergo eine logistische Regression besser wäre?

Im Bezug auf die Signifikanz und dem r2 der Regression meiner ersten Hypothese meinte ich nicht, dass die Signifikanz mit dem Ausreisser zu niedrig wäre, sondern mehr, dass der Regressionskoeffizient sich von 2 auf 3 Prozentpunkte (GDP) ändert und dies ja zu einem verzerrten Schluss führen könnte. Würdest du mir trotzdem empfehlen, den Ausreisser drin zu behalten?

Danke schon mal für deine Bemühungen:smile:

Lg
Niandra

Hi Niandra,

Danke einmal mehr für deine HIlfe!

Gern geschehen.

Ich hab mich ein wenig über die kubische,quadratische Anpassung :eingelesen. Das Problem bei mir ist, dass ich eigentlich :neben der unabhängigen Variable noch 3 Kontrollvariablen :einfügen möchte und soviel ich begriffen habe, ist :Kurvenanpassung nur bei einer unabhängigen Variable möglich.

Keinswegs! das ist dann eine multiple Regression. schau mal hier rein: http://www.uns.ethz.ch/edu/teach/masters/multi/Regre…
Dann kann man noch einige UVs nicht lienar einfliessen lassen (der Exponent ist dabei frei wählbar).
Wenn du jetzt fragst, was dann der Unterschied zu ANOVA ist: REgressionen sind Spezialfälle davon. Kurz gesagt kann man bei ANOVA auch noch die Korreltionen der UVs modellieren. Aber das nur am Rande.

Da mein Ziel die Prüfung der Hypothese ist, müsste ich nicht bei der :einfachen linearen Regression bereits abbrechen und sagen, dass :die Güte niedrig ist und Signifikanz (42% bei 2. Hypothese…) :nicht existiert?

Kommt auf deine Hypothese an. Wenn du ganz explizit NUR die Wirkung einer UV auf die AV testen willst, hättest du die anderen UVs gar nicht erheben müssen. Jetzt hast du aber zusätzliches Wissen, das dir ggf. viel Streuung erklären kann und damit das Modell verbessert. Damit bist du in dem model-selection Prozess (welche UVs sind eigentlich notwendig, um die Daten zu beschreiben?). dabie kann herauskommen, dass deine eigentliche UV gar nicht massgeblich ist. Das zeigt bisher dein sehr kleines R² an, das ggf. wesntlich besser wird, wenn du die anderen UVs einschließt.

Oder ist mein niedriges R2 ein Hinweis darauf, dass die lineare :Regression nicht für meine Daten geeignet ist, ergo eine :logistische Regression besser wäre?

Da kann es viele Gründe geben, bzw Verfahren geben, dir die das R² verbessern. Den besten fit zu deinen Daten bekommst du, wenn du die richtigen Variablen einschließt und das richtige Modell wählst. welches das ist kann man von vornherein durch Fachwissen eingrenzen und im zweiten Schritt durch Modellselektion konkretisieren.

[…]sondern mehr, dass der :Regressionskoeffizient sich von 2 auf 3 Prozentpunkte (GDP) :ändert und dies ja zu einem verzerrten Schluss führen könnte.

Warum ergibt sich daraus ein verzerrter Schluss?

Würdest du mir trotzdem empfehlen, den Ausreisser drin zu behalten?

Auf jeden Fall; ess ei denn es ist ein (dokumentierter) Messfhler.

Grüße,
JPL

MOD: Link klickbar gemacht

Hi JPL,

Im Bezug auf die Ausreisser: Alle Werte liegen ziemlich nahe beinander ausser 1,2 Werte, die extrem hoch sind. Ich dachte, dass diese schlussendlich den Regressionskoeffizienten verzerren. Ich werde, wie empfohlen, den Ausreisser also drin behalten und es bei der Analyse erwähnen.

Hab jetzt im SPSS (Analysieren->Regression->Kurvenanpassung), abgesehen von logaritmisch und Inverse ,alle möglichen Optionen angeklickt und dabei meine unabhängige und abhängige Variable eingefügt. Ich bin mir nicht sicher, ob dies genügt, denn ich habe ansonsten nichts spezifizieren müssen. Dabei ist herausgekommen, dass keines der Modelle ein höheres R2 besitzt. Verstehe ich es richtig, dass ich also bei meiner linearen Regression bleiben kann?
Ich habe ausserdem noch den Kolmogorov-Smirnof Anpassungstest mit meinen „unstandardized residuals“ durchgeführt. Dabei hat sich herausgestellt, dass die asymptotische Signifikanz bei 0,519 liegt, ergo Normalervteilung. Beim Q-Q Plott (beobachteter Wert vs den erwarteten Wert bei einer Normalverteilung) sind die Punkte zwar in der Nähe der Gerade aber irgendwie schlängeln sie sich durch(Es ist schwierig dies ohne Graphik zu beschreiben^^).

Ich verzweifle langsam, denn nachdem ich Fehler bei der Datenübertragung bemerkt und behoben habe, liegt nicht nur das r2 sondern auch noch die Signifikanz mit 0,56 im Keller. Ich werde jetzt dann noch die Kontrollvariablen hinzufügen und darauf hoffen, dass das r2 grösser wird…

Vielen Dank!
liebe Grüsse
niandra

Hi Niandra,

Hi JPL,

[…] Ich werde, wie empfohlen, den Ausreisser also drin behalten :und es bei der Analyse erwähnen.

Sehr gut.

[…]Verstehe ich es richtig, dass ich also bei meiner linearen :Regression bleiben kann?

Nur wenn du auch mal z.B. kubische Gleichungen versucht hast. Dazu kenne ich aber SPSS zu wenig. Bei solchen Sachen müsste schon etwas mehr spezifiziert werden. ausserdem ist der Fit i.a. mit Gleichungen höherer Ordnung besser.
Schau noch mal ins Handbuch/Onlinehilfe und geh es mal Schritt für Schritt an. Wenn dann immer noch heraus kommt, dass das R² nicht größer wird, dann hast du im Endeffekt die falschen UVs erwischt.

[…] Dabei hat sich herausgestellt, dass die asymptotische :Signifikanz bei 0,519 liegt, ergo Normalervteilung.
-) Gängiger Fehler. Dann muss keine Normalverteilung vorliegen, sondern du kannst lediglich nicht ablehnen dass es keine ist. Daasselbe Ergebnis kann dir nämlich auch noch mit anderen Verteilungen passieren.

Beim Q-Q Plott …

Das ist „normal“. Selbst wenn mans ich Daten aus einer Normalverteilung hernimmt, liegen die nicht alle perfekt auf der Geraden, sondern schlängeln sich darum. relevant ist aber, dass der allergößte Teil auf der Geraden liegt (oder so dicht dran, dass man kaum eine Abweichung erkennen kann).

Ich verzweifle langsam, denn nachdem ich Fehler bei der :smiley:atenübertragung bemerkt und behoben habe,

Na also, wird doch alles immer besser :smile:
Es kann eben sein, dass nichts tolles bei rauskommt - das ist auch ein Ergebnis.

Grüße,
JPL