Hilfe benötigt: Regressionsanalyse?!

Hallihallo,

im Rahmen meiner Diplomarbeit beschäftige ich mich unter anderem mit dem Erfolg einer bestimmten Therapie in der Kinderpsychiatrie.

Hierzu haben wir vor und nach Therapie mittels eines Fragebogens Daten erhoben, die sich wunderbar vergleichen lassen. Die Differenz zwischen beiden Werten definieren wir als Therapieerfolg.

Nun geht es um folgendes: Zusätzlich zur deskriptiven Statistik, T-Test etc. möchte ich untersuchen, ob das Alter, das Geschlecht, die Therapiedauer sowie der Ausgangswert vor der Therapie Einfluss ausüben auf den Behandlungserfolg.
Einerseits geht es mir um den Einfluss der einzelnen Variablen und andererseits wäre es auch interessant zu wissen, welchen Beitrag diese vier Variablen gemeinsam leisten.

Beide Fragestellungen kann man doch wunderbar mit einer Regressionsanalyse testen, oder? Ich arbeite übrigens mit SPSS?!

Leider bin ich aber - auch nach Studium von Literatur zur Regressionsanalyse - hoffnungslos überfordert. Mir ist immer noch nicht klar, was ich genau in SPSS machen muss, um den Einfluss der unabhängigen Variablen auf die abhängige Variable zu prüfen.
Zwar weiß ich, wie man in SPSS in das Menü kommt und wo die abhängige und wo die unabhängigen Variablen hinmüssen. Aber wie genau muss ich weiter vorgehen? Welche Werte sind in der Ausgabe hier entscheidend?

Ich danke herzlichst für Hilfe!

Viele Grüße

Hi Weenie,

Nun geht es um folgendes: Zusätzlich zur deskriptiven
Statistik, T-Test etc. möchte ich untersuchen, ob das Alter,
das Geschlecht, die Therapiedauer sowie der Ausgangswert vor
der Therapie Einfluss ausüben auf den Behandlungserfolg.
Einerseits geht es mir um den Einfluss der einzelnen Variablen
und andererseits wäre es auch interessant zu wissen, welchen
Beitrag diese vier Variablen gemeinsam leisten.

Wenn du ohnehin schon einen t-Test als adäquat ansiehst, dann kannst du auch mit einer AN©OVA weitermachen und alle Faktoren einschließen.
Dann kannst du sehen welche einen Einfluss haben, und welche nicht. Durch einen sequenziellen einschlußprozeß kannst du dann auch sehen, ob die Hinzunahme von Variablen ein besseres Modell ergibt - das trifft deine Frage wohl noch ma besten.

Zur technischen Seite z.B.: http://www.uni-saarland.de/fak5/excops/download/QM2-…

Grüße,
JPL

Hey

Wenn du ohnehin schon einen t-Test als adäquat ansiehst, dann
kannst du auch mit einer AN©OVA weitermachen und alle
Faktoren einschließen.
Dann kannst du sehen welche einen Einfluss haben, und welche
nicht. Durch einen sequenziellen einschlußprozeß kannst du
dann auch sehen, ob die Hinzunahme von Variablen ein besseres
Modell ergibt - das trifft deine Frage wohl noch ma besten.

Vielen Dank für Deine Antwort. Hiernach glaube ich auch, dass eine schlichte ANOVA das beste im Rahmen dieser Fragestellung ist. Nach der Analyse hat einzig der Ausgangswert Einfluss auf den Therapieerfolg. Alle anderen liegen außerhalb des Signifikanzniveaus… Oder sollte ich das weiter absichern?

Übrigens zum Kommentar von george: Ich studiere was anderes und hatte auch nie eine gute Statistik-Vorlesung.

Hi Weenei,

Vielen Dank für Deine Antwort. Hiernach glaube ich auch, dass
eine schlichte ANOVA das beste im Rahmen dieser Fragestellung
ist. Nach der Analyse hat einzig der Ausgangswert Einfluss auf
den Therapieerfolg. Alle anderen liegen außerhalb des
Signifikanzniveaus… Oder sollte ich das weiter absichern?

Nein. du musst aber folgedes beachten: Ein nicht-signifikanter Effekt bedeutet nicht, dass keine sig. Unterschiede zwischen den Subgruppen des Effektes bestehen (und vice versa). Ausserdem solltest du die t-tests, die du schon gemacht hast, noch einmal mit dem kompletten Modell (als posthoc tests) zu wiederholen. Zwecks adjustiernung der p-Werte wählst du dann Bonferroni(-Holm), aber nicht FisherLSD!
Grüße,
JPL

Nein. du musst aber folgedes beachten: Ein nicht-signifikanter
Effekt bedeutet nicht, dass keine sig. Unterschiede zwischen
den Subgruppen des Effektes bestehen (und vice versa).
Ausserdem solltest du die t-tests, die du schon gemacht hast,
noch einmal mit dem kompletten Modell (als posthoc tests) zu
wiederholen. Zwecks adjustiernung der p-Werte wählst du dann
Bonferroni(-Holm), aber nicht FisherLSD!
Grüße,
JPL

Okay, den gepaarten t-Test habe ich erstmal nur durchgeführt, um die Werte vor und nach der Therapie zu vergleichen (einmal für die Gesamtstichprobe, dann für Jungen und für Mädchen).
Ohne dabei unabhängige Variablen zu beachten.

Vielleicht sollte ich das Problem nochmal neu angehen. Da es sich um eine Pilotstudie handelt, spielen die Effekte der unabhängigen Variablen untereinander doch erstmal eine eher untergeordnete Rolle.
Es geht grundsätzlich um die Frage: Beeinflusst eine der Variablen Alter, Therapiedauer etc. überhaupt die Ergebnisse?!
In einer biomathematischen Beratung wurde mir jetzt geraten, dass jeweils mit der Kurvenanpassung zu berechnen. Was hälst Du davon?
Oder ist hier die ANOVA tatsächlich das Mittel der Wahl?

Gruß

Hi,

Vielleicht sollte ich das Problem nochmal neu angehen. Da es
sich um eine Pilotstudie handelt, spielen die Effekte der
unabhängigen Variablen untereinander doch erstmal eine eher
untergeordnete Rolle.
Es geht grundsätzlich um die Frage: Beeinflusst eine der
Variablen Alter, Therapiedauer etc. überhaupt die Ergebnisse?!
In einer biomathematischen Beratung wurde mir jetzt geraten,
dass jeweils mit der Kurvenanpassung zu berechnen. Was hälst
Du davon?
Oder ist hier die ANOVA tatsächlich das Mittel der Wahl?

die ANOVA habe ich nur gewählt, weil du den t-test erwähntest. Massgeblich für die Wahl des Tests ist das Skalenniveau (was ich bei dir nicht kenne). Dann musst du eine Analysemethode finden, die dir eine Variablenselektion ermöglicht (möglicht schrittweise).
Mit der Kurvenanpassung erreichen kannst ist z.B. eine Verteilungsanpassung, ansonsten hab ich keine rechte Ahnung, was damit gemeint sein könnte. Das liegt aber vor allem daran, dass wir deinen Fragebogen nicht kennen.

Grüße,
JPL

Also: Der Fragebogen bietet die Möglichkeit der Bildung klinischer Skalen und besteht aus knapp 100 Items. Die Rohwerte lassen sich mithilfe von Normen in so genannte T-Werte transformieren, die auf Perzentilen basieren und Werte zwischen 50 und 100 annehmen können.

Soviel dazu. Werd mir morgen nochmal in Ruhe Gedanken machen…

Gruß

Hallo nochmal.

Mit der schrittweisen Regression in SPSS ist nun folgendes herausgekommen:
Von den vier unabhängigen Variablen „Ausgangswert vor Therapie“, „Alter“, „Geschlecht“ sowie „Therapiedauer“ nimmt lediglich der „Ausgangswert vor Therapie“ signifikanten Einfluss auf den Behandlungserfolg.
Mit diesem Modell lässt sich aber nur knapp 33 Prozent der Varianz erklären (R_Quadrat=0,326).
Demzufolge nehmen also viele weitere Faktoren Einfluss auf den Therapieerfolg. Dies erscheint logisch und wird auch in der Literatur beschrieben, allerdings wurden diese im Rahmen der Studie nicht erhoben.
Was mach ich jetzt daraus? Kann ich die Analyse so verwenden oder werte ich damit meine eigene Arbeit ab?
Vielleicht gibt es doch einen besseren Weg, die Prädiktoren zu testen?!

Würd mich wirklich über Hilfe freuen.

Gruß

Hi Weenie,

Demzufolge nehmen also viele weitere Faktoren Einfluss auf den
Therapieerfolg. Dies erscheint logisch und wird auch in der
Literatur beschrieben, allerdings wurden diese im Rahmen der
Studie nicht erhoben.

Dann hast du Pech: Was nicht erhoben wurde, kann man auch nicht testen.

Was mach ich jetzt daraus? Kann ich die Analyse so verwenden
oder werte ich damit meine eigene Arbeit ab?

Neue erkenntnisse beingt sie in dem Rahemn also nicht, was blöd ist. Bisher hast du wahrscheinlich aber nur einen linearen Zusammenhang untersucht (in der Art: Y=Vorwert+Alter+…). Nun kann auch ein nichtlinearer Zusammenhang bestehen, z.B. Y=Alter^2+sqrt(Vorwert)+…
vtl kannst du damit das R² noch verbessern.
Grüße,
JPL

Hi Weenie,

Dann hast du Pech: Was nicht erhoben wurde, kann man auch
nicht testen.

Ist richtig, aber prinzipiell auch gar nicht schlimm, da es eine Pilotstudie.
Aber so kann ich das Modell nicht verwenden? Immerhin ist ja ein Prädiktor signifikant?! Kann ich den angeben?

Neue erkenntnisse beingt sie in dem Rahemn also nicht, was
blöd ist. Bisher hast du wahrscheinlich aber nur einen
linearen Zusammenhang untersucht (in der Art:
Y=Vorwert+Alter+…). Nun kann auch ein nichtlinearer
Zusammenhang bestehen, z.B. Y=Alter^2+sqrt(Vorwert)+…
vtl kannst du damit das R² noch verbessern.
Grüße,
JPL

Ganz kompliziert, oder? Wie soll ich das Modell vorab auswählen? Trial and error?
Wahrscheinlich geht das aber auch über das hinaus, was ich testen möchte oder soll. Es geht ja eigentlich nur um die Frage, ob diese Variablen überhaupt Einfluss nehmen.

Hi Weenie,

Dann hast du Pech: Was nicht erhoben wurde, kann man auch
nicht testen.

Ist richtig, aber prinzipiell auch gar nicht schlimm, da es
eine Pilotstudie.
Aber so kann ich das Modell nicht verwenden? Immerhin ist ja
ein Prädiktor signifikant?! Kann ich den angeben?

Klar kannst du den angeben. aber dein R² ist eben ziemlich mau. Deswegen kannst du dich auf die Suche nach anderen Modellen machen, die deine daten besser erklären.

Ganz kompliziert, oder? Wie soll ich das Modell vorab
auswählen? Trial and error?

Mehr oder weniger. Höhere Potenzen als 3 brauchst du aber eigentlich nicht evrsuchen, und auch keine trigonometrischen Funktionen (es sei denn du hast eine Rhythmik in den Daten). Wurzel und ln müssten schon reichen. Dann mal ein wenig rumspielen. wirklich Erfolg hast du aber nur, wenn sich das Modell signifikant verbessert.

Wahrscheinlich geht das aber auch über das hinaus, was ich
testen möchte oder soll. Es geht ja eigentlich nur um die
Frage, ob diese Variablen überhaupt Einfluss nehmen.

Ja, aber das wäre mir als Betreuer dann doch zu wenig: Vier Variablen testen, summary fertig. Was ist mit weiterführenden Gedanken, was sollte man berücksichtigen für eine spätere Studie u.s.w.

Grüße,
JPL

Nochmal eine Frage zur ANOVA (die ich nach Rückmeldung von meinem Betreuer erstmal versuchen soll).
Wenn ich das Alter mit einberechnen möchte, sollte ich da Gruppen bilden oder das als kontinuierliche UV mittels Kovariate einbinden?
Mir ist das irgendwie noch nicht ganz klar.

Würd mich über Hilfe freuen.

Auf jeden Fsll als Kovariate! sonst hast du einen Infoverlust kombiniert mit weniger df.
Grüße,
JPL

Besten Dank für die immer freundliche Hilfe (schon ganz anders erlebt…).
Das heißt, ich sollte alle stetigen UVs als Kovariate einbauen (wie zum Beispiel Behandlungsdauer)?
Gruß

Hi,

Besten Dank für die immer freundliche Hilfe (schon ganz anders
erlebt…).

Bitte, gern geschehen.

Das heißt, ich sollte alle stetigen UVs als Kovariate einbauen
(wie zum Beispiel Behandlungsdauer)?

Ja, denn a) sind Kategorisierungen mehr oder minder willkürlich, b) vermindern die df und c) bilden einen Informationsverlust, der dann Auswirkungen auf die SEs hat. Vergleiche auch: PHARMACEUTICAL STATISTICS 2003; 2: 239–240 (DOI:10.1002/pst.090), Disappointing dichotomies, Stephen Senn. http://www3.interscience.wiley.com/journal/106568441…

Grüße,
JPL

Vielen Dank!
Noch eine doofe Frage hinterher. Wenn ich jetzt einen signifikanten Einfluss einer Kovariate bemerke: Wie teste ich, wie genau dieser Zusammenhang aussieht? Reicht da die Angabe der Korrelation aus? Oder gibts was besseres?

Gruß

Hi,

Wenn ich jetzt einen
signifikanten Einfluss einer Kovariate bemerke: Wie teste ich,
wie genau dieser Zusammenhang aussieht? Reicht da die Angabe
der Korrelation aus? Oder gibts was besseres?

Die Korrelation wäre wieder ein Rückschritt, weil dur dann den Einfluss der anderen Variablen ausser Acht lässt.
den genaun enfluss kannst du nur Programmspezifisch herausfinden: Letztendlich musst du dir die Lösungen der impliziten ANCOVA-gleichungen ausgeben lassen und das dann interpretieren (bei SAS wäre da z.B. die solution option im model statement von der mixed procedur).
Grüße,
JPL