Ordinale Regression

klaus882 · 21. Februar 2013 um 17:58

Richtige Anordnung der Kategorien für die ordinale Regression. Wer kann kurz helfen?

Retsiemsuah · 21. Februar 2013 um 18:18

Wie lautet denn die Frage?

klaus882 · 21. Februar 2013 um 18:48

Hallo Retsiemsuah!

Herzlichen Dank für Ihr Interesse! Folgendes Problem:

2 Fragen aus einem Fragebogen:

Legen sie ein nachhaltiges Umweltverhalten an den Tag?

1: Immer 2: Manchmal 3: Nie 4: Keine Ahnung

Ist die Verfügbarkeit von Brennholz in ihrer Region in den letzten drei Jahren besser geworden?

1: Besser 2: Gleichbleibend 3: Schlechter

Ich möchte nun mittels einer Ordinalen Regression den Einfluss des Prädikators Umweltverhalten auf die Holzverfügbarkeit (Abhängige Variable) ermitteln.

Nun haben aber die Familien (N=100), die kein Feuerholz nutzen die Frage 2) nicht beantwortet. Sie würden somit aus der Regression herausfallen. Kann man diesen Familien eine Zusatzkategorie 0 basteln, also

0: Kein Feuerholz 1: schlechter 2: Gleichbleibend 3: Schlechter ?

Wie sähe es aus, wenn 1) die abhängige Variable wäre?

Wie geht man am besten mit der „4: Keine Ahnung“ um? Nennt man sie in 2: Manchmal um?

Hoffentlich können Sie mich auf die richtige Spur bringen.

Besten Dank,
Klaus

Wie lautet denn die Frage?

Anonym_1f1c8c621bd4 · 21. Februar 2013 um 19:50

Da fehlt schon ein bisschen was an Input. Versuch einfach, irgendwie nach ordinalem Skalenniveau (Lickert Skala?) zu kategorisieren.

Grüße
Robert

Richtige Anordnung der Kategorien für die ordinale Regression.
Wer kann kurz helfen?

klaus882 · 21. Februar 2013 um 20:01

Danke, Robert, unter
unter http://www.2ask.de/media/1/10/2/3/5/bc958b68e726b401…

ist auf Seite 10 genau so eine Skala (Keine richtige, ordinalskalierte Likert-Skala, oder?).

Aber wie gehe ich mit dem Item „Ich weiß nicht um“?

Darf ich das in meine ordinale Regression einbeziehen oder müssen hier missing values eingetragen werden?

LG Klaus

JPL · 21. Februar 2013 um 20:40

naja, ordinale Daten haben ja schon eine natürliche Ordnung, die kann man auch verwenden.
Grüße,
JPL

klaus882 · 21. Februar 2013 um 20:59

Danke, JPL.
Ist denn

Immer 2) Manchmal 3) Nie 4) Weiss nicht
als ordinal oder nominal anzusehen? Kann man die „Weiss nichts“ in die 2) packen?

naja, ordinale Daten haben ja schon eine natürliche Ordnung,
die kann man auch verwenden.
Grüße,
JPL

Anonym_1f1c8c621bd4 · 22. Februar 2013 um 08:54

Da hast du uneingeschränkt recht. Das ist eine ordinal skalierte Skala - wenn du die „Ich weiß nicht“ raus läßt. Nur so kannst du auch eine ordinale Regression durchführen.

Grüße
Robert

klaus882 · 22. Februar 2013 um 11:14

Besten Dank, Robert.
Wäre denn mit der „Ich weiß nicht“ die Skala eindeutig nominal?

Und: Wenn ich dieselbe Variable als Regressor für die Ordinale Regression wählte, wäre das in Ordnung, oder?

Gruß Klaus

Andreas_Kladroba · 22. Februar 2013 um 11:32

Ich muss zugeben, dass ich die Frage nicht verstehe. Bei der Regression (egal ob ordinal oder metrisch) wird jeder Beobachtung doch ein Wertetupel (oder mehr) zugeordnet. Solange man die nicht auseinanderreißt, gibt es doch nichts anzuordnen.

Richtige Anordnung der Kategorien für die ordinale Regression.
Wer kann kurz helfen?

klaus882 · 22. Februar 2013 um 12:04

Hi Andreas,

danke für die Antwort.

Eine Frage aus dem Fragebogen lautete: Wie schätzen sie ihr Umweltverhalten ein:

Gut 2) Mittelmässig 3) Schlecht 4) Weiß nicht

Welche Möglichkeiten gibt es jetzt, diese Frage als abhängige Variable in einem Regressionsmodell zu verwenden, ohne die Menschen der Kategorie 4) aus der Analyse auszuschließen?

Wenn die gleiche Frage als unabhängige Variable betrachtet werden soll, geht sie doch als nominale mit ein, oder?

Viele Grüße,
Klaus

Retsiemsuah · 22. Februar 2013 um 13:20

Kann man diesen Familien eine

Zusatzkategorie 0 basteln, also

0: Kein Feuerholz 1: schlechter 2: Gleichbleibend 3:
Schlechter ?

Das würde gehen, aber dann könntest du keine Ordinal Regression mehr benutzen (sondern eine Multinomial), da es kaum Sinn macht zu sagen, das „kein Feuerholz“ besser oder schlechter ist als " die Versorgung ist gleich geblieben" und da du 100 Samples hast (von Gesamt?) könnte das auch dein tatsächliches Resultat „verwässern“, dh. es schwerer machen einen Zusammenhang zwischen Umweltverhalten und Änderung in der Feuerholz Verfügbarkeit zu finden.

Ich würde zwei Regressionen rechnen, zum einen eine Logistic Regression, die Untersucht ob es einen Zusammenhang gibt zwischen den Umweltverhalten und ob man überhaupt Feuerholz benutzt oder nicht und dann eine Ordinal regression und alle die kein Feuerholz benutzen raus lassen.

Wie sähe es aus, wenn 1) die abhängige Variable wäre?

Wie geht man am besten mit der „4: Keine Ahnung“ um? Nennt man
sie in 2: Manchmal um?

Auf keinen Fall eine Kategorie umdeuten, egal in welche Richtung. Das einzige was du machen könntest, vorausgesetzt das du eine gute Begründung findest, diese raus zu nehmen, aber um ehrlich zu sein sehe ich dafür keinen Grund, ich würde es einfach so lassen. Gar keine Ahnung zu haben wie sein eigenes Umweltverhalten ist, scheint mir fast schlimmer zu sein als sich Bewusst zu sein, das man ein schlechtes Umweltbewusstsein zu haben, gerade deshalb würde ich es so belassen.

Noch was generell zu deinen Antwortmöglichkeiten: Du solltest es vermeiden zum einen eine Ungerade Anzahl von Möglichkeiten vor zu geben und zum anderen auch keine mittlere Antwortmöglichkeit an geben (wenn möglich). Da Menschen bei solchen Fragen sonst tendieren mehr die Mittlere Antwort an zu kreuzen.

SubitoCat · 22. Februar 2013 um 13:44

Hallo Klaus, wie, wo, was? Also wo sollen die Kategorien angeordnet werden?

klaus882 · 22. Februar 2013 um 14:13

Herzlichen Dank Retsiemsuah, ich habe das Gefühl, Du kennst meine Daten und kannst Dich prima in mein Problem hineindenken!

Kann man diesen Familien eine

Zusatzkategorie 0 basteln, also

0: Kein Feuerholz 1: schlechter 2: Gleichbleibend 3:
Schlechter ?

Das würde gehen, aber dann könntest du keine Ordinal
Regression mehr benutzen (sondern eine Multinomial), da es
kaum Sinn macht zu sagen, das „kein Feuerholz“ besser oder
schlechter ist als " die Versorgung ist gleich geblieben" und
da du 100 Samples hast (von Gesamt?) könnte das auch dein
tatsächliches Resultat „verwässern“, dh. es schwerer machen
einen Zusammenhang zwischen Umweltverhalten und Änderung in
der Feuerholz Verfügbarkeit zu finden.

Ich würde zwei Regressionen rechnen, zum einen eine Logistic
Regression, die Untersucht ob es einen Zusammenhang gibt
zwischen den Umweltverhalten und ob man überhaupt Feuerholz

Das war ein Volltreffer mit besten Signifikanzen und einem ordentlichen Nagelkerke von 0,61 !!! Die unabhängige Variable Umweltverhalten wurde dann als kategorial (nominal) behandelt, richtig? Und die 4) Keine Ahnung habe ich gelassen, auch richtig? Kann man dann interpretieren, daß eine Varianzaufklärung von 61% vorliegt und daß eher Familien mit schlechtem Umweltverhalten bzw. keiner Ahnung von Umwelt Feuerholz nutzen.

benutzt oder nicht und dann eine Ordinal regression und alle
die kein Feuerholz benutzen raus lassen.

Funktioniert ebenfalls! Hier ist ein Lageparameter für ein Item nicht signifikant (0,068), alle anderen schon. X²-Werte sehr gut. Hier würde man das Umweltverhalten ebenfalls als Regressor gelten lassen, richtig?

Wie sähe es aus, wenn 1) die abhängige Variable wäre?

Wie geht man am besten mit der „4: Keine Ahnung“ um? Nennt man
sie in 2: Manchmal um?

Auf keinen Fall eine Kategorie umdeuten, egal in welche
Richtung. Das einzige was du machen könntest, vorausgesetzt
das du eine gute Begründung findest, diese raus zu nehmen,
aber um ehrlich zu sein sehe ich dafür keinen Grund, ich würde
es einfach so lassen. Gar keine Ahnung zu haben wie sein
eigenes Umweltverhalten ist, scheint mir fast schlimmer zu
sein als sich Bewusst zu sein, das man ein schlechtes
Umweltbewusstsein zu haben, gerade deshalb würde ich es so
belassen.

Noch was generell zu deinen Antwortmöglichkeiten: Du solltest
es vermeiden zum einen eine Ungerade Anzahl von Möglichkeiten
vor zu geben und zum anderen auch keine mittlere
Antwortmöglichkeit an geben (wenn möglich). Da Menschen bei
solchen Fragen sonst tendieren mehr die Mittlere Antwort an zu
kreuzen.

Ja, das werde ich nie wieder tun, Du hast vollkommen recht, das ist absolut unbestimmt und verwirrend.

LG Klaus

Andreas_Kladroba · 22. Februar 2013 um 14:19

Okay, jetzt verstehe ich. Meine Antwort würde lauten: Ich fürchte gar nicht. Genau genommen stellst du ja zwei Fragen, nämlich einmal, ob der andere sein Verhalten überhaupt einschätzen kann und dann, wie er es einschätzt. Du hast völlig Recht. Die erste Frage wäre eine ja/nein Frage und damit nominal, während die zweite Frage ordinal ist. Das bekommst du nicht unter einen Hut. Ich hätte aber auch kein Problem damit, die beiden Fragen getrennt auszuwerten. Du erfährst einerseits, welcher Typus des Befragten sich mit einer Antwort schwertut und ansonsten halt, wer sich wie einschätzt (das ist ja wohl das, was du anstrebst).

klaus882 · 22. Februar 2013 um 14:31

Hallo SubitoCat,

danke auch für Deine Nachfrage! Kann man hier auch ein kleines Bild anhängen. Ich habe mein Problem visualisiert.

Gruß, Klaus

Hallo Klaus, wie, wo, was? Also wo sollen die Kategorien
angeordnet werden?

klaus882 · 22. Februar 2013 um 14:35

Hallo Andreas,

vielen Dank. Ich habe SubitoCat gerade gefragt, ob man eine 6-zeilige Beispieltabelle anhängen kann, die das Beispiel klar verdeutlicht.

Gruß, Klaus

Retsiemsuah · 22. Februar 2013 um 14:43

Das war ein Volltreffer mit besten Signifikanzen und einem
ordentlichen Nagelkerke von 0,61 !!!

Wow, wurde als Null Modell nur ein Modell mit Intercept benutzt (was ok ist)?

Die unabhängige Variable Umweltverhalten wurde dann als :kategorial (nominal) behandelt,
richtig?

ja

Und die 4) Keine Ahnung habe ich gelassen, auch
richtig? Kann man dann interpretieren, daß eine
Varianzaufklärung von 61% vorliegt und daß eher Familien mit
schlechtem Umweltverhalten bzw. keiner Ahnung von Umwelt
Feuerholz nutzen.

Das kommt auf die Regressionskoeffizienten an, also im Endeffekt ob die positiv oder negativ sind (bzw. größer oder kleiner als 1, je nachdem was einem angezeigt wird), also ob sie die Wahrscheinlichkeit vergrößern oder verringern Feuerholz zu kaufen. Das es einen Signifikanten Einfluss hat, sagt nicht aus in welche Richtung der Effekt geht.
Welches ‚Programm‘ hast du benutzt? R? SPSS?

Funktioniert ebenfalls! Hier ist ein Lageparameter für ein
Item nicht signifikant (0,068), alle anderen schon. X²-Werte
sehr gut. Hier würde man das Umweltverhalten ebenfalls als
Regressor gelten lassen, richtig?

scheint so

klaus882 · 22. Februar 2013 um 14:54

Das war ein Volltreffer mit besten Signifikanzen und einem
ordentlichen Nagelkerke von 0,61 !!!

Wow, wurde als Null Modell nur ein Modell mit Intercept
benutzt (was ok ist)?

Die unabhängige Variable Umweltverhalten wurde dann als :kategorial (nominal) behandelt,
richtig?

ja

Und die 4) Keine Ahnung habe ich gelassen, auch
richtig? Kann man dann interpretieren, daß eine
Varianzaufklärung von 61% vorliegt und daß eher Familien mit
schlechtem Umweltverhalten bzw. keiner Ahnung von Umwelt
Feuerholz nutzen.

Das kommt auf die Regressionskoeffizienten an, also im
Endeffekt ob die positiv oder negativ sind (bzw. größer oder
kleiner als 1, je nachdem was einem angezeigt wird),

-2,056, d.h. das ist gegenläufig?

also ob

sie die Wahrscheinlichkeit vergrößern oder verringern
Feuerholz zu kaufen. Das es einen Signifikanten Einfluss hat,
sagt nicht aus in welche Richtung der Effekt geht.
Welches ‚Programm‘ hast du benutzt? R? SPSS?

Ich nutze SPSS

Funktioniert ebenfalls! Hier ist ein Lageparameter für ein
Item nicht signifikant (0,068), alle anderen schon. X²-Werte
sehr gut. Hier würde man das Umweltverhalten ebenfalls als
Regressor gelten lassen, richtig?

scheint so

Wie ist es bei der multinominalen REgression, wenn hier nur für ein Item der abhängigen Variable für nur ein Item der unabhängigen Variable ein signifikanter Wert angegeben wird (0,011 bei Wald 6,539)?

Retsiemsuah · 22. Februar 2013 um 16:54

Das kommt auf die Regressionskoeffizienten an, also im
Endeffekt ob die positiv oder negativ sind (bzw. größer oder
kleiner als 1, je nachdem was einem angezeigt wird),

-2,056, d.h. das ist gegenläufig?

Müssten da nicht mehrere stehen (ich selbst benutze R und nicht SPSS)? Da es eine Kategorical Variable ist mit 3 Faktoren. Ich bin mir jetzt nicht sicher was SPSS da gemacht hat…
Eigentlich sollte das Model so aussehen (wenn man ‚keine Ahnung‘ als Referenz betrachtet)

Y ~ Bernoulli( 1 + Immer_Nachhaltig + Manchmal_Nachhaltig + Nie_Nachhaltig )

Demzufolge müssten 3 coeffizienten raus kommen oder es wurde nur als eine variable modelliert die im Intervall (1,3) liegt, das wäre aber äußerst fragwürdig.
In dem Fall kommt es darauf an was 3 wäre…

Wie ist es bei der multinominalen REgression, wenn hier nur
für ein Item der abhängigen Variable für nur ein Item der
unabhängigen Variable ein signifikanter Wert angegeben wird
(0,011 bei Wald 6,539)?

mhh schwer so zu sagen… aber ich würde die multinomiale in diesem Fall soweiso nicht machen, da es ein bisschen schwer zu interpretieren ist, meiner Meinung nach.