SPSS-Fehlende Werte ersetzen-welche Methode?

Liebe Forumsmitglieder,

ich sitze gerade über einer Studie zu Elektromobilität. Bei der Programmierung mit Unipark ist ein Fehler unterlaufen und daher fehlen die Angaben von 27 Fällen (Gesamtstichprobe n=1200) bei 5 Fragen.
Diese Angaben sind aber essentiell um die 27 Fälle zuordnen zu können zu einer Auswertungsgruppe.

(Es werden bei der Auswertung Gruppen gebildet. Elektroauto-Nutzer, Elektroauto-Affine und Nicht-Affine. Diese Gruppen werden aufgrund einer selbstzuteilung des Befragten grundsätzlich angenommen, durch weitere Fragen aber kontrolliert. z. B. Nutzende werden gefragt, ob sie ein E-Auto nutzen. Wenn sie dies bejahen, wird kontrolliert ob sie bei den Fahrzeugen des Haushalts ein E-Auto angeben oder bei Car-Sharing oder sonstwo ein E-Auto überhaupt auftaucht.

Bei den Affinen wird zuerst gefragt, ob sie sich für Elektroautos interessieren. Wenn ja, sind sie affin. so leicht machen wir das natürlich nicht, sondern wir haben eine verhaltensbasierte Abfrage und einen Wissenstest als Kontrolle.
Bei der verhaltensbasierten Abfrage werden Fragen wie „Ich habe mich bereits im Internet über E-Autos informiert, ich bin bereits einmal Probegefahren…“ gefragt um feststellen zu können, wie stark die Person sich tatsächlich schon informiert hat, wenn sie doch angeblich interessiert ist. Das Wissensquiz ist ähnlich, wer angibt sich für E-Autos zu interessieren, der muss auch etwas darüber wissen.

Nun wurden aber allen Befragten, die angaben ein Gasauto im Haushalt zu haben, fälschlicherweise diese verhaltensbasierten Fragen nicht gestellt. Dieser Filter sollte eigentlich die Nutzenden herausfiltern. Wenn ich die Angaben zur Verhaltensbasierung nicht habe, kann ich auch keine Einteilung in die Affinen-Gruppe vornehmen.

Jetzt haben wir uns gedacht, wir könnten schaun, ob ein Zusammenhang zwischen den Affinen-Gasfahrern und den Affinen-Nichtgasfahrern in punkto Wissen besteht, und falls ja, könnten wir die Verhaltensbasierung nachschätzen lassen)

Jetzt meine Fragen:
Wie funktioniert es, dass ich die fehlenden Werte ersetzen lassen kann?
Welche Möglichkeiten gibt es dazu und ist die Funktion „Fehlende Werte ersetzen überhaupt die richtige?“

SPSS 11 bietet mir auch verschiedene Methoden bei „Fehlende WErte ersetzen“ an. Aber ich verstehe nicht ganz, was diese Methoden aussagen, bzw. welche die richtige für mein Problem ist.

Zuerst dachte ich, der „Mittel der Nachpaarpunkte“ wäre sinnvoll, aber ich frage mich, auf welche Nachbarpunkte SPSS zugreift? Hat es dann damit zu tun, wie ich die Fälle gerade sortiert habe?

Am zuverlässigsten erscheint mir die Methode „Linearer Trend an dem Punkt“ wobei ich auch nicht ganz verstehe, wie diese Gerade überhaupt zustandekommt.

Die SPSS-Bücher beschreiben zwar die Methoden aber ich kann die Brücke auf meinen speziellen Fall nicht bauen.

Es wäre lieb, wenn sich jemand auskennt und mir hilft. Herzlichen Dank schon jetzt.
Liebe Grüße
Mareike

Oh, da hab ich leider keine Erfahrung. Mein Bauchgefühl sagt mir aber, dass ich es lieber ohne technik probieren würde, also ganz bodenständig gucken, ob bestimmte Werte korrelieren (wie von dir vorhergesagt)

Falls sie korrelieren, hätte ich kein Problem damit, die 29 Fälle dementsprechend „nachzutragen“

Wenn es auch mit der SPSS-Funktion geht, müsste man ja bei der von mir empfohlenen „von Hand“ Methode und bei der von SPSS auf ähnliche Werte kommen, oder? Dann wäre man ja ganz auf der sicheren Seite.

Danke Anja,
ich hab mir auch schon überlegt, ob ich diese nicht einfach anhand ihrer Angaben und ihres Wissens manuell anschaue und einfach einteile. Aber ich will ja die Statistik nicht fälschen :wink:

Danke für Deine Unterstützung!

Liebe Mareike,

als erstes würde ich nochmals einen Export aus Unipark machen, ich hatte ein ähnliches Problem bei einer anderen Studentin…da sind dann auch die Fälle aufgetaucht. Grundsätzlich ist es natürlich möglich über diverse Data Mining Verfahren (alles nicht so wild wie es sich anhört) die Infos irgendwie zu simulieren, allerdings denke ich, dass die Eigenschaft „Gasautobesitz“ eine große Rolle in Punkto Affinität spielt und das Verhalten nicht einfach von den Nichtgasbesitzern abzuleiten ist. Zudem ist die Fallzahl von 27 sehr klein, sind das die einzigen Gasautobesitzer? Habe ich zumindest so verstanden…wäre es denkbar, diese 27 Fälle aus der Berechnung auszuschließen? Denn ich denke, dass der Aufwand unverhältnismäßig groß zum Ergebnis wäre…

LG

ein Fehler unterlaufen und

daher fehlen die Angaben von 27 Fällen (Gesamtstichprobe
n=1200) bei 5 Fragen.
Diese Angaben sind aber essentiell um die 27 Fälle zuordnen zu:können zu einer Auswertungsgruppe.
(Es werden bei der Auswertung Gruppen gebildet.
Elektroauto-Nutzer, Elektroauto-Affine und Nicht-Affine. aufgrund einer selbstzuteilung des Befragten
grundsätzlich angenommen, durch weitere Fragen aber
kontrolliert. z. B. Nutzende werden gefragt, ob sie ein E-Auto:nutzen. Wenn sie dies bejahen, wird kontrolliert ob sie bei:den Fahrzeugen des Haushalts ein E-Auto angeben oder bei:Car-Sharing oder sonstwo ein E-Auto überhaupt auftaucht.

Bei der verhaltensbasierten Abfrage werden Fragen wie „Ich:habe mich bereits im Internet über E-Autos informiert, ich bin
bereits einmal Probegefahren…“ gefragt um feststellen zu:können, wie stark die Person sich tatsächlich schon informiert
hat, wenn sie doch angeblich interessiert ist. Das Wissensquiz
ist ähnlich, wer angibt sich für E-Autos zu interessieren, der
muss auch etwas darüber wissen.

Nun wurden aber allen Befragten, die angaben ein Gasauto im
Haushalt zu haben, fälschlicherweise diese verhaltensbasierten
Fragen nicht gestellt. Dieser Filter sollte eigentlich die
Nutzenden herausfiltern. Wenn ich die Angaben zur
Verhaltensbasierung nicht habe, kann ich auch keine Einteilung
in die Affinen-Gruppe vornehmen.

Jetzt haben wir uns gedacht, wir könnten schaun, ob ein
Zusammenhang zwischen den Affinen-Gasfahrern und den
Affinen-Nichtgasfahrern in punkto Wissen besteht, und falls
ja, könnten wir die Verhaltensbasierung nachschätzen lassen)

Jetzt meine Fragen:
Wie funktioniert es, dass ich die fehlenden Werte ersetzen
lassen kann?
Welche Möglichkeiten gibt es dazu und ist die Funktion
„Fehlende Werte ersetzen überhaupt die richtige?“

SPSS 11 bietet mir auch verschiedene Methoden bei „Fehlende
WErte ersetzen“ an. Aber ich verstehe nicht ganz, was diese
Methoden aussagen, bzw. welche die richtige für mein Problem
ist.

Zuerst dachte ich, der „Mittel der Nachpaarpunkte“ wäre
sinnvoll, aber ich frage mich, auf welche Nachbarpunkte SPSS
zugreift? Hat es dann damit zu tun, wie ich die Fälle gerade
sortiert habe?

Das nehme ich einmal nicht an. Ich hab SPSS schon seit Jahren nicht mehr in der Hand gehabt. Nachbarschaft kann mit verschiedenen Distanzmaßen definiert sein. das kann auch nicht numerische Werte umfassen,aber ich kann mich nicht erinnern dass das ein Teil von SPSS war (jetzt aber vielleicht doch?).

Am zuverlässigsten erscheint mir die Methode „Linearer Trend
an dem Punkt“ wobei ich auch nicht ganz verstehe, wie diese
Gerade überhaupt zustandekommt.

Mareike

linearer trend kann i-A. nur für numerische Variablen Sinn machen (Intensität der Affinität?)

Wenn es überhapt Sinn machen soll, müssten die fehlenden Werte einzeln und abhängig von bekannten geschätzt werden, oder die Affinität auf vorhandene ausgewählte Daten bezogen werden.

Nachbarschaft in ausgewählten Variablen (welchen?) könnte Sinn machen. Man kann auch eine neue Variable aus mehreren anderen berechnen/schätzen und gewisse Bereiche dieser Variablen als e-affin schätzen. Die allgemeinen Ersetzungen durch Trends oder Nachbarpunkten (vermutlich in der Summe aller anderen Variablen?) scheint problematisch.

Ferndiagnose ist schwierig.
Ich bin mir zB nicht sicher ob die Selbstzuteilung beantwortet ist. Dann würd das als erster Indikator dienen müssen.
Ich nehme an Nachbefragung ist kaum möglich (anaonymisierte Umfrageergebnisse?)

Hallo Mareike,

danke für dein Vertrauen. Leider kan ich dir zurzeit nicht antworten. Ich wünsche dir hilfreiche Antworten von den anderen Forumsmitgliedern.

MfG

Ingrid Jensen

Liebe Mareike,

es tut mir leid, aber ich verstehe nur Bahnhof. Ich bin Biologe und habe nicht so tiefgreifendes Wissen in Statistik um dir da weiterzuhelfen.
Ich hoffe du findest jemanden der dir weiterhilft.

Biodoc

Hallo Mareike!
Tut mir leid, aber mit der Frage nach der richtigen Methode kann ich Dir leider nicht weiterhelfen!

Ich habe mir nur folgende Fragen gestellt: wie wichtig ist es, dass Du die 27 Fälle in der Stichprobe hast? in welchem Verhältnis steht der Nachteil, den 27 Fälle weniger ausmachen zu der Gefahr einer möglicherweise falschen Zuordnung durch Ersetzen der fehlenden Werte? Welche Auswirkungen kann beides auf das Ergebnis haben?

Ohne irgendetwas über die Inhalte und Durchführungsmodalitäten zu wissen, könnte man ja auch ganz frech behaupten: 27 Fälle machen bei 1200 Fällen den Bock nicht fett…

LG,
Sonja

linearer trend kann i-A. nur für numerische Variablen Sinn
machen (Intensität der Affinität?)

Wenn es überhapt Sinn machen soll, müssten die fehlenden Werte
einzeln und abhängig von bekannten geschätzt werden, oder die
Affinität auf vorhandene ausgewählte Daten bezogen werden.

Nachbarschaft in ausgewählten Variablen (welchen?) könnte Sinn
machen. Man kann auch eine neue Variable aus mehreren anderen
berechnen/schätzen und gewisse Bereiche dieser Variablen als
e-affin schätzen. Die allgemeinen Ersetzungen durch Trends
oder Nachbarpunkten (vermutlich in der Summe aller anderen
Variablen?) scheint problematisch.

Ferndiagnose ist schwierig.
Ich bin mir zB nicht sicher ob die Selbstzuteilung beantwortet
ist. Dann würd das als erster Indikator dienen müssen.
Ich nehme an Nachbefragung ist kaum möglich (anaonymisierte
Umfrageergebnisse?)

Danke für deine Erklärung. Ich werden einen anderen Score falls überhaupt - heranziehen. Es ist so, ich hab bei allen anderen Befragten ausgerechnet, dass der Wissensscore dann hoch ist, wenn der Verhaltensscore auch hoch ist. (Korellation) von daher lässt sich vielleicht ableiten, dass wenn bei einem Gasfahrer der Wissensscore hoch ist, er auch einen hohen Verhaltensscor haben könnte.
Rein vom Logischen ist es so: Verhalten zb. sich informiert haben kommt vor Wissen.

Eine nachfrage ist nicht möglich, da die Umfrage völlig anonym ist und der Aufwand vielleicht auch unverhältnismäßig groß ist.

Herzlichen Dank für deine Antwort. Es hilft mir echt, wenn ich mit jemanden das diskutieren kann.
Liebe Grüße
Mareike

Danke euch allen für eure Bemühungen und die schnellen Antworten. Jetzt bin ich ermutigt und werde heute den Gang zu meiner Vorgesetzten mit euren Meinungen gewappnet tätigen.
Liebe Grüße
Mareike

Tut mir leid, aber da kann ich nicht weiterhelfen (bin halt auch nur Anfänger auf dem Gebiet).

Gruß,
Gisbert

Leider kenne ich mich damit nicht aus. Klassisch verzichtet man aber darauf, etwas nachzuschätzen, weil man zu blöd war die Daten zu erheben. Aber es kann sein, dass nach neueren Erkenntnisse auch das möglich ist.

Liebe Mareike,

leider habe ich mit der SW noch nicht gearbeitet und „helfe“ da lieber nicht, weil ich Dich mit 100%tiger Sicherheit in den Wald senden würde. Ich wünsche Dir viel Glück (und trotzdem Spass)

Bernd