Regressionsanalyse Kontrollvariablen

Regressionsanalyse Kontrollvariablen

Hallo zusammen,

ich habe ein Problem mit den Kontrollvariablen zu einer Regressionsanalyse.

Bei der Regression an sich ist soweit alles klar auch die Tabellen, welche SPSS mir ausgibt verstehe ich, allerdings stellen die Kontrollvariablen bzw. die damit verbundenen Tabellen ein Problem dar, bzw. ich bin mir nicht sicher, ob ich die Berechnung korrekt durchgeführt habe.

Für die eigentliche Regression habe ich die folgende Syntax benutzt:

REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT PV_rs
/METHOD=ENTER CHDE.

Für die Regression mit Kontrollvariablen habe ich dann einfach in der letzten Zeile diese eingefügt:

REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT PV_rs
/METHOD=ENTER CHDE sozkapindrund imprich postmatrund ppltrst stfdem stfgov agea edulvla lrscale hincfel stfeco polintr polinformiert gndr.

Ist diese Vorgehensweise bis dahin korrekt?

Und wie sieht es mit der folgenden Tabelle aus:

http://www.imagebanana.com/view/0ipm02ek/Unbenannt.jpg

Bei der eigentlichen Regressionsberechnung ist die Tabelle klar, aber ich verstehe nicht, wie ich die Daten der hochgeladenen Kontrollvariablentabelle interpretieren soll bzw. was die Tabelle genau über die Kontrollvariablen und deren Wirkung aussagt. Kann mir das bitte jemand mit einer der Kontrollvariablen beispielhaft erklären?

Liebe Grüße

Lilly und Lisa

Hi,

bei einer Regression versuchst du die Schwankung der PV_dem durch CHDE zu erklären. Die einfache Regression verstehst du schon oder?!

Nun kann es aber sein, dass die Varianz von PV_dem viel besser durch andere Dinge erklärt werden kann. Hierbei macht man eine Schätzung mit Kontrollvariablen.

Die Überlegung ist:

Man versucht möglichst alle Varianz des PV_dem durch andere Größen zu erklären. Und schaut dann, wieviel der Restvarianz durch CHDE erklärt werden kann.

Machen wir mal ein anderes Beispiel:

Es ist immer wieder die Rede davon, dass Männer 20% mehr verdienten als Frauen. Die Zahl stammt vom statistischen Bundesamt. Sie ist eine Regression der Form:

wage=\beta_0 + \beta_1 gender

Wobei Gender=0 für Männer und Gender=1 für Frauen. Nun ist dieser Koeffizient signifikant. Allerdings unterstellt die Schätzung, dass Männer und Frauen in sonst allem gleich sind(durchschnittlich).

Also das selbe Alter, die selbe Ausbildungsstruktur, Berufserfahrung etc. So ist es aber nicht.

Wir stellen uns vereinfacht vor, es gibt nur 2 Berufe. Unabhängig vom Geschlecht, schlecht bezahlter Frisör und gutbezahlte Techniker. Ist nun der Frauenanteil bei Frisören sehr hoch, und bei den technischen berufen sehr niedrig, kann man einen Teil des Lohnunterschiedes zwischen Männern und Frauen dadurch erklären.

Nun kann man diese Unterschiedliche Berufswahl berücksichtigen.
Man kreiert zwei neue Variablen z.B. barber für Frisör, und technic für Techniker.

Neue Regressionsgleichung lautet:

wage=\beta_0 + \beta_1 gender + \beta_2 barber + \beta_3 technic

Nun kontrolliert man auf die unterschiedliche Berufswahl!

Ist die Berufwahl nicht unterschiedlich zwischen den Geschlechtern, sind die variablen Gender und barber sowie Gender und technic unkorreliert. Das würde dazuführen, dass in beiden Schätzungen das gleich wäre. Gibt es aber eine geschlechtsspezifische unterschiedliche Berufswahl, kann man einen Teil des Gehaltsunterschiedes durch die Berufswahl erklären und die Variablen sind Korreliert. Dadurch wäre in der ersten Regression verzerrt. Der Omitted Variable Bias ist das. Und das der zweiten Schätzung ist das „echte“.

Die konkreten Parameter vor den Instrumenten sind daher nicht wichtig für dein Modell. Du nimmst die Instrumente nur auf, um mögliche Verzerrungen heraus zu rechnen.

Übrigens: Wenn man das mal wirklich macht, wird mit echten Daten der Lohnunterschied zwischen Männern und Frauen insignifikant. Frauen verdienen in Deutschland nicht auf Grund ihres Geschlechtes im Schnitt weniger, sondern, weil sie andere Berufe wählen, mehr auszeiten nehmen, weniger Krriereorientiert arbeiten.

Es gibt keine systematische Benachteiligung der Frauen.