Statistik

Liebe/-r Experte/-in,
Wir beschäftigen uns derzeit in der Statistik-Vorlesung mit Strukturgleichungsmodellen. Bei mir im Skript finde ich den folgenden Abschnitt: „Eine gute Modellanpassung muss nicht unbedingt ein Indikator für starke Beziehungen zwischen den Variablen sein. Je schwächer die Variablen korrelieren, desto leichter ist es, eine gute Modellanpassung zu erhalten.“ Kannst du mir erklären warum das so ist? Die Modellanpassung wird doch gut wenn das Modell die Daten gut erklärt und wenn die Korrelationen hoch sind, dann sollte dies doch der Fall sein?
Vielen Dank für deine Hilfe!
Lieber Gruss
Regula

Hallo Regula,
je stäker zwei Variablen korrelieren, desto schwerer ist die Schätzung eines Modells und desto schwieriger auch die Trennung der Interpretation. Wenn zwei Variablen stark korrelieren, so liegt das sogenannte Multikollinearitäts-Problem vor. Hierzu findet man sehr viel Literatur im Internet.
Es gibt aber inzwischen schon einige Modelle die sehr gut mit Multikollinearität umgehen können und somit ist eine gute Modellanpassung (durch genannte Modelle) kein Indiz für starke oder schwache Korrelation ist.

Ich hoffe ich konnte weiterhelfen :wink:

Viele Grüße
Anja

Ich fühle mich hier nicht so wirklich als Experte, will sagen: ich bin mir auch nicht sicher ob ich das Script richtig verstehe. Aber drei Dinge kommen mir doch in den Sinn:

  1. Es gibt manchmal versteckte Hintergrundvariablen. Ein besonders gelungenes Beispiel dafür liefert Walter Krämer in „So lügt man mit Statistik“. Dort wird eine Zeitungsnachricht zitiert, gemäss der sich ein langes Studium auszahlt: Man erhält dann ein höheres Einstiegsgehalt.
    In Tat und Wahrheit ist es natürlich nicht so, sondern im Gegenteil haben Bummelstudenten schlechtere Einstiegsgehälter. In einem xy-Diagram das z.B. von BWL-Studenten die Studiendauer als x- und das Startgehalt als y-Achse darstellt hat man eine Korrelation: und zwar ganz klar eine NEGATIVE.
    Aber es gibt nicht nur BWL-Studenten auf der Uni, sondern auch z.B. Physikstudenten (die durchschnittlich 2-3 Jahre länger studieren) oder Chemiestudenten, die durchschnittlich das längste Studium durchlaufen. Wenn man nun in das xy-Diagramm auch diese Studienrichtungen bezüglich Dauer und Gehalt einträgt hat man am Ende drei Kurven, alle abwärts zeigend, aber mehr oder weniger parallel zueinander laufend, und zwar so, dass die drei Kurven von weitem gesehen wie eine einzige Kurve mit aufwärtstrend aussehen. Mit anderen Worten: Ein Chemiestudent wird für sein langes (weil anspruchsvolles) Studium von den Arbeitgebern mit einem höheren Lohn belohnt.
  2. Eine Korrelation zwischen Daten heisst nur das: Die Daten korrelieren. Punkt.
    Das heisst a.) Ein Kausalzusammenhang muss gar nicht gegeben sein, und b.) selbst wenn ist nicht ersichtlich, welche Grösse die andere beinflusst. Um wieder Walter Krämer zu Wort kommen zu lassen: (Zu a.) Man kann auf Grund der Korrelation „beweisen“, dass der Genuss von Milch zur Kriminalität führt, (denn alle Verbrecher in den Gefängnissen haben als Kinder Milch getrunken) oder zu b.) Immer wieder in der Winterzeit steigen die Einkäufe sprunghaft an. Aber trotz dieser zeitlichen Vorlagerung wird es nicht deshalb Weihnacht.
    3.) Natürlich vorkommende Merkmale divergieren wenn man sie mischt in der Praxis oft sehr häufig zu einer Verteilung (meist einer Normalverteilung). Dieser Trend ist sehr stark. Bereits bei fünf Merkmalen wird sich meist eine Normalverteilung ergeben. Somit bleibt in der Praxis auch die Frage, ob eine festgestellte Normalverteilung wirklich eine Normalverteilung ist, oder ob sich das aus einem Merkmals-Mix ergeben hat, der nun ein künstliches Modell bildet, das die Verteilung aller Merkmale beschreibt, statt die Verteilung der (einzelnen) Merkmale.
    Ich hoffe, das hilft dir irgendwie weiter
    Alfred

Hallo Regula!

Die grosse Gefahr bei Strukturgleichungsmodellen und allen Regressionen mit vielen zu schätzenden Parametern ist der „Overfit“: Wenn du die Zahl der Parameter immer steigerst, kann deine Regression jeden beliebigen Datensatz zu 100% anfitten, egal um was für Daten es sich handeln, meinetwegen die Abfallmengen in städtischen Gärtnerbetrieben. Deshalb Vorsicht mit Anpassungsmassen wie R^2. Es sollte nur eine gewisse Mindestgrösse haben. Wenn du nur 1% der Varianz erklären kannst, dann fehlt der entscheidende Mechanismus in deinem Modell. Wenn du aber 50% oder 60% der Varianz erklären kannst, ist alles OK. Wenn du 90% der Varianz erklären kannst (bzw. meinst, erklären zu können)(R^2=0,9), dann hast du ein ernsthaftes Overfit-Problem.

Ein Grund für Overfitting kann auch „Redundanz“ sein: Die Informationen der Zielvariablen stecken schon teilweise in den Covariaten. Das erkennt man daran, dass eine Covariate schon allein relativ stark mit der Zielvariablen korreliert.

Ich vermute, dass im Text diese beiden Effekte angesprochen werden.

Viele Grüsse!

Croco

In der Tat! Ich konnte das Phänomen (gute Modellpassung, bei kleinen Korrelationen) bei vielen meiner Analysen mit AMOS mit identischen Strukturmodellen beobachten.

Ich arbeitete für einen großen deutschen Automobilkonzern. Wir wollten von den Händlerbetrieben erforschen, wie stark der Einfluss der Führungsarbeit auf die Qualität der Kundenbetreuung ist. Daher berechnete ich fast 1500 identische Strukturmodelle und konnte daher immer die Daten-Qualität beurteilen.
Das Phänomen interessierte mich und ich konnte es mit simulierten Daten auch gezielt hervorrufen. Allerdings mit dem Blick, das Phänomen mit der Chaos-Theorie zu erklären.

Leider kann ich jetzt keinen genauen, mathematischen Beweis für dieses Phänomen angeben. Aber ein Griff in die Meta-Matematik-Kiste kann dazu etwas beitragen.

  1. Zum ersten liegt die Ursache dieses Phänomens in der Struktur der Produkt-Momentkorrelation, die für diese Strukturmodelle die Basis bildet:
    Eine Korrelation besagt im Grunde: zwei beobachtete Variablen zeigen eine ähnliche Ausprägung innerhalb einer Person oder eines „Falls“. Das kann auch zu sehr hohen Korrelationen führen, bei Variablen, die keinerlei kausalen Zusammenhang aufweisen. Also Ursache-Wirkungs-Zusammenhänge konnten nicht vorliegen, trotzdem kann eine Korrelation sehr hoch sein. Bei solchen statistischen Phänomenen wird dann meist eine „intervenierende Variable“ angenommen.

  2. Zum zweiten ist das psychologische Messmodell ein sehr guter Ansatz: Die psychologische Testtheorie (=Messmodell) geht davon aus. Dass jeder Messwert aus einem „wahren Wert“ (der „true score“) besteht und einem Messfehler. D.h. ein beobachteter Messwert ist immer eine Summe aus dem wahren Wert und einen Fehleranteil. Auch wird innerhalb der Messtheorie angenommen, dass der wahre Messwert und der Fehleranteil vollkommen unabhängig sind.

  3. Zum dritten ist auch die Korrelation sehr stark von den Skaleneigenschaften der Variablen abhängig. Im Idealfall liegt eine perfekte Intervallskala vor. Auch das ist in der empirischen Forschung nur sehr selten zu beobachten. Vielmehr wird mit Annahmen über die Skalenqualität gearbeitet.

  4. Um das Ganze zu umgehen, wird oft nicht mit den tatsächlich erhobenen Werten gerechnet, sondern mit standardisierten Werten, in denen noch all die Probleme mit den Störungen der Varianz-Berechnungen, wie Verteilungsform (Normalverteilung ja, od. nein), Skalen-Niveau, Stichproben-Größe, unterschiedliche Anzahl der Fälle durch unterschiedliche Anzahl der fehlenden Werte, enthalten sind.

Kurz: Bei den Messungen und Berechnungen fließen sehr viele Fehler ein. Und je kleiner die Korrelationen sind, um so größer ist Fehleranteil. Und die Strukturmodelle können gerade einen großen Fehleranteil sehr gut herausrechnen und das ergibt eine hohe Korrelation mit den Fehlervariablen. Wir erhalten damit einen Eindruck einer guten Strukturanpassung.

Inhaltlich könnte man das so interpretieren: Das mathematische Modell passt sehr gut, aber wir wissen nicht, wie wir eine Korrelation von 0,15 interpretieren sollten. Schon gar nicht lässt sich davon von einem „funktionellen Zusammenhang“ sprechen!

Viel Erfolg,
Günther Zier, mag.psych.

Vielen Herzlichen Dank für die Antworten!! Nun erbigt das Ganze endlich einen Sinn und wenn ich eine Erklärung dafür habe, dann kann ich mir das auch merken!

Liebe Grüsse

Regula

Hallo Regula,

tut mir leid, aber ich bin zwar Statistik-interessiert, aber ich habe nicht wirklich viel Ahnung davon, vor allem von der Theorie.
Hoffe, andere können dir besser weiterhelfen.

Gruß Robert

Hallo Robert! Kein Problem, die anderen Antworten haben mir schon genügend geholfen! Lieber Gruss, Regula

Das ist recht einfach.
Durch die modelle werden die Suchparameter definiert.
Bei Strukturgleichungsmodellen wie z.B. Regressionsanylaysen wird es eher einfacher, wenn die Korrelation zwischen dem ausgewählten Modell wenigoder gering ist, da dies ja die Bestätigung des Modells ist.
Kommen starke Abweichungen zu Tage, muss ggf. ein oder mehrere neue Stichproben gezogen werden oder mit weiteren Modellen die Signifkanz bestätigt werden.

In diesen bedeutet es also, das dein Modell richtig ist. Z.B. Jugend und Kriminalität ist gesucht, aber ohne Migrationseinfluss, kommen hier starke Werte zutage, da muss das modell erweitert werden, da sonst die ursprüngliche Frage ggf. nicht beantwortet wird.

Reicht das so?

Grüße
Fred

Hi!

Eine gute Modellanpassung heißt nur, dass das Modell die Wirklichkeit (also die Streuung der abhängigen Variablen) gut beschreibt. Wenn die Wirklichkeit aber so aussieht, dass nur schwache Beziehungen zwischen den unabhängigen Ereignissen und der abhängigen Variablen bestehen, dann sollten auch die Korrelationen innerhalb eines statistischen Modells bei einem guten model fit nur schwach ausgeprägt sein. Insgesamt sind schwache Beziehungen statistisch leichter abzubilden als starke, so dass man bei einem losen Beziehungsgefüge in der Wirklichkeit wegen des gegebenen Spielraums hinsichtlich der Abstimmungen der Varianzen und Variationen der unabhängigen Variablen auch leichter ein statistisches Modell findet, dass dieses Beziehungsgefüge und das Streuungsverhalten der abhängigen Variablen beschreiben kann. Man versucht ja auch im Hinblick auf die Modellökonomie das Modell so einfach wie möglich und nur so komplex wie nötig zu halten.

Wenn die Korrelationen hoch sind, erhält man auch einen guten model fit, häufiger wird die Streuung der abhängigen Variablen - vor allem in den Sozialwissenschaften - aber durch eher schwaches Zusammen- und Wechselwirken vieler unabhängiger Elemente erreicht.

LG Daniela

Hallo Regula,

Ich bin mir nicht sicher, ob ich die Frage richtig verstanden habe und ich kenne mich in Strukturgleichungsmodellen nicht aus. Deshalb hier nur eine Mutmassung: Wenn die erklärenden Variable x1 gut mit der Zielvariable y korreliert, dann erklärt x1 y gut. Wenn es nun mehrere erklärende Variablen x1, x2, x3 etc. gibt und zwei erklärenden Variablen miteinander stark korrelieren, dann kann es zu Problemen kommen bei de Schätzung der Koeffizienten.
Es ist also wünschenswert, dass erklärende Variablen möglichst wenig miteiander korrelieren.

______________________________________________________

Hallo Regula,

also prinzipiell kann man immer ein Modell suchen und auch finden, dass genau passt (also r=1,0)! …nur wird das eben den tatsächlichen Zustand (Grundgesamtheit) wohl nicht vernünftig beschreiben! Alles Andere als lineare, quadratische und kubische Funktionen mehrerer Variablen sind in der realen Welt äußerst selten! Des weiteren muss man noch Korrelation und Koinzidenz unterscheiden! Bei Korrelationen besteht ein direkter Zusammenhang, bei Koinzidenz entspricht dieser dem Zufall, bei beiden wird aber ein hoher Korrelationskoeffizient angezeigt!

Gruß, Michael

Hallo,

die Aussage des Skriptes ist natürlich sehr absolut und ich würde sie so auch nicht unterschreiben. Allerdings gibt es tatsächlich das Problem des „Overfittings“, das z.B. sehr gerne bei Neuronalen Netzen auftaucht. Inwiefern das bei Strukturgleichungsmodellen ein Thema ist, entzieht sich leider meiner Kenntnis. Wie gesagt: Mir ist diese Aussage zu absolut gesetzt, sie ist im EInzelfall aber nicht von der Hand zu weisen.

Herzliche Grüße

Andreas

Liebe Regula,

eine unmathematische Antwort:

Bei Korrelation sollte man nicht unbedngt an eine Ausgleichgerade denken:
Nehmen wir einmal an, der Zusammenhang zwischen der Anzahl der Parkplätze innerhalb einer Stadt und dem Umsatz des Einzelhandels würde sich durch 0.7*exp(x/100) + 0.2 * (x/100)^3 +150 *(x/435)^2
beschreiben lassen.
Man sieht salopp: desto mehr Parkplätze, desto mehr Umsatz --> hohe Korrelation
ABER: wenn man sehr wenig Daten erhoben hat oder nur Daten aus Städten mit relativ kleinem Parplatzangebot, findet man die exp-Funktion, wie gut findet man die Faktoren??

und umgekehrt:

Verkauf von Spielzeug oder…
= x/120 +sin(x/12*2*pi) oder so.
Nur schwache Korrelation, weil der sinus das periodische Weihnachtsgeschäft wiederspiegelt.
Aber wenn man die Modellbilduing in Wachstumsanteil und periodischen Anteil „zerlegt“, erhält man sehr schnell ein gutes Modell.

Es ist jetzt gar keine streng mathematische Erklärung, aber ich hoffe, Du siehst, in welche Richtungen man auch denken soll.
Falls mehr erwünscht wird, bitte melden. (Falls mich meine Grippe nicht niederstreckt - kurz vor Umfallen - , antworte ich sogar.

MfG

H.-D.

Hallo Regula,

Hmmm. Schwierige Frage, ich habe das mal mit Kollegen diskutiert. Es scheint sich etwas wie ein Konsens heraus zu kristallisieren:

Das fängt mit einem Bild zur Regression an: Wenn man einen schwachen Zusammenhang hat und bestimmt die Regressionslinie wir man weniger Abweichung haben (zB Auswirkung auf R-Quadrat) als wenn man eine sehr enge Beziehung zwischen den variablen hat und dann die Regressionslinie verschiebt.

Greift man dieses Bild auf und bezieht das auf die fit-Indizes, wird es sicherlich welche geben, die in ähnlicher Weise reagieren.

In der Literatur wird aber immer wieder darauf hin gewiesen, dass man nicht einen fit-Index nimmt, sondern immer mehrere begutachtet, da sie unterschiedliche auf Dinge betonen (fit, Sparsamkeit, etc.).

Man wird auch nicht nur auf den fit achten, sondern auch die inferenzstatistische Absicherung der Parameter ablesen.

Würdigt man also Informationen aus mehreren Quellen, wird ein Hinweis auf ein starkes Modell, auch i.S. von starken Zusammenhängen sich bewähren.

Gruß, Walter.

Vielen herzlichen Dank für all eure antworten!!

Regula

Hi Regula,

leichter eine gute Modellanpassung zu finden hiesst nicht, dass man leichter eine bessere findet.
Hier liegt der Hund begraben.
D.h. im Klartext: wenn die daten gering korrelieren kann man mit verschiedenen Modellen jeweils akzeptable Anpassungen finden (weil jedes Modell gleich „schlecht“ ist, da die Daten eben „nicht viel“ miteinander zu tun haben), wenn sie aber korrelieren, muss man schon die richtigen Variablen finden, um den besten Fit zu finden.

HTH,
JPL

Strukturgleichungsmodellen. Bei mir im Skript finde ich den
folgenden Abschnitt: „Eine gute Modellanpassung muss nicht
unbedingt ein Indikator für starke Beziehungen zwischen den
Variablen sein. Je schwächer die Variablen korrelieren, desto
leichter ist es, eine gute Modellanpassung zu erhalten.“
Kannst du mir erklären warum das so ist? Die Modellanpassung
wird doch gut wenn das Modell die Daten gut erklärt und wenn
die Korrelationen hoch sind, dann sollte dies doch der Fall

Solange nur zwei Variable da sind ok

Ohne Modellim einzelnenzu kennen
Wenn ich mehr als zwei Variable habe und womögich alle stark Korrelieren (gmeinsame Trend) kann Modellanpassung schwierig sein.

Wenn sie schwach korrelert sind kann Einflß von dritter vierter Variable in Gesamtstruktur besser erkennbar sein.

Hallo Regula,

ich bitte um Entschuldigung, dass ich Deine Anfrage erst jetzt gefunden habe, aber ich hätte ohnehin nicht viel dazu zu sagen.

Mit freundlichen Grüßen,
G. Franke

oha, ich glaube, da kann ich keine hilfreiche Anwort drauf geben…

MFG