Statistik: Zusammenhang zweier Wertereihen darstellen

Moin,

bräuchte mal nen Tip von Euch.

Ich habe zu den Tagestemperaturen der letzten Jahre jeweils einen weiteren Wert (Menge x), der Abhängig von der jeweiligen Temperatur ist. Ab einem bestimmten Temperaturbereich (Frühjahr) steigt die Menge x deutlich an.
Dieses Muster ist in den letzten Jahren deutlich zu erkennen.
Nun möchte ich diese Abhängigkeit gerne als Formel oder als Wert, sodass man daraus eine Prognose basteln kann.

Wie könnte man das angehen?

Gruß

Hallo,

Ich habe zu den Tagestemperaturen der letzten Jahre jeweils
einen weiteren Wert (Menge x), der Abhängig von der jeweiligen
Temperatur ist. Ab einem bestimmten Temperaturbereich
(Frühjahr) steigt die Menge x deutlich an.
Dieses Muster ist in den letzten Jahren deutlich zu erkennen.
Nun möchte ich diese Abhängigkeit gerne als Formel oder als
Wert, sodass man daraus eine Prognose basteln kann.

falls noch nicht geschehen: Stelle den Zusammenhang einmal grafisch dar (Abszisse: Temperatur, Ordinate: andere Variable), z.B. in Excel oder Calc. Wenn beide Variablen intervallskaliert sind („Menge“ hört sich entsprechend an) und die Abhängigkeit linear zu sein scheint, kannst Du die Pearson-Korrelation berechnen und eine lineare Regressionsgerade als Trendlinie einzeichnen. Bei nichtlinearer Abhängigkeit kannst Du in den beiden genannten Programmen Trendlinien anderen Typs wählen.

Beste Grüße

Oliver

Hi Oliver,

Bin noch nicht so tief in die Statistik eingetaucht.

Mir gehts hauptsächlich um einen bestimmten Temperaturwert. Nämlich den, ab dem die Menge sichtbar ansteigt.

Bekommt man diesen Wert mit der Pearson-Korrelation heraus?

gruß

Hier mal zwei Jahre als Bild.
Mann sieht im Frühjahr deutlich den Anstige der Menge (schwarz) in Abhängigkeit der Temperatur.
[URL=[http://www.file-upload.net/download-10488532/2013.jp…](http://www.file-upload.net/download-10488532/2013.jpg.html]2013.jpg[/URL)]
[URL=[http://www.file-upload.net/download-10488534/2014.jp…](http://www.file-upload.net/download-10488534/2014.jpg.html]2014.jpg[/URL)]

Hallo,

wenn ich auf Deine Links klicke sehe ich nur die Startseite von File-Upload.net. Sonst nichts. Keine Diagramme.

Bin noch nicht so tief in die Statistik eingetaucht.

Dann solltest Du Dich in diesen Bereich einarbeiten.

Mir gehts hauptsächlich um einen bestimmten Temperaturwert.
Nämlich den, ab dem die Menge sichtbar ansteigt.

Das ist eine andere Fragestellung als nach der Abhängigkeit zwischen zwei Variablen.

Wenn Du Dich mit der Thematik nicht auskennst, arbeite Dich in das Thema ein oder such Dir jemanden, der Dir dabei hilft oder die Arbeit für Dich übernimmt. Überleg Dir auch, was Du eigentlich wissen willst und löse dann Dein Problem.

Beste Grüße

Oliver

Ich empfehle dir den Korrelationskoeffizienten auszurechnen und wie auwendil schon gesagt hat eine graphische Darstellung zu unternehmen.

Dafür gibst du in Excel in einer neuen Zelle die Formel „=KORREL(Matrix1;Matrix2)“ ein. Dabei ist Matrix1 die Datenspalte1 mit Beispielsweise der Temperatur und Matrix2 ist die andere Datenspalte.

Der entsprechende Wert der dabei rauskommt gibt Aufschluss über die Korrelation der beiden Datenreihen.
ALLERDINGS VORSICHT: Korrelation ist ungleich Kausalität. Es mag also Beispielsweise eine Korrelation (Abhängigkeit) vorliegen, es ist allerdings noch nicht gesagt ob die beiden Datenreihen auch kausal voneinander abhängen. Dies ist nur über eine recht komplizierte und aufwendige Kausalanalyse untersuchbar.

Huhu :smile:

So wie ich den Text interpretiere hast du einen Haufen von n gemessenen Paaren aus Temperatur T und Messgröße x, also:

(T_1,x_1),(T_2,x_2),\ldots,(T_n,x_n)

Du schreibst, dass du ein „Muster“ bzw. einen Zusammenhang x(T) vermutest, weil die x-Werte mit steigender Temperatur T anwachsen.

Ohne genaue Kenntnis der Daten kann dir niemand konkret etwas über die Art des Zusammenhangs sagen. Für das Anwachsen von x in Abhängigkeit von T kann man aber in erster Näherung eine Gerade ansetzen. Das heißt, du kannst versuchen, durch deine Messpunkte eine Gerade so zu legen, dass die Abstände der Punkte von dieser Geraden minimal sind. Das Verfahren nennt sich „lineare Regression“ bzw. Ermittlung der „Regressionsgeraden“ und kann mit Excel durchgeführt werden. Du bekommst daraus eine Gleichung der Form:

x = a\cdot T+b

Wie gut diese Gerade den Zusammenhang x(T) beschreibt, kannst du mit dem sog. Regressionskoeffizient r bestimmen. Je näher dieser bei 1 liegt, desto besser beschreibt die Gerade den Zusammenhang x(T).

Hier noch kurz die Formeln zum Selberrechnen. Berechne als Hiflsgrößen:

\overline T = \frac{T_1+T_2+\cdots+T_n}{n}

\overline x = \frac{x_1+x_2+\cdots+x_n}{n}

S_{xx} = \frac{(x_1-\overline x)^2+(x_2-\overline x)^2+\cdots+(x_n-\overline x)^2}{n}

S_{TT} = \frac{(T_1-\overline T)^2+(T_2-\overline T)^2+\cdots+(T_n-\overline T)^2}{n}

S_{xT} = \frac{(x_1-\overline x)\cdot(T_1-\overline T)+(x_2-\overline x)\cdot(T_2-\overline T)+\cdots+(x_n-\overline x)\cdot(T_n-\overline T)}{n}

Und damit die gesuchten Konstanten a, b und r:

a=\frac{S_{xT}}{S_{xx}}\quad;\quad b=\overline x-a\cdot\overline T\quad;\quad r=\frac{S_{xT}}{\sqrt{S_{xx}}\cdot\sqrt{S_{TT}}}

Viele Grüße

Danke für die Tips!
Aber Ich weiß nicht ob ich so an mein Ziel komme.

Jetzt habe ich einen Korrelationswert von 0,21xxxx.
Wie jetzt weiter?

Wie schon gesagt, ich möchte keine Trendgerade oder eine Prognose für das ganze Jahr.
Wenn ihr mal auf die 2 Bilder klickt die ich hochgeladen habe, erkennt Ihr das im Frühjahr die Kurve (Menge x) ab einer bestimmten Temperatur stark ansteigt. Und genau diesen Zeitpunkt möcht ich in meiner Prognose haben.

Als Beispiel:
Die Schwimmbadbesuche der letzten Jahre steigen rapide an wenn die Temperatur einen bestimmten Wert übersteigt. Die Saisson ist also eröffnet und viele Personen rennen ins Bad, obwohl vorher schon ein paar Hardcoreschwimmer da sind.

Diese zwei Werte leg ich mir in ein Diagramm (ähnlich den meinigen).
Sicherlich kann man jetzt, wenn man alle Jahresdiagramme nebeneinander legt, erkennen das z.B. ab ca, 20-24 Grad die Besucherzahlen stark ansteigen und bei TEmperaturen vorher eher moderat gestiegen sind.

Jetzt wäre es doch Interessant festzustellen ab welcher Temperatur (MAthematisch über Statistik). der Run auf das Schwimmbad losgeht um rechtzeitig nötige Vorbereitungen zu treffen.

vielleicht mach ichs auch zu kompliziert.

Aloha :smile:

Ein Korrelationskoeffizient von 0,21 ist gar nichts! Da kann man wirklich nicht von einem linearen Zusammenhang sprechen.

Was du suchst ist die Temperatur, bei der die Änderung der Besucherzahl maximal wird. Dazu folgender Vorschlag:

  1. Wenn es zu einem Temperaturwert T mehrere Besucherzahlen x gibt, bilde davon den Mittelwert. Dazu addierst du alle x-Werte, die zu diesem T-Wert gehören und teilst das Ergebnis durch die Anzahl der addierten x-Werte.

  2. Nun bildest du Punktepaare (Temperatur / mittlere Besucherzahl).

  3. Diese Punkte lässt du dir z.B. mit Excel zeichnen.

  4. Die resultierende Kurve sollte bei kleinen Temperaturen niedrige x-Werte haben, steigt dann bei warmen Temperaturen an und flacht bei heißen Temperaturen wieder ab.

  5. Wenn eine Ameise auf dieser Kurve in Richtung steigender Temperatur entlang läuft, geht sie zuerst immer irgendwie nach links, erreicht dann einen „Wendepunkt“ und geht ab dann immer irgendwie nach rechts.

  6. Dieser Wendepunkt (Übergang von Linkskrümmung in Rechtskrümmung) ist der gesuchte Punkt. Bei dieser Temperatur ist die Änderung der Besucherzahl maximal!

Das solltest du grafisch gut ermitteln können, weil nach deinem Ursprungsposting ja ein deutlich sichtbarer Effekt zu sehen ist.

Viele Grüße

Ich habe zu den Tagestemperaturen der letzten Jahre jeweils
einen weiteren Wert (Menge x), der Abhängig von der jeweiligen
Temperatur ist. 

Ist er das wirklich?

Ab einem bestimmten Temperaturbereich
(Frühjahr) steigt die Menge x deutlich an.

Ist das auch bedingt durch die Temperatur?

Dieses Muster ist in den letzten Jahren deutlich zu erkennen.

Über wie viele Jahre?

Nun möchte ich diese Abhängigkeit gerne als Formel oder als
Wert, sodass man daraus eine Prognose basteln kann.
Wie könnte man das angehen?

Grafisch und als Korrelationskoeffizient, wie meine Vorredner schon sagten. Aber man muss immer schauen, ob man nicht Äpfel mit Autos vergleicht. Nur weil etwas so aussieht als gehöre es zusammen, muss das noch lange nicht zutreffen.

Beispiel:

http://www.tylervigen.com/

Hast du gewusst, dass die Anzahl der von Bettlaken erhängten Amerikaner mit den Einkünften durch Skitourismus zusammenhängt? Der Korrelationskoeffizient liegt bei 0.97.

Vorsicht mit Statistiken. Ohne die genauen Zusammenhänge zu kennen, verleitet eine Statistik auch gern mal zu Fehlschlüssen.

Roberti

P.S. 85% aller Statistiken sind frei erfunden.