Extrapolation

Huhu

ich hoffe, dass ich bei euch richtig bin.

ich versuche eine Extrapolation also Trendfortschreibung zu machen.
Ich weiß, dass diese Funktion eine Lineare Funktion zu grunde legt.
Ich habe werte über 6 Monate und will wissen wie sich diese Werte in den nächsten 15 Monaten verhalten. Ich bekomme fast ausschließlich verdoppelungen in dieser Zeit, was mich wundert.
Ich benutze die Formel H/L * (x+L) Wobei H letzte Wert der 9 Monate ist, L die Laufzeit also 9 und x den kommenden Monat angibt?
Beispiel 186(H)/9*(1+9) = 206,67 Wäre also der nächste Wert der auf dem Graph erscheint. Wenn ich das forsetze komme ich annähernd auf eine Verdopplung. Mein Problem daran ist, dass ich die Werte die vorher waren (also 1-8) nicht richtig bzw gar nicht berücksichtige. Es sind auch Schwankungen vorhanden.

ich versuche eine Extrapolation also Trendfortschreibung zu
machen.
Ich weiß, dass diese Funktion eine Lineare Funktion zu grunde
legt.
Gibt es eine Formel die nicht linear das Problem betrachtet.
Die also ALLE Monate einschließt und mir dann möglichst keine
Verdopplung raus gibt?
DANKE für die Hilfe
Grüße

Hallo,

du kannst natürlich ein Polynom 8-ten Grades durch die 9 Punkte legen (davon gibts genau eins) und dann schauen welchen Wert dieses Polynom an den anderen Stellen annimmt, ich würde dir allerdings eine lineare Regression empfehlen, vor allem wenn du sowieso schon weißt, dass eine lineare Funktion zu Grunde liegt.
Bei der linearen Regression machst du den Ansatz y=mx+c, wie es sich für eine lineare Funktion gehört, und versuchst dann den Abstand zwischen der Gerade und den 9 Punkten zu minimieren. Das sieht dann so aus.

\min\limits_{m,c}\sum\limits_{i=1}^9 (y_i-mx_i-c)^2

Du suchst also das m und das c wo diese Summe minimal wird. Die xi und yi sind die Koordinaten deiner bisherigen Punkte, d.h. die xi geben den Monat an und die yi den entsprechenden Wert.
Das Minimum findet man, indem man die Ableitungen (einmal nach m und einmal nach c) 0 setzt. D.h.

-2\sum\limits_{i=1}^9 x_i(y_i-mx_i-c)=0

und

-2\sum\limits_{i=1}^9 (y_i-mx_i-c)=0

In dieses lineare Gleichungssystem musst du jetzt die Koordinaten einsetzen und dann m und c ausrechnen. Daraus erhälst du dann die Regressionsgerade, also die Gerade, die deine neun Punkte am besten annähert.

Viel Erfolg !

hendrik

Hey Hendrik

Danke für die Antwort…

nur damit wir uns nicht mißverstehen…

ich meinte, dass die Extrapolation meist linear ist…meine Werte jedoch verhalten sich NICHT linear.
Meine Werte sind Beispielsweise
84 34 72 66 54 56 84 190 65
und die sollten dann sinnvoll fortgesetzt werden…

DANKE

Hi,
die Aufgabenstelung ist nicht klar.
Du hast 9 Wertepaare (1,84),(2,34),(3,72),(4,66),(5,54),(6,56),(7,84),(8,190),(,9,65)) die du forschreiben willst. Deine forschreibung verhält sich immer wie du Funktion (f), die zugrunde legst. Hednrik Beschrieb dir den Fall für eine lineare Regression, also auch einer linearen Fortschreibung mit f(x)=a+bx. Wenn du aber der Meinung bist, dass man nicht linear fortschreiben sollte, kannst du natürlich andere Funktionen fitten, z.B. f(x)=a+bx+cx² oder f(x)=x+a*sin(x).
Also, was darf’s sein?
Grüße,
JPL

Hey

ok hier sieht man mal wieder, dass ich mathematisch aussteige :wink:
Die von dir angegebenen Punkte stimmen!
also linear geht nicht da sich die werte in keinem fall linear verhalten werden und ich so unnötig hohe werte rausbekomme. Ich brauche also eine Funktion die keine „Gerade“ raus bekommt sondern eine „Kurve“ also auch auf und abs drin hat um so schwankungen zu sehen und keine verdopplung meiner ausgangswerte.
Geht das?

Huhu

anhand der vorliegenden Daten machst du eine lineare Regression. Daraus bekommst du die Geradengleichung und die Fehler für die Residuen, die Steigung und den Achsenabschnitt.

Eine Punktschätzung über den erwarteten Mittelwert bekommst Du, wenn du einfach den betreffenden X-Wert in die Geradengleichung einsetzt. Das ist aber nur die halbe Miete, denn du brauchst noch ein Vertauensintervall für die Prognosewerte, was ja eigentlich das ist, was dich interessiert. Die Rechnung dazu findest du zB. bei Wikipedia unter http://de.wikipedia.org/wiki/Regressionsanalyse#Prog….

Bitte IMMER VORSICHT bei Extrapolationen! Ein Trend kann im beobachteten Zeitraum recht linear sein, darüber hinaus aber nicht mehr.

LG
Jochen

Meine Werte sind Beispielsweise
84 34 72 66 54 56 84 190 65
und die sollten dann sinnvoll fortgesetzt werden…

Sind das ALLE Daten? Ich tippe, dass sind Werte eine Zeitreihe? Sind die Werte in zeitlicher Reihenfolge angegeben? Sind die zeitlichen Abstände zwischen zwei aufeinanderfolgenden Werten immer gleich?

Wenn du alle Fragen oben mit ja beantwortest, dann sieht’s nicht gut aus:

Der 190er-Wert ist ein gehöriger „Ausreißer“.

Die Menge der Daten lässt nicht zu, ohne funktionale Annahmen mehr als einen linearen Zusammenhang anzunehmen. Macht man das, bekommt man die Geradengleichung

Wert = 6.8*Zeiteinheit + 44.5

(der erste Wert hat eine Zeiteinheit, der zweite zwei usw.).

Das 95%-Vorhersageinterval für die 9. Zeiteinhait (also gerade am Ende der Messwerte - noch OHNE Extrapolation) geht von

-15 bis +226.

Könnte also ALLES sein… damit kann man nix anfangen. Würdest Du auch noch extrapolieren, wird die Unsicherheit größer. Für die Zeit 3 Zeiteinheiten hach dem Letzten Datenwert ergibt sich ein Intervall von

-17 bis +268.

LG
Jochen

Hey Jochen

ja das habe ich mir leider schon gedacht :frowning: Leider sieht es bei den anderen Messungen nicht besser aus und ich habe auch keine weiteren Vergleichswerte.
Ich habe die Daten ( da ich mir nicht mehr zu helfen weiß) einmal in Excel eingegeben, da kann man Trendlinien an die Grade basteln
Man kann einfügen
Linear; logarithmisch; polynomisch; potentiell, exponentiell und einen gleitenden Durchschnitt. Welche dieser Kurven würde in meinem Beispiel denn den besseren Näherungswert geben? ich hab die Lineare ausprobiert (komme fast auf die Werte wenn ich meine Gleichung benutze) und die Exponentielle…
kann ich die denn benutzen oder beschreibt die einen ganz anderen Sachverhalt? Irgendwie kann ich mich an das schulische nicht mehr erinnern :frowning:
DANKE

Hallo,

bei den anderen Messungen nicht besser aus und ich habe auch
keine weiteren Vergleichswerte.

Wieviele andere Messungen hast du denn noch?

Man kann einfügen
Linear; logarithmisch; polynomisch; potentiell, exponentiell
und einen gleitenden Durchschnitt. Welche dieser Kurven würde
in meinem Beispiel denn den besseren Näherungswert geben?

Wenn du keine begründbaren Annahmen über den zugrunde liegenden Prozess hast, sollte man bei derartigen Daten nur linear nehmen.

Wenn Du genau weißt, dass es ein exponentieller Wachstumsprozess ist, der die Daten generiert, dann kannst du auch exponentiell nehmen, aber ohne das Vorwissen ist das gewagt und liefert voraussichtlich grob falsche Vorhersagen.

meine Gleichung benutze) und die Exponentielle…
kann ich die denn benutzen oder beschreibt die einen ganz
anderen Sachverhalt?

Klar bescheibt die einen ganz anderen Sachverhalt. Beispiel: Bei den Werten handelt es sich um geschätzte Gesamtabfallmengen einer Gemeinde nach einem, zwei, drei usw. Monaten. Wenn nichts ausergewöhnliches in der Gemeinde passiert, kann man annehmen, dass die Menge linear ansteigt, weil in jedem Monat etwa gleich viel Müll produziert wird. Anders, wenn die Daten zB. Rediteschätzungen sind oder Schätzungen über die Biomasse nach Inbetriebnahme einer Kläranlage oder sowas. Das sind exponentielle Prozesse. Doch selbst hier wäre ich mit DEINEM Datensatz vorsichtig, weil der schlichtweg keinen irgendwie gearteten Zusammenhang erkennen läßt.

Also ehrlich, wenn das ALLE Daten sind, die Du hast, dann ist das Ergebnis folgendes:

„Aufgrund der vorliegenden Daten können keine verläßlichen Prognosen erstellt werden.“ Punkt. Alles weitere ist Kaffesatzleserei. Lass das besser. Du richtest sonst mehr Schaden an, als dass es nutzt!

LG
Jochen

Hallo Jochen

ich seh das ja genauso hilft aber nichts über die aufgabenstellung hinweg :wink:
ich habe noch vergleichsstudien die ich daneben lege um den Kaffeesatz zu durchdringen…das heißt mit ein bisschen nachdenken muss ich eben dahin kommen. Der aussreißer muss eben erklärt werden und die maßnahmen die getroffen werden sollen um ein bestimmtes ergebnis zu erzielen.
Ich hoffe nächstes Jahr um diese Zeit mit den werten bis dahin schon bessere ergebniss präsentieren zu können aber momentan MUSS es so gehen.
Aber dein Satz ist prima den schreib ich unter die Präsentation :wink:
Vielen Dank an alle bis hierhin :smile:

Hi,

das prinzipielle Problem ist, dass man nicht eine Funktion suchen lassen kann. Man kann nur die Parameter einer Funktionenschaar so bestimmen, dass sie optimal für diese Schaar sind, die Struktur musst du vorgeben.
Z.B. ist f(x,a,b) = a+b*x eine Geradenschaar, die für jedes Paar (a,b) eine andere Gerade ergibt. Solche Schaaren kannst du nach belieben konstruieren und dann die Parameter schätzen lassen. Die allgemeinste Form ist die von Hendrik angesprochene Polynomfunktion. sie fittet jeden gegebene Punkt perfekt und stellt gleichzeitig das Maximum an schätzbaren Parametern dar. Sie hat aber den Nachteil, dass sie für Potenzen >4 recht chaotisch wird.
Eine sinnvolle Herangeensweise ist daher über die Bedeutung der Werte gegeben: Was stellen diese dar und wie würdest du dir einen Zusammenhang vorstellen, wenn du keine daten hättest?
Grüße,
JPL