werden in diesem verfahren, zb 70% Trainingsset und 30% Testsets, die Modelle zufällig aus dem Trainingsdatenset gewählt? Werden in diesem Fall nicht die Ergebnisse jedes mal etwas anders ausfallen?
Hallo,
ja, es wird nicht 1 Modell auf dem Trainingsset konstruiert, sondern dieses (zufällig) in N Stücke geteilt und dann N Modelle trainiert.
Die einzelnen Modelle können voneinander abweichen, natürlich.
Aber dann ist das doch ein bisschen kontraproduktiv? Wenn es doch Differenzen gibt, kann ich wenn ich Pech hatte, nur schlechte(ungünstige) Datenpunkte aus meinem Trainingsdatenset erwählt haben? Also sollten sich die Ergebnisse auch viel unterscheiden können?
Ja, es kommt auf die darunterliegende Verteilung und die Art der Teilung an.
Nimm z.B. Pareto-verteilte Daten, und Dein Sampler zieht nun einfach uniform, dann werden fast alle Bäume in Deinem Wald das gleiche Modell auf einem unteren Quantil lernen, aber eventuell gibt es einen Baum, der ein paar Punkte aus dem oberen Quantil abbekommen hat.
Dieser Baum würde beim Test oder im Inferenzmodus für den Großteil der Daten nur Quatsch ausgeben, aber er wäre der einzige Baum, der schonmal Daten aus dem oberen Quantil gesehen hat, da würden alle anderen Bäume Quatsch produzieren. Du hast also die Pareto-Eigenschaft auf die Bäume übertragen.
Nun ist es ja so, daß die Ausgabe der Bäume gemittelt wird, der eine besondere Baum hat zwar bei Daten aus dem oberen Quantil Recht, aber kaum Gewicht, bei allen anderen Daten fallen seine Quatschausgaben nicht auf. Effektiv hast Du den Tail der Paretoverteilung abgeschnitten.
Für das Bagging brauchst Du also Sampler, die grundsätzlich mit der Verteilungsannahme kompatibel sind. Typischerweise würdest Du die empirische Verteilung vorher auf die Normalverteilung transformieren (qq-plot). Oder Du sorgst künstlich dafür, daß die Bäume paarweise nicht disjunkt sind, der Ereignisraum also großzügig überdeckt wird.
Den Erfolg der einen oder anderen Variante kannst Du ja auch schnell mit dem Testdatensatz ablesen. Insgesamt, und unabhängig von der Wahl der (Zusatz-)Tricks, sollte der Forest-Ansatz jedoch immer besser generalisieren als ein einziger Baum, der auf dem gesamten Trainingsset gelernt wurde.
Dieses Thema wurde automatisch 30 Tage nach der letzten Antwort geschlossen. Es sind keine neuen Nachrichten mehr erlaubt.