Maschinelles lernen: Random Forest Boosting und Bagging

Hi, irgendwie fehlt es mir an Fingerspitzengefühl für das Thema.
Wenn ich einen Datenset in 80% TrainingsSet und 20% in TestSet aufteile, was passiert wenn ich-

  1. ohne Bagging und Boosting arbeite?
  2. nur Bagging benutze?
  3. nur Boosting nutze?

mfg TL

Hallo,
hm, aber ich versuch’s mal:

  1. das ist ein Random Forest mit nur einem Bag, also eine einzige Regression.
  2. das wäre der klassische Random Forest.
  3. Boosting ist ein komplementärer Ansatz, ich weiß nicht wie hilfreich Random Forests dabei sind, denn klassisch werden die Bags beim Boostern nicht mit einem Sample aus dem ganzen Ereignisraum befüllt, sondern decken jeder für sich einen kleinen, schwierigen Bereich des Raumes ab.
    Die Idee beim Boostern ist ja ein Team von Expertenmodellen zu erstellen, kein Modell ist gut genug für den ganzen Raum, aber im jeweiligen Teilraum hervorragend. Beim Inferieren mit Boosting fragt man alle Modelle: Wenn der Punkt außerhalb des trainierten Teilraums liegt, antworten diese mit einem leeren Ergebnis, ansonsten mit der Expertenantwort. Damit hat man insgesamt ein Modell, was überall Expertenantworten liefert.
    Zum Vergleich beim klassischen Random Forest hat jeder Bag im ganzen Raum eine grobe Idee (weil der Bag ein Sample aus dem ganzen Raum ist), und beim Inferieren werden die Ergebnisse aller Bags gemittelt, damit fallen Einzelausreißer oder Overfits nicht weiter auf.
2 Like

Bag(1) ist das EINE Trainingsmodell aus den 80% Trainingssatzes?
Und Bagging(2) nennt man es, wenn mindestens 2 Trainings Modelle aus den 80% TrainingsDaten geschaffen werden?

Ja, genau so. Zumindest habe ich „ohne Bagging und Boosting“ so interpretiert.

2 Like

So ist Boosting nur sinnvoll mit Bagging??
Die erstellten Modelle(Bagging) werden mit Boosting unterschiedlich gewichtet? So könnte man die Vorhersage Genauigkeit steigern?

Also für mich ist ein Booster etwas völlig anderes als ein Random Forest.

Habe ich ein Modell, was sehr kompetent gelbe Enten in Bildern erkennt, und ein anderes, was rote Ziffern sehr genau extrahieren kann, dann kann ich einen Booster bauen, der höchstwahrscheinlich gelbe Enten mit roten Ziffern auf der Seite erkennen kann. Und das, obwohl ich vorher den Fall „gelben Enten mit roten Ziffern“ nie trainiert habe.

In einem Random-Forest-Trainingssatz mit nur gelben Enten oder nur roten Ziffern, sagen wir gleich häufig, würden uniform gezogene Bags ebenfalls je ca. eine Hälfte gelbe Enten und eine Hälfte rote Ziffern enthalten. Auf eine gelbe Ente mit roten Ziffern springen alle Modelle an, jedes einzelne muß sich aber für Ente oder Ziffer entscheiden (und das sehr knapp), auch das Endergebnis wäre dann entweder knapp Ente oder knapp Ziffer.

Selbst wenn ich jetzt die Modelle unterschiedlich gewichte, erhalte ich noch keine Experten für gelbe Enten oder rote Ziffern, die ich fürs Boostern brauche. Das „random“ aus Random-Forest hat mir diese Möglichkeit verbaut. Ich müßte vielmehr gezielt rote Ziffern im Sample einiger Modelle unterdrücken, und/oder gezielt gelbe Enten im Sample der anderen Modelle, damit ich echte Experten erhalte.

Was hindert Dich daran, es einfach mal auszuprobieren?

2 Like

danke dir, hast viel geholfen.

Dieses Thema wurde automatisch 30 Tage nach der letzten Antwort geschlossen. Es sind keine neuen Nachrichten mehr erlaubt.