Warum ist der Median robust gegenüber Ausreißern

Hallo

noch eine Frage zur stochastic, Warum ist der Median robust gegenüber Ausreißern?

Leider verstehe ich es nicht ganz
ZB ist n=3 dann ware Xi = 6 und I 6-2 I =4 ? hmm :confused: wie komm ich jetzt auf die Aussage das der Median robust ist?

Danke schon einmal für alle Antworten! :thumbsup:

Hm, mit der Formel kann ich nicht ganz viel anfange, hatte Statistik nur Grundlagen. Der median ist daher vor Ausreisern Stabil, weil diese nciht weiter berücksichtigt werden. Aus der zahlenreihe wird einfach geschaut, welche Zahlen in der Mitte Liegen. Da ist es egal ob die obere Zahl 12 oder 45 ist. die Mitte bliebt bei der Reihe 1 2 12 zwei und bei 1 2 45 auch zwei
Beim Artehmetischen Mittel hingegen werden alle Zahlen Addiert und durch die Anzahl der zahlen geteilt, dort machen sich ausreise bemerkbar, allerdings gibt es da auch eine Formel um die Spitzen in beiden Richtungen zu brechen.

Hallo!

Was ist denn der Median?

Wenn jetzt bei Olympia 201 Personen den Marathon laufen, dann ist die Zeit derjenigen, die als 101. ins Ziel läuft, der Median. Denn es waren genau 100 schneller, und 100 langsamer.

(Sollten 200 Menschen mitlaufen, nimmt man den Mittelwert aus den Zeiten des 100. und 101.)

Angenommen, ein Läufer verstaucht sich den Fuß, und kann nicht mehr laufen. Aber dabei sein ist alles, und so humpelt er nach einer Pause sehr langsam vorwärts, und kommt nach 20 Stunden doch noch ins Ziel. Das ist sicher ein Ausreißer. Aber das hat auf die Bestimmung des Medians keinen Einfluss.

Der Median ist damit eigentlich nicht robust für Ausreißer, sondern sogar völlig blind dafür.

Schlimmer noch: Wenn die ersten 101 Läufer hochgezüchtete „Sportler“ eines Pharmakonzerns sind, die die Strecke in 2 Stunden laufen, und die restlichen 100 aus dem Altersheim kommen, und auf Krücken und im Rollstuhl laufen, dann liegt der Median immernoch bei 2 Stunden.

Deine Formeln sind übrigens auch nicht korrekt:
In der Fallunterscheidung müßte es heißen:

x(n+1)/2 falls n ungrade

Und die Summenformel ist so auch nicht korrekt. Es heißt |xi-c| statt |x*i-c| .

Und wie du das meinst, ist mir auch nicht klar:

Aus n=3 folgt doch nicht xi=6. Denk dir eine Menge aus wie X={1,2,3,3,5,8,30}, und spiel damit mal rum!

Hallo,
erstmal, deine Medianformel ist falsch: für n ungerade ist es x_((n+1)/2).
Dann, Deine Rechnung ist leider nicht zu verstehen, man bräuchte die Werte der x_i. Du hast jetzt einfach 1 2 3 genommen, Median ist 2, und die Summe der Abstände zum Median ist 2.

Der Beweis ist eigentlich auch ganz einfach, braucht aber viel mathematische Notation, die hier so schwer zu realisieren ist. Ganz normal wieder mit Analysis:

  • Definiere f(c) = \sum |x_i - c|
  • Dann wieder ableiten (nach c): f'(c) = \sum sgn(x_i - c) (in Worten: die Summe über Signum von x_i - c)
  • Signum von x < 0 ist -1, Signum von x > 0 ist 1 und Signum von x = 0 ist 0
  • naja, jetzt ist klar, wann f'(c) = 0 ist, nämlich, wenn es genauso viele Terme mit negativen Vorzeichen in (x_i - c) gibt wie solche mit positiven Vorzeichen
  • daraus folgt, die Menge aller x_i muß zerlegt werden in 2 Mengen mit der gleichen Anzahl an Elementen, für n gerade ist das einfach: Sortiere die x_i aufsteigend: x_1 <= x_2 <= ... <= x_n, dann kommen in die linke Menge x_1,...,x_(n/2) und nach rechts x_(n/2+1),...,x_n. Jedes c zwischen x_(n/2) und x_(n/2+1) minimiert nun die Summe (es gibt also mehr als einen Median für n gerade)
  • Für n ungerade macht man im Prinzip dasselbe, sortieren, dann x_1,...,x_((n+1)/2-1) nach links, x_((n+1)/2+1),...,x_n nach rechts. Und jetzt gibt es nur noch ein Element dazwischen, nämlich x_((n+1)/2), das muß dann der Median c sein, denn sgn(x_((n+1)/2) - c) = 0 genau dann, wenn x_((n+1)/2 = c.

Danke für die Antworten!

Jetzt hab ich es verstanden :slight_smile: warum er robust ist, weil er blind :sunglasses: ist :laughing: