Maximum likelihood von einer poisson verteilung

anna_solbjorn · 12. November 2019 um 09:18

hallo,
ich hab wieder mal ein verständnissproblem im fach wahrscheinlichkeit:

ich habe eine poisson verteilung

P((k | \mu)) = \frac{e^{-\mu} \mu^{k}}{k!}
und habe mir dazu schon den maximum likelihood schätzer

\mu_{ML} = \frac{1}{N} \sum n_i

berechnet. und dazu die wahrscheinlichkeitsverteilung des ML Schätzers.

P((\mu_{ML} | \mu,\beta))= \sum_{n_i = 0}^{\infty} bis \sum_{n_N =0}^{\infty} \delta ((\mu_{ML} - \frac{1}{N} \sum_{i} n_{i})) \cdot \prod_{i} \frac{e^{-\mu} \mu^{n_i}}{n_i!}

und jetzt soll ich den mittelwert des schätzers berechnen und ehrlich gesagt steh ich da ziehmlich an :o
ich hab zwar eine lösung aber leider kann ich sie nicht nachvollziehen.

als erstes sollen wir den spezialfall N=2 betrachten

das ergibt dann

\hat{\mu_{ML}} = \int d \mu_{ML} \sum_{n_1 = 0}^{\infty} \cdot \sum_{n_2 =0}^{\infty} \mu_{ML} \delta ((\mu_{ML} - \frac{1}{2} ((n_1 + n_2)) )) \cdot \frac{e^{-\mu} \mu^{n_1}}{n_1!} \frac{e^{-\mu} \mu^{n_2}}{n_2!}

und das ergibt dann
\sum_{n_1 = 0}^{\infty} \cdot \sum_{n_2 =0}^{\infty} \frac{1}{2} ((n_1 + n_2)) \cdot p((n_1 | \mu)) \cdot p((n_2 | \mu))

auch das ist mir noch verständlich und jetzt wird dann eine summe aufgelöst und ich weiß absolut net wie

\frac{1}{2} \sum_{n_1}^{\infty} ((n_1 \cdot p((n_1 | \mu)) )) + p((n_1 | \mu))\mu))

kann mir jemand erklären wie man darauf kommt???

und das ergebniss ist dann

\frac{1}{2} \cdot 2 \mu = \mu

auch hier versteh ich einfach nicht wie man darauf kommt.

ich bin froh über jede hilfe, da ich am montag prüfung hab, und mit dem beispiel einfach nicht weiterkomm :o

vielen dank

quazee · 12. November 2019 um 09:35

Hallo Anna,

auch wenn deine Prüfung schon gelaufen ist, schreibe ich mal die Antwort, falls noch andere das gleiche Problem haben sollten…
von vorn: angenommen wir haben eine endliche Menge an Daten

a = (n_1, n_2,\ldots, n_N) \in \mathbb N^N

von denen wir glauben, dass sie Poisson-verteilt sind. Den wahren Parameter mu kennen wir zwar nicht, aber wir wissen, dass die (bedingte) Wahrscheinlichkeit, genau diese Daten zu erheben/messen

P_\mu(a) = P_\mu(n_1 | n_2 | \ldots |n_N) = \prod_{i=1}^N P_\mu (n_i)

beträgt, da wir annehmen, dass die einzelnen Datenpunkte stochastisch unabhängig sind. Wir möchten nun den wahrscheinlichsten Wert von mu berechnen. Dazu fassen wir mu als Variable auf, leiten ab, bestimmen so das Maximum, und erhalten

\mu_{ML}(a) = \frac{1}{N} \sum_{i=1}^N n_i = \bar a

Fein, so weit so gut. Nun stellen wir uns vor, mu sei der wahre Parameter, nach dem die Daten Poisson-verteilt sind. Wie wahrscheinlich ist es einen womöglich anderen Wert mu_ML zu berechnen?
Dazu addieren wir die Wahrscheinlichkeiten von allen N elementigen Datensätzen, deren Mittelwert mu_ML ist (welche uns das Kronecker-Delta herauspickt), aber deren tatsächliche Wahrscheinlichkeit durch mu bestimmt wird:

P_N(\mu_{ML}|\mu) = \sum_{a \in \mathbb N^N} \delta_{\mu_{ML}, \bar a}\ P_\mu(a)

An dieser Stelle machen wir uns kurz klar, dass der Parameter mu der Poissonverteilung zwar kontinuierlich ist, der ML-Schätzer, also sein wahrscheinlichster Wert bei gegebenen Daten, nur diskrete Werte annimmt:

\mu_{ML}(a) = \frac{1}{N} \sum_{i=1}^N n_i \Rightarrow N \mu_{ML} \in \mathbb N

Die Wahrscheinlichkeitsverteilung von mu_ML ist also diskret. (beispielsweise wird man für N=2 bei keinem Datensaz mu_ML=5/3 erhalten)
Eine Möglichkeit wäre mu_ML weiterhin als kontinuierlich zu betrachten, dann wechselt man zur Wahrscheinlichkeitsdichte indem man das Kronecker-Delta gegen gewichtete Delta-Distribution tauscht, oder man bleibt bei diskreten mu_ML:

Die N-tupel mit gleichem Mittelwert bilden im R^N eine (N-1)-dimensionale Hyperebene, zur Veranschaulichung ein kleines Bild mit N=2 und mu=mu_ML=8, auf der x bzw. y Achse sind n_1 bzw. n_2 aufgetragen, die Datenpunkte zeigen p(n_1)*p(n_2) für (n_1+n_2 )/2 = 8. Die Gitterpunkte mit gleichem mu liegen also auf parallelen Geraden (bei zwei-elementigen Datensätzen).

Somit können wir alle möglichen Werte von mu_ML durchnumerieren

\mu_i = \frac{i}{N}

für den Erwartungswert erhalten wir dann:

E(\mu_{ML}|\mu)_N = \sum_{i=0}^\infty \mu_i P_N(\mu_i | \mu) = \sum_{i=0}^\infty \mu_i \sum_{a \in \mathbb N^N} \delta_{\mu_i, \bar a} \ P_{\mu}(a)

= \sum_{a \in \mathbb N^N} \sum_{i=0}^\infty \delta_{\mu_i, \bar a} \ \mu_i P_{\mu}(a) = \sum_{a \in \mathbb N^N} \bar a P_{\mu}(a)

Um weiter zu vereinfachen nutzen wir eine Eigenschaft der Poisson-Verteilung, ihre Reproduktivität:

\sum_{i=0}^s P_{\mu_1}(s) P_{\mu_2}(s-i) = P_{\mu_1 + \mu_2}(s)

und dass der Erwartungswert einer Poisson-verteilten Zufallsvariable

E(n) = \sum_{i=0}^\infty i P_\mu(i) = \mu

ist.
Betrachten wir zuerst den Fall N=2:

E(\mu_{ML} | \mu)_2 = \sum_{n_1 = 0}^\infty \sum_{n_2 = 0}^\infty \frac{n_1 +n_2}{2} P_{\mu}(n_1)P_{\mu}(n_2)

Denken wir an das Bild sehen wir, dass die Summen-Indizes entlang der x und y Achse verlaufen. Der Trick ist nun, das Gitter so zu durchlaufen, dass man die Reproduktivität nutzen kann: ein Index s steht für die diagonalen Geraden, wie die fett markierte, und ein Index i durchläuft die s Punkte auf einer solchen Geraden:

n_1 = i, \quad n_2 = s-i \Rightarrow n_1 + n_2 = s

E(\mu_{ML} | \mu)_2 = \sum_{s=0}^\infty \sum_{i=0}^s \frac{s}{2} P_{\mu}(i) P_{\mu}(s-i) = \frac{1}{2} \sum_{s=0}^\infty s P_{2 \mu}(s) = \frac{1}{2} E(s) = \mu

Dieses Ergebnis besagt, dass der ML-Schätzer erwartungstreu ist, das heißt, sein Erwartungswert ist gleich dem wahren Parameter, nach dem die Daten verteilt sind. Zu guter letzt noch zum allgemeinen Fall:

E(\mu_{ML} | \mu)_N = \sum_{n_1 = 0}^\infty \ldots \sum_{n_N = 0}^\infty \frac{1}{N}(\sum_{k=1}^N n_k)\prod_{k=1}^N P_\mu(n_k)

Genau wie im zweidimensionalen Fall nehmen wir einen Indexwechsel vor:

n_1 = i_1, \qquad n_k = i_k - i_{k-1} \Rightarrow \sum_{k=1}^N n_k = i_N

und erhalten:

E(\mu_{ML} | \mu)_N = \sum_{i_N = 0}^\infty \ldots \sum_{i_2 = 0}^{i_3} \sum_{i_1 = 0}^{i_2} \frac{i_N}{N} P_\mu(i_1)\prod_{k=2}^N P_\mu(i_k-i_{k-1})=

\frac{1}{N} \sum_{i_N = 0}^\infty i_N \sum_{i_{N-1} = 0}^{i_N} P_\mu(i_N - i_{N-1}) \ldots \sum_{i_2 = 0}^{i_3} P_\mu(i_3 - i_2) \sum_{i_1 = 0}^{i_2} P_\mu(i_2 - i_1) P_\mu(i_1) =

\frac{1}{N} \sum_{i_N = 0}^\infty i_N \sum_{i_{N-1} = 0}^{i_N} P_\mu(i_N - i_{N-1}) \ldots \sum_{i_2 = 0}^{i_3} P_\mu(i_3 - i_2) P_{2 \mu}(i_2) =

\frac{1}{N} \sum_{i_N = 0}^\infty i_N \sum_{i_{N-1} = 0}^{i_N} P_\mu(i_N - i_{N-1}) \ldots P_{3 \mu}(i_3) = \frac{1}{N} \sum_{i_N = 0}^\infty i_N P_{N \mu}(i_N) = \frac{1}{N} N \mu = \mu

Die Erwartungstrue gilt also für Datensätze mit beliebig vielen Elementen.
Viele Grüße