Hallo zusammen,
ich eigne mir grad ein wenig Statistik an und habe eine Frage zur Prüfgröße des Chi-Quadrat-Verteilungs-Tests. Eine Summe
Z_1^2 + \ldots + Z_m^2
von unabhängig standardnormalverteilten Zufallsvariablen gehorcht der Chi^2-Verteilung mit m Freiheitsgraden, m ist zudem ihr Erwartungswert. Gut.
Sind x_1, …, x_m die verschiedenen Kategorien und X_1 … X_n i.i.d. Zufallsvariablen meiner Stichprobe, kann ich mir zu jeder von diesen eine neue Zufallsvariable definieren, die zählt, ob X_i in eine Kategorie x_j fällt (dabei ist chi hier die charakteristische Funktion):
Y_i(x_j) = \chi_{x_j}(X_i) =\begin{cases}
1, & \text{falls } X_i \in x_j,\
0, & \text{sonst.}
\end{cases}
Diese Variablen haben den Erwartungswert E(Y_i(x_j)) = P(x_j), da die Wahrscheinlichkeit für Y_i(x_j)=1 nunmal gerade die für x_j ist und weiter die Varianz Var(Y_i(x_j)) = P(x_j)(1- P(x_j).
Die Häufigkeit zu einem Merkmal ist nun einfach
H_j = \sum_{i=1}^n Y_i(x_j)
Man erhält logischerweise als Erwartungswert der Häufigkeit n P(x_j), und da die Y_i ebenfalls unabhängig sind, die Varianz n P(x_j) (1-P(x_j)).
Für große n kann man nun annehmen, dass die H_j annähernd normalverteilt sind (zentraler Grenzwertsatz) und ich kann sie anhand von Erwartungswert und Varianz (welche auf jeden Fall endlich sind) standardisieren:
\tilde Z_j = \frac{ H_j - \mu}{\sigma} = \frac{ H_j - n P(x_j)}{\sqrt{n P(x_j) (1-P(x_j))}}
Das ganze ist somit normalverteilt und man erhält als Erwartungswert der entsprechenden Summe der Quadrate:
E (\tilde \chi^2) = \sum_{j=1}^m E(\tilde Z^2_j) = m
So wie es sein soll, allerdings ist die Prüfgröße hier eine andere als üblich, der Faktor (1-P(x_j)) unterm Bruch dürfte nicht da sein. Mit der üblichen Prüfgröße erhalt man
Z_j = \sqrt{1-P(x_j)} \tilde Z_j
mit Erwartungswert 0 und Varianz 1-P(x_j). Damit ergibt sich als Erwartungswert der entsprechenden Chi^2_Verteilung:
E( \chi^2) = \sum_{j=1}^m 1-P(x_j) = m-1
Frage: Warum definiert man die Prüfgröße nicht wie im ersten Fall? Denn in der üblichen Definition ist die Varianz der Variablen nicht 1, sind also nicht normalverteilt, und der Freiheitsgrad ist dann um 1 kleiner (warum eigentlich?)
Viele Grüße