Herleitung der Prüfgröße im Chi-Quadrat-Test

quazee · 12. November 2019 um 12:27

Hallo zusammen,

ich eigne mir grad ein wenig Statistik an und habe eine Frage zur Prüfgröße des Chi-Quadrat-Verteilungs-Tests. Eine Summe

Z_1^2 + \ldots + Z_m^2

von unabhängig standardnormalverteilten Zufallsvariablen gehorcht der Chi^2-Verteilung mit m Freiheitsgraden, m ist zudem ihr Erwartungswert. Gut.

Sind x_1, …, x_m die verschiedenen Kategorien und X_1 … X_n i.i.d. Zufallsvariablen meiner Stichprobe, kann ich mir zu jeder von diesen eine neue Zufallsvariable definieren, die zählt, ob X_i in eine Kategorie x_j fällt (dabei ist chi hier die charakteristische Funktion):

Y_i(x_j) = \chi_{x_j}(X_i) =\begin{cases}
1, & \text{falls } X_i \in x_j,\
0, & \text{sonst.}
\end{cases}

Diese Variablen haben den Erwartungswert E(Y_i(x_j)) = P(x_j), da die Wahrscheinlichkeit für Y_i(x_j)=1 nunmal gerade die für x_j ist und weiter die Varianz Var(Y_i(x_j)) = P(x_j)(1- P(x_j).
Die Häufigkeit zu einem Merkmal ist nun einfach

H_j = \sum_{i=1}^n Y_i(x_j)

Man erhält logischerweise als Erwartungswert der Häufigkeit n P(x_j), und da die Y_i ebenfalls unabhängig sind, die Varianz n P(x_j) (1-P(x_j)).

Für große n kann man nun annehmen, dass die H_j annähernd normalverteilt sind (zentraler Grenzwertsatz) und ich kann sie anhand von Erwartungswert und Varianz (welche auf jeden Fall endlich sind) standardisieren:

\tilde Z_j = \frac{ H_j - \mu}{\sigma} = \frac{ H_j - n P(x_j)}{\sqrt{n P(x_j) (1-P(x_j))}}

Das ganze ist somit normalverteilt und man erhält als Erwartungswert der entsprechenden Summe der Quadrate:

E (\tilde \chi^2) = \sum_{j=1}^m E(\tilde Z^2_j) = m

So wie es sein soll, allerdings ist die Prüfgröße hier eine andere als üblich, der Faktor (1-P(x_j)) unterm Bruch dürfte nicht da sein. Mit der üblichen Prüfgröße erhalt man

Z_j = \sqrt{1-P(x_j)} \tilde Z_j

mit Erwartungswert 0 und Varianz 1-P(x_j). Damit ergibt sich als Erwartungswert der entsprechenden Chi^2_Verteilung:

E( \chi^2) = \sum_{j=1}^m 1-P(x_j) = m-1

Frage: Warum definiert man die Prüfgröße nicht wie im ersten Fall? Denn in der üblichen Definition ist die Varianz der Variablen nicht 1, sind also nicht normalverteilt, und der Freiheitsgrad ist dann um 1 kleiner (warum eigentlich?)

Viele Grüße

JPL · 12. November 2019 um 12:29

Hi,
ich denke du betrachtest die falsche Zufallsgrösse.
Zum testen der Hypothese musst du nicht die Zufallsgröße der standardisierten beobachteten Zufallsgröße betrachten, sondern die quadrierte Abweichung der beobachteten zur unter H0 erwarteten, standardisiert auf den erwarteten Wert, statt auf die Varianz. Damit entfällt der Faktor (1-P(x_j)) und man erhält dann

\tilde Z_j
= \frac{ (H_j - nP(x_j))^2}{n P(x_j)}

was der üblichen Teststatistik entspricht.

Dennoch bliebt die

Frage: Warum definiert man die Prüfgröße nicht wie im ersten
Fall?

Weil man eben nicht Abweichung von 0 betrachten will, sondern vom erwarteten Wert, der durchaus von 0 verschieden sein kann.

Grüße,
JPL