44 - Analyse von Kontingenztafeln

Vergleich diskreter Verteilungen

Definitionen

  • Eine Kontingenztafel habe \(r\) Zeilen und \(s\) Spalten mit insgesamt \(N\) Beobachtungen.
  • Zeilenweise liegen diskrete Verteilungen einer Zielgröße mit \(s\) Ausprägungen vor, der Stichprobenumfang ist fest.
  • Sei \(N_{ij}\) die Anzahl der Beobachtungen in Zeile \(i\) und Spalte \(j\), dann ist \((N_{i1},\ldots,N_{is})\) die Häufigkeitsverteilung der \(i\)-ten Zeile vom Stichprobenumfang \(N_{i\ast}=\sum_{j=1}^sN_{ij}\) .

Testproblem

  • \(H_0\): Alle Zeilenverteilungen gleich, d.h. nur eine Verteilung \(p_1,\ldots,p_s\).
  • Die Daten können dann spaltenweise zusammengefasst werden zur Randverteilung \((N_{\ast1},\ldots,N_{\ast s})\) , wobei \(N_{\ast j}=\sum_{i=1}^rN_{ij}\) die \(j\)-te Spaltensumme ist.
  • Die \(p_j\) werden durch $$\hat{p}_j=\frac{N_{\ast j}}{N}, \quad j=1,\ldots,s,$$geschätzt.
  • Unter \(H_0\) ist der Erwartungswert von \(N_{ij}\) $$E_{ij}=E_{H_0}(N_{ij})=N_{i\ast}p_j,$$ da \(N_{ij}\sim\text{Bin}(N_{i\ast},p_j)\). \(E_{ij}\) wird geschätzt durch $$\hat{E}_{ij}=N_{i\ast}\hat{p}_j=\frac{N_{i\ast}N_{\ast j}}{N}.$$

Chiquadrat-Test

Sei $$Q=\sum_{i=1}^r\sum_{j=1}^s\frac{(N_{ij}-N_{i\ast}N_{\ast j}/N)^2}{N_{i\ast}N_{\ast j}/N}.$$ Der Chiquadrat-Test zum Vergleich diskreter Verteilungen verwirft \(H_0\), wenn \(Q>\chi^2((r-1)(s-1))_{1-\alpha}\).

Bei einer \(2\times2\)-Kontingenztafel mit Einträgen \(a,b,c,d\) ist$$Q=\frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}.$$

Chiquadrat-Unabhängigkeitstest

Definitionen

  • Die Kontingenztafel habe \(r\) Zeilen und \(s\) Spalten.
  • Sie bestehe aus durch Kreuzklassifikation von \(N\) zufällig ausgewählten statistischen Einheiten nach zwei nominal skalierten Merkmalen \(X\) und \(Y\).
  • \(X\) habe \(r\) Ausprägungen \(a_1,\ldots,a_r\), \(Y\) habe \(s\) Ausprägungen \(b_1,\ldots,b_s\).
  • \(N_{ij}\) ist dann die Häufigkeit der Kombination \((a_i,b_j)\).

Testproblem

  • \(H_0\): \(X\) und \(Y\) sind stochastisch unabhängig.
  • Sind \((p_1,\ldots,p_r)\) bzw. \((q_1,\ldots,q_s)\) die Verteilungen von \(X\) bzw. \(Y\), dann ist \(E_{ij}=E_{H_0}(N_{ij})=Np_iq_j\), da \(N_{ij}\sim\text{Bin}(N,p_{ij})\) mit \(p_{ij}=p_iq_j\), und wird durch $$\hat{E}_{ij}=\frac{N_{i\ast}N_{\ast j}}{N}$$ geschätzt.

Chiquadrat-Test

Sei $$Q=\sum_{i=1}^r\sum_{j=1}^s\frac{(N_{ij}-N_{i\ast}N_{\ast j}/N)^2}{N_{i\ast}N_{\ast j}/N}.$$ Der Chiquadrat-Test zum Test auf Unabhängigkeit verwirft \(H_0\), wenn \(Q>\chi^2((r-1)(s-1))_{1-\alpha}\).

Unter \(H_0\) ist \(Q\) in großen Stichproben \(\chi^2((r-1)(s-1))\)-verteilt.