20 - Korrelationsanalyse
Gegeben seien \(n\) Punktepaare \((x_1,y_1),\ldots,(x_n,y_n)\), die durch gleichzeitige Erhebung zweier Merkmale \(X\) und \(Y\) generiert wurden. Man spricht dann auch von einer zweidimensionalen oder bivariaten Stichprobe.
Randverteilung
Seien \(a_1,\ldots,a_r\) die Merkmalsausprägungen des Merkmals \(X\) und \(b_1,\ldots,b_s\) die Merkmalsausprägungen von \(Y\). Eine Tabelle mit den absoluten Häufigkeiten \(h_{ij}\) der \(r\cdot s\) möglichen Merkmalsausprägungen einer bivariaten Stichprobe \((x_1,y_1),\ldots,(x_n,y_n)\) heißt Kontingenztafel. Liegt die Stichprobe direkt in dieser Form vor, spricht man von Zähldaten.
Die Randverteilungen (oder Ränder) der Kontingenztafel sind definiert durch $$h_{i\bullet}=\sum_{j=1}^s\ h_{ij}, \quad h_{\bullet j}=\sum_{i=1}^r\ h_{ij}.$$
Für die relativen Häufigkeiten gilt \(f_{ij}=h_{ij}/n\) bzw. \(f_{i\bullet}=h_{i\bullet}/n\) und \(f_{\bullet j}=h_{\bullet j}/n\).
Bedingte Häufigkeitsverteilung
Die bedingte Häufigkeitsverteilung von \(Y\) unter der Bedingung \(X=a_j\) ist definiert durch $$f_Y(b_j|a_i)=\frac{h_{ij}}{h_{i\bullet}}=\frac{f_{ij}}{f_{i\bullet}}, \quad j=1,\ldots,s,$$ wenn \(h_{i\bullet}>0\). Analog ist durch $$f_X(a_i|b_j)=\frac{h_{ij}}{h_{\bullet j}}=\frac{f_{ij}}{f_{\bullet j}}, \quad i=1,\ldots,r,$$ die bedingte Häufigkeitsverteilung von \(X\) unter der Bedingung \(Y=b_j\) gegeben.
Empirische Unabhängigkeit
Zwei Merkmale einer Kontingenztafel sind empirisch unabhängig, wenn $$h_{ij}=\frac{h_{i\bullet}\cdot h_{\bullet j}}{n} \quad \Leftrightarrow \quad f_{ij}=f_{i\bullet}\cdot f_{\bullet j}$$ für alle \(i=1,\ldots,r\) und \(j=1,\ldots,s\) gilt.
Aus der empirischen Unabhängigkeit der Merkmale \(X\) und \(Y\) folgt $$f_X(a_i|b_j)=f_{i\bullet}, \quad i=1,\ldots,r$$ und $$f_Y(b_j|a_i)=f_{\bullet j}, \quad j=1,\ldots,s.$$
In der Realität sind verschiedene Merkmale fast nie empirisch unabhängig im Sinne der obigen Definition, allerdings gilt oft $$h_{ij}\approx\frac{h_{i\bullet}\cdot h_{\bullet j}}{n} \quad \text{und} \quad f_{ij}\approx f_{i\bullet}\cdot f_{\bullet j}.$$
Chiquadrat-Statistik
Die Chiquadrat-Statistik (auch \(\chi^2\)-Koeffizient) ist definiert durch $$Q=\sum_{i=1}^r\ \sum_{j=1}^s\ \frac{(h_{ij}-e_{ij})^2}{e_{ij}}, \quad e_{ij}=\frac{h_{i\bullet}\cdot h_{\bullet j}}{n},$$ und wird auch mit dem Symbol \(\chi^2\) bezeichnet.
Eigenschaften
- Es gilt: $$Q=n\sum_{i=1}^r\sum_{j=1}^s\ \frac{(f_{ij}-f_{i\bullet}\cdot f_{\bullet j})^2}{f_{i\bullet}\cdot f_{\bullet j}}.$$
- Für eine \((2\times 2)\)-Kontingenztafel gilt: $$Q=n\frac{(h_{11}h_{22}-h_{12}h_{21})^2}{h_{1\bullet}h_{2\bullet}h_{\bullet1}h_{\bullet2}}.$$
- Vertauschen von \(X\) und \(Y\) ändert \(Q\) nicht.
- Es gilt \(0\leq Q\leq n\cdot\min(r-1,s-1)\). Das Maximum wird genau dann angenommen, wenn in jeder Zeile und jeder Spalte der Kontingenztafel genau eine Zelle besetzt ist. Dann gibt es zu jeder Ausprägung \(a_i\) von \(X\) genau eine Ausprägung \(b_j\) von \(Y\), die in Kombination in der Stichprobe vorkommen (vollständiger Zusammenhang).
(Normierter) Kontingenzkoeffizient
Der Kontingentkoeffizient nach Pearson ist definiert durch $$K=\sqrt{\frac{Q}{n+Q}}$$ mit Werten zwischen 0 und \(K_{\text{max}}=\sqrt{\frac{\min(r,s)-1}{\min(r,s)}}\). Der normierte Kontingenzkoeffizient ist gegeben durch $$K^{\ast}=\frac{K}{K_{\text{max}}}$$ mit Werten zwischen 0 und 1.
Empirische Kovarianz
Die empirische Kovarianz einer bivariaten Stichprobe \((x_1,y_1),\ldots,(x_n,y_n)\) ist gegeben durch $$s_{xy}=\text{cov}(\mathbf{x},\mathbf{y})=\frac{1}{n}\sum_{i=1}^n\ (x_i-\bar{x})(y_i-\bar{y}).$$
Eigenschaften
Für Datenvektoren \(\mathbf{x},\mathbf{y},\mathbf{z}\in\mathbb{R}^n\) und Zahlen \(a,b\in\mathbb{R}\) gilt:
- Symmetrie: $$\text{cov}(\mathbf{x},\mathbf{y})=\text{cov}(\mathbf{y},\mathbf{x}).$$
- Ausklammern konstanter Faktoren: $$\text{cov}(a\mathbf{x},b\mathbf{y})=ab\,\text{cov}(\mathbf{x},\mathbf{y}).$$
- Additivität: $$\text{cov}(\mathbf{x},\mathbf{y}+\mathbf{z})=\text{cov}(\mathbf{x},\mathbf{y})+\text{cov}(\mathbf{x},\mathbf{z}).$$
- Zusammenhang zur Stichprobenvarianz: $$\text{cov}(\mathbf{x},\mathbf{x})=s_x^2.$$
- Stichprobenvarianz einer Summe: $$\text{var}(\mathbf{x}+\mathbf{y})=\text{var}(\mathbf{x})+\text{var}(\mathbf{y})+2\,\text{cov}(\mathbf{x},\mathbf{y}).$$
Korrelationskoeffizient nach Bravais-Pearson
Für eine bivariate Stichprobe \((x_1,y_1),\ldots,(x_n,y_n)\) ist der Korrelationskoeffizient nach Bravais-Pearson gegeben durch $$r_{xy}=\hat{\rho}=\text{cor}(\mathbf{x},\mathbf{y})=\frac{s_{xy}}{s_xs_y}=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2\sum_{i=1}^n(y_i-\bar{y})^2}}.$$
Eigenschaften
Für alle Datenvektoren \(\mathbf{x},\mathbf{y}\in\mathbb{R}^n\) und Zahlen \(a,b,c,d,\in\mathbb{R}\) gilt:
- \(\text{cor}(a\mathbf{x}+b,c\mathbf{y}+d)=\text{cor}(\mathbf{x},\mathbf{y})\).
- \(-1\leq r_{xy}\leq 1\).
- \(r_{xy}=1\) genau dann, wenn \(\mathbf{y}=a\mathbf{x}+b\), \(a>0\).
- \(r_{xy}=-1\) genau dann, wenn \(\mathbf{y}=a\mathbf{x}+b\), \(a<0\).
- Insbesondere gilt \(|r_{xy}|=1\) genau dann, wenn \(\mathbf{x}\) und \(\mathbf{y}\) linear abhängig sind.
Geometrische Interpretation
Ist \(\mathbf{x}^{\ast}=\frac{\mathbf{x}}{||\mathbf{x}||}\) und \(\mathbf{y}^{\ast}=\frac{\mathbf{y}}{||\mathbf{y}||}\), dann gibt es ein \(\alpha\) mit $$\text{cos}(\alpha)=(\mathbf{x})'(\mathbf{y}).$$ \(\alpha\) heißt Winkel zwischen den beiden Vektoren \(\mathbf{x}\) und \(\mathbf{y}\).
Es gilt: $$r_{xy}=\text{cor}(\mathbf{x},\mathbf{y})=\text{cos}(\alpha).$$
Rangkorrelationskoeffizient nach Spearman
Für eine Beobachtung \(x_i\) einer bivariaten Stichprobe \((x_1,y_1),\ldots,(x_n,y_n)\) sei der Rang \(r_{X,i}=k\), wenn \(x_i=x_{(k)}\). Ist \(k\) nicht eindeutig, so wird \(r_{X,i}\) als Mittelwert der möglichen Positionen gewählt (Mittelrang).
Für \(n\geq4\) ist der Rangkorrelationskoeffizient nach Spearman definiert durch $$R_{\text{Sp}}=1-\frac{6\sum_{i=1}^nd_i^2}{n(n+1)(n-1)},$$ wobei \(d_i=r_{Y,i}-r_{X,i}\), \(i=1,\ldots,n\).