20 - Korrelationsanalyse

Gegeben seien \(n\) Punktepaare \((x_1,y_1),\ldots,(x_n,y_n)\), die durch gleichzeitige Erhebung zweier Merkmale \(X\) und \(Y\) generiert wurden. Man spricht dann auch von einer zweidimensionalen oder bivariaten Stichprobe.

Randverteilung

Seien \(a_1,\ldots,a_r\) die Merkmalsausprägungen des Merkmals \(X\) und \(b_1,\ldots,b_s\) die Merkmalsausprägungen von \(Y\). Eine Tabelle mit den absoluten Häufigkeiten \(h_{ij}\) der \(r\cdot s\) möglichen Merkmalsausprägungen einer bivariaten Stichprobe \((x_1,y_1),\ldots,(x_n,y_n)\) heißt Kontingenztafel. Liegt die Stichprobe direkt in dieser Form vor, spricht man von Zähldaten.

Die Randverteilungen (oder Ränder) der Kontingenztafel sind definiert durch $$h_{i\bullet}=\sum_{j=1}^s\ h_{ij}, \quad h_{\bullet j}=\sum_{i=1}^r\ h_{ij}.$$

Für die relativen Häufigkeiten gilt \(f_{ij}=h_{ij}/n\) bzw. \(f_{i\bullet}=h_{i\bullet}/n\) und \(f_{\bullet j}=h_{\bullet j}/n\).

Bedingte Häufigkeitsverteilung

Die bedingte Häufigkeitsverteilung von \(Y\) unter der Bedingung \(X=a_j\) ist definiert durch $$f_Y(b_j|a_i)=\frac{h_{ij}}{h_{i\bullet}}=\frac{f_{ij}}{f_{i\bullet}}, \quad j=1,\ldots,s,$$ wenn \(h_{i\bullet}>0\). Analog ist durch $$f_X(a_i|b_j)=\frac{h_{ij}}{h_{\bullet j}}=\frac{f_{ij}}{f_{\bullet j}}, \quad i=1,\ldots,r,$$ die bedingte Häufigkeitsverteilung von \(X\) unter der Bedingung \(Y=b_j\) gegeben.

Empirische Unabhängigkeit

Zwei Merkmale einer Kontingenztafel sind empirisch unabhängig, wenn $$h_{ij}=\frac{h_{i\bullet}\cdot h_{\bullet j}}{n} \quad \Leftrightarrow \quad f_{ij}=f_{i\bullet}\cdot f_{\bullet j}$$ für alle \(i=1,\ldots,r\) und \(j=1,\ldots,s\) gilt.

Aus der empirischen Unabhängigkeit der Merkmale \(X\) und \(Y\) folgt $$f_X(a_i|b_j)=f_{i\bullet}, \quad i=1,\ldots,r$$ und $$f_Y(b_j|a_i)=f_{\bullet j}, \quad j=1,\ldots,s.$$

In der Realität sind verschiedene Merkmale fast nie empirisch unabhängig im Sinne der obigen Definition, allerdings gilt oft $$h_{ij}\approx\frac{h_{i\bullet}\cdot h_{\bullet j}}{n} \quad \text{und} \quad f_{ij}\approx f_{i\bullet}\cdot f_{\bullet j}.$$

Chiquadrat-Statistik

Die Chiquadrat-Statistik (auch \(\chi^2\)-Koeffizient) ist definiert durch $$Q=\sum_{i=1}^r\ \sum_{j=1}^s\ \frac{(h_{ij}-e_{ij})^2}{e_{ij}}, \quad e_{ij}=\frac{h_{i\bullet}\cdot h_{\bullet j}}{n},$$ und wird auch mit dem Symbol \(\chi^2\) bezeichnet.

Eigenschaften

  • Es gilt: $$Q=n\sum_{i=1}^r\sum_{j=1}^s\ \frac{(f_{ij}-f_{i\bullet}\cdot f_{\bullet j})^2}{f_{i\bullet}\cdot f_{\bullet j}}.$$
  • Für eine \((2\times 2)\)-Kontingenztafel gilt: $$Q=n\frac{(h_{11}h_{22}-h_{12}h_{21})^2}{h_{1\bullet}h_{2\bullet}h_{\bullet1}h_{\bullet2}}.$$
  • Vertauschen von \(X\) und \(Y\) ändert \(Q\) nicht.
  • Es gilt \(0\leq Q\leq n\cdot\min(r-1,s-1)\). Das Maximum wird genau dann angenommen, wenn in jeder Zeile und jeder Spalte der Kontingenztafel genau eine Zelle besetzt ist. Dann gibt es zu jeder Ausprägung \(a_i\) von \(X\) genau eine Ausprägung \(b_j\) von \(Y\), die in Kombination in der Stichprobe vorkommen (vollständiger Zusammenhang). 

(Normierter) Kontingenzkoeffizient

Der Kontingentkoeffizient nach Pearson ist definiert durch $$K=\sqrt{\frac{Q}{n+Q}}$$ mit Werten zwischen 0 und \(K_{\text{max}}=\sqrt{\frac{\min(r,s)-1}{\min(r,s)}}\). Der normierte Kontingenzkoeffizient ist gegeben durch $$K^{\ast}=\frac{K}{K_{\text{max}}}$$ mit Werten zwischen 0 und 1.

Empirische Kovarianz

Die empirische Kovarianz einer bivariaten Stichprobe \((x_1,y_1),\ldots,(x_n,y_n)\) ist gegeben durch $$s_{xy}=\text{cov}(\mathbf{x},\mathbf{y})=\frac{1}{n}\sum_{i=1}^n\ (x_i-\bar{x})(y_i-\bar{y}).$$

Eigenschaften

Für Datenvektoren \(\mathbf{x},\mathbf{y},\mathbf{z}\in\mathbb{R}^n\) und Zahlen \(a,b\in\mathbb{R}\) gilt:

  1. Symmetrie: $$\text{cov}(\mathbf{x},\mathbf{y})=\text{cov}(\mathbf{y},\mathbf{x}).$$
  2. Ausklammern konstanter Faktoren: $$\text{cov}(a\mathbf{x},b\mathbf{y})=ab\,\text{cov}(\mathbf{x},\mathbf{y}).$$
  3. Additivität: $$\text{cov}(\mathbf{x},\mathbf{y}+\mathbf{z})=\text{cov}(\mathbf{x},\mathbf{y})+\text{cov}(\mathbf{x},\mathbf{z}).$$
  4. Zusammenhang zur Stichprobenvarianz: $$\text{cov}(\mathbf{x},\mathbf{x})=s_x^2.$$
  5. Stichprobenvarianz einer Summe: $$\text{var}(\mathbf{x}+\mathbf{y})=\text{var}(\mathbf{x})+\text{var}(\mathbf{y})+2\,\text{cov}(\mathbf{x},\mathbf{y}).$$

Korrelationskoeffizient nach Bravais-Pearson

Für eine bivariate Stichprobe \((x_1,y_1),\ldots,(x_n,y_n)\) ist der Korrelationskoeffizient nach Bravais-Pearson gegeben durch $$r_{xy}=\hat{\rho}=\text{cor}(\mathbf{x},\mathbf{y})=\frac{s_{xy}}{s_xs_y}=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2\sum_{i=1}^n(y_i-\bar{y})^2}}.$$

Eigenschaften

Für alle Datenvektoren \(\mathbf{x},\mathbf{y}\in\mathbb{R}^n\) und Zahlen \(a,b,c,d,\in\mathbb{R}\) gilt:

  1. \(\text{cor}(a\mathbf{x}+b,c\mathbf{y}+d)=\text{cor}(\mathbf{x},\mathbf{y})\).
  2. \(-1\leq r_{xy}\leq 1\).
  3. \(r_{xy}=1\) genau dann, wenn \(\mathbf{y}=a\mathbf{x}+b\), \(a>0\).
  4. \(r_{xy}=-1\) genau dann, wenn \(\mathbf{y}=a\mathbf{x}+b\), \(a<0\).
  5. Insbesondere gilt \(|r_{xy}|=1\) genau dann, wenn \(\mathbf{x}\) und \(\mathbf{y}\) linear abhängig sind.

Geometrische Interpretation

Ist \(\mathbf{x}^{\ast}=\frac{\mathbf{x}}{||\mathbf{x}||}\) und \(\mathbf{y}^{\ast}=\frac{\mathbf{y}}{||\mathbf{y}||}\), dann gibt es ein \(\alpha\) mit $$\text{cos}(\alpha)=(\mathbf{x})'(\mathbf{y}).$$ \(\alpha\) heißt Winkel zwischen den beiden Vektoren \(\mathbf{x}\) und \(\mathbf{y}\).

Es gilt: $$r_{xy}=\text{cor}(\mathbf{x},\mathbf{y})=\text{cos}(\alpha).$$

Rangkorrelationskoeffizient nach Spearman

Für eine Beobachtung \(x_i\) einer bivariaten Stichprobe \((x_1,y_1),\ldots,(x_n,y_n)\) sei der Rang \(r_{X,i}=k\), wenn \(x_i=x_{(k)}\). Ist \(k\) nicht eindeutig, so wird \(r_{X,i}\) als Mittelwert der möglichen Positionen gewählt (Mittelrang).

Für \(n\geq4\) ist der Rangkorrelationskoeffizient nach Spearman definiert durch $$R_{\text{Sp}}=1-\frac{6\sum_{i=1}^nd_i^2}{n(n+1)(n-1)},$$ wobei \(d_i=r_{Y,i}-r_{X,i}\), \(i=1,\ldots,n\).