21 - Regressionsanalyse

KQ-Methode

Bei der Methode der kleinsten Quadrate (kurz: KQ-Methode) wird die Zielfunktion $$Q(a,b)=\sum_{i=1}^n\ (y_i-(a+bx_i))^2, \quad (a,b)\in\mathbb{R}^2,$$ minimiert. Das Minimum wird an der Stelle \((\hat{a},\hat{b})\) mit $$\hat{b}=\frac{s_{xy}}{s_x^2}=\frac{\sum_{i=1}^n\ (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n\ (x_i-\bar{x})^2}, \quad \hat{a}=\bar{y}-\hat{b}\bar{x}$$ angenommen.

Ausgleichsgerade

Seien \(\hat{a}\) und \(\hat{b}\) die KQ-Schätzer für \(a\) und \(b\). Dann erhällt man durch $$\hat{f}(x)=\hat{a}+\hat{b}x, \quad x\in[x_{\text{min}},x_{\text{max}}],$$ die Ausgleichsgerade (oder geschätzte Regressionsgerade). Das Intervall \([x_{\text{min}},x_{\text{max}}]\) wird Stützbereich der Regression genannt.

Wendet man \(\hat{f}(x)\) für Werte außerhalb des Stützbereichs an, spricht man von Extrapolation.

Die Werte $$\hat{y}_i=\hat{a}+\hat{b}x_i, \quad i=1,\ldots,n,$$ werden Prognosewerte oder Vorhersagewerte genannt. Die Differenzen zu den Zielgrößen \(Y_i\), $$\hat{\epsilon}_i=y_i-\hat{y}_i, \quad i=1,\ldots,n,$$ werden als geschätzte Residuen (kurz: Residuen) bezeichnet.

Eigenschaften

Einen guten Schätzer für den Modellfehler \(\sigma^2\) erhält man durch $$s_n^2=\frac{1}{n-2}\sum_{i=1}^n\ \hat{\epsilon}_i^2.$$

Es gilt:

  • $$\hat{f}(\bar{x})=\bar{y}.$$
  • $$\frac{1}{n}\sum_{i=1}^n\ \hat{y}_i=\bar{y}.$$
  • $$\frac{1}{n}\sum_{i=1}^n\ \hat{\epsilon}_i=0.$$

Anpassungsgüte

Der Ausdruck $$\text{SST}=\sum_{i=1}^n\ (y_i-\bar{y})^2$$ steht für sum of squares total. Die Streuung der Prognosen \(\hat{y}_i\) um das arithmetische Mittel \(\bar{y}\) wird durch den Ausdruck $$\text{SSR}=\sum_{i=1}^n\ (\hat{y}_i-\bar{y})^2$$ beschrieben, wobei SSR für sum of squares regression steht. Die sum of squares error ist durch $$\text{SSE}=\sum_{i=1}^n\ \hat{\epsilon}_i^2$$ definiert.

Streuungszerlegung

Es gilt $$\text{SST}=\text{SSR}+\text{SSE}.$$ 

Bestimmtheitsmaß

Der durch die Regression bestimmte Anteil $$R^2=\frac{\text{SSR}}{\text{SST}}$$ wird Bestimmtheitsmaß genannt.

\(R^2\) entspricht dem quadrierten Korrelationskoeffizienten nach Bravais-Pearson: $$R^2=r_{xy}^2=\text{cor}(\mathbf{x},\mathbf{y})^2.$$