42 - Lineares Regressionsmodell

Modell

Seien $(Y_1,x_1),\ldots,(Y_n,x_n)$ unabhängige Beobachtungen. Sei $$Y_i=a+bx_i+\varepsilon_i,\quad i=1,\ldots,n.$$

Annahmen

$\varepsilon_1,\ldots,\varepsilon_n$ sind unabhängig und identisch normalverteilte Zufallsvariablen mit $E(\varepsilon_i)=0,$ $\text{Var}(\varepsilon_i)=\sigma^2>0, \quad i=1,\ldots,n.$ $\sigma^2$ heißt auch Modellfehler.
$x_1,\ldots,x_n$ sind vorgegeben.
$a$ und $b$ sind unbekannte Parameter, genannt Regressionskoeffizienten.

Dann heißt $$f(x)=a+bx$$ wahre Regressionsfunktion.

Schätzung

Eine (geschätzte) Regressionsgerade (Ausgleichsgerade) erhält man durch $$\hat{f}(x)=\hat{a}+\hat{b}x, \quad x\in[x_{\min},x_{\max}],$$ mit $$\hat{b}=\frac{s_{xy}}{s_x^2}, \quad \hat{a}=\bar{Y}-\hat{b}\bar{x},$$ wobei $$s_{xy}=\frac{1}{n}\sum_{i=1}^nx_iY_i-\bar{x}\bar{Y}, \quad s_x^2=\frac{1}{n}\sum_{i=1}^nx_i^2-\bar{x}^2.$$

Die (geschätzten) Residuen sind gegeben durch $\hat{\varepsilon}_i=Y_i-\hat{Y}_i,i=1,\ldots,n.$. Eine erwartungstreue Schätzung des Modellfehlers $\sigma^2$ erhält man durch $$\hat{\sigma}^2=s_n^2=\frac{1}{n-2}\sum_{i=1}^n\hat{\varepsilon}_i^2.$$

Statistische Eigenschaften

$\hat{a}$ und $\hat{b}$ sind erwartungstreu und konsistent für $a$ und $b$.
Ihre Varianzen können durch $$\hat{\sigma}_b^2=\frac{\hat{\sigma}^2}{ns_x^2}, \quad \hat{\sigma}_a^2=\frac{\sum_{i=1}^nx_i^2}{n^2s_x^2}\hat{\sigma}^2$$ geschätzt werden,

Konfidenzintervalle

für $b$ zum Niveau $1-\alpha$: $$\left[\hat{b}-t(n-2)_{1-\alpha/2}\frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}},\hat{b}+t(n-2)_{1-\alpha/2}\frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}}\right]$$
für $\sigma^2$ zum Niveau $1-\alpha$: $$\left[\frac{(n-2)\hat{\sigma}^2}{\chi^2(n-2)_{1-\alpha/2}},\frac{(n-2)\hat{\sigma}^2}{\chi^2(n-2)_{\alpha/2}}\right]$$
untere Schranke für die Regressionsfunktion zum Niveau $1-\alpha$: $$l(x)=\hat{a}+\hat{b}x-\hat{\sigma}\sqrt{2F(2,n-2)_{1-\alpha}\left(\frac{1}{n}+\frac{(\bar{x}-x)^2}{ns_{xx}}\right)}$$
obere Schranke für die Regressionsfunktion zum Niveau $1-\alpha$: $$u(x)=\hat{a}+\hat{b}x+\hat{\sigma}\sqrt{2F(2,n-2)_{1-\alpha}\left(\frac{1}{n}+\frac{(\bar{x}-x)^2}{ns_{xx}}\right)}$$

Hypothesentests

Es gilt:

$T_b=\frac{\hat{b}-b}{\hat{\sigma}_b}\sim t(n-2)$,
$T_a=\frac{\hat{a}-a}{\hat{\sigma}_a}\sim t(n-2)$,
$Q=\frac{(n-2)\hat{\sigma}^2}{\sigma_0^2}\sim \chi(n-2)$.

Test der Regressionskoeffizienten

$H_0: b=b_0$ gegen $H_1:b\ne b_0$. $H_0$ ablehnen, wenn $|T_b|>t(n-2)_{1-\alpha/2}$.
$H_0: b\le b_0$ gegen $H_1:b> b_0$. $H_0$ ablehnen, wenn $T_b>t(n-2)_{1-\alpha}$.
$H_0: b\ge b_0$ gegen $H_1:b< b_0$. $H_0$ ablehnen, wenn $T_b<-t(n-2)_{1-\alpha}=t(n-2)_{\alpha}$.

Analog für $a$.

Test des Modellfehlers

$H_0: \sigma^2=\sigma_0^2$ gegen $H_1:\sigma^2\ne\sigma_0^2$. $H_0$ ablehnen, wenn $Q<\chi^2(n-2)_{\alpha/2}.$,
$H_0: \sigma^2\le\sigma_0^2$ gegen $H_1:\sigma^2>\sigma_0^2$. $H_0$ ablehnen, wenn $Q>\chi^2(n-2)_{\alpha}$.
$H_0: \sigma^2\ge\sigma_0^2$ gegen $H_1:\sigma^2<\sigma_0^2$. $H_0$ ablehnen, wenn $Q<\chi^2(n-2)_{\alpha}$.

Heteroskedastizität

Der Schätzer $$\tilde{\sigma}_b^2=\frac{1}{ns_x^2(n-2)}\sum_{i=1}^n(X_i-\bar{X})^2\hat{\varepsilon}_i^2$$ ist konsistent, wenn die Varianzen der Fehlerterme $\varepsilon_1,\ldots,\varepsilon_n$ nicht identisch sind.