42 - Lineares Regressionsmodell
Modell
Seien \((Y_1,x_1),\ldots,(Y_n,x_n)\) unabhängige Beobachtungen. Sei $$Y_i=a+bx_i+\varepsilon_i,\quad i=1,\ldots,n.$$
Annahmen
- \(\varepsilon_1,\ldots,\varepsilon_n\) sind unabhängig und identisch normalverteilte Zufallsvariablen mit \(E(\varepsilon_i)=0,\) \(\text{Var}(\varepsilon_i)=\sigma^2>0, \quad i=1,\ldots,n.\) \(\sigma^2\) heißt auch Modellfehler.
- \(x_1,\ldots,x_n\) sind vorgegeben.
- \(a\) und \(b\) sind unbekannte Parameter, genannt Regressionskoeffizienten.
Dann heißt $$f(x)=a+bx$$ wahre Regressionsfunktion.
Schätzung
Eine (geschätzte) Regressionsgerade (Ausgleichsgerade) erhält man durch $$\hat{f}(x)=\hat{a}+\hat{b}x, \quad x\in[x_{\min},x_{\max}],$$ mit $$\hat{b}=\frac{s_{xy}}{s_x^2}, \quad \hat{a}=\bar{Y}-\hat{b}\bar{x},$$ wobei $$s_{xy}=\frac{1}{n}\sum_{i=1}^nx_iY_i-\bar{x}\bar{Y}, \quad s_x^2=\frac{1}{n}\sum_{i=1}^nx_i^2-\bar{x}^2.$$
Die (geschätzten) Residuen sind gegeben durch \(\hat{\varepsilon}_i=Y_i-\hat{Y}_i,i=1,\ldots,n.\). Eine erwartungstreue Schätzung des Modellfehlers \(\sigma^2\) erhält man durch $$\hat{\sigma}^2=s_n^2=\frac{1}{n-2}\sum_{i=1}^n\hat{\varepsilon}_i^2.$$
Statistische Eigenschaften
- \(\hat{a}\) und \(\hat{b}\) sind erwartungstreu und konsistent für \(a\) und \(b\).
- Ihre Varianzen können durch $$\hat{\sigma}_b^2=\frac{\hat{\sigma}^2}{ns_x^2}, \quad \hat{\sigma}_a^2=\frac{\sum_{i=1}^nx_i^2}{n^2s_x^2}\hat{\sigma}^2$$ geschätzt werden,
Konfidenzintervalle
- für \(b\) zum Niveau \(1-\alpha\): $$\left[\hat{b}-t(n-2)_{1-\alpha/2}\frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}},\hat{b}+t(n-2)_{1-\alpha/2}\frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}}\right]$$
- für \(\sigma^2\) zum Niveau \(1-\alpha\): $$\left[\frac{(n-2)\hat{\sigma}^2}{\chi^2(n-2)_{1-\alpha/2}},\frac{(n-2)\hat{\sigma}^2}{\chi^2(n-2)_{\alpha/2}}\right]$$
- untere Schranke für die Regressionsfunktion zum Niveau \(1-\alpha\): $$l(x)=\hat{a}+\hat{b}x-\hat{\sigma}\sqrt{2F(2,n-2)_{1-\alpha}\left(\frac{1}{n}+\frac{(\bar{x}-x)^2}{ns_{xx}}\right)}$$
- obere Schranke für die Regressionsfunktion zum Niveau \(1-\alpha\): $$u(x)=\hat{a}+\hat{b}x+\hat{\sigma}\sqrt{2F(2,n-2)_{1-\alpha}\left(\frac{1}{n}+\frac{(\bar{x}-x)^2}{ns_{xx}}\right)}$$
Hypothesentests
Es gilt:
- \(T_b=\frac{\hat{b}-b}{\hat{\sigma}_b}\sim t(n-2)\),
- \(T_a=\frac{\hat{a}-a}{\hat{\sigma}_a}\sim t(n-2)\),
- \(Q=\frac{(n-2)\hat{\sigma}^2}{\sigma_0^2}\sim \chi(n-2)\).
Test der Regressionskoeffizienten
- \(H_0: b=b_0\) gegen \(H_1:b\ne b_0\). \(H_0\) ablehnen, wenn \(|T_b|>t(n-2)_{1-\alpha/2}\).
- \(H_0: b\le b_0\) gegen \(H_1:b> b_0\). \(H_0\) ablehnen, wenn \(T_b>t(n-2)_{1-\alpha}\).
- \(H_0: b\ge b_0\) gegen \(H_1:b< b_0\). \(H_0\) ablehnen, wenn \(T_b<-t(n-2)_{1-\alpha}=t(n-2)_{\alpha}\).
Analog für \(a\).
Test des Modellfehlers
- \(H_0: \sigma^2=\sigma_0^2\) gegen \(H_1:\sigma^2\ne\sigma_0^2\). \(H_0\) ablehnen, wenn \(Q<\chi^2(n-2)_{\alpha/2}.\),
- \(H_0: \sigma^2\le\sigma_0^2\) gegen \(H_1:\sigma^2>\sigma_0^2\). \(H_0\) ablehnen, wenn \(Q>\chi^2(n-2)_{\alpha}\).
- \(H_0: \sigma^2\ge\sigma_0^2\) gegen \(H_1:\sigma^2<\sigma_0^2\). \(H_0\) ablehnen, wenn \(Q<\chi^2(n-2)_{\alpha}\).
Heteroskedastizität
Der Schätzer $$\tilde{\sigma}_b^2=\frac{1}{ns_x^2(n-2)}\sum_{i=1}^n(X_i-\bar{X})^2\hat{\varepsilon}_i^2$$ ist konsistent, wenn die Varianzen der Fehlerterme \(\varepsilon_1,\ldots,\varepsilon_n\) nicht identisch sind.