34 - Statistische Schätzer
Grundbegriffe der schließenden Statistik
Stichprobe
\(X_1,\ldots,X_n\) wird Stichprobe vom Stichprobenumfang \(n\) genannt, wenn \(X_1,\ldots,X_n\) reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum \((\Omega,\mathcal{A},P)\) sind. Der Zufallsvektor \(\boldsymbol{X}=(X_1,\ldots,X_n)\) nimmt dann Werte im Stichprobenraum \(\mathcal{X}=\{\boldsymbol{X}(\omega):\omega\in\Omega\}\subset\mathbb{R}^n\) an, dessen Elemente \((x_1,\ldots,x_n)\) Realisierungen genannt werden.
Verteilungsmodell
Ein Verteilungsmodell ist eine Menge \(\mathcal{P}\) von (möglichen) Verteilungen auf \(\mathbb{R}^n\) (für die Stichprobe \((X_1,\ldots,X_n)\)). Bei einem parametrischen Verteilungsmodell wird jede Verteilung \(P\in\mathcal{P}\) durch Angabe eines Parametervektors \(\vartheta\) aus einer Menge \(\Theta\in\mathbb{R}^n\) möglicher Vektoren definiert, wobei \(\Theta\) dann Parameterraum heißt. Kann die Menge \(\mathcal{P}\) nicht durch einen Parameter parametrisiert werden, spricht man von einem nichtparametrisierten Verteilungsmodell.
Schätzer
Ist \(X_1,\ldots,X_n\) eine Stichprobe und \(T:\mathbb{R}^n\rightarrow\mathbb{R}^d\), \(d\in\mathbb{N}\) (oft \(d=1\)), eine Abbildung, dann heißt \(T(X_1,\ldots,X_n)\) Statistik. Die Statistik heißt Schätzfunktion oder Schätzer für den Parameter \(\vartheta\), wenn sie in den Parameterraum abbildet, d.h. \(T:\mathbb{R}^n\rightarrow\Theta\), und den Parameter \(\vartheta\) schätzen soll.
Um Funktionen \(g(\vartheta)\) eines Parameters \(\vartheta\) zu schätzen, verwendet man Statistiken \(T:\mathbb{R}^n\rightarrow\Gamma\) mit \(\Gamma=g(\Theta)=\{g(\vartheta)|\vartheta\in\Theta\}\). \(T(X_1,\ldots,X_n)\) heißt dann Schätzer für \(g(\vartheta)\).
Nichtparametrische Schätzung
Empirische Verteilungsfunktion
Ein nichtparametrischer Schätzer für die Verteilungsfunktion \(F(x)=P(X_i\leq x)\), \(x\in\mathbb{R}\), ist die empirische Verteilungsfunktion $$\hat{F}_n(x)=\frac{1}{n}\sum_{i=1}^n\,\mathbb{1}_{(-\infty,x]}(X_i), \quad x\in\mathbb{R}.$$
Es gilt $$E(\hat{F}_n(x))=P(X_i\leq x)=F(x), \quad \text{Var}(\hat{F}_n(x))=\frac{F(x)(1-F(x))}{n}.$$
\(\hat{F}_n(x)\) konvergiert mit Wahrscheinlichkeit 1 gegen \(F(x)\).
Dichteschätzung
Durch den Histogramm-Schätzer wird eine Vergröberung \(g(x)\) der Dichtefunktion \(f(x)\) geschätzt, für die gilt: $$g(x)=\int_{g_j}^{g_{j+1}}f(x)dx=P(X_1\in(g_j,g_{j+1}]),$$ wenn \(x\in(g_j,g_{j+1}]\).
Für festes \(x\in(g_j,g_{j+1}]\) ist \(n\hat{f}(x)\) binomialverteilt mit Parametern \(n\) und \(p=p(x)=P(X_1\in(g_j,g_{j+1}])\).
Das Likelihood-Prinzip
Likelihood-Prinzip
Ein Verteilungsmodell ist bei gegebenen Daten plausibel, wenn es die Daten mit hoher Wahrscheinlichkeit erzeugt. Entscheide dich für das plausibelste Verteilungsmodell!
Likelihood-Funktion und Maximum-Likelihood-Schätzer
Ist \(p_{\vartheta}(x)\) eine Zähldichte (in \(x\in\mathcal{X}\)) und \(\vartheta\in\Theta\subset\mathbb{R}^k\), \(k\in\mathbb{N}\), ein Parameter, dann heißt die Funktion $$L(\vartheta|x)=p_{\vartheta}(x), \quad \vartheta\in\Theta,$$ für eine gegebene (feste) Beobachtung \(x\in\mathcal{X}\) Likelihood-Funktion. \(\hat{\vartheta}=\hat{\vartheta}(x)\in\Theta\) heißt Maximum-Likelihood-Schätzer (ML-Schätzer), wenn für festes \(x\) gilt: $$p_{\hat{\vartheta}}(x)\geq p_{\vartheta}(x) \quad \text{für alle } \vartheta\in\Theta.$$
Ist \(f_{\theta}(x)\) eine (stetige) Dichtefunktion (in \(x\)) und \(\vartheta\in\Theta\subset\mathbb{R}^k\), \(k\in\mathbb{N}\), dann heißt die Funktion $$L(\vartheta|x)=f_{\vartheta}(x), \quad \vartheta\in\Theta,$$ für festes \(x\) Likelihood-Funktion. \(\hat{\vartheta}\in\Theta\) heißt Maximum-Likelihood-Schätzer, wenn für festes \(x\) gilt: $$f_{\hat{\vartheta}}(x)\geq f_{\vartheta}(x)\quad \text{für alle }\vartheta\in\Theta.$$
Dadurch wird eine Funktion \(\hat{\vartheta}:\mathcal{X}\rightarrow\Theta\) definiert.
Likelihood einer Stichprobe
Ist \(X_1,\ldots,X_n\) eine Stichprobe von unabhängig und identisch verteilten Zufallsvariablen, und wurde \(\boldsymbol{x}=(x_1,\ldots,x_n)\in\mathbb{R}^n\) beobachtet, dann ist die Likelihood gegeben durch $$L(\vartheta|x)=L(\vartheta|x_1)\cdot\ldots\cdot L(\vartheta|x_n).$$
Log-Likelihood
Die Log-Likelihood ist gegeben durch $$l(\vartheta|\boldsymbol{x})=\ln L(\vartheta|x)=\sum_{i=1}^n\,l(\vartheta|x_i).$$ Hierbei ist \(l(\vartheta|x_i)=\ln f_{\vartheta}(x_i)\) der Likelihood-Beitrag der \(i\)-ten Beobachtung.