34 - Statistische Schätzer

Grundbegriffe der schließenden Statistik

Stichprobe

$X_1,\ldots,X_n$ wird Stichprobe vom Stichprobenumfang $n$ genannt, wenn $X_1,\ldots,X_n$ reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum $(\Omega,\mathcal{A},P)$ sind. Der Zufallsvektor $\boldsymbol{X}=(X_1,\ldots,X_n)$ nimmt dann Werte im Stichprobenraum $\mathcal{X}=\{\boldsymbol{X}(\omega):\omega\in\Omega\}\subset\mathbb{R}^n$ an, dessen Elemente $(x_1,\ldots,x_n)$ Realisierungen genannt werden.

Verteilungsmodell

Ein Verteilungsmodell ist eine Menge $\mathcal{P}$ von (möglichen) Verteilungen auf $\mathbb{R}^n$ (für die Stichprobe $(X_1,\ldots,X_n)$). Bei einem parametrischen Verteilungsmodell wird jede Verteilung $P\in\mathcal{P}$ durch Angabe eines Parametervektors $\vartheta$ aus einer Menge $\Theta\in\mathbb{R}^n$ möglicher Vektoren definiert, wobei $\Theta$ dann Parameterraum heißt. Kann die Menge $\mathcal{P}$ nicht durch einen Parameter parametrisiert werden, spricht man von einem nichtparametrisierten Verteilungsmodell.

Schätzer

Ist $X_1,\ldots,X_n$ eine Stichprobe und $T:\mathbb{R}^n\rightarrow\mathbb{R}^d$, $d\in\mathbb{N}$ (oft $d=1$), eine Abbildung, dann heißt $T(X_1,\ldots,X_n)$ Statistik. Die Statistik heißt Schätzfunktion oder Schätzer für den Parameter $\vartheta$, wenn sie in den Parameterraum abbildet, d.h. $T:\mathbb{R}^n\rightarrow\Theta$, und den Parameter $\vartheta$ schätzen soll.

Um Funktionen $g(\vartheta)$ eines Parameters $\vartheta$ zu schätzen, verwendet man Statistiken $T:\mathbb{R}^n\rightarrow\Gamma$ mit $\Gamma=g(\Theta)=\{g(\vartheta)|\vartheta\in\Theta\}$. $T(X_1,\ldots,X_n)$ heißt dann Schätzer für $g(\vartheta)$.

Nichtparametrische Schätzung

Empirische Verteilungsfunktion

Ein nichtparametrischer Schätzer für die Verteilungsfunktion $F(x)=P(X_i\leq x)$, $x\in\mathbb{R}$, ist die empirische Verteilungsfunktion $$\hat{F}_n(x)=\frac{1}{n}\sum_{i=1}^n\,\mathbb{1}_{(-\infty,x]}(X_i), \quad x\in\mathbb{R}.$$

Es gilt $$E(\hat{F}_n(x))=P(X_i\leq x)=F(x), \quad \text{Var}(\hat{F}_n(x))=\frac{F(x)(1-F(x))}{n}.$$

$\hat{F}_n(x)$ konvergiert mit Wahrscheinlichkeit 1 gegen $F(x)$.

Dichteschätzung

Durch den Histogramm-Schätzer wird eine Vergröberung $g(x)$ der Dichtefunktion $f(x)$ geschätzt, für die gilt: $$g(x)=\int_{g_j}^{g_{j+1}}f(x)dx=P(X_1\in(g_j,g_{j+1}]),$$ wenn $x\in(g_j,g_{j+1}]$.

Für festes $x\in(g_j,g_{j+1}]$ ist $n\hat{f}(x)$ binomialverteilt mit Parametern $n$ und $p=p(x)=P(X_1\in(g_j,g_{j+1}])$.

Das Likelihood-Prinzip

Likelihood-Prinzip

Ein Verteilungsmodell ist bei gegebenen Daten plausibel, wenn es die Daten mit hoher Wahrscheinlichkeit erzeugt. Entscheide dich für das plausibelste Verteilungsmodell!

Likelihood-Funktion und Maximum-Likelihood-Schätzer

Ist $p_{\vartheta}(x)$ eine Zähldichte (in $x\in\mathcal{X}$) und $\vartheta\in\Theta\subset\mathbb{R}^k$, $k\in\mathbb{N}$, ein Parameter, dann heißt die Funktion $$L(\vartheta|x)=p_{\vartheta}(x), \quad \vartheta\in\Theta,$$ für eine gegebene (feste) Beobachtung $x\in\mathcal{X}$ Likelihood-Funktion. $\hat{\vartheta}=\hat{\vartheta}(x)\in\Theta$ heißt Maximum-Likelihood-Schätzer (ML-Schätzer), wenn für festes $x$ gilt: $$p_{\hat{\vartheta}}(x)\geq p_{\vartheta}(x) \quad \text{für alle } \vartheta\in\Theta.$$

Ist $f_{\theta}(x)$ eine (stetige) Dichtefunktion (in $x$) und $\vartheta\in\Theta\subset\mathbb{R}^k$, $k\in\mathbb{N}$, dann heißt die Funktion $$L(\vartheta|x)=f_{\vartheta}(x), \quad \vartheta\in\Theta,$$ für festes $x$ Likelihood-Funktion. $\hat{\vartheta}\in\Theta$ heißt Maximum-Likelihood-Schätzer, wenn für festes $x$ gilt: $$f_{\hat{\vartheta}}(x)\geq f_{\vartheta}(x)\quad \text{für alle }\vartheta\in\Theta.$$

Dadurch wird eine Funktion $\hat{\vartheta}:\mathcal{X}\rightarrow\Theta$ definiert.

Likelihood einer Stichprobe

Ist $X_1,\ldots,X_n$ eine Stichprobe von unabhängig und identisch verteilten Zufallsvariablen, und wurde $\boldsymbol{x}=(x_1,\ldots,x_n)\in\mathbb{R}^n$ beobachtet, dann ist die Likelihood gegeben durch $$L(\vartheta|x)=L(\vartheta|x_1)\cdot\ldots\cdot L(\vartheta|x_n).$$

Log-Likelihood

Die Log-Likelihood ist gegeben durch $$l(\vartheta|\boldsymbol{x})=\ln L(\vartheta|x)=\sum_{i=1}^n\,l(\vartheta|x_i).$$ Hierbei ist $l(\vartheta|x_i)=\ln f_{\vartheta}(x_i)$ der Likelihood-Beitrag der $i$-ten Beobachtung.