Wozu Regression?

$$ \ $$

Sehr viele praktische Fragestellungen lassen sich als eine Regression auffassen. Dabei geht es darum, aus gemessenen Daten Rückschlüsse auf einen deterministischen Zusammenhang zu ziehen.

  • Was ist der Einfluss des Alters eines Angestellten auf dessen Gehalt?
  • Gibt es einen Zusammenhang zwischen dem Wetter und dem DAX Index?
  • Mit welcher Entscheidungsregel lassen sich Gesichter auf Fotos erkennen?
  • Wie groß ist der Wärmeleitkoeffizient eines Werkstoffs?
  • Wie ist der Zusammenhang zwischen Umgebungstemperatur und Bremsweg eines PKW?

Diese Fragen lassen sich auf einer abstrakten Ebene wie folgt formalisieren. Gesucht ist eine Funktion \(x\mapsto f(x)\), die jedem Eingangswert \(x\) (z.B. Alter, Wetter, Foto) ein Ergebnis \(y=f(x)\) zuordnet (Gehalt, Aktienkurs, Name der Person, Bremsweg). Je nach Anwendungsgebiet kann diese Funktion mehr oder weniger präzise beschrieben werden. In der Statistik betrachtet man den Fall, dass der zugrunde liegende Mechanismus zumindest teilweise unbekannt ist. Stattdessen verfügt man über Paare \((x_i, y_i)\) von Datensätzen des Systems, z.B. Messwerte aus Experimenten. Diese sollten \(y_i \approx f(x_i)\) erfüllen, d.h. die untersuchte Fragestellung sinnvoll abbilden.

Die Ungenauigkeit in \(y_i\approx f(x_i)\) kann verschiedene Ursachen haben. Stammen die Daten aus Experimenten, so unterliegen sie in aller Regel Messfehlern bei der Erhebung. Beim Beispiel der Bestimmung des Bremswegs ist es ferner möglich, dass weitere Faktoren einen Einfluss haben (Luftfeuchtigkeit, Materialabnutzung), im Rahmen der Untersuchung aber gar nicht gemessen worden. Dem sollte durch gründliche Planung des Experiments entgegengewirkt werden. In anderen Szenarien ist das System selbst nicht-deterministisch, wie hier das Beispiel der Aktienkurse. Alle diese Möglichkeiten lassen sich formal beschreiben als $$ y_i = f(x_i) + \epsilon_i.$$

Dabei beschreibt \(f\) den deterministischen Teil des Problems, und \(\epsilon_i\) sind die zufälligen Fehler bzw. Schwankungen. Häufig nimmt man an, dass die \(\epsilon_i\) iid sind, d.h. die einzelnen Beobachtungen sind unabhängig voneinander und unterliegen der gleichen Art von Unsicherheit (z.B. gleiche Genauigkeit der Messgeräte). Die folgende Abbildung stellt exemplarisch einen typischen Datensatz zur Regression dar. Der deterministische Zusammenhang \(f(x)=sin(x)\) lässt sich erahnen, aber nicht eindeutig erkennen.

Zur Bestimmung der Funktion \(f\) aus den Daten gibt es eine wachsende Auswahl an Methoden. Klassisch ist die Methode der kleinsten Quadrate. Der resultierende Schätzer \(\hat{f}\) für die Funktion \(f\) wird dabei so gewählt, dass die quadratische Abweichung \(|\hat{f}(x_i)-y_i|^2\) klein wird. Da mehrere Messpunkte vorliegen, betrachtet man das Minimierungsproblem $$\min \sum_{i} |y_i - \hat{f}(x_i)|^2.$$

Da die Daten \(y_i\) durch den zufälligen Fehlerterm \(\epsilon_i\) bestimmt werden, ist auch der Schätzer \(\hat{f}\) zufällig. Es stellt sich also die Frage, inwiefern \(\hat{f}\) tatsächlich den gesuchten Zusammenhang beschreibt. Beispielsweise könnte ein scheinbarer Zusammenhang zwischen Witterung und Aktienkursen auch reiner Zufall sein. An dieser Stelle sind statistische Methoden notwendig um zu entscheiden, was eine übliche Schwankung ist und was hingegen Aufschluss über das untersuchte Phänomen zulässt.

Zum Zwecke der Veranschaulichung beschränken wir uns im Folgenden auf die sog. lineare Regression. Dabei ist die Funktion \(f\) durch einen Vektor \(a=(a_1,a_2,\ldots, a_k)\) parametrisiert von der Form $$f(x)=a_1 \cdot f_1(x) + a_2 \cdot f_2(x) + \ldots + a_k\cdot f_k(x) = \sum_{j=1}^k a_j f_j(x).$$

Konkrete Beispiele sind die typische Regressionsgerade \(f(x) = a_1 + a_2 x\) bzw. häufiger \(f(x)=a+bx\), aber auch Polynome von der Form \(f(x)=a_1 + a_2x + a_3 x^2 +a_4x^3 \ldots\). Beachte: Das Modell ist linear in den Parametern \(a\), nicht notwendigerweise in der Variablen \(x\)! In diesem linearen Modell lässt sich der Schätzer für den Parametervektor \(a\), d.h. die Lösung des linearen Ausgleichsproblems, effizient berechnen. Die explizite Lösung des Minimierungsproblems hat zur Folge, dass sich die Unsicherheit der Parameterschätzer relativ gut quantifizieren lässt. In der linearen Regressionsanalyse wird ein solches Modell verwendet, um Signifikanzaussagen über die relevanten Parameter der Funktion \(f\) zu machen.

Mit der folgenden Applikation lässt sich ein intuitives Verständnis des Regressionsproblems gewinnen.

Es ist zu erkennen, wie das gleiche Modell für neue Zufallszahlen unterschiedliche Schätzungen liefert. Einen wesentlichen Einfluss auf die Güte der Schätzung hat die Standardabweichung \(\sigma\) der Fehlerterme \(\epsilon_i\). Ist \(\sigma\) klein, so ist das Rauschen gering und die beobachteten Werte enstprechen beinahe exakt der zugrundeliegenden deterministischen Funktion \(f\). Eine stärker verrauschtes Signal hingegen führt dazu, dass auch die geschätzte Funktion \(\hat{f}\) unzuverlässiger wird. Ferner ist zu beobachten, dass eine größere Stichprobe zu einer besseren Schätzung der Regressionsfunktion führt. Die zusätzlichen Informationen können also genutzt werden, um die zufälligen Schwankungen herauszumitteln.

Erhöht man die Komplexität der Funktion \(\hat{f}\), indem anstelle einer Geraden nun ein Polynom geschätzt wird, so leidet die Prognosekraft darunter. Das lässt sich vor allem bei kleinen Stichproben deutlich erkennen. Das Polynom ist hinreichend flexibel, die Datenpunkte sehr genau zu approximieren. Dadurch ist es aber schwieriger, das Rasuchen als solches zu erkennen und vom wahren Signal zu unterscheiden. Dieses Phänomen wird auch als Overfitting bezeichnet. In einer linearen Regressionsanalyse bildet es sich durch Konfidenzbereiche für die Parameterwerte ab, die größer sind als für simplere Modelle.

In der Praxis ist es nötig, einen Kompromiss zwischen Modellkomplexität und der statistischen Schätzbarkeit zu finden. Um eine präzise Beschreibung des untersuchten Mechanismus zu erreichen, muss der Ansatz für die Funktion \(\hat{f}\) hinreichend flexibel gewählt werden. Dies kann, je nach Anwendungsfall, z.B. auf Basis physikalischer Gesetzmäßigkeiten oder ingenieurwissenschaftlicher Erfahrungswerte erfolgen. Auf der anderen Seite ist es aufgrund der Unsicherheit in den Messwerten nötig, das Modell einfach genug zu halten, um verlässliche Prognosen anfertigen zu können. So sind beispielsweise in der Ökonometrie lineare Modelle weit verbreitet, um politisch belastbare Aussagen treffen zu können. In der Bildverarbeitung hingegen spielt die Intepretierbarkeit des Modells eine untergeordnete Rolle, so dass die verwendeten Modelle wesentlich umfangreicher sind. Dies ist auch nicht zuletzt der Verfügbarkeit einer deutlich größeren Datenmenge geschuldet.

Siehe auch: