Mehrdimensionale lineare Regression/Schätzfunktion - eindimensional

Aus testwiki
Zur Navigation springen Zur Suche springen

Einleitung

Diese Lerneinheit behandelt mit dem Thema zur eindimensionalen Schätzfunktion die Parameterschätzung für die Steigung und das y-Achsenabschnitt der Regressionsgerade im 2 im Kontext der linearen Regression[1]. Die Lernresource kann als Wiki2Reveal Folien angezeigt werden. Einzelne Abschnitte werden als Folien betrachtet und Änderungen an den Folien wirken sich sofort auf den Inhalt der Folien aus. Dabei werden die folgenden Teilaspekte im Detail behandelt:

  • (1) Wie kann man die Steigung aus den Datenpunkten (xi,yi)2 schätzen?
  • (2) Wie kann man mit berechneter Steigung den y-Achsenabschnitt der Regressiongerade bestimmen?

Zielsetzung

Diese Lernressource zu eindimensionalen Schätzfunktion für Steigung und y-Achsenabschniit für f(x)=mx+b hat das Ziel, den mehrdimensionale Fall einer affinen Abbildung f(x)=Ax+b mit xn, bm und AMat(m×n,) vorzubereiten.

Lernvoraussetzungen

Die Lernressource zum Thema eindimensionalen Schätzfunktion bei der linearen Regression hat die folgenden Lernvoraussetzungen, die zum Verständnis der nachfolgenden Ausführungen hilfreich bzw. notwendig sind.

Daten der linearen Regression

Gegeben Sie d Datenpaare der Form (xi,yi)2 mit:

𝔻:={(xi,yi)2 : i{1,,d}}

Funktionsparameter - Steigung und y-Achsenabschnitt

Gesucht sind bei einer linearen Regression die Steigung a und der y-Achsenabschnitt b für eine Funktion f: mit f(x)=ax+b.

Ideale Fall der Regression - Interpolation

Betrachtet man eine ideale Approximation der Daten 𝔻:={(xi,yi)2 : i{1,,d}}, dann interpoliert die Funktion f alle Daten aus 𝔻 und es gilt f(xi)=yi für alle i{1,,d}.

Fehler in der Approximation der Daten

Die folgenden Abbildung zeigt Datenpunkte in rot und eine blaue Regressionsgerade, die die Datenpunkte nicht interpoliert. Die Approximation der Daten mit einer Funktion f zeigt für die einzelnen Datenpunkte Fehler.

Methode der kleinsten Quadrate

Residuum als Abweichung von einem Sollwert

Ein Residuum bezeichnet dabei die Differenz ri:=yif(xi) zwischen der empirischen Beobachtung yi an der Stelle xi und der geschätzten Funktionswert der Regressionsfunktion f an der Stelle f(xi).

Beispiel - Abweichung von einem Sollwert

Ist a=3, b=2 und der Datenpunkt (x1,y1)=(1,1)2 gegeben, dann wird das Residuum (x1,y1) für f wie folgt berechnet:

r1=y1f(x1)=1f(1)=1(a(1)+b)=1(3(1)+2)=2

Das Residuum ri=2 besagt nun, dass der beobachtet Wert yi=1 um 2 Einheiten über dem geschätzte Funktionswert f(1)=1 liegt.

Fehlerminimierung für die Methode der Kleinsten-Quadrate

Für die gegeben d Datenpaare der Form (xi,yi)2 betrachtet man die quadratischen Einzelfehler der Form

ri2=(yif(xi))2.

Diese Einfehler aggregiert man nun über alles Datenpaare aus 𝔻:={(xi,yi)2 : i{1,,d}} und erhält als quadratischen Gesamtfehler:

ELR(f,𝔻):=i=1dri2=i=1d(yif(xi))2.

Dieser quadratische Fehler der lineare Regression soll nun minimiert werden.

Schätzfunktionen der Kleinste-Quadrate-Schätzer

Aus der Regressionsgleichung yi=f(xi)+ri=axi+b=f(xi)+ri lassen sich die Schätzfunktionen a^ für a und b^ für b ableiten.

Arithmetisches Mittel der Rohdaten

Mit den Rohdaten 𝔻 kann man das arithmetische Mittel der x-Werte und y-Werte bilden:

x:=1ni=1nxi und y:=1ni=1nyi

Schätzer für die Steigung der Regressiongerade

Betrachtet man die Vektoren x𝔻=(x1,,xn)n und y𝔻=(y1,,yn)n aus den Rohdaten 𝔻, so wird die Schätzfunktion für die Steigung a von f: wie folgt definiert:

a^(x𝔻,y𝔻)=i=1n(xix)(yiy)i=1n(xix)2

Schätzer für y-Achsenabschnitt der Regressiongerade

Die Regressionsgerade läuft durch den (x,y)2, dessen Komponenten über das arithmetische Mittel der x-Werte x arithmetische Mittel der y-Werte y gebildet wird. Die Funktionsgleichung f(x)=a^(x𝔻,y𝔻)x+b^(x𝔻,y𝔻)=y liefert dann b^(x𝔻,y𝔻) über

b^(x𝔻,y𝔻)=ya^(x𝔻,y𝔻)x.

Linearität

Die Formeln zeigen auch, dass die Schätzfunktionen a^ und b^ der Regressionsparameter a und b linear von y𝔻=(y1,,yn)n abhängen.

Normalverteilung der Residuuen

Unter der Annahme der Normalverteilung der Residuen ri𝒩(0,σ2) oder wenn die Beobachtungsdaten yi den zentralen Grenzwertsatz erfüllen, folgt, dass auch die Schätzfunktionen der Regressionsparameter a^(𝔻) und b^(𝔻) für die Daten 𝔻 zumindest approximativ normalverteilt sind:

a^(𝔻)a𝒩(β1,σa^2) und b^(𝔻)a𝒩(β0,σb^2).

Aufgaben für Lernende / Studierende

  • Berechnen Sie für die obigen 4 Datenpunkte in der Abbildung die Steigung und den y-Achsenabschnitt der Regressionsgerade!
  • Berechnen Sie die Regressionsgerade mit Datenpunkten Ihrer Wahl mit GNU R!
  • Zeigen Sie die Linearität der Schätzfunktionen a^ und b^ in der zweiten Komponenten y𝔻!

Literatur/Quellennachweise

  1. Groß, J. (2012). Linear regression (Vol. 175). Springer Science & Business Media.


Siehe auch

Seiteninformation

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Mehrdimensionale lineare Regression' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.