Kurs:Mehrdimensionale lineare Regression

Mehrdimensionale lineare Regression

Im Unterschied zu dem eindimensionalen Fall für $x \in ℝ$ und $y \in ℝ$ bei der unten veranschaulichten lineare Regression beschreibt eine mehrdimensionalen lineare Regressionsanalyse einen linearen Zusammenhang $f : ℝ^{n} \to ℝ^{m}$ zwischen einem unabhängigen Vektor $x \in ℝ^{n}$ und einem davon abhängigen Vektor $y \in ℝ^{m}$ .

Gliederung

Das Vorgehen in dieser Lernressource umfasst folgende Schritte:

Daten und Abbildungen - Gegeben sind Daten für einen unbekannten funktionalen Zusammenhang f
Transformation - affin zu linear
Zerlegung einer linearen Abbildung in Komponentenfunktionen
Regression für Komponentenfunktion - exakte Lösung und Approximation
Gradient - lineares Funktional - (Foliensatz)
Gesamtfehler aller Fehlerfunktionen - (Foliensatz)

/Umsetzung in R/

Lineare Regression - eindimensionaler Definitions und Wertebereich

Animation - Multiple lineare Regression

Datei:Regressionsebene im dreidimensionalen Raum.webm

Regressionsebene, die sich an eine „Punktwolke“ im dreidimensionalen Raum anpasst (Fall Dimension Graph $ℝ^{3}$ )

Ziel der linearen Regression

Für die Abbildung $f (x) = A \cdot x + b \in ℝ^{m}$ und Daten $𝔻 : = {(x^{(1)}, y^{(1)}), \dots, (x^{(m)}, y^{(m)})}$ sucht man eine geeignete Matrix $A \in M a t (m \times n, ℝ)$ und einem Vektor $b \in ℝ^{m}$ , sodass der aggregierte quadratische Fehler $E (A, x_{𝔻}, y_{𝔻})$ über alle Daten aus $𝔻$ möglichst klein wird.

E (A, x_{𝔻}, y_{𝔻}) : = \sum_{k = 1}^{d} {‖ f (x^{(k)}) - y^{(k)} ‖}^{2} minimal

Mehrdimensionale Fehlerfunktion

Die Fehlerfunktion für die aggregierten quadratischen Fehler in normierten Räumen wird wie folgt definiert:

E (A, x_{𝔻}, y_{𝔻}) : = \sum_{k = 1}^{m} ‖ f (x^{(k)}) - y^{(k)} ‖^{2} .

Dabei beschreibt $‖ f (x^{(k)}) - y^{(k)} ‖$ die Länge des Fehlervektors.

Datenvektoren in den Einzelfehlern

Der Einzelfehler von einem Datum hängt von den Vektoren $x^{(k)} \in ℝ^{n}$ und $y^{(k)} \in ℝ^{m}$ ab mit:

x_{𝔻} : = (x^{(1)}, \dots, x^{(d)}) y_{𝔻} : = (y^{(1)}, \dots, y^{(d)})

Mit $‖ f (x^{(k)}) - y^{(k)} ‖$ kann man den euklischen Abstand zwischen einem Sollvektor $y^{(k)} \in ℝ^{m}$ aus den Daten $𝔻$ und einem durch $f$ approximierten Vektor $f (x^{(k)}) \in ℝ^{m}$ messen.

Bemerkung - Fehler

Dabei ist $‖ \cdot ‖ : ℝ^{m} \to ℝ_{o}^{+}$ eine Norm auf dem Wertebereich $ℝ^{m}$ der Funktion $f : ℝ^{n} \to ℝ^{m}$ .

3D-Visualisierung - Multiple lineare Regression

Wählt man Datenpunkte $(x, y)$ mit $x = (x_{1}, x_{2}) \in ℝ^{2}$ als unabhängige Variablen und einer eindimensionalen abhängigen Variablen $y_{1} \in ℝ$ , so ist der Graph der affinen Abbildung $f : ℝ^{2} \to ℝ$ eine Ebenen im dreidimensionalen Raum $ℝ^{3} = ℝ^{2} \times ℝ$ , in der man die Datenpunkten die Form $(x_{1}, x_{2}, y_{1}) \in ℝ^{3}$ den den Graphen der affinen Abbildung noch darstellen kann.

Aufgabe - Graph der Regression als Gerade

Betrachten Sie nun einen eindimensionalen Definitionsbereich und einen zweidimensionalen Werterbereich mit Datenpunkte $(x, y_{1}, y_{2})$ , die entlang einer Gerade im dreidimensionalen Raum angeordnet sind. Wie kann man die lineare Abbildung durch zwei standardmäßige lineare Regressionen berechnen?

Ziel der linearen Regression - Komponentenfunktionen

Ist der Wertebereich der linearen Abbildung $f_{a} : ℝ^{n} \times ℝ$ mit $f_{a} (x) = ⟨ a, x ⟩ \in ℝ$ eindimensional, sucht man zu den Datenpunkten $(x^{(k)}, y^{(k)}) \in ℝ^{n} \times ℝ$ mit

𝔻 : = {(x^{(1)}, y^{(1)}, \dots, (x^{(m)}, y^{(m)})}

einen geeigneten Vektor $a \in ℝ^{n}$ , sodass der aggregierte quadratische Fehler $E (A, x_{𝔻}, y_{𝔻})$ über alle Daten aus $𝔻$ möglichst klein wird.

E (a, x_{𝔻}, y_{𝔻}) : = \sum_{k = 1}^{m} | f (x^{(k)}) - y^{(k)} |^{2} minimal

Fehler für Datenpunkte

Für einen einzelnen Datenpunkt $(x, y) = (x_{1}, \dots, x_{n}, y) \in ℝ^{n + 1}$ kann man mit $f_{a} (x) = ⟨ a, x ⟩$ jeweils den Fehler wie folgt angeben:

e (a, x, y) : = f_{a} (x) - y = ⟨ a, x ⟩ - y

Definition der Fehlerfunktion

Nun kann man die Fehlerfunktion $e$ definieren:

\begin{matrix} e : & ℝ^{n} \times ℝ^{n} \times ℝ & \to & ℝ \\ (a, x, y) & \mapsto & e (a, x, y) = ⟨ a, x ⟩ - y \end{matrix}

Implemenation der Fehlerfunktion in R

In der folgenden Implementation bezeichnet der Buchstabde p immer Variablen, die als Parameter der Funktion übergeben werden.

   e_LR <- function (pa,px,py) {
    ## pa : Vektor - n-dimensional a
    ## px : Vektor - n-dimensional x
    ## py : Zahl - Messwert y
    return <-  sum(pa * px) - py 
    ## Rückgabewert: Fehler für (pa,px,py) 
    return
  }

Bemerkung - Skalarprodukt

Das folgende Codefragement berechnet das Skalarprodukt $⟨ a, v ⟩$ von zwei Vektor $a, v \in ℝ^{n}$

sum(pa * px)

Aufruf der Fehlerfunktion in R

Mit der obigen Definition steht nun die Funktion zur Verfügung und man kann den Fehler für gegebene Vektoren $a, x \in ℝ^{n}$ und dem Messwert $y \in ℝ$ berechnen.

  ## Aufruf der Funktion für den Vektor x
  a <- c(1,3,4)
  x <- c(4,2,1)
  sum(a*x) ## Ergebnis <a,x> = 14
  y <- 14.4
  e_LR(a,x,y) ## Ergebnis -0,4

Quadratische Fehler für Datenpunkte

Der quadratische Fehler ergibt aus dem Quadrat der euklidischen Länge (Norm) des Fehlervektors $e$ mit

‖ e ‖^{2} : = ‖ f (x) - y ‖^{2} = {‖ (\begin{matrix} - 1 \\ 1 \end{matrix}) ‖}^{2} = (- 1)^{2} + 1^{2} = 2

Dabei ist die euklidische Norm wie folgt definiert:

‖ y ‖ : = ‖ (\begin{matrix} y_{1} \\ ⋮ \\ y_{m} \end{matrix}) ‖ = \sqrt{\sum_{k = 0}^{m} y_{k}^{2}}

Implementation - Quadratischer Fehler in R

Die Norm ist in R bereits definiert und kann wie folgt berechnet werden.

e <- c(3, 4) ## Fehlervektor mit zwei Komponenten
norm(e,"2")  ## liefert als Länge von e den Wert 5=sqrt(3^2+4^4)=sqrt(25)

Normquadrat - Summe der Komponentenquadrate

Da die Norm im obigen Beispiel quadriert wird, ist der absolute (quadratische) Fehler allgemein die Summe der Quadrate, d.h

‖ y ‖^{2} : = {‖ (\begin{matrix} y_{1} \\ ⋮ \\ y_{m} \end{matrix}) ‖}^{2} = \sum_{k = 0}^{m} y_{k}^{2}

Implementation des quadratischen Fehlers in R

Damit lässt der quadratische Fehler wie folgt berechnen:

error2 <- function (px) {
   return <- sum(px^2)
   ## Rückgabewert: quaderror - quadratischer Fehler
   return
}

## quadratischen Fehler berechnen von v 
v <- c(3,4)
error2(v)   ## liefert den Wert 25 als quadratischen Fehler

## quadratischen Fehler der affinen Abbildung f
e <- f(x) - y
error2(e)

Bemerkung - Dimension des Vektors als Parameter px

Die Funktion error2(px) erlaubt das einsetzen von Spaltenvektoren error2(v) mit beliebiger Anzahl von numerischen Komponenten.

Gradientenabstiegsverfahren und Fehlerfunktion

Ziel des Optimierungsproblems ist es, den Fehler bei mehrdimensionalen linearen Regression zu minimieren. In dem folgende Abschnitt wird das über das Gradientenabstiegsverfahren umgesetzt.

Bemerkung - Aggregation der absoluten Fehler über alle Daten

Bei der Berechnung des Gesamtfehlers über alle Daten macht es Sinn, dass man nicht die absoluten Fehler aufsummiert (da diese mit einem Vorzeichen) versehen sind, sondern Werte als Abweichung von den Daten aufsummiert, die nicht negativ sind. Der Betrag des absoluten Fehlers ist allerdings das Gradientenabstiegsverfahren ungeeignet, da die Betragsfunktion nicht differzierbar ist. Daher verwendet man für die Minimierung Fehlerquadrate.

Partielle Ableitungen des quadratischen Fehlers 1

Für ein lineares Funktional $f_{a} : ℝ^{n} \to ℝ$ und einem einzelnen Datenpunkt $(x, y) = (x_{1}, \dots, x_{n}, y) \in ℝ^{n + 1}$ kann man mit $f_{a} (x) = ⟨ a, x ⟩$ ergibt sich der quadratische Fehler wie folgt:

e (a, x, y)^{2} = (f_{a} (x) - y)^{2} = (⟨ a, x ⟩ - y)^{2}

Partielle Ableitungen des quadratischen Fehlers 2

Für den Gradienten ${Grad}_{a} (e^{2})$ bzgl. der unbekannten Koeffizienten aus $a = (a_{1}, \dots, a_{n}) \in ℝ^{n}$ benötigt man die partiellen Ableitungen $\frac{\partial e^{2}}{\partial a_{k}} (a, x, y)$ der Fehlerquadrate. Mit der Kettenregel ergibt sich für diese partielle Ableitung mit $k \in {1, \dots, n}$ wie folgt:

\frac{\partial e^{2}}{\partial a_{k}} (a, x, y) = 2 \cdot (f_{a} (x) - y) \cdot x_{k}

wobei $x_{k}$ die innere Ableitung von $⟨ a, x ⟩ - y = (\sum_{i = 1}^{n} a_{i} \cdot x_{i}) - y$ nach $a_{k}$ ist.

Gradient des quadratischen Fehlers 1

Der Gradient ${Grad}_{a} (e^{2})$ des quadratischen Fehlers ergibt sich aus den partiellen Ableitungen bzgl. der Argumente $a = (a_{1}, \dots, a_{n})$ . Die weiteren Argumente $x$ und $y$ des quadratischen Fehlers $e^{2}$ werden durch die Trainingsdaten belegt. Da die Definition des Gradienten i.d.R. auf alle Argumente der Funktion bezieht, wird hier in der Definition ${Grad}_{a} (e^{2})$ statt $Grad (e^{2})$ verwendet.

Gradient des quadratischen Fehlers 2

Der Gradient ${Grad}_{a} (e^{2})$ des quadratischen Fehlers für einen einzelnen Datenpunkt $(x, y) = (x_{1}, \dots, x_{n}, y) \in ℝ^{n + 1}$ ergibt sich damit wie folgt.

\begin{matrix} {Grad}_{a} (e^{2}) (a, x, y) & = & (\frac{\partial e^{2}}{\partial a_{1}} (a, x, y), \dots, \frac{\partial e^{2}}{\partial a_{n}} (a, x, y)) \\ = & (2 \cdot (f_{a} (x) - y) \cdot x_{1}, \dots, 2 \cdot (f_{a} (x) - y) \cdot x_{k}) \\ = & 2 \cdot (f_{a} (x) - y) \cdot (x_{1}, \dots, x_{k}) \\ = & 2 \cdot (f_{a} (x) - y) \cdot x \end{matrix}

CAS4Wiki - Partielle Ableitungen

Mit CAS4Wiki können Sie die obigen Ableitung berechnen, siehe z.B. partielle Ableitungen

Gesamtfehler des mehrdimensionalen Regression

Für die Berechnung des Gesamtfehlers der muss man die quadratischen Fehler über alle Datenpunkte aggregrien. Die Daten $𝔻$ für die mehrdimensionale lineare Regression bestehen aus Datenpunkten der Form $(x^{(i)}, y^{(i)}) \in ℝ^{n} \times ℝ^{m}$ :

𝔻 : = {(x^{(i)}, y^{(i)}) \in ℝ^{n} \times ℝ^{m} : i \in {1, \dots, d}}

Wertebereich - eindimensional

Im Folgenden verwendet man Daten mit einen eindimensionalen Wertebereich und einer linearen Funktion $f_{a} : ℝ^{n} \to ℝ$ . Daher liegen die Daten in folgender Form vor.

𝔻 : = {(x^{(i)}, y^{(i)}) \in ℝ^{n} \times ℝ : i \in {1, \dots, d}}

Berechnung des Gesamtfehlers

Für die Berechnung des Gesamtfehlers $E (a, 𝔻)$ werden die quadratischen Fehler für einzelne Datenpunkte $(x^{(i)}, y^{(i)}) \in 𝔻$ aufsummiert mit $x_{𝔻} : = (x^{(1)}, \dots, x^{(d)})$ und $y_{𝔻} : = (y^{(1)}, \dots, y^{(d)})$ .

\begin{matrix} E (a, x_{𝔻}, y_{𝔻}) & : = & \sum_{i = 1}^{d} e (a, x^{(i)}, y^{(i)})^{2} \\ = & \sum_{i = 1}^{d} {(⟨ a, x^{(i)} ⟩ - y^{(i)})}^{2} \end{matrix}

Datenbeispiel

Mehrdimensionale lineare Regression soll als Optimierungsproblem für folgende lineare Abbildung $f_{a}$ mit $a = (a_{1}, a_{2}, a_{3}) \in ℝ^{3}$ und $x = (x_{1}, x_{2}, x_{3}) \in ℝ^{3}$ durchgeführt werden.

f_{a} (x) = ⟨ a, x ⟩ = \sum_{k = 1}^{3} a_{k} \cdot x_{k}

Daten in R in einer CSV-Tabelle

Mit der obigen Dimension von Definitionsbereich und Wertebereich der lineare Abbildung $f_{a} : ℝ^{3} \to ℝ$ haben die tabellarischen Trainingdaten die folgenden Gestalt in einer Datei multilinreg1.csv^[1]

"x1" , "x2" , "x3" , "y"
1  , 2  , 3  , 16.05071 
2  , 3  , 1  , 22.06779 
7  , 0  , 4  , 24.96846
7  , 6  , 5  , 56.06086

Laden der Daten in R aus einer CSV-Tabelle

Speichen Sie zunächst die obige Beispieldatei multlinreg1.csv^[1] in Ihr Verzeichnis mit dem KnitR-Dokument. Das Laden von Dateien in R und KnitR kann bzgl. der obigen Beispieldatei^[1] wie folgt geschehen:

  data <- read.csv("multlinreg1.csv", header=TRUE, stringsAsFactors=FALSE)

Selektieren der Daten für x- und y-Werte

Eine Tabelle enthält ggf. mehr Spalten als die elementare oben genannte Demodatei multlinreg1.csv^[1]. Daher muss man zunächst in R die relevanten Datenspalten für die x- und y-Werte der linearen Regression selektieren.

  data <- read.csv("multlinreg1.csv", header=TRUE, stringsAsFactors=FALSE)
  ## Spalten extrahieren für x_D
  x1 <- data[,1]
  x2 <- data[,2]
  x3 <- data[,3]
  ## Spalten extrahieren für y_D
  y1 <- data[,4] 
  ## Dataframes für die Fehlerfunktion
  x_D <- data.frame(x1,x2,x3)
  y_D <- data.frame(y1)

Implementation die quadratische Fehlerfunktion

Für die Implementation des Gesamtfehlers $E (a, x_{𝔻}, y_{𝔻})$ in R verwendet man die geladenen Daten in data. Die Datenpunkte $(x^{(i)}, y^{(i)}) \in 𝔻$ liegen als Zeilen in der CSV-Datei vor.

  E <- function (pa,px_D,py_D) {
    ## px_D : Dataframe - Liste von x-Vektoren   
    ## py_D : Dataframe - Liste von y-Werten
    ## pa : darstellender Vektor von f_a
    
    ## Fehler pro Datenpunkt 
    datenanzahl <- nrow(px_D)
    e_D <- rep(0,datenanzahl)
    ## Fehler für alle Datenpunkte berechnen 
    for (i in 1:datenanzahl) {
      ## quadratische Einfehler mit Funktion e 
      e_D[i] <- (sum(pa*px_D[i, ]) - py_D[i, ])^2
    } 
    ## Rückgabewert als aufsummierte Einzelfehler setzen
    return <-  sum(e_D) ## datenanzahl
    ## Rückgabewert: return  Gesamtfehler quadratisch
    return
  }

Bemerkung - Implementation Fehlerfunktion

Die obige Funktion $E$ in R berechnet die nachstehende Summe mit einer for-Schleife über die quadratischen Einzelfehler.

\begin{matrix} E (a, x_{𝔻}, y_{𝔻}) & : = & \sum_{i = 1}^{d} \underset{= e_{_{D}} [i]}{\underset{⏟}{{(\underset{𝚜 𝚞 𝚖 (𝚊 * 𝚡_{𝙳} [𝚒])}{\underset{⏟}{⟨ a, x^{(i)} ⟩}} - y^{(i)})}^{2}}} \end{matrix}

Auswertung der quadratischen Gesamtfehlers

Bezogen auf die Beispieldaten^[1] in $𝔻$ kann nun den Fehler für unterschiedliche darstellende Vektoren $a \in ℝ^{3}$ berechnen.

  a <- c(2,3,2)
  E(a,x_D,y_D) ## Ergebnis 260.6786

  a <- c(3,5,2)
  E(a,x_D,y_D) ## Ergebnis 50.21575

Die zweite Setzung des darstellende Vektors $a$ für die Funktion $f_{a} (x) = ⟨ a, x ⟩$ eine kleineren Fehler.

Gradientenabstieg

Beim Gradientenabstieg wird bei der aktuellen Position der Gradient der Fehlerfunktion berechnet und der aktuelle Vektor $a^{(t)} \in ℝ^{3}$ in Richtung des negativen Gradient zu $a^{(t + 1)} \in ℝ^{3}$ verändert, um den Gesamtfehler zu verkleinern.

Gradient des Gesamtfehlers

Mit der Anwendung der Summenregel für den Gradienten einer Summe man den Gradienten des Gesamtfehlers wie folgt berechnen.

\begin{matrix} {Grad}_{a} (E) (a, x_{𝔻}, y_{𝔻}) & = & \sum_{k = 1}^{d} {Grad}_{a} (e^{2}) (a, x^{(i)}, y^{(i)}) \\ = & \sum_{k = 1}^{d} \underset{= {Grad}_{a} (e^{2}) (a, x^{(i)}, y^{(i)})}{\underset{⏟}{2 \cdot (f_{a} (x^{(i)}) - y^{(i)}) \cdot x^{(i)}}} \\ = & 2 \cdot \sum_{k = 1}^{d} (f_{a} (x^{(i)}) - y^{(i)}) \cdot x^{(i)} \end{matrix}

Implementation des Gradienten für den Gesamtfehlers

Für die Implementation des Gesamtfehlers $E (a, x_{𝔻}, y_{𝔻})$ in R verwendet man die geladenen Daten in x_D und y_D. Die Datenpunkte $(x^{(i)}, y^{(i)}) \in 𝔻$ liegen als Zeilen in der CSV-Datei vor.

  GradE <- function (pa,px_D,py_D) {
    ## px_D : Dataframe - Liste von x-Vektoren   
    ## py_D : Dataframe - Liste von y-Werten
    ## pa : darstellender Vektor von f_a
    
    ## Fehler pro Datenpunkt 
    datenanzahl <- nrow(px_D)
    return <- rep(0,length(pa)) 
    e_D <- rep(0,datenanzahl)
    ## Fehler für alle Datenpunkte berechnen 
    for (i in 1:datenanzahl) {
      ## quadratische Einfehler mit Funktion e 
      return <- return + (sum(pa*px_D[i, ]) - py_D[i, ]) * px_D[i, ]
    } 
    ## Rückgabewert: return  Gesamtfehler quadratisch
    return
  }

Quellennachweise

↑ ^1,0 ^1,1 ^1,2 ^1,3 ^1,4 Bert Niehaus (2024) GitHub-Repository KnitR for Education https://github.com/niebert/knitr4education für eine Wikiversity-Lernressource - Datei: multilinreg1.csv

Siehe auch

Seiteninformation

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Maschinelles Lernen' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.

Die Seite wurde als Dokumententyp PanDocElectron-SLIDE erstellt.
Link zur Quelle in Wikiversity: https://de.wikiversity.org/wiki/Kurs:Maschinelles%20Lernen/Mehrdimensionale%20lineare%20Regression
siehe auch weitere Informationen zu Wiki2Reveal und unter Wiki2Reveal-Linkgenerator.

[multlinreg1-1] 1,0 ^1,1 ^1,2 ^1,3 ^1,4 Bert Niehaus (2024) GitHub-Repository KnitR for Education https://github.com/niebert/knitr4education für eine Wikiversity-Lernressource - Datei: multilinreg1.csv

[1]