Kurs:Maschinelles Lernen/Lineare Regression in d Dimension

Aus testwiki
Version vom 16. Mai 2024, 16:05 Uhr von imported>Bert Niehaus (Darstellung als Skalarprodukt)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Vorherige Seite: K2 - Lineare Regression in einer Dimension
Nächste Seite: K2 - Feature Engineering

Verallgemeinerung auf d Dimensionen

Wie lässt sich nun eine lineare Regression anwenden, wenn X=d und Y= vorliegt? In einem solchen Fall, kann für ein lineares Modell die Hypothese

hw(x)=w0+k=1dwkxk=k=0dwkxk

mit wd+1, xd und x0=1 verwendet werden.

Darstellung als Skalarprodukt

Die obige Notation der Abbildung durch ein Skalarprodukt mit x=(x1,,xn)d, x=(1,x1,,xn)d+1 und w=(w0,w1,,wn)d+1 ausgedrückt werden:

hw(x)=w,x=k=0dwkxk=w01+k=1dwkxk

Empirisches Risiko

Damit ist das empirische Risiko durch

R^=1Ni=1N(hw(xi)yi)2=1Ni=1N(k=0dwkxikyi)2

gegeben und muss für alle Komponenten von w minimiert werden. Es müssen also alle Ableitungen von R^ nach wl für l{0,1,,d} verschwinden. Daraus lassen sich die l Bedinungen

k=0dwks(xk,xl)=s(y,xl)

herleiten. Bei diesen handelt es sich um ein lineares Gleichungssystem, das bspw. durch den Gauß-Algorithmus gelöst werden kann. Allerdings wird das Verfahren auf der nächsten Seite (Feature Engineering) so erweitert, dass keine linearen Systeme mehr auftreten, weshalb hier eine etwas andere Methode verwendet werden soll.

Gradienten-Abstiegsverfahren

Die Ableitungen des empirischen Risikos nach den einzelnen Parametern können auch als ein Vektor der Form

wR^=(R^w0R^w1R^wd)d+1

zusammen gefasst werden. Dieser Vektor wird als Gradient bezeichnet und zeigt in die Richtung des stärksten Anstiegs des empirischen Risikos. Damit zeigt sein negatives aber auch in jene Richtung, in der das empirische Risiko am stärksten abnimmt. Genau wie im Abschnitt über Ableitungen lässt sich so ein iteratives Verfahren für die Gewichte in der Form

w(n+1)=w(n)ηwR^(w(n))

aufstellen. Dieses wird als Gradientenabstieg bezeichnet. Die Proportionalitätskonstante η wird als Lernrate bezeichnet und ist ein Hyperparameter. Typische Werte für die Lernrate liegen bei η104. Die hier vorgestellte Iteration ist ein naiver Gradientenabstieg. Es kann passieren, dass dieser gar nicht oder nur sehr langsam zum gesuchten globalen Minimum führt. Stattdessen, kann auch ein stochastischer Gradientenabstieg mit einer Auswertung an einem einzelnen Datenpunkt oder mit einer Teilmenge des gesamten Datensatzes (einem Batch) durchgeführt werden. (Dann wird zwischen Iterationen und Epochen unterschieden: Iterationen sind die Anzahl der Updates der Gewichte, während die Zahl der Epochen angibt, wie oft der gesamte Datensatz zum Trainieren verwendet wurde)

Es lässt sich zeigen, dass bei einer linearen Regression der Gradient des empirischen Risikos mit der erweiterten Datenmatrix X_ und dem Ergebnisvektor y durch

wR^(w(n))=2NX_'T(X_w(n)y)

dargestellt werden kann, wobei häufig der Faktor 2N in der Praxis unterdrückt wird.