Kurs:Maschinelles Lernen/Klassifikation mittels Gradientenabstieg

Vorherige Seite: K2 - Feature Engineering
Nächste Seite: K3 - Klassifikation mittels Support Vector Machines

Formulierung des Problems und passender Hypothesen

Als Eingabedaten liegen wieder Punkte $\vec{x}$ aus dem $X = ℝ^{d}$ vor. Für eine binäre Klassifikation, die hier betrachtet werden soll, sind die möglichen Ausgabewerte aus dem Raum $Y = {0, 1}$ . Das bedeutet, es müssen Hypothesen gesucht werden, die Abbildungen der Form

 $h : ℝ^{d} \to {0, 1}$

sind.

Im Kapitel über Vektoren war zu erkennen, dass der Raum $R^{d}$ durch eine Hyperebene, welche durch

 $\vec{n} \cdot \vec{x} - c = 0$

beschrieben wird, in zwei Bereiche geteilt wird. Daher läge es nahe eine Hypothese der Art

 $h_{\vec{w}} (\vec{x}) = Θ (\vec{w} \cdot \vec{x} + w_{0})$

zu formulieren, wobei

 $Θ (x) = {\begin{matrix} 1 & x \geq 0 \\ 0 & x < 0 \end{matrix}$

die Theta-Funktion ist. Diese Form einer Hypothese ist allerdings für ein Gradientenabstiegsverfahren ungeeignet, da die Theta-Funktion an der Stelle $x = 0$ nicht differenzierbar ist.

Statt der Theta-Funktion wird daher die Sigmoidfunktion (auch als logistische Funktion bezeichnet)

 $s i g : ℝ \to (0, 1), x \mapsto s i g (x) = \frac{1}{1 + e^{- x}}$

betrachtet werden. Sie verfügt über die Grenzwerte

 $\lim \limits_{x \to - \infty} s i g (x) = 0 \lim \limits_{x \to + \infty} s i g (x) = 1$

und ist mit der Ableitung

 ${s i g}^{'} (x) = s i g (x) (1 - s i g (x))$

in jedem Punkt differenzierbar. Damit kann dann zur Optimierung die Hypothese

 $h_{\vec{w}} (\vec{x}) = s i g (\vec{w} \cdot \vec{x} + w_{0}) = \frac{1}{1 + e^{- (\vec{w} \cdot \vec{x} + w_{0})}}$

verwendet werden, womit die Idealen Gewichte $\hat{\vec{w}}$ bestimmt werden. Zur schlussendlichen Klassifikation muss aber die Theta-Funktion

 ${\hat{h}}_{\hat{\vec{w}}} (\vec{x}) = Θ (\hat{\vec{w}} \cdot \vec{x} + {\hat{w}}_{0})$

verwendet werden.

Verlustfunktion und empirisches Risiko

Für Klassifikationsverfahren wird mit der Vereinbarung $0 \cdot \ln (0) = 0$ die Kreuzentropie

 $l (h (x), y) = - [y \ln (h (x)) + (1 - y) \ln (1 - h (x))]$

als Verlustfunktion verwendet. Durch Einsetzen der Hypothese mit der Sigmoid-Funktion kann diese zu

 $l (h_{\vec{w}} (\vec{x}), y) = \ln (1 + e x p ((- 1)^{y} (\vec{w} \cdot \vec{x} + w_{0})))$

bestimmt werden.

Für das empirische Risiko

 $\hat{R} = \frac{1}{N} \sum_{i = 1}^{N} l (h_{\vec{w}} ({\vec{x}}_{i}), y_{i})$

für einen vorliegenden Datensatz mit $N$ Datenpunkten kann so der Ausdruck

 $\hat{R} = \frac{1}{N} \sum_{i = 1}^{N} \ln (1 + e x p ((- 1)^{y_{i}} ({\underline{X}}^{'} \vec{w})_{i}))$

gefunden werden. Darin taucht die erweiterte Datenmatrix ${\underline{X}}^{'}$ in einem Matrixvektorprodukt mit $\vec{w}$ auf. (Dies lässt sich in bspw. in Python mit numpy besonders effizient durchführen. Die Summe über $i$ trifft hingegen nicht mit den indizierten Größen auf, so dass diese explizit bestimmt werden muss.)

Wird der Gradient des empirischen Risikos bestimmt, so kann der Ausdruck

 $\frac{\partial \hat{R}}{\partial w_{l}} = \frac{1}{N} \sum_{i = 1}^{N} \frac{(- 1)^{y_{i}} \underline{X}'_{i l}}{1 + e x p (- (- 1)^{y_{i}} ({\underline{X}}^{'} \vec{w})_{i})}$

gefunden werden.

In der Praxis wird hierbei der Faktor $\frac{1}{N}$ oft ignoriert. Durch die Einführung eines Hyperparametrs $a > 0$ kann die Entscheidung an der Sigmoidfunktion mit $s i g (a x)$ noch härter gemacht werden. In diesem Fall nehmen das empirische Risiko und sein Gradient die Formen

 $\hat{R} = \frac{1}{N} \sum_{i = 1}^{N} \ln (1 + e x p (a (- 1)^{y_{i}} ({\underline{X}}^{'} \vec{w})_{i}))$

und

 $\frac{\partial \hat{R}}{\partial w_{l}} = \frac{1}{N} \sum_{i = 1}^{N} \frac{a (- 1)^{y_{i}} \underline{X}'_{i l}}{1 + e x p (- a (- 1)^{y_{i}} ({\underline{X}}^{'} \vec{w})_{i})}$

an.

Feature Engineering

Wie auch bei linearen Regressionen lassen sich Klassifikationsprobleme weiterhin durch lineare Zusammenhänge lösen, wenn ein Feature Engineering durchgeführt wird. Dazu kann folgendes Beispiel betrachtet werden. Im zweidimensionalen Raum $X = ℝ^{2}$ sollen Punkte in zwei Kategorien $Y = {0, 1}$ klassifiziert werden. Durch Augenmaß ist bereits zu erkennen, dass die Separation durch einen Kreis mit Radius $1$ erfolgen könnte. Ein solcher wird durch

 $x_{1}^{2} + x_{2}^{2} = 1 \Leftrightarrow 1 \cdot x_{1}^{2} + 1 \cdot x_{2}^{2} - 1 = 0$

beschrieben. Dies stellt aber einen linearen Zusammenhang in $x_{1}^{2}$ und $x_{2}^{2}$ dar. Wird insgesamt der Grad $g$ betrachtet, müssen wesentlich mehr Terme berücksichtigt werden. So würde sich für eine Feature Map mit dem Grad $g = 2$ die Form

 $ϕ : ℝ^{2} \to ℝ^{5}, (\begin{matrix} x_{1} \\ x_{2} \end{matrix}) \mapsto (\begin{matrix} x_{1} \\ x_{2} \\ x_{1}^{2} \\ x_{1} x_{2} \\ x_{2}^{2} \end{matrix})$

ergeben. Typischerweise wird eine Feature Map die Form

 $ϕ : ℝ^{d} \to ℝ^{m}$

mit $m ≫ d$ haben. Aus $ϕ (\vec{x})$ wird dann die erweiterten Datenmatrix ${\underline{X}}^{'}$ für das oben beschriebene Gradientenabstiegsverfahren erstellt.

Kurs:Maschinelles Lernen/Klassifikation mittels Gradientenabstieg

Formulierung des Problems und passender Hypothesen

Verlustfunktion und empirisches Risiko

Feature Engineering

Navigationsmenü

Suche