Kurs:Maschinelles Lernen/Ableitungen

Aus testwiki
Zur Navigation springen Zur Suche springen

Nächste Seite: K0 - Vektoren

Definiton

Die Ableitung einer stetigen Funktion f(x) ist durch

f(x)=dfdx=limΔx0f(x+Δx)f(x)Δx

definiert. Sie erlaubt es, die momentane Steigung einer Funktion an der Stelle x und somit die Tangente der Funktion durch den Punkt (x,f(x)) zu bestimmen. Der Differenzenquotient

ΔfΔx=f(x+Δx)f(x)Δx

bestimmt an der Stelle x die Steigung der Sekante durch die Punkte (x,f(x)) und (x+Δx,f(x+Δx)).

Als Beispiel soll die Funktion

f(x)=x2

betrachtet werden. Für diese lässt sich

Δf=f(x+Δx)f(x)=(x+Δx)2x2=x2+2xΔx+(Δx)2x2=Δx(2x+Δx)

bestimmen. Wird der Differenzenquotient

ΔfΔx=2x+Δx

gebildet, kann im Grenzfall Δx0 die Ableitung

f(x)=2x

gefunden werden.

Aufgabe

Bestimme mittels Differenzenquotient die Ableitung der Funktion f(x)=x3

Lösungen

Liste wichtiger Ableitungen

f(x) f(x)
c 0
x 1
x2 2x
xn nxn1
ex ex
ln(x) 1x

Regeln

Ableitungen gehorchen den folgenden Regeln

  • Linearität (af(x)+bg(x))=af(x)+bg(x)
  • Produktregel (f(x)g(x))=f(x)g(x)+f(x)g(x)
  • Kettenregel (f(g(x))=f(g(x))g(x)
  • Quotientenregel (f(x)g(x))=f(x)g(x)f(x)g(x)(g(x))2
  • Umkehrfunktionen (f1(x))=1f(f1(x))

Die obenstehenden Regeln können aus der Definition der Ableitung hergeleitet werden. So kann beispielsweise für die Produktregel die Größe

Δ(fg)=f(x+Δx)g(x+Δx)f(x)g(x)=f(x+Δx)g(x+Δx)f(x)g(x+Δx)+f(x)g(x+Δx)f(x)g(x)

gefunden und damit der Differenzenquotient

Δ(fg)Δx=f(x+Δx)f(x)Δxg(x+Δx)+f(x)g(x+Δx)g(x)Δx

aufgestellt werden. Sind beide Funktionen differenzierbar, so existieren die Grenzwerte der beiden Brüche. Darüber hinaus ist eine Vorraussetzung für Differenzierbarkeit die Stetigkeit der Funktionen, so dass g(x+Δx) gegen g(x) konvergiert. Auf diese Weise kann im Grenzfall Δx0 die Produktregel

(f(x)g(x))=f(x)g(x)+f(x)g(x)

gefunden werden.

Aufgaben

Bestimme f(x) für

  • f(x)=(xa)2a
  • g(x)=11+ex
  • h(x)=ln(x23ex)

Lösungen

Extremstellen von Funktionen

Extremstellen einer Funktion beschreiben ein lokales Minimum oder Maximum einer Funktion. An einer Extremstelle ist die Ableitung der Funktion immer Null. Mit der zweiten Ableitung kann geprüft werden, ob es sich um ein Minimum oder Maximum handelt. Ist die zweite Ableitung auch Null, kann es sich um einen Sattelpunkt handeln. Zur Übersicht kann die folgende Tabelle helfen.

Art der Stelle f(x) f(x)
Maximum =0 <0
Minimum =0 >0
Sattelpunkt =0 =0

Aufgabe

Bestimme das Paar (x,f(x)) für die Extremstelle der Funktion f(x)=0,25x20,5x1,75

Lösungen

Gradienten-Abstieg

Es ist nicht immer möglich, mit einfachen Mitteln die Lage einer Extremstelle zu ermitteln. Als Beispiel kann die Funktion

f(x)=12x2ex

betrachtet werden. Die Ableitung ist durch

f(x)=x+ex

gegeben und zum Finden der Nullstelle muss die Gleichung

x=ex

gelöst werden. Mit elementaren Funktionen ist dies nicht möglich. (Tatsächlich kann diese Gleichung aber durch die eigens dafür definierte Lambert'sche W-Funktion gelöst werden)

Stattdessen kann ein iteratives Verfahren verwendet werden, um sich der Extremstelle zu nähern. Dazu wird an einem beliebigen Punkt x0 gestartet. Häufig werden Probleme so formuliert, dass nur ein Minimum gesucht werden muss, und so soll es hier auch gemacht werden. Liegt x0 leicht rechts eines Minimums, so ist die Steigung dort positiv. Liegt x0 hingegen leicht links eines Minimums, so wird die Steigung dort negativ sein. Das Vorzeichen der Ableitung kann also verwendet werden, um die relative Lage eines neuen Punktes x1 zu bestimmen. Dieser kann durch

x1=x0sgn(f(x0))Δx

mit einer festzulegenden Schrittweite Δx festgelget werden.

Würde die Schrittweite Δx auf einen konstanten Wert gesetzt werden, so würden für große Entfernungen vom Minimum genauso große Schritte gemacht werden, wie für kleine Entfernungen. Darüber hinaus könnte das Minimum entweder per Zufall getroffen werden oder es wird sich eine alternierende Folge zwischen zwei Werten rechts und links des Minimums einstellen. Stattdessen ist es sinnvoll, zu bemerken, dass die Ableitung in der Nähe des Minimums betragsmäßig besonders kleine Werte annimmt. Wird Δx also proportional zu |f(x0)| gewählt, so bleibt die Möglichkeit offen, dem Minimum beliebig nahe zu kommen. Auf diese Weise kann nach dem ersten Schritt die Stelle

x1=x0ηf(x0)

ermittelt werden. Die Proportionalitätskonstante η wird im Rahmen des maschinellen Lernens als Lernrate bezeichnet und zählt zu den sogenannten Hyperparamtern.

Das Verfahren kann nun von der Stelle x1 ausgehend wiederholt werden. Auf diese Weise lässt sich iterativ eine Folge von Stellen

xn+1=xnηf(xn)n0

ermitteln, die bei geeigneter Wahl von x0 und η gegen die Lage des Minimums konvergieren sollte.

Da im Rahmen des maschinellen Lernens Funktionen mehrerer Variablen betrachtet werden, muss auch der Ableitungsbegriff erweitert werden. In diesem Zusammenhang wird der sogenannte Gradient eingeführt und bei diesem Verfahren vom Gradientenabstiegsverfahren gesprochen. Um einen ersten Eindruck dieses Verfahrens zu bekommen, können die GeoGebra-Datei Gradientenabstieg und das Jupyter Notebook Gradientenabstiegsverfahren betrachtet werden.