Gleitender Mittelwert

Aus testwiki
Zur Navigation springen Zur Suche springen
Ein Beispiel für zwei gleitende Durchschnittskurven
Gleitender Mittelwert von einem mit einer Sinusfunktion überlagerten quadratischem Polynom - Visualisierung zeigt den Grad der Glättung der Originalfunktion in blau mit unterschiedlichen Intervallbreiten bei der Integration
Moving average sine and polynom - visualization of the smoothing with a larger interval for integration
Animation showing the impact of interval width and smoothing by moving average.

In der Statistik ist ein gleitender Mittelwert eine Berechnung zur Analyse von Datenpunkten durch Erstellen einer Reihe von Mittelwerten aus verschiedenen Teilmengen des vollständigen Datensatzes. Es wird auch als 'Moving Average (MA)'[1] oder rolling mean und ist eine Art Limited Impulse Response Filter. Zu den Variationen gehören: einfach, und kumulativ, oder gewichtet Formen (siehe unten).

Zwei Teile der Begriffe "Moving" und "Average" mussten mathematisch definiert werden:

  • Gleiten als additive Operation in Vektorraum(kontinuierlich) oder additive Gruppe. (diskret). Es beinhaltet, eine Referenzposition im sich bewegenden Raum zu haben.
  • Durchschnitt, indem ein Mittelwert für eine Teilmenge der gesammelten Daten entsprechend der Referenzposition im Raum gebildet wird (verallgemeinert Erwartungswert für die Referenzposition).

Bei einer Reihe von Zahlen und einer festen Größe der Teilmenge wird das erste Element des gleitenden Mittelwerts erhalten, indem der Mittelwert der anfänglichen festen Teilmenge der Zahlenreihe gebildet wird. Dann wird die Teilmenge durch "Vorwärtsschalten" modifiziert, d.h. ohne die erste Zahl der Serie und mit dem nächsten Wert in der Teilmenge.

Ein gleitender Durchschnitt wird häufig zusammen mit den Daten dertime series verwendet, um kurzfristige Schwankungen auszugleichen und längerfristige Trends oder Zyklen aufzuzeigen. Der Schwellenwert zwischen kurz- und langfristig hängt von der Anwendung ab, und die Parameter des gleitenden Durchschnitts werden entsprechend eingestellt. Beispielsweise wird es häufig in technical analysis von Finanzdaten wie Aktienprices,returns oder Handelsvolumen verwendet. Es wird auch in economics verwendet, um Bruttoinlandsprodukt, Beschäftigung oder andere makroökonomische Zeitreihen zu untersuchen. Mathematisch gesehen ist ein gleitender Mittelwert eine Art von convolution] und kann daher als Beispiel für einenTiefpassfilter betrachtet werden, der in signal processing verwendet wird. Bei Verwendung mit Nicht-Zeitreihen-Daten filtert ein gleitender Mittelwert höherfrequente Komponenten ohne spezifischen Zeitbezug, obwohl typischerweise eine Art von Ordnung impliziert ist. Vereinfacht betrachtet kann es als Glättung der Daten angesehen werden.

Generischer Ansatz für einen gleitenden Mittwert

Ein Element vV bewegt sich in einem additiven Gruppe oder Vektorraum V'. In einem generischen Ansatz haben wir eine bewegliche Wahrescheinlickeitsverteilung. Pv definiert, wie sich die Werte in der Umgebung von vV auf den gleitenden Durchschnitt auswirken.

Diskretes/stetiges gleitendes Mittel

Anhand von Wahrscheinlichkeitsverteilungen müssen wir zwischen einer

  • diskret (Wahrscheinlichkeitsmassenfunktion pv) und
  • stetig' (Wahrscheinlichkeitsdichtefunktion pv)

eines gleitenden Mittels unterscheiden. Die Terminologie bezieht sich auf Wahrscheinlichkeitsverteilungen und die Semantik der Wahrscheinlichkeitsmasse/Dichtefunktion beschreibt die Verteilung der Wahrscheinlichkeit auf eine Umgebung um den Wert vV. Im diskreten Fall bedeutet die pv(x)=0,2, dass x einen Einfluss von 20% auf den gleitenden Mittelwert für die Berechnung von MA(v) in der Umgebung von v hat.

Animation - stetiges gleitendes Mittel

Stetiger gleitender Mittelwert - animiert

Veschiebung der Wahrscheinlickeitsverteilung auf dem Grundraum

Wenn die Wahrscheinlichkeitsverteilung um v in V verschoben wird. Das bedeutet, dass die Wahrscheinlichkeitsmassenfunktionen pv bzw. die Wahrscheinlichkeitsdichtefunktionen pv durch eine Wahrscheinlichkeitsverteilung p0 am Nullelement der additiven Gruppe bzw. zero vector des Vektorraums erzeugt werden. Aufgrund der Art der gesammelten Daten existiert f(x) für eine Teilmenge TV. In vielen Fällen sind T die Zeitpunkte, zu denen Daten erhoben werden. Die und die Verschiebung einer Verteilung wird durch die folgende Eigenschaft definiert:

  • diskret: Für alle xV erfüllt die Wahrscheinlichkeitsmassenfunktion pv(x):=p0(xv) für vI.
  • kontinuierlich:. Für alle Wahrscheinlichkeitsdichten erfüllt die Funktion pv(x):=p0(xv).

Lernaufgaben

Moving Average berechnet in LibreOffice - Demo-Datei Moving_average_task1.ods für Lernressource

Diese Lernressource basiert auf dem Open Community Approach, so dass die gesamte verwendete Software Open Source und das verwendete Lernmaterial standardmäßig Creative Commons in Wikiversity lizensiert sind:

  • Zufallsdaten als Beispiel für historische Aktienkursdaten in einem Tabellenkalkulationsdokument mit Libre Office Calc] mit der Funktion Cosine und/oder Sine erzeugen.
  • Anwendung eines gleitenden Durchschnitts auf die Wikiversity-Beispieldateien für dieseLernressource auf GitHub[2]
  • Erklären Sie die Unterschiede zwischen der blauen Kurve der Rohdaten und der Anwendung des gleitenden Durchschnitts (rote Kurve).
  • Fügen Sie eine weitere Zeile im LibreOffice Dokument hinzuMoving_average_task1.ods,
    • die den gleitenden Durchschnitt der letzten 10 Werte berechnet.
    • Ändern Sie das Diagramm so, dass auch der zusätzliche gleitende Durchschnitt angezeigt wird,
    • Vergleichen Sie den gleitenden Durchschnitt der letzten 5 Werte mit dem gleitenden Durchschnitt der letzten 10 Werte im LibreOffice Diagramm.

Grundlegende Konzepte für den gleitenden Mittelwert

Ein Element vV bewegt sich in einem Additiv Group (mathematics)] oderVector Space V'. In einem generischen Ansatz haben wir eine beweglicheWahrscheinlichkeitsverteilung. Pv definiert, wie sich die Werte im Umfeld von vV auf den gleitenden Durchschnitt auswirken.

Diskreter/kontinuierlicher gleitender Mittelwert

Anhand von Wahrscheinlichkeitsverteilungen müssen wir unterscheiden zwischen einer

  • diskret (Wahrscheinlichkeitsmassenfunktion pv) und
  • kontinuierlich (Wahrscheinlichkeitsdichtefunktion pv)

gleitender Durchschnitt. Die Terminologie bezieht sich auf probability distributions und die Semantik der Wahrscheinlichkeitsmasse/Dichtefunktion beschreibt die Verteilung der Gewichte um den Wert vV. In der diskreten Einstellung bedeutet die pv(x)=0,2, dass x einen Einfluss von 20% auf den gleitenden Durchschnitt MA(v) für v hat.

Verschiebung von Wahrscheinlichkeitsverteilungen

Wenn die Wahrscheinlichkeitsverteilung um v in V verschoben wird. Das bedeutet, dass die Wahrscheinlichkeitsmassenfunktionen pv bzw. die Wahrscheinlichkeitsdichtefunktionen pv durch eine Wahrscheinlichkeitsverteilung p0 am Nullelement der additiven Gruppe bzw. Nullvektor des Vektorraums erzeugt werden. Aufgrund der Art der gesammelten Daten existiert f(x) für eine Teilmenge TV. In vielen Fällen sind T die Zeitpunkte, zu denen Daten erhoben werden. Die und die Verschiebung einer Verteilung wird durch die folgende Eigenschaft definiert:

  • diskret: Für alle xV erfüllt die Wahrscheinlichkeitsmassenfunktion pv(x):=p0(xv) für vT.
  • stetig: Für alle Wahrscheinlichkeitsdichten erfüllt die Funktion pv(x):=p0(xv).

Der gleitende Durchschnitt wird definiert durch:

  • diskret: (Wahrscheinlichkeitsmassenfunktion pv)
MA(v):=xTpv(x)f(x)

Anmerkung: pv(x)>0 für eine zählbare Teilmenge von V.

  • stetig Wahrscheinlichkeitsdichtefunktion pv>
MA(v):=Tpv(x)f(x)dx

Für die Definition von Wahrscheinlichkeitsmassenfunktionen bzw. Wahrscheinlichkeitsdichtefunktionen pv ist es wichtig, dass der Träger (Maßtheorie) von pv eine Teilmenge von T ist. Dadurch wird sichergestellt, dass 100% der Wahrscheinlichkeitsmasse den gesammelten Daten zugeordnet werden. Der Träger pv der Verteilung ist definiert als:

Supp(pv):={xVpv(x)>0}T.

Einfacher gleitender Mittelwert - diskret

Glättung einer verrauschten Sinusfunktion

In Finanzanwendungen ist ein 'einfach gleitender Durchschnitt (SMA) der ungewichtete Mittelwert der vorherigen n Daten. In Wissenschaft und Technik wird der Mittelwert jedoch normalerweise aus einer gleichen Anzahl von Daten auf beiden Seiten eines zentralen Wertes gebildet. Dadurch wird sichergestellt, dass Schwankungen des Mittelwerts mit den Schwankungen der Daten in Einklang gebracht werden und nicht zeitlich verschoben werden.

Ein Beispiel für einen einfachen, gleich gewichteten laufenden Mittelwert für eine n-Tages-Stichprobe des Schlusskurses ist der Mittelwert der vorherigen n Tagesschlusskurse.

p0(0)=p0(1)==p0((n1))=1n

und p0(x)=0 für x{n+1,,1,0} mit V= als additive Gruppe.

Lassen Sie C(t) die Kosten/Preis des Produktes zur Zeit tV sein. Wenn diese Preise C(0),C(1),,C(97),C(98),C(99),C(100),C(101), sind und wir wollen erstellen ein einfacher gleitender Durchschnitt am Tag t=100 und zurückblickend auf die Zeitspanne von n=5 Tagen, dann lautet die Formel

SMA(100)=15C(100)+15C(99)+15C(98)+15C(97)+15C(96)=15i=04C(100i)=i=0n1p100(100i)C(100i)

Bei der Berechnung aufeinanderfolgender Werte für andere Tage/Zeitpunkte tV= kommt ein neuer Wert in die Summe und ein alter Wert fällt aus, so dass in diesem einfachen Fall eine vollständige Summierung jedes Mal unnötig ist,

SMA(101)=15C(101)+15C(100)+15C(99)+15C(98)+15C(97)
SMA(t)=1ni=0n1C(ti)=i=0n1pt(ti)C(ti)=i=0n1p0(i)C(ti)

Der gewählte Zeitraum hängt von der Art der Bewegung der Zinsen ab, z.B. kurz-, mittel- oder langfristig. In finanzieller Hinsicht kann ein bewegliches Durchschnittsniveau interpretiert werden als support in einem fallenden Markt oder resistance in einem steigenden Markt. Wenn Sie ein Diagramm für SMA(t) und Kostenfunktion C(t) zeichnen, werden Sie feststellen, dass das Diagramm von SMA in der Zeit t inV glatter läuft.

Wenn die verwendeten Daten nicht um den Mittelwert zentriert sind, liegt ein einfacher gleitender Mittelwert um die Hälfte der Stichprobenbreite hinter dem letzten Bezugspunkt zurück. Ein SMA kann auch unverhältnismäßig stark beeinflusst werden, wenn alte Bezugspunkte ausfallen oder neue Daten hereinkommen. Ein Merkmal des SMA ist, dass, wenn die Daten eine periodische Fluktuation aufweisen, die Anwendung eines SMA dieser Periode diese Variation eliminiert (der Durchschnitt enthält immer einen vollständigen Zyklus). Aber ein vollkommen regelmäßiger Zyklus ist selten anzutreffen.[3]

Für eine Reihe von Anwendungen ist es von Vorteil, die durch die Verwendung von nur "vergangenen" Daten verursachte Verschiebung zu vermeiden. Daher kann ein zentraler gleitender Mittelwert berechnet werden, indem Daten verwendet werden, die auf beiden Seiten des Punktes in der Reihe, an dem der Mittelwert berechnet wird, gleichmäßig verteilt sind.[4] Dies erfordert die Verwendung einer ungeraden Anzahl von Bezugspunkten im Probenfenster.

p0(n)=p0(n+1)==p0(1)=p0(0)=p0(1)==p0(n1)=p0(n)=12n+1

und p0(x)=0 für x{n,,1,0,1,,n} mit V= als additive Gruppe.

SMA(t)=12n+1i=nnC(t+i)=i=nnpt(t+i)C(t+i)=i=nnp0(i)C(t+i)

Ein großer Nachteil des SMA ist, dass er eine signifikante Menge des Signals durchlässt, die kürzer als die Fensterlänge ist. Schlimmer noch, es invertiert es tatsächlich. Dies kann zu unerwarteten Artefakten führen, wie z.B. Spitzen im geglätteten Ergebnis, die dort auftreten, wo es Täler in den Daten gab. Es führt auch dazu, dass das Ergebnis weniger glatt ist als erwartet, da einige der höheren Frequenzen nicht richtig entfernt werden.

Kumulierter gleitender Durchschnitt

Kumulativer gleitender Durchschnitt - diskret

In einem kumulativen gleitenden Durchschnitt kommen die Daten in einem geordneten Datumsstrom mit t0={0,1,2,3,} an, und der Benutzer möchte den Durchschnitt aller Daten bis zum aktuellen Bezugspunkt t erhalten. So kann beispielsweise ein Anleger den Durchschnittspreis aller Aktientransaktionen für eine bestimmte Aktie bis zum aktuellen Zeitpunkt t wünschen. Der Ausgangspunkt der Datenerfassung ist t=0. Da jede neue Transaktion zustande kommt, kann der Durchschnittspreis zum Zeitpunkt der Transaktion für alle Transaktionen bis zu diesem Zeitpunkt unter Verwendung des kumulierten Durchschnitts berechnet werden, typischerweise ein gleich gewichteter average der Folge von t+1 Werten x0,x1,xt bis zur aktuellen Zeit t:

CMA(t)=x0+x1++xtt+1.>

Die Brute-Force-Methode zur Berechnung wäre, alle Daten zu speichern und die Summe zu berechnen und bei jeder Ankunft eines neuen Bezugspunktes durch die Anzahl der Bezugspunkte zu dividieren. Es ist jedoch möglich, den kumulierten Mittelwert einfach als neuen Wert zu aktualisieren, xt wird nach der Formel verfügbar:


CMA(t)=xt+tCMA(t1)t+1

Somit entspricht der aktuelle kumulative Durchschnitt CMA(t) für einen neuen Bezugspunkt xt dem vorherigen kumulativen Durchschnitt CMA(t1) zum Zeitpunkt t-1, mal t, plus dem neuesten Bezugspunkt, geteilt durch die Anzahl der bisher erhaltenen Punkte, n+1. Wenn alle Bezugspunkte ankommen (n=N), dann entspricht der kumulative Durchschnitt dem endgültigen Durchschnitt. Es ist auch möglich, eine laufende Summe des Bezugspunktes sowie die Anzahl der Punkte zu speichern und die Summe durch die Anzahl der Bezugspunkte zu dividieren, um bei jeder Ankunft eines neuen Bezugspunktes den CMA zu erhalten.

Die Ableitung der kumulativen Durchschnittsformel ist einfach. Verwendung von

x0+x1++xt=(t+1)CMA(t)

und ähnlich für t+1 wird gesehen, dass

xt=(x0+x1++xt)(x0+x1++xt1)=(t+1)CMA(t)tCMA(t1)

Die Lösung dieser Gleichung für CMA(t) führt zu:

CMA(t)=xt+tCMA(t1)t+1t+1

Kumulativer gleitender Mittelwert - kontinuierlich

Wenn wir eine kontinuierliche Messung von Werten betrachten, z.B. eine Kraft f(t) zur Zeit t. Ziel ist es, die Werte f(t) mit einem kontinuierlich aggregierten gleitendem Mittelwert zu glätten. Wir sehen eine Zeitspanne von t>0 in der Vergangenheit. Als Wahrscheinlichkeitsverteilung verwenden wir eine gleichmäßige Verteilung (Mathematik)] für den Zeitraum [tm,t]. Die Dichtefunktion ist:

pt,m(x)={1mfor tmxt,0for x<tm or x>t.

Anwendung auf die kumulative Definition des gleitenden Durchschnitts in der Zeit t für kontinuierliche Wahrscheinlichkeitsverteilungen, die wir erhalten:

SMAm(t):=pt,m(x)f(x)dx=tmtpt,m(x)f(x)dx=1mtmtf(x)dx

Gleitender Mittelwert angewendet auf Bilder

Pixelization was used to anonymize this photograph


Ein gewichteter Durchschnitt ist ein Durchschnitt, der Multiplikationsfaktoren aufweist, um Daten an verschiedenen Positionen im Samplefenster unterschiedlich zu gewichten. Mathematisch ist der gleitende Mittelwert der convolution der Bezugspunkte mit einer festen Gewichtungsfunktion. Eine Anwendung erstellt eine pixelisation] aus einem digitalen Grafikbild. Für das gesamte Bild auf der rechten Seite wird die Pixelisierung für mehrere Quadrate angewendet. Alle Pixel im Quadrat werden durch den Farbmittelwert aller Pixel im Quadrat ersetzt. Weil Farben durch drei Ganzzahlen definiert sind, so dass der Farbmittelwert für diese Anwendung gerundet werden muss. Um die Farbcodierung mit Ganzzahlen zu verstehen, siehe HTML Color Picker mit der RGB-Farbcodierung. Drei Werte zwischen 0 und 255 (z.B. rgb(255, 153, 102) für hellorange) kodieren eine Farbe. Da es sich bei den HTML-Farben für Rot, Grün, Blau (RGB) um Ganzzahlen handelt, werden die realen Werte des gleitenden Durchschnitts als technische Einschränkung gerundet.

Das Bild 'I mit ' m Pixelhöhe und n Pixelbreite ist die Matrix IMat(m×n,RGB), wobei alle Komponenten der Matrix RGB-Tripel von ganzzahligen Werten zwischen 0 und 255 sind, d.h. RGB:={0,1,,255}3.

Ein einzelnes Pixel in Zeile r und Spalte c wird als I(r,c) bezeichnet. Wenn wir definieren I(r,c):=(255,153,102) dann wird die

  • Die Intensität von Rot ist I(r,c).R=255,
  • Die Intensität von Grün ist I(r,c).G=153,
  • Die Intensität von Rot ist I(r,c).B=102.

Wenn wir berechnen und den Durchschnitt der Farben, berechnen wir den Durchschnitt von Rot, Grün und Blau separat. Als Beispiel berechnen wir einen Durchschnitt von 2×2 Submatrix des Bildes I für die vier Pixel:

  • I(r,c):=(250,103,21) I(r,c+1):=(230,153,102)
  • I(r+1,c):=(255,50,12) I(r+1,c+1):=(151,30,20)

Der berechnete gleitende Durchschnitt für dieses Quadrat ist:

  • Rot:. Ared:=round(250+230+255+1514)=222
  • Grün:. Agreen:=round(103+153+50+304)=84
  • Blau:. Ablau:=round(21+102+12+204)=39

Der berechnete gleitende Durchschnitt für die 2×2 Submatrix des Bildes I ersetzt alle Originalfarben des Quadrats. Lassen Sie IMAMat(m×n,RGB) das Bild mit dem gleitenden Durchschnitt für alle 2×2 Submatrizen gelten, dann wird die ausgewählte Submatrix oben in IMA so aussehen:

  • IMA(r,c):=(222,84,39) <Math>IMA(r,c+1):=(222,84,39)
  • IMA(r+1,c):=(222,84,39) <Math>IMA(r+1,c+1):=(222,84,39)

Im letzten Schritt wird allen Pixeln der 2x2-quadratischen Submatrix die berechnete Durchschnittsfarbe rgb(222, 84, 39) zugewiesen.

Betrachtet man das rechte Beispielbild, so ist die Anwendung des gleitenden Mittelwertes sichtbar, da sie auf eine große Submatrix des Bildes angewendet wird.

Für die Bildverarbeitung V:=× mit dem neutralen Element 0V:=(0,0) als additive Gruppe mit Zusatz: (v1,v2)+(w1,w2):=(v1+w1,v2+w2) und T:={1,m}×{1,,n}V T ist die Menge aller Zeilen- und Spaltenindizes der Pixel. Das Bild wird zerlegt die Quadrate oder sogar Rechtecke Ri. Der gleitende Durchschnitt wird für alle Pixel im Rechteck Ri berechnet, ähnlich wie bei 2×2 oben erwähnt. Der berechnete gleitende Mittelwert aus dem Originalbild I wird allen Pixeln des Quadrats / Rechtecks Ri in IMA zugeordnet. Wenn die Breite und Höhe der Rechtecke Ri im Allgemeinen eine Standardgröße haben. Schließen Sie die Ränder der Bilder, die Größe dieser Rechtecke muss an die verbleibenden Pixel am rechten und unteren Rand des Bildes angepasst werden I.

Siehe auch

Literatur

en:Moving_Average

  1. Hydrologic Variability of the Cosumnes River Floodplain (Booth et al..., San Francisco Estuary and Watershed Science, Volume 4, Issue 2, 2006)
  2. GitHub Sammlung von Unterstützungsdateien für Wikiversity-Lernressourcen (2019) Engelbert Niehaus - GitHub Repository: https://github.com/niebert/wikiversity_files/ - ZIP-Datei für alle Lernressourcen: https://github.com/niebert/wikiversity_files/archive/master.zip - (Zugriff auf 2019/09/24)
  3. Statistische Analyse, Ya-lun Chou, Holt International, 1975, lSBN: 0-03-089422-0, Abschnitt 17.9.
  4. Die Ableitung und Eigenschaften des einfachen zentralen gleitenden Mittelwerts sind vollständig angegeben bei Savitzky-Golay-Filter