Large Language Model

Aus testwiki
Zur Navigation springen Zur Suche springen

Einleitung

Ein Vorlage:Lang, kurz Vorlage:Lang (englisch, vereinzelt übertragen großes Sprachmodell), ist ein Sprachmodell, das sich durch seine Fähigkeit zur Textgenerierung auszeichnet. Es handelt sich um ein computerlinguistisches Wahrscheinlichkeitsmodell, das statistische Wort- und Satzfolge-Beziehungen aus einer Vielzahl von Textdokumenten durch einen rechenintensiven Trainingsprozess erlernt hat. Für die mathematische Beschreibung siehe Sprachmodell.

Entstehung und Entwicklung

Große Sprachmodelle erlangen diese Fähigkeiten durch die Verwendung gigantischer Datenmengen, um während des Trainings riesige Mengen von Parametern zu lernen. Dabei verbrauchen sie extrem viel Rechenressourcen.[1]

Anwendung und Einsatz

Große Sprachmodelle sind im weiteren Sinne künstliche neuronale Netze und werden (a priori) entweder durch selbstüberwachtes Lernen oder halbüberwachte Lernmethoden trainiert. Stand 2024 werden meistens Transformer als Netzwerkarchitektur gewählt.[2]

Geschichte

Auf der „Conference on Neural Information Processing Systems“ (NeurIPS) 2017 stellten Google-Forscher unter Ashish Vaswani die Transformer-Architektur in ihrem Papier Attention Is All You Need vor.[3][4] Ziel dieses Papiers war es, die Seq2seq-Technologie aus dem Jahr 2014 zu verbessern, und es basierte hauptsächlich auf dem von Bahdanau et al. 2014 entwickelten Aufmerksamkeitsmechanismus (attention mechanism).[5]

Multimodal Learning

Multimodal Learning verwendet verschieden strukturierte Daten im Bereich der künstlichen Intelligenz:[6]

Textmodellierung

Text ist eine der am häufigsten verwendeten Modalitäten im maschinellen Lernen. Textdaten enthalten strukturierte Informationen, und mithilfe der natürlichen Sprachverarbeitung lässt sich leicht Wissen aus ihnen extrahieren. Die Techniken, die zur Verarbeitung dieser Informationen verwendet werden, umfassen Tokenisierung, Lemmatisierung, Syntaxanalyse, Erkennung von benannten Entitäten und Textklassifizierung.

        1. Bildmodellierung


==== Audiomodellierung

==

Die Audiomodalität umfasst Informationen aus Sprachaufnahmen, Tondateien oder Live-Streams.


Videomodellierung

Videos sind eine leistungsstarke Quelle für multimodale Daten, weil sie visuelle und auditive Informationen kombinieren. Computer Vision und Audioverarbeitungstechniken ermöglichen es, Wissen aus einer Videosequenz zu extrahieren. Dies ermöglicht die Erkennung von sich bewegenden Objekten, die Analyse menschlicher Aktivitäten oder sogar die Erkennung von Gesten.

Bootstrapping Language-Image Pretraining

Die meisten modernen Vision-Language-Modelle benötigen während des Trainings einen hohen Rechenaufwand, weil das Training mit umfangreichen Modellen und Datensätzen erfolgt, vgl. Contrastive Language-Image Pre-training (CLIP). Die Forschung befindet sich an der Schnittstelle zwischen Sehen und Sprache. Daher ist zu erwarten, dass Vision-Language-Modelle von den leicht verfügbaren unimodalen Modellen der Bilderkennung und natürlichen Spracherkennung profitieren können.

Skalierungsgesetze

Passt man für jede Modalität j die sieben Parameter der Gleichung

(N,Dj)=Ej+AjNαj+Bj|Dj|βj

an und minimiert

imodjHσ=0.03[LSE(ajαjlog(Ni),bβlog(Di),ej)Li]

für {aj,bj,ej,αj,βj}, wobei H der Standard-Huberverlust für jeden Durchlauf i und Modalität j ist. Man setz dann Aj=eaj, Bj=ebj, Ej=eej. Um die optimalen Minima zu identifizieren, verwendet man das BGFS-Verfahren auf demselben Gitter der Initialisierungswerte. Die erhaltenen optimalen Werte befinden sich nicht an den Grenzen des Initialisierungsgitters. Die Skalierungsgesetze für jede Modalität sind im Einzelnachweis verfügbar. Die Parameter für jede Modalität variieren erheblich.[7]

Training und Verschlechterung der Ergebnisqualität

Bei LLM und Foundation Models anderer Art (VAE, GMM) kann es durch das andauernde Training in der laufenden Nutzung zur dauerhaften, bis zur Unbrauchbarkeit reichenden, Verschlechterung der Ergebnisqualität kommen (Modellkollaps, model collapse). Dies kann auch nachfolgende Modellversionen betreffen, die mit einem zunehmenden Anteil künstlich generierter Trainingsdaten erstellt werden, da eine Vorsortierung in der Regel durch Webscraping erlangter Daten bisher als zu aufwändig erscheint.[8]

Wikipediaquellen als Trainingsdaten für LLM

Um Fehlinformation durch mit Webinhalten trainierte LLM vorzubeugen, schlugen Forscher der Stanford-Universität 2024 WikiChat vor, ein vorrangig Wikipedia als Wissensbasis nutzendes Sprachmodell.[9] Eine GPT-4-Implementierung habe demnach höhere inhaltliche Richtigkeit aufgewiesen als GPT-4 allein.[10]

Siehe auch

Quellennachweise

Seiten-Information

Wikipedia2Wikiversity

Diese Seite wurde auf Basis der folgenden Wikipedia-Quelle erstellt: