- Veröffentlicht am
Dieses Papier untersucht die Verwendung von Test-Time Training (TTT), um die Fähigkeiten von großen Sprachmodellen (LLMs) im Bereich des abstrakten Denkens zu verbessern, mit einem speziellen Fokus auf den Abstraction and Reasoning Corpus (ARC) Benchmark. Die Autoren argumentieren, dass die dynamische Aktualisierung von Modellparametern während der Inferenz, unter Verwendung eines Verlusts, der aus den Eingabedaten abgeleitet wird, die Leistung bei neuen Denkaufgaben erheblich verbessern kann.
Gezieltes Fine-Tuning und Data Augmentation sind entscheidend
Das Vortrainieren des LLM auf synthetischen Aufgaben, die dem ARC ähneln, kombiniert mit einer neuartigen "Leave-One-Out"-Data-Augmentation-Strategie während des TTT, erwies sich als entscheidend für effektive Leistungssteigerungen. Diese Strategie beinhaltet die Erstellung neuer Trainingsbeispiele durch iteratives Weglassen eines Beispiels aus dem ursprünglichen Trainingssatz und die Anwendung verschiedener invertierbarer Transformationen (Rotationen, Spiegelungen, Farbpermutationen usw.) auf die verbleibenden Beispiele.
Per-Instance-Adaptation verbessert die Leistung
Das Training von aufgaben-spezifischen Adaptern unter Verwendung von Low-Rank Adaptation (LoRA) für jede ARC-Aufgabe übertraf die Verwendung eines gemeinsamen Adapters über alle Aufgaben hinweg deutlich. Diese individuelle Anpassung ermöglicht es dem Modell, seine Parameter für jedes einzigartige Denkproblem zu spezialisieren.
Augmented Inference mit Self-Consistency verbessert Vorhersagen
Eine erweiterte Inferenzstrategie, bei der invertierbare geometrische Transformationen auf die Eingabe angewendet und Vorhersagen durch ein hierarchisches Abstimmungsschema aggregiert werden, steigerte die Genauigkeit weiter. Dieser Ansatz nutzt die inhärenten Symmetrien innerhalb der ARC-Aufgaben, um mehrere Vorhersagekandidaten zu generieren und die konsistentesten auszuwählen.
Quelle(n):
Weiterlesen
Ähnliche Beiträge
Dec 8, 2024
0KommentarePydanticAI: Produktionsreife Anwendungen mit Generativer KI
PydanticAI ist ein Python-Framework, das entwickelt wurde, um die Erstellung von produktionsreifen Anwendungen mit Generativer KI zu vereinfachen.
Nov 29, 2024
0KommentareOptimierung der Testzeit-Berechnung für verbesserte LLM-Leistung
Erkunden Sie, wie die Optimierung der Berechnung zur Testzeit die Leistung von Large Language Models (LLMs) effektiver verbessern kann als die Skalierung von Modellparametern.
Nov 25, 2024
0KommentareLiteLLM Übersicht: Erweiterte Funktionen und Anwendungsfälle
LiteLLM ist ein vielseitiges Tool, das entwickelt wurde, um die Interaktion mit einer Vielzahl von Large Language Models (LLMs) über eine einheitliche Schnittstelle zu erleichtern. Es unterstützt über 100 LLMs und bietet Funktionen wie Lastenausgleich, Kostenverfolgung und Wiederholungslogik, was es sowohl für Entwickler als auch für KI-Enablement-Teams geeignet macht.