Publié le
Abstraction and Reasoning Corpus

Entraînement au moment du test pour le raisonnement abstrait

Cet article explore l'utilisation de l'entraînement au moment du test (Test-Time Training, TTT) pour améliorer les capacités de raisonnement abstrait des grands modèles de langage (LLMs), en se concentrant spécifiquement sur le benchmark Abstraction and Reasoning Corpus (ARC). Les auteurs soutiennent que la mise à jour dynamique des paramètres du modèle pendant l'inférence, en utilisant une perte dérivée des données d'entrée, peut considérablement améliorer les performances sur des tâches de raisonnement nouvelles.

Le Fine-Tuning Ciblé et l'Augmentation des Données sont Cruciaux

Le pré-entraînement du LLM sur des tâches synthétiques similaires à ARC, combiné à une nouvelle stratégie d'augmentation des données "leave-one-out" pendant le TTT, s'est avéré essentiel pour des gains de performance efficaces. Cette stratégie consiste à créer de nouveaux exemples d'entraînement en omettant itérativement un exemple de l'ensemble d'entraînement original et en appliquant diverses transformations inversibles (rotations, retournements, permutations de couleurs, etc.) aux exemples restants.

L'Adaptation par Instance Améliore les Performances

L'entraînement d'adaptateurs spécifiques à chaque tâche en utilisant l'adaptation de bas rang (Low-Rank Adaptation, LoRA) pour chaque tâche ARC a significativement surpassé l'utilisation d'un adaptateur partagé pour toutes les tâches. Cet entraînement individualisé permet au modèle de spécialiser ses paramètres pour chaque problème de raisonnement unique.

L'Inférence Augmentée avec Auto-Cohérence Améliore les Prédictions

Une stratégie d'inférence augmentée, impliquant l'application de transformations géométriques inversibles à l'entrée et l'agrégation des prédictions via un schéma de vote hiérarchique, a encore amélioré la précision. Cette approche exploite les symétries inhérentes aux tâches ARC pour générer plusieurs candidats de prédiction et sélectionner les plus cohérents.

Source(s) :

Continuer la lecture

Articles similaires