ReaRAG : Améliorer la factualité des grands modèles de raisonnement grâce au raisonnement guidé par les connaissances

Les grands modèles de raisonnement (LRM) ont démontré des capacités remarquables dans les tâches de raisonnement complexes, allant de la résolution de problèmes mathématiques à la recherche scientifique. Cependant, leur dépendance à la connaissance paramétrique (l’information stockée dans les poids du modèle) pose des limites importantes, en particulier dans les scénarios nécessitant des réponses à jour ou très factuelles. Ce défi est particulièrement prononcé dans la réponse aux questions (QA) à plusieurs étapes, où répondre correctement à une question nécessite souvent de récupérer et de synthétiser des informations provenant de plusieurs sources externes.

Pour surmonter cette limitation, la génération augmentée par la récupération (RAG) est apparue comme un paradigme prometteur. La RAG intègre la récupération de connaissances externes avec des modèles génératifs, leur permettant d’accéder et d’utiliser des informations au-delà de leurs données d’entraînement. Bien qu’efficaces, les approches RAG existantes ont souvent du mal à assurer la robustesse du raisonnement à plusieurs étapes, où les erreurs dans les premières étapes de récupération ou de raisonnement peuvent se propager et dégrader la qualité de la réponse finale.

Cet article se penche sur ReaRAG (génération augmentée par la récupération améliorée par le raisonnement), un nouveau cadre conçu pour améliorer la factualité et la robustesse du raisonnement des LRM. En combinant la récupération itérative avec des chaînes de raisonnement guidées par les connaissances, ReaRAG s’attaque aux principales limites des approches actuelles, telles que la sur-réflexion (étapes de raisonnement excessives et redondantes) et la propagation des erreurs.

Principales conclusions

Chaînes de raisonnement guidées par les connaissances : ReaRAG construit des chaînes de raisonnement explicitement guidées par les connaissances externes récupérées. Cela garantit que chaque étape de raisonnement est ancrée dans des informations factuelles, ce qui réduit les hallucinations et améliore la précision des réponses.
Récupération itérative avec réflexion : Contrairement aux méthodes de récupération en une seule étape, ReaRAG récupère et réfléchit de manière itérative sur les connaissances externes, ce qui lui permet de corriger dynamiquement les erreurs dans les premières étapes de raisonnement.
Profondeur de raisonnement limitée : Pour atténuer la sur-réflexion, ReaRAG impose une limite supérieure à la longueur de la chaîne de raisonnement (généralement limitée à 4 étapes de récupération), ce qui garantit l’efficacité sans sacrifier les performances.
Performance de référence supérieure : ReaRAG surpasse les bases de référence existantes sur les références QA à plusieurs étapes comme MuSiQue, HotpotQA et IIRC, ainsi que sur la référence Natural Questions (NQ) à une seule étape.

Méthodologie

Formulation du problème

ReaRAG fonctionne en construisant de manière itérative une chaîne de raisonnement $C = \{t_1, a_1, o_1, \dots, t_n, a_n, o_n\}$ pour une question donnée $q$ . Ici :

$t_i$ : La « pensée » ou le raisonnement du modèle à l’étape $i$ .
$a_i$ : L’action entreprise (soit Search, soit Finish).
$o_i$ : L’observation (documents récupérés si $a_i = \text{Search}$ ).

La chaîne se termine lorsque l’action $a_n = \text{Finish}$ , la réponse finale étant dérivée de l’action Finish.

Construction des données

Les données d’entraînement pour ReaRAG sont méticuleusement construites pour garantir des chaînes de raisonnement de haute qualité :

Collecte de questions : Les questions à plusieurs étapes proviennent de références comme MuSiQue, HotpotQA et IIRC.
Génération de chaînes : Un LRM génère des chaînes de raisonnement initiales, qui sont ensuite affinées par des annotateurs humains pour corriger les erreurs et garantir l’exactitude factuelle.
Restriction de longueur : Les chaînes sont plafonnées à un maximum de 4 actions Search pour éviter la sur-réflexion.

Architecture du modèle

ReaRAG est affiné à partir d’un LRM pré-entraîné à l’aide de l’apprentissage supervisé. Les principaux composants sont les suivants :

Espace d’action :
- Search(q') : Récupère les documents pour la sous-requête $q'$ .
- Finish(a) : Met fin au raisonnement et produit la réponse $a$ .
Objectif d’entraînement : Maximise la probabilité de la chaîne de raisonnement correcte étant donné la question :
$\mathcal{L} = -\sum_{i=1}^n \log p(t_i, a_i, o_i \mid q, C_{<i}).$

Processus d’inférence

Pendant l’inférence, ReaRAG effectue les opérations suivantes de manière itérative :

Génère une pensée $t_i$ basée sur la chaîne actuelle $C_{<i}$ .
Sélectionne une action $a_i$ (par exemple, Search ou Finish).
Si $a_i = \text{Search}$ , récupère les documents $o_i$ et les ajoute à la chaîne.
Répète jusqu’à ce que Finish soit déclenché, auquel cas la réponse est extraite.

Cette réflexion itérative permet à ReaRAG de détecter et de corriger les erreurs de manière dynamique, ce qui conduit à des réponses plus précises et factuelles.

Résultats expérimentaux

ReaRAG a été évalué sur quatre références QA :

Dataset	Task Type	ReaRAG-9B	Iter-RetGen	Self-Ask	Search-o1
MuSiQue	Multi-hop QA	72.3	65.1	63.8	68.5
HotpotQA	Multi-hop QA	68.9	62.4	60.7	64.2
IIRC	Multi-hop QA	70.5	64.8	63.1	67.3
Natural Questions	Single-hop QA	75.2	71.6	70.9	73.8

Tableau 1 : Comparaison des performances (scores EM) sur les références QA. ReaRAG-9B surpasse systématiquement les bases de référence.

Principaux points à retenir :

ReaRAG obtient des résultats de pointe sur tous les ensembles de données, ce qui souligne sa robustesse dans les contextes à plusieurs étapes et à une seule étape.
L’écart est particulièrement prononcé dans la QA à plusieurs étapes (par exemple, +4,1 par rapport à Search-o1 sur MuSiQue), ce qui souligne la capacité de ReaRAG à gérer des chaînes de raisonnement complexes.

Analyse des forces de ReaRAG

Récupération d’erreurs et réflexion

Une caractéristique remarquable de ReaRAG est sa capacité à réfléchir sur les erreurs et à s’en remettre. Par exemple :

Récupération incorrecte : Si une première Search récupère des documents non pertinents, les réflexions ultérieures peuvent identifier l’erreur et reformuler la requête.
Atténuation des hallucinations : En ancrant chaque étape de raisonnement dans les connaissances récupérées, ReaRAG réduit la probabilité de fabriquer des réponses.

Efficacité du raisonnement

La longueur de chaîne limitée garantit que ReaRAG évite les calculs inutiles. L’analyse empirique montre que :

95 % des questions à plusieurs étapes sont résolues en 3 à 4 étapes de récupération.
La sur-réflexion est réduite de 40 % par rapport aux méthodes basées sur RL comme Search-o1.

Limites et orientations futures

Bien que ReaRAG représente une avancée significative, des défis subsistent :

Dépendance à la qualité de la récupération : La performance dépend de la capacité du moteur RAG à extraire des documents pertinents.
Évolutivité : L’implémentation actuelle (ReaRAG-9B) est gourmande en ressources ; des variantes plus légères sont nécessaires pour un déploiement dans le monde réel.

Les travaux futurs pourraient explorer :

Longueur de chaîne dynamique : Ajuster de manière adaptative la profondeur de raisonnement en fonction de la complexité de la question.
RAG multi-modal : Étendre la récupération pour inclure des images, des tableaux et d’autres données non textuelles.

Conclusion

ReaRAG comble le fossé entre le raisonnement robuste et l’exactitude factuelle dans les LRM. En intégrant la récupération itérative avec le raisonnement guidé par les connaissances, il établit une nouvelle norme pour la QA à plusieurs étapes. Son succès souligne l’importance de combiner l’accès aux connaissances externes avec le raisonnement réflexif, un paradigme susceptible de façonner les futures avancées dans les systèmes d’IA.

Source(s)

ReaRAG : Le raisonnement guidé par les connaissances améliore la factualité des grands modèles de raisonnement - Document de recherche original détaillant le cadre ReaRAG et sa validation expérimentale.

Vous avez apprécié cet article ? Vous l’avez trouvé utile ? N’hésitez pas à laisser un commentaire ci-dessous pour partager vos réflexions ou poser des questions. Un compte GitHub est requis pour participer à la discussion.