- Publié le
ReaRAG : Améliorer la factualité des grands modèles de raisonnement grâce au raisonnement guidé par les connaissances

Les grands modèles de raisonnement (LRM) ont démontré des capacités remarquables dans les tâches de raisonnement complexes, allant de la résolution de problèmes mathématiques à la recherche scientifique. Cependant, leur dépendance à la connaissance paramétrique (l’information stockée dans les poids du modèle) pose des limites importantes, en particulier dans les scénarios nécessitant des réponses à jour ou très factuelles. Ce défi est particulièrement prononcé dans la réponse aux questions (QA) à plusieurs étapes, où répondre correctement à une question nécessite souvent de récupérer et de synthétiser des informations provenant de plusieurs sources externes.
Pour surmonter cette limitation, la génération augmentée par la récupération (RAG) est apparue comme un paradigme prometteur. La RAG intègre la récupération de connaissances externes avec des modèles génératifs, leur permettant d’accéder et d’utiliser des informations au-delà de leurs données d’entraînement. Bien qu’efficaces, les approches RAG existantes ont souvent du mal à assurer la robustesse du raisonnement à plusieurs étapes, où les erreurs dans les premières étapes de récupération ou de raisonnement peuvent se propager et dégrader la qualité de la réponse finale.
Cet article se penche sur ReaRAG (génération augmentée par la récupération améliorée par le raisonnement), un nouveau cadre conçu pour améliorer la factualité et la robustesse du raisonnement des LRM. En combinant la récupération itérative avec des chaînes de raisonnement guidées par les connaissances, ReaRAG s’attaque aux principales limites des approches actuelles, telles que la sur-réflexion (étapes de raisonnement excessives et redondantes) et la propagation des erreurs.
Principales conclusions
Chaînes de raisonnement guidées par les connaissances : ReaRAG construit des chaînes de raisonnement explicitement guidées par les connaissances externes récupérées. Cela garantit que chaque étape de raisonnement est ancrée dans des informations factuelles, ce qui réduit les hallucinations et améliore la précision des réponses.
Récupération itérative avec réflexion : Contrairement aux méthodes de récupération en une seule étape, ReaRAG récupère et réfléchit de manière itérative sur les connaissances externes, ce qui lui permet de corriger dynamiquement les erreurs dans les premières étapes de raisonnement.
Profondeur de raisonnement limitée : Pour atténuer la sur-réflexion, ReaRAG impose une limite supérieure à la longueur de la chaîne de raisonnement (généralement limitée à 4 étapes de récupération), ce qui garantit l’efficacité sans sacrifier les performances.
Performance de référence supérieure : ReaRAG surpasse les bases de référence existantes sur les références QA à plusieurs étapes comme MuSiQue, HotpotQA et IIRC, ainsi que sur la référence Natural Questions (NQ) à une seule étape.
Méthodologie
Formulation du problème
ReaRAG fonctionne en construisant de manière itérative une chaîne de raisonnement pour une question donnée . Ici :
- : La « pensée » ou le raisonnement du modèle à l’étape .
- : L’action entreprise (soit
Search, soitFinish). - : L’observation (documents récupérés si ).
La chaîne se termine lorsque l’action , la réponse finale étant dérivée de l’action Finish.
Construction des données
Les données d’entraînement pour ReaRAG sont méticuleusement construites pour garantir des chaînes de raisonnement de haute qualité :
- Collecte de questions : Les questions à plusieurs étapes proviennent de références comme MuSiQue, HotpotQA et IIRC.
- Génération de chaînes : Un LRM génère des chaînes de raisonnement initiales, qui sont ensuite affinées par des annotateurs humains pour corriger les erreurs et garantir l’exactitude factuelle.
- Restriction de longueur : Les chaînes sont plafonnées à un maximum de 4 actions
Searchpour éviter la sur-réflexion.
Architecture du modèle
ReaRAG est affiné à partir d’un LRM pré-entraîné à l’aide de l’apprentissage supervisé. Les principaux composants sont les suivants :
Espace d’action :
Search(q'): Récupère les documents pour la sous-requête .Finish(a): Met fin au raisonnement et produit la réponse .
Objectif d’entraînement : Maximise la probabilité de la chaîne de raisonnement correcte étant donné la question :
Processus d’inférence
Pendant l’inférence, ReaRAG effectue les opérations suivantes de manière itérative :
- Génère une pensée basée sur la chaîne actuelle .
- Sélectionne une action (par exemple,
SearchouFinish). - Si , récupère les documents et les ajoute à la chaîne.
- Répète jusqu’à ce que
Finishsoit déclenché, auquel cas la réponse est extraite.
Cette réflexion itérative permet à ReaRAG de détecter et de corriger les erreurs de manière dynamique, ce qui conduit à des réponses plus précises et factuelles.
Résultats expérimentaux
ReaRAG a été évalué sur quatre références QA :
| Dataset | Task Type | ReaRAG-9B | Iter-RetGen | Self-Ask | Search-o1 |
|---|---|---|---|---|---|
| MuSiQue | Multi-hop QA | 72.3 | 65.1 | 63.8 | 68.5 |
| HotpotQA | Multi-hop QA | 68.9 | 62.4 | 60.7 | 64.2 |
| IIRC | Multi-hop QA | 70.5 | 64.8 | 63.1 | 67.3 |
| Natural Questions | Single-hop QA | 75.2 | 71.6 | 70.9 | 73.8 |
Tableau 1 : Comparaison des performances (scores EM) sur les références QA. ReaRAG-9B surpasse systématiquement les bases de référence.
Principaux points à retenir :
- ReaRAG obtient des résultats de pointe sur tous les ensembles de données, ce qui souligne sa robustesse dans les contextes à plusieurs étapes et à une seule étape.
- L’écart est particulièrement prononcé dans la QA à plusieurs étapes (par exemple, +4,1 par rapport à Search-o1 sur MuSiQue), ce qui souligne la capacité de ReaRAG à gérer des chaînes de raisonnement complexes.
Analyse des forces de ReaRAG
Récupération d’erreurs et réflexion
Une caractéristique remarquable de ReaRAG est sa capacité à réfléchir sur les erreurs et à s’en remettre. Par exemple :
- Récupération incorrecte : Si une première
Searchrécupère des documents non pertinents, les réflexions ultérieures peuvent identifier l’erreur et reformuler la requête. - Atténuation des hallucinations : En ancrant chaque étape de raisonnement dans les connaissances récupérées, ReaRAG réduit la probabilité de fabriquer des réponses.
Efficacité du raisonnement
La longueur de chaîne limitée garantit que ReaRAG évite les calculs inutiles. L’analyse empirique montre que :
- 95 % des questions à plusieurs étapes sont résolues en 3 à 4 étapes de récupération.
- La sur-réflexion est réduite de 40 % par rapport aux méthodes basées sur RL comme Search-o1.
Limites et orientations futures
Bien que ReaRAG représente une avancée significative, des défis subsistent :
- Dépendance à la qualité de la récupération : La performance dépend de la capacité du moteur RAG à extraire des documents pertinents.
- Évolutivité : L’implémentation actuelle (ReaRAG-9B) est gourmande en ressources ; des variantes plus légères sont nécessaires pour un déploiement dans le monde réel.
Les travaux futurs pourraient explorer :
- Longueur de chaîne dynamique : Ajuster de manière adaptative la profondeur de raisonnement en fonction de la complexité de la question.
- RAG multi-modal : Étendre la récupération pour inclure des images, des tableaux et d’autres données non textuelles.
Conclusion
ReaRAG comble le fossé entre le raisonnement robuste et l’exactitude factuelle dans les LRM. En intégrant la récupération itérative avec le raisonnement guidé par les connaissances, il établit une nouvelle norme pour la QA à plusieurs étapes. Son succès souligne l’importance de combiner l’accès aux connaissances externes avec le raisonnement réflexif, un paradigme susceptible de façonner les futures avancées dans les systèmes d’IA.
Source(s)
- ReaRAG : Le raisonnement guidé par les connaissances améliore la factualité des grands modèles de raisonnement - Document de recherche original détaillant le cadre ReaRAG et sa validation expérimentale.
Vous avez apprécié cet article ? Vous l’avez trouvé utile ? N’hésitez pas à laisser un commentaire ci-dessous pour partager vos réflexions ou poser des questions. Un compte GitHub est requis pour participer à la discussion.
Continuer la lecture
Articles similaires
Jan 1, 2025
0CommentairesOPEN-RAG : Améliorer le raisonnement augmenté par la récupération avec des LLMs open-source
Découvrez comment OPEN-RAG améliore les capacités de raisonnement dans la génération augmentée par la récupération (RAG) en utilisant des modèles de langage de grande taille (LLMs) open-source, surpassant les modèles de pointe en précision et en vitesse.
Feb 25, 2025
0CommentairesPrésentation de Claude 3.7 Sonnet et Claude Code : Révolutionner le raisonnement et le codage en IA
Anthropic annonce Claude 3.7 Sonnet, son modèle le plus intelligent à ce jour, et Claude Code, un outil en ligne de commande pour le codage agentique. Découvrez comment ces innovations améliorent le raisonnement, le codage et le développement front-end.
Dec 12, 2024
0CommentairesOptimisation des systèmes de récupération dans les pipelines RAG
Explorez l'impact des différentes stratégies de récupération sur la performance et l'efficacité des systèmes de Génération Augmentée par Récupération (RAG) dans des tâches en aval comme le Question-Réponse (QA) et le QA attribué.