- Publié le
RAPTOR : Amélioration des Modèles de Langage Augmentés par la Récupération avec une Connaissance Organisée en Arbre
Les Grands Modèles de Langage (LLM) ont démontré des capacités remarquables dans un large éventail de tâches de traitement du langage naturel. Leur taille immense leur permet d'encoder de vastes quantités de connaissances du monde au sein de leurs paramètres, servant de puissantes bases de connaissances autonomes. Cependant, cette connaissance paramétrique présente des limites inhérentes. Les LLM peuvent avoir des difficultés avec des informations très spécifiques à un domaine, leur connaissance est statique et devient rapidement obsolète dans un monde en évolution, et la source de leur connaissance interne est souvent opaque, ce qui rend la vérification des faits et le suivi de la provenance difficiles.
L'essor de l'Augmentation par la Récupération
Pour pallier ces limitations, les modèles de langage augmentés par la récupération (RALM) sont apparus comme une solution de premier plan. Cette approche combine la puissance générative des LLM avec des bases de connaissances externes et à jour. Au lieu de s'appuyer uniquement sur des paramètres internes, les RALM interrogent un système de récupération externe pour extraire des documents pertinents ou des extraits de texte en rapport avec une requête ou un contexte donné. Ces informations récupérées sont ensuite fournies au LLM comme contexte supplémentaire, lui permettant de générer des réponses plus précises, actuelles et fondées. Cette méthode offre des avantages significatifs : elle permet aux modèles de s'adapter à de nouvelles informations sans réentraînement coûteux, donne accès à des connaissances de longue traîne et offre une plus grande transparence en permettant aux utilisateurs de retracer les informations générées jusqu'à leur document source.
Les systèmes de récupération traditionnels utilisés dans les RALM indexent généralement de vastes corpus de textes en les divisant en segments plus petits et contigus, souvent des paragraphes ou des segments de taille fixe. Pendant l'inférence, le système récupère un petit nombre de ces segments jugés les plus pertinents pour la requête de l'utilisateur sur la base de métriques de similarité, utilisant généralement des plongements vectoriels denses. Ces segments récupérés sont ensuite transmis au LLM dans le cadre de l'invite d'entrée.
Le Défi des Documents Longs et des Requêtes Complexes
Bien qu'efficace pour de nombreuses tâches, le fait de ne récupérer que quelques courts segments de texte contigus constitue une limitation importante, en particulier lorsqu'il s'agit de documents longs ou de questions qui nécessitent d'intégrer des informations provenant de multiples sections, potentiellement non adjacentes, d'un texte. Les questions complexes exigent souvent une compréhension globale de l'ensemble du contexte du document, la saisie d'éléments thématiques, d'arcs narratifs de personnages ou d'arguments interconnectés qui s'étendent sur des centaines ou des milliers de mots.
Prenons un scénario comme répondre à une question sur les thèmes généraux d'un roman ou comprendre un argument complexe présenté dans différentes sections d'un article technique. Récupérer seulement quelques paragraphes isolés, même s'ils sont individuellement pertinents pour certains mots-clés, peut ne pas fournir au LLM le contexte nécessaire pour synthétiser les informations disséminées dans le document. Cette limitation entrave la capacité du modèle à saisir la structure du discours à grande échelle et à effectuer un raisonnement en plusieurs étapes qui repose sur l'intégration de connaissances à travers de longs textes. Les méthodes existantes basées sur la segmentation contiguë peuvent ne pas capturer toute la profondeur sémantique ou les relations entre des parties éloignées d'un document. La lecture d'extraits isolés de documents techniques ou scientifiques peut même entraîner une perte de contexte important, rendant potentiellement l'information difficile à interpréter, voire trompeuse.
Présentation de RAPTOR : Traitement Abstractif Récursif pour la Récupération Organisée en Arbre
Pour surmonter les limitations de la récupération traditionnelle basée sur des segments contigus, le modèle RAPTOR introduit une nouvelle approche qui structure la connaissance documentaire de manière hiérarchique à l'aide d'un arbre. Cette méthode, Traitement Abstractif Récursif pour la Récupération Organisée en Arbre (Recursive Abstractive Processing For Tree-Organized Retrieval), vise à capturer à la fois les détails granulaires et les informations thématiques de haut niveau, permettant une récupération et une compréhension plus efficaces des textes longs.
L'idée centrale de RAPTOR est de construire une représentation à plusieurs niveaux d'un document, allant des détails fins à la base aux résumés généraux au sommet. Ceci est réalisé grâce à un processus récursif impliquant l'intégration (embedding), le regroupement (clustering) et le résumé.
Comment RAPTOR Construit l'Arbre de Connaissances
La construction de l'arbre RAPTOR est un processus ascendant :
- Segmentation Initiale : Le processus commence par segmenter le long document original en petits segments de texte gérables. Ces segments forment les nœuds feuilles à la couche inférieure de l'arbre.
- Intégration (Embedding) : Chacun de ces segments de texte initiaux est intégré dans un espace vectoriel dense à l'aide d'un modèle d'intégration de texte choisi. Ces intégrations capturent la signification sémantique de chaque segment.
- Regroupement (Clustering) : Les intégrations des nœuds adjacents (initialement les segments de texte) sont regroupées en fonction de leur similarité sémantique. Ce regroupement identifie les segments qui sont conceptuellement liés, même s'ils ne sont pas strictement contigus dans le texte original (bien que le regroupement initial puisse favoriser la contiguïté).
- Résumé : Pour chaque groupe de nœuds identifié, un résumé abstractif est généré. Cette étape de résumé est généralement effectuée par un modèle de langage distinct, qui lit le contenu textuel de tous les nœuds d'un groupe et génère un résumé concis de haut niveau qui capture les points principaux ou les thèmes de ce groupe.
- Création de Nœuds Parents : Chaque résumé généré devient le contenu d'un nouveau nœud dans la couche supérieure. Ces nouveaux nœuds représentent un niveau d'abstraction plus élevé que les nœuds qu'ils résument. Ils stockent également des pointeurs vers leurs nœuds enfants (les segments/résumés de la couche inférieure qui ont été regroupés et résumés).
- Récursivité : Les étapes 2 à 5 sont répétées de manière récursive. Les nœuds de résumé nouvellement créés dans la couche supérieure sont traités comme l'entrée pour l'itération suivante. Leur contenu textuel (les résumés) est intégré, ces intégrations sont regroupées, et les groupes résultants sont résumés pour créer des nœuds pour la couche encore supérieure. Ce processus se poursuit jusqu'à ce qu'un seul nœud racine soit créé, représentant un résumé de l'ensemble du document à son plus haut niveau d'abstraction.
Ce processus récursif aboutit à une structure arborescente où les nœuds feuilles contiennent les segments de texte originaux, et les nœuds aux niveaux progressivement supérieurs contiennent des résumés qui abstrayent les informations de leurs nœuds enfants. Les nœuds aux niveaux intermédiaires fournissent des résumés de sections ou de groupes d'idées, tandis que le nœud racine offre un aperçu de l'ensemble du document. De manière cruciale, cette structure capture explicitement les relations hiérarchiques et permet d'organiser et d'accéder à l'information à différents niveaux de détail.
Récupération Améliorée Pendant l'Inférence
La véritable puissance de la structure arborescente de RAPTOR se manifeste pendant la phase de récupération lorsqu'un utilisateur pose une requête. Contrairement aux méthodes traditionnelles qui ne récupèrent que des segments de texte individuels, RAPTOR peut exploiter la hiérarchie à plusieurs niveaux.
Lorsqu'une requête est reçue, le système peut interroger l'arbre pour trouver les nœuds pertinents. La récupération peut se produire à n'importe quel niveau de l'arbre, ou même sur plusieurs niveaux. Par exemple, une requête peut être pertinente pour des détails spécifiques trouvés dans les nœuds feuilles, un thème plus large résumé dans un nœud intermédiaire, ou le sujet global capturé par le nœud racine.
Le mécanisme de récupération sélectionne les nœuds dont le contenu (texte original ou résumés) est le plus pertinent pour la requête. En récupérant potentiellement des nœuds de différents niveaux, le LLM reçoit un contexte plus riche et plus complet qui inclut à la fois des faits spécifiques et les idées ou sections de plus haut niveau auxquelles ils appartiennent. Cela permet au LLM de synthétiser les informations plus efficacement, de comprendre le contexte plus large et d'effectuer un raisonnement qui nécessite de relier des concepts à travers différentes parties du document original. Par exemple, le LLM peut recevoir à la fois un détail granulaire sur un personnage à partir d'un nœud feuille et un résumé de l'arc narratif du personnage à partir d'un nœud intermédiaire, offrant une compréhension beaucoup plus profonde que le détail seul.
Contributions Clés et Preuves Expérimentales
L'article sur RAPTOR met en évidence plusieurs contributions clés :
- Indexation Hiérarchique Novatrice : L'introduction d'un processus récursif utilisant l'intégration, le regroupement et le résumé pour construire une représentation arborescente hiérarchique de documents longs à des fins de récupération.
- Fourniture de Contexte à Plusieurs Niveaux : La démonstration que la récupération à partir de différents niveaux de cette structure arborescente fournit un contexte supérieur aux LLM par rapport à la récupération de simples segments contigus.
- Validation Expérimentale : La fourniture d'expériences contrôlées utilisant divers modèles de langage (UnifiedQA, GPT-3 et GPT-4) qui montrent des améliorations significatives des performances augmentées par la récupération lors de l'utilisation de RAPTOR sur des collections de documents longs.
- Résultats à la Pointe de la Technologie : L'obtention de nouveaux résultats à la pointe de la technologie sur plusieurs tâches de questions-réponses difficiles qui nécessitent spécifiquement le traitement de textes longs et un raisonnement complexe. Les exemples incluent :
- NarrativeQA : Questions à réponse libre sur des livres et des films.
- QASPER : Questions basées sur des articles de recherche complets en TALN.
- QuALITY : Questions à choix multiples basées sur des passages de longueur moyenne, nécessitant souvent une inférence et une synthèse à travers le texte.
Plus précisément, l'association de la récupération RAPTOR avec GPT-4 a démontré une amélioration significative, telle qu'une augmentation de 20 % de la meilleure performance rapportée sur le benchmark QuALITY en termes de précision absolue. Ce résultat souligne l'efficacité de fournir aux LLM un contexte qui reflète mieux la structure et l'interconnexion des informations au sein de longs documents. Même avec des modèles moins puissants comme UnifiedQA, RAPTOR a montré des gains de performance, indiquant l'applicabilité générale de la méthode.
Comparaison avec les Techniques Existantes
L'article positionne RAPTOR dans le paysage des modèles augmentés par la récupération et des techniques de résumé. Bien que les avancées matérielles aient augmenté la longueur maximale du contexte que les LLM peuvent gérer, les modèles ont souvent du mal à utiliser efficacement des contextes très longs, et leur traitement reste coûteux en calcul et lent. Cela renforce le besoin d'une sélection intelligente de l'information par la récupération.
Les méthodes de récupération existantes reposent principalement sur la segmentation contiguë. Certains travaux connexes en matière de résumé récursif ou de représentation hiérarchique existent, tels que les approches qui résument des segments de texte adjacents (comme LlamaIndex). Cependant, ces méthodes s'appuient souvent fortement sur la contiguïté textuelle pour le regroupement, manquant potentiellement les relations entre des parties éloignées mais sémantiquement connectées d'un document. En utilisant l'intégration et le regroupement avant le résumé, RAPTOR peut regrouper du contenu sémantiquement similaire quelle que soit sa position d'origine dans le texte, capturant potentiellement des interdépendances que les méthodes basées sur la contiguïté ignoreraient. L'approche de résumé récursif permet à RAPTOR de compresser les informations sans perte à travers les couches, tandis que la capacité de récupérer à partir de n'importe quel nœud préserve l'accès aux détails granulaires en cas de besoin, atténuant la perte potentielle d'informations qui peut se produire dans les méthodes reposant uniquement sur des résumés de haut niveau.
La structure hiérarchique arborescente, construite par regroupement et résumé récursifs, est le principal différenciateur de RAPTOR, permettant une stratégie de représentation et de récupération plus sophistiquée pour les textes longs et complexes.
Conclusion
RAPTOR représente une avancée significative dans les modèles de langage augmentés par la récupération en relevant le défi de l'utilisation efficace du contexte de documents longs. Sa méthode novatrice de construction d'une représentation récursive des connaissances, organisée en arbre, par le biais de l'intégration, du regroupement et du résumé, permet aux LLM d'accéder à l'information à des niveaux d'abstraction variés, des détails fins aux résumés de haut niveau.
Les résultats expérimentaux démontrent que cette approche hiérarchique produit des améliorations de performance substantielles sur les tâches nécessitant une compréhension approfondie et l'intégration d'informations provenant de textes longs, atteignant des résultats à la pointe de la technologie sur des benchmarks de premier plan. En fournissant aux LLM une représentation plus structurée et contextuellement riche des documents sources, RAPTOR améliore leur capacité à effectuer des raisonnements complexes et à générer des réponses plus précises et complètes. Cette recherche met en évidence le potentiel des stratégies avancées d'indexation et de récupération pour libérer toutes les capacités des grands modèles de langage lorsqu'ils interagissent avec des corpus de textes volumineux et complexes.
Source(s)
Vous avez apprécié cet article ? Vous l'avez trouvé instructif ? N'hésitez pas à laisser un commentaire ci-dessous pour partager vos réflexions ou poser des questions. Un compte GitHub est requis pour participer à la discussion.