Exploration des méthodes de prompting et de l'impact des outils externes sur les hallucinations des LLM

Cet article explore comment différentes méthodes de prompting et l'utilisation d'outils externes affectent le taux d'hallucination (génération d'informations inexactes ou fabriquées) des modèles de langage à grande échelle (LLM). Les auteurs évaluent empiriquement diverses stratégies de prompting et cadres d'agents sur des ensembles de données de référence pour comprendre comment minimiser ces inexactitudes. (Barkley et van der Merwe, 2024)

Points clés

Plusieurs techniques de prompting, notamment Chain-of-Thought (CoT), Self-Consistency (SC), Tree-of-Thoughts (ToT), Multiagent Debate (MAD), Reflection, Chain-of-Verification (CoVe), Knowledge Graph-based Retrofitting (KGR) et DuckDuckGo Augmentation (DDGA), ont été implémentées et testées en utilisant le modèle Meta-Llama 3 8B.
Ces techniques ont été évaluées sur des ensembles de données de référence comme Grade School Math 8K (GSM8K), TriviaQA et Massive Multitask Language Understanding (MMLU) pour évaluer leur efficacité à réduire les hallucinations dans différentes tâches de NLP.
L'étude a également examiné l'impact des agents d'appel d'outils (LLM augmentés avec des outils externes comme Wikipedia, DuckDuckGo et un interpréteur Python) sur les taux d'hallucination, constatant que bien que les outils puissent être bénéfiques, ils peuvent également augmenter les hallucinations si le modèle n'est pas suffisamment robuste.
La recherche indique que la stratégie de prompting optimale dépend du contexte, avec des méthodes plus simples comme Self-Consistency surpassant parfois des méthodes plus complexes.

Les auteurs concluent que l'efficacité des différentes stratégies de prompting pour atténuer les hallucinations des LLM varie en fonction de la tâche spécifique. Bien que l'augmentation des LLM avec des outils externes puisse étendre leurs capacités, elle peut également exacerber les hallucinations si la capacité du modèle est limitée. Des recherches supplémentaires sont suggérées pour explorer la combinaison de différentes stratégies de prompting et pour évaluer les taux d'hallucination des LLM plus avancés lors de l'utilisation d'outils externes.

Source(s) :

Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models