Explorando métodos de prompting y el impacto de herramientas externas en las alucinaciones de LLM

Este artículo explora cómo los diferentes métodos de prompting y el uso de herramientas externas afectan la tasa de "alucinaciones" (generación de información inexacta o fabricada) de los modelos de lenguaje grandes (LLM). Los autores evalúan empíricamente varias estrategias de prompting y marcos de agentes en conjuntos de datos de referencia para comprender cómo minimizar estas inexactitudes. (Barkley y van der Merwe, 2024)

Puntos clave

Se implementaron y probaron varias técnicas de prompting, incluyendo Chain-of-Thought (CoT), Self-Consistency (SC), Tree-of-Thoughts (ToT), Multiagent Debate (MAD), Reflection, Chain-of-Verification (CoVe), Knowledge Graph-based Retrofitting (KGR) y DuckDuckGo Augmentation (DDGA), utilizando el modelo Meta-Llama 3 8B.
Estas técnicas se evaluaron en conjuntos de datos de referencia como Grade School Math 8K (GSM8K), TriviaQA y Massive Multitask Language Understanding (MMLU) para evaluar su efectividad en la reducción de alucinaciones en diferentes tareas de NLP.
El estudio también investigó el impacto de los agentes de llamada a herramientas (LLM aumentados con herramientas externas como Wikipedia, DuckDuckGo y un intérprete de Python) en las tasas de alucinación, encontrando que, aunque las herramientas pueden ser beneficiosas, también pueden aumentar las alucinaciones si el modelo no es lo suficientemente robusto.
La investigación indica que la estrategia de prompting óptima depende del contexto, con métodos más simples como Self-Consistency a veces superando a los más complejos.

Los autores concluyen que la efectividad de las diferentes estrategias de prompting para mitigar las alucinaciones de los LLM varía según la tarea específica. Si bien aumentar los LLM con herramientas externas puede extender sus capacidades, también puede exacerbar las alucinaciones si la capacidad del modelo es limitada. Se sugiere más investigación para explorar la combinación de diferentes estrategias de prompting y evaluar las tasas de alucinación de LLM más avanzados cuando se utilizan herramientas externas.

Fuente(s):

Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models