Untersuchung der Auswirkungen von Prompting-Methoden und externen Tools auf LLM-Halluzinationen

Dieses Papier untersucht, wie verschiedene Prompting-Methoden und der Einsatz externer Tools die „Halluzinationsrate“ (Erzeugung ungenauer oder erfundener Informationen) von Large Language Models (LLMs) beeinflussen. Die Autoren bewerten empirisch verschiedene Prompting-Strategien und Agenten-Frameworks anhand von Benchmark-Datensätzen, um zu verstehen, wie diese Ungenauigkeiten minimiert werden können. (Barkley und van der Merwe, 2024)

Wichtige Punkte

Mehrere Prompting-Techniken, darunter Chain-of-Thought (CoT), Self-Consistency (SC), Tree-of-Thoughts (ToT), Multiagent Debate (MAD), Reflection, Chain-of-Verification (CoVe), Knowledge Graph-based Retrofitting (KGR) und DuckDuckGo Augmentation (DDGA), wurden mit dem Meta-Llama 3 8B-Modell implementiert und getestet.
Diese Techniken wurden anhand von Benchmark-Datensätzen wie Grade School Math 8K (GSM8K), TriviaQA und Massive Multitask Language Understanding (MMLU) bewertet, um ihre Wirksamkeit bei der Reduzierung von Halluzinationen in verschiedenen NLP-Aufgaben zu beurteilen.
Die Studie untersuchte auch die Auswirkungen von Tool-calling-Agenten (LLMs, die mit externen Tools wie Wikipedia, DuckDuckGo und einem Python-Interpreter erweitert wurden) auf die Halluzinationsraten und stellte fest, dass Tools zwar vorteilhaft sein können, aber auch Halluzinationen verstärken können, wenn das Modell nicht ausreichend robust ist.
Die Forschung zeigt, dass die optimale Prompting-Strategie kontextabhängig ist, wobei einfachere Methoden wie Self-Consistency manchmal komplexere Methoden übertreffen.

Die Autoren kommen zu dem Schluss, dass die Wirksamkeit verschiedener Prompting-Strategien zur Reduzierung von LLM-Halluzinationen je nach spezifischer Aufgabe variiert. Während die Erweiterung von LLMs mit externen Tools ihre Fähigkeiten erweitern kann, kann dies auch Halluzinationen verstärken, wenn die Kapazität des Modells begrenzt ist. Weitere Forschung wird vorgeschlagen, um die Kombination verschiedener Prompting-Strategien zu untersuchen und die Halluzinationsraten fortschrittlicherer LLMs bei der Verwendung externer Tools zu bewerten.

Quelle(n):

Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models