Veröffentlicht am
RAG

RAGCheck: Bewertung der Leistung von multimodalem Retrieval-Augmented Generation

Dieser Beitrag befasst sich mit dem RAGCheck-Framework, einem neuartigen Ansatz zur Bewertung der Leistung von multimodalen Retrieval-Augmented Generation (RAG)-Systemen. Das Framework, vorgestellt in dem Papier "RAGCheck: Evaluating Multimodal Retrieval Augmented Generation Performance" von Mortaheb et al. (2025), zielt darauf ab, die Zuverlässigkeit von Large Language Models (LLMs) zu verbessern, indem es das Problem der Halluzinationen – falsche oder irrelevante Informationen, die von diesen Systemen generiert werden – angeht.

Einführung in das RAGCheck-Framework

Das RAGCheck-Framework führt zwei neue Metriken ein, um die Leistung von multimodalen RAG-Systemen zu bewerten:

  1. Relevanz-Score (RS): Misst die Relevanz der abgerufenen Daten (sowohl Text als auch Bilder) für die Benutzeranfrage.
  2. Korrektheits-Score (CS): Bewertet die Genauigkeit der generierten Antwort in Bezug auf die abgerufenen Daten.

Diese Metriken sind darauf ausgelegt, die vielschichtige Natur von Halluzinationen zu adressieren, die aus der Antwortgenerierung des LLM, dem Retrieval-Prozess selbst und der Umwandlung multimodaler Daten in Text durch Vision-Language Models (VLMs) entstehen können.

Training und Validierung der RAGCheck-Metriken

Die Autoren trainierten Machine-Learning-Modelle für sowohl RS als auch CS unter Verwendung eines Datensatzes, der aus ChatGPT und menschlichen Bewertungen abgeleitet wurde. Diese Modelle erreichten eine hohe Genauigkeit von etwa 88 % auf Testdaten. Eine weitere Validierung wurde mit einem separaten, von Menschen annotierten Datensatz von 5.000 Proben durchgeführt, der zeigte, dass das RS-Modell CLIP in der Retrieval-Ausrichtung mit menschlichem Urteil übertraf.

Bewertung des Korrektheits-Scores (CS)

Die CS-Bewertung umfasst die Segmentierung der generierten Antwort in Abschnitte, die Klassifizierung dieser Abschnitte als objektiv oder subjektiv und die anschließende Bewertung der Genauigkeit der objektiven Abschnitte im Vergleich zu den ursprünglich abgerufenen Daten (Rohkontext). Dieser Ansatz stellt sicher, dass die generierten Antworten nicht nur relevant, sondern auch korrekt sind, wodurch Halluzinationen reduziert werden.

Fazit

Das RAGCheck-Framework bietet eine robuste Methode zur Bewertung der Leistung von multimodalen RAG-Systemen. Indem es sich sowohl auf die Relevanz der abgerufenen Informationen als auch auf die Korrektheit der generierten Antworten konzentriert, adressiert dieses Framework die Herausforderungen, die durch Halluzinationen entstehen, und bietet ein wertvolles Werkzeug zur Verbesserung der Zuverlässigkeit dieser Systeme. Die Autoren demonstrieren die Wirksamkeit ihres Ansatzes durch empirische Ergebnisse und Vergleiche mit bestehenden Methoden.

Quelle(n):

Weiterlesen

Ähnliche Beiträge