RAGCheck : Évaluation des performances de la génération augmentée par récupération multimodale

Cet article explore le cadre RAGCheck, une approche novatrice pour évaluer les performances des systèmes de génération augmentée par récupération multimodale (RAG). Introduit dans l'article "RAGCheck: Evaluating Multimodal Retrieval Augmented Generation Performance" par Mortaheb et al. (2025), ce cadre vise à améliorer la fiabilité des modèles de langage de grande taille (LLMs) en abordant le problème des hallucinations—des informations incorrectes ou non pertinentes générées par ces systèmes.

Introduction au cadre RAGCheck

Le cadre RAGCheck introduit deux nouvelles métriques pour évaluer les performances des systèmes RAG multimodaux :

Score de pertinence (Relevancy Score, RS) : Mesure la pertinence des données récupérées (à la fois texte et images) par rapport à la requête de l'utilisateur.
Score de précision (Correctness Score, CS) : Évalue l'exactitude de la réponse générée par rapport aux données récupérées.

Ces métriques sont conçues pour aborder la nature multifacette des hallucinations, qui peuvent provenir de la génération de réponse par le LLM, du processus de récupération lui-même, et de la conversion des données multimodales en texte par les modèles vision-langage (VLMs).

Entraînement et validation des métriques RAGCheck

Les auteurs ont entraîné des modèles d'apprentissage automatique pour les scores RS et CS en utilisant un ensemble de données dérivé de ChatGPT et d'évaluations humaines. Ces modèles ont atteint une précision élevée, environ 88 %, sur les données de test. Une validation supplémentaire a été effectuée en utilisant un ensemble de données distinct de 5 000 échantillons annotés par des humains, ce qui a démontré que le modèle RS surpassait CLIP en termes d'alignement de récupération avec le jugement humain.

Évaluation du score de précision (CS)

L'évaluation du CS implique de segmenter la réponse générée en segments, de les classer comme objectifs ou subjectifs, puis de noter la précision des segments objectifs par rapport aux données récupérées originales (contexte brut). Cette approche garantit que les réponses générées sont non seulement pertinentes mais aussi précises, réduisant ainsi les hallucinations.

Conclusion

Le cadre RAGCheck offre une méthode robuste pour évaluer les performances des systèmes RAG multimodaux. En se concentrant à la fois sur la pertinence des informations récupérées et sur la précision des réponses générées, ce cadre aborde les défis posés par les hallucinations et propose un outil précieux pour améliorer la fiabilité de ces systèmes. Les auteurs démontrent l'efficacité de leur approche à travers des résultats empiriques et des comparaisons avec des méthodes existantes.

Source(s) :

RAGCheck: Evaluating Multimodal Retrieval Augmented Generation Performance