Publicado el
RAG

RAGCheck: Evaluación del rendimiento de la Generación Aumentada por Recuperación multimodal

Esta publicación profundiza en el marco RAGCheck, un enfoque novedoso para evaluar el rendimiento de los sistemas de Generación Aumentada por Recuperación (RAG) multimodales. Introducido en el artículo "RAGCheck: Evaluating Multimodal Retrieval Augmented Generation Performance" por Mortaheb et al. (2025), este marco tiene como objetivo mejorar la confiabilidad de los Modelos de Lenguaje Grandes (LLM) al abordar el problema de las alucinaciones: información incorrecta o irrelevante generada por estos sistemas.

Introducción al marco RAGCheck

El marco RAGCheck introduce dos métricas novedosas para evaluar el rendimiento de los sistemas RAG multimodales:

  1. Puntuación de Relevancia (RS): Mide la pertinencia de los datos recuperados (tanto texto como imágenes) en relación con la consulta del usuario.
  2. Puntuación de Corrección (CS): Evalúa la precisión de la respuesta generada en relación con los datos recuperados.

Estas métricas están diseñadas para abordar la naturaleza multifacética de las alucinaciones, que pueden surgir de la generación de respuestas del LLM, el proceso de recuperación en sí y la conversión de datos multimodales en texto por parte de los Modelos de Lenguaje Visual (VLM).

Entrenamiento y validación de las métricas de RAGCheck

Los autores entrenaron modelos de aprendizaje automático para RS y CS utilizando un conjunto de datos derivado de ChatGPT y evaluaciones humanas. Estos modelos lograron una alta precisión, alrededor del 88%, en datos de prueba. Se realizó una validación adicional utilizando un conjunto de datos separado de 5,000 muestras anotadas por humanos, lo que demostró que el modelo RS superó a CLIP en la alineación de recuperación con el juicio humano.

Evaluación de la Puntuación de Corrección (CS)

La evaluación de CS implica segmentar la respuesta generada en segmentos, clasificarlos como objetivos o subjetivos, y luego puntuar la precisión de los segmentos objetivos en comparación con los datos recuperados originales (contexto crudo). Este enfoque asegura que las respuestas generadas no solo sean relevantes, sino también precisas, reduciendo así las alucinaciones.

Conclusión

El marco RAGCheck proporciona un método robusto para evaluar el rendimiento de los sistemas RAG multimodales. Al centrarse tanto en la relevancia de la información recuperada como en la corrección de las respuestas generadas, este marco aborda los desafíos planteados por las alucinaciones y ofrece una herramienta valiosa para mejorar la confiabilidad de estos sistemas. Los autores demuestran la efectividad de su enfoque a través de resultados empíricos y comparaciones con métodos existentes.

Fuente(s):

Sigue leyendo

Posts relacionados