- Publicado el
HtmlRAG: HTML es mejor que el texto plano para modelar conocimiento recuperado en sistemas RAG
El artículo "HtmlRAG: HTML es mejor que el texto plano para modelar conocimiento recuperado en sistemas RAG" explora el uso de HTML como formato para el conocimiento recuperado en sistemas de Generación Aumentada por Recuperación (RAG). Los sistemas RAG tradicionales convierten documentos HTML a texto plano, lo que resulta en la pérdida de información estructural y semántica. Los autores proponen usar HTML directamente para preservar esta información, argumentando que los modelos de lenguaje grandes (LLM) son capaces de entender HTML sin necesidad de ajustes adicionales.
Introducción
El artículo "HtmlRAG: HTML es mejor que el texto plano para modelar conocimiento recuperado en sistemas RAG" explora el uso de HTML como formato para el conocimiento recuperado en sistemas de Generación Aumentada por Recuperación (RAG). Los sistemas RAG tradicionales convierten documentos HTML a texto plano, lo que resulta en la pérdida de información estructural y semántica. Los autores proponen usar HTML directamente para preservar esta información, argumentando que los modelos de lenguaje grandes (LLM) son capaces de entender HTML sin necesidad de ajustes adicionales.
Puntos clave
- Pérdida de información en la conversión a texto plano: Convertir HTML a texto plano resulta en la pérdida de información estructural y semántica, como encabezados y estructuras de tablas. Esto puede llevar a contenido desordenado y la pérdida de etiquetas importantes.
- Ventajas de HTML: Usar HTML como formato para el conocimiento externo en sistemas RAG preserva la información inherente en los documentos HTML. Los LLM han encontrado documentos HTML durante el preentrenamiento y poseen la capacidad de entender HTML sin necesidad de ajustes adicionales.
- Desafíos y soluciones: HTML contiene contenido adicional como etiquetas, JavaScript y CSS, lo que puede introducir ruido y aumentar los tokens de entrada. Los autores proponen estrategias de limpieza, compresión y poda de HTML para acortar el HTML mientras se minimiza la pérdida de información.
- Validación experimental: Los autores realizaron experimentos en seis conjuntos de datos de preguntas y respuestas, demostrando la superioridad de usar HTML en sistemas RAG. También realizaron estudios de ablación para validar la efectividad de cada componente en su método propuesto.
Conclusión
El artículo concluye que usar HTML como formato para el conocimiento externo en sistemas RAG es más efectivo que usar texto plano. Las estrategias propuestas de limpieza y poda de HTML reducen con éxito la longitud de los documentos HTML mientras retienen información clave, lo que lleva a un mejor rendimiento en diversas tareas de preguntas y respuestas.