RAPTOR: Mejora de Modelos de Lenguaje Aumentados por Recuperación con Conocimiento Organizado en Árbol

Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han demostrado capacidades notables en una amplia gama de tareas de procesamiento del lenguaje natural. Su inmenso tamaño les permite codificar grandes cantidades de conocimiento del mundo dentro de sus parámetros, sirviendo como potentes almacenes de conocimiento independientes. Sin embargo, este conocimiento paramétrico tiene limitaciones inherentes. Los LLMs pueden tener dificultades con información altamente específica de un dominio, su conocimiento es estático y se vuelve obsoleto rápidamente en un mundo cambiante, y la fuente de su conocimiento interno es a menudo opaca, lo que dificulta la verificación de hechos y el seguimiento de la procedencia.

El Auge de la Aumentación por Recuperación

Para abordar estas limitaciones, los modelos de lenguaje aumentados por recuperación (RALMs, por sus siglas en inglés) han surgido como una solución prominente. Este enfoque combina el poder generativo de los LLMs con bases de conocimiento externas y actualizadas. En lugar de depender únicamente de parámetros internos, los RALMs consultan un sistema de recuperación externo para obtener documentos relevantes o fragmentos de texto pertinentes a una consulta o contexto dado. Esta información recuperada se proporciona luego al LLM como contexto suplementario, permitiéndole generar respuestas más precisas, actuales y fundamentadas. Este método ofrece ventajas significativas: permite que los modelos se adapten a nueva información sin un costoso reentrenamiento, proporciona acceso a conocimiento de cola larga y ofrece una mayor transparencia al permitir a los usuarios rastrear la información generada hasta su documento de origen.

Los sistemas de recuperación tradicionales utilizados en los RALMs suelen indexar grandes corpus de texto dividiéndolos en fragmentos más pequeños y contiguos, a menudo párrafos o segmentos de tamaño fijo. Durante la inferencia, el sistema recupera un pequeño número de estos fragmentos que se consideran más relevantes para la consulta del usuario basándose en métricas de similitud, generalmente utilizando incrustaciones vectoriales densas (dense vector embeddings). Estos fragmentos recuperados se pasan luego al LLM como parte de la instrucción de entrada (prompt).

El Desafío con Documentos Extensos y Consultas Complejas

Aunque eficaz para muchas tareas, la dependencia de recuperar solo unos pocos fragmentos de texto cortos y contiguos presenta una limitación significativa, particularmente cuando se trata de documentos extensos o preguntas que requieren integrar información de múltiples secciones de un texto, potencialmente no adyacentes. Las preguntas complejas a menudo exigen una comprensión holística de todo el contexto del documento, captando elementos temáticos, arcos de personajes o argumentos interconectados que se extienden a lo largo de cientos o miles de palabras.

Considere un escenario como responder una pregunta sobre los temas generales de una novela o comprender un argumento complejo presentado en diferentes secciones de un artículo técnico. Recuperar solo unos pocos párrafos aislados, incluso si son individualmente relevantes para ciertas palabras clave, puede no proporcionar al LLM el contexto necesario para sintetizar información dispersa por todo el documento. Esta limitación dificulta la capacidad del modelo para capturar la estructura del discurso a gran escala y realizar un razonamiento de múltiples pasos que depende de la integración del conocimiento a través de textos extensos. Los métodos existentes basados en la segmentación contigua pueden no capturar la profundidad semántica completa o las relaciones entre partes distantes de un documento. Leer fragmentos aislados de documentos técnicos o científicos puede incluso llevar a una pérdida de contexto importante, lo que podría dificultar la interpretación de la información o incluso hacerla engañosa.

Presentando RAPTOR: Procesamiento Abstractivo Recursivo para Recuperación Organizada en Árbol

Para superar las limitaciones de la recuperación tradicional basada en fragmentos contiguos, el modelo RAPTOR introduce un enfoque novedoso que estructura el conocimiento del documento jerárquicamente utilizando un árbol. Este método, Procesamiento Abstractivo Recursivo para Recuperación Organizada en Árbol (Recursive Abstractive Processing For Tree-Organized Retrieval), tiene como objetivo capturar tanto detalles granulares como información temática de alto nivel, permitiendo una recuperación y comprensión más efectivas de textos extensos.

La idea central detrás de RAPTOR es construir una representación multinivel de un documento que va desde detalles de grano fino en la parte inferior hasta resúmenes amplios en la parte superior. Esto se logra mediante un proceso recursivo que involucra incrustación (embedding), agrupamiento (clustering) y resumen (summarization).

Cómo RAPTOR Construye el Árbol de Conocimiento

La construcción del árbol RAPTOR es un proceso ascendente (bottom-up):

Fragmentación Inicial (Initial Chunking): El proceso comienza segmentando el documento extenso original en fragmentos de texto pequeños y manejables. Estos fragmentos forman los nodos hoja en la capa inferior del árbol.
Incrustación (Embedding): Cada uno de estos fragmentos de texto iniciales se incrusta en un espacio vectorial denso utilizando un modelo de incrustación de texto elegido. Estas incrustaciones capturan el significado semántico de cada fragmento.
Agrupamiento (Clustering): Las incrustaciones de nodos adyacentes (inicialmente los fragmentos de texto) se agrupan según su similitud semántica. Esta agrupación identifica fragmentos que están conceptualmente relacionados, incluso si no son estrictamente contiguos en el texto original (aunque el agrupamiento inicial podría favorecer la adyacencia).
Resumen (Summarization): Para cada clúster de nodos identificado, se genera un resumen abstractivo. Este paso de resumen generalmente lo realiza un modelo de lenguaje separado, que lee el contenido textual de todos los nodos dentro de un clúster y genera un resumen conciso y de alto nivel que captura los puntos principales o temas de ese grupo.
Creación de Nodos Padre: Cada resumen generado se convierte en el contenido de un nuevo nodo en la capa superior. Estos nuevos nodos representan un nivel de abstracción más alto que los nodos que resumen. También almacenan punteros a sus nodos hijos (los fragmentos/resúmenes de la capa inferior que fueron agrupados y resumidos).
Recursión: Los pasos 2-5 se repiten recursivamente. Los nodos de resumen recién creados en la capa superior se tratan como la entrada para la siguiente iteración. Su contenido textual (los resúmenes) se incrusta, estas incrustaciones se agrupan y los clústeres resultantes se resumen para crear nodos para la capa superior. Este proceso continúa hasta que se crea un único nodo raíz, que representa un resumen de todo el documento en su nivel más alto de abstracción.

Este proceso recursivo da como resultado una estructura de árbol donde los nodos hoja contienen los fragmentos de texto originales, y los nodos en niveles progresivamente más altos contienen resúmenes que abstraen información de sus nodos hijos. Los nodos en niveles intermedios proporcionan resúmenes de secciones o clústeres de ideas, mientras que el nodo raíz ofrece una visión general de todo el documento. Crucialmente, esta estructura captura explícitamente relaciones jerárquicas y permite que la información se organice y se acceda a diferentes niveles de detalle.

Recuperación Mejorada Durante la Inferencia

El verdadero poder de la estructura de árbol de RAPTOR se materializa durante la fase de recuperación cuando un usuario plantea una consulta. A diferencia de los métodos tradicionales que solo recuperan fragmentos de texto individuales, RAPTOR puede aprovechar la jerarquía multinivel.

Cuando se recibe una consulta, el sistema puede consultar el árbol para encontrar nodos relevantes. La recuperación puede ocurrir en cualquier nivel del árbol, o incluso a través de múltiples niveles. Por ejemplo, una consulta podría ser relevante para detalles específicos encontrados en los nodos hoja, un tema más amplio resumido en un nodo intermedio, o el tema general capturado por el nodo raíz.

El mecanismo de recuperación selecciona nodos cuyo contenido (texto original o resúmenes) es más relevante para la consulta. Al recuperar potencialmente nodos de diferentes niveles, se proporciona al LLM un contexto más rico y completo que incluye tanto hechos específicos como las ideas o secciones de nivel superior a las que pertenecen. Esto permite al LLM sintetizar información de manera más efectiva, comprender el contexto más amplio y realizar razonamientos que requieren conectar conceptos a través de diferentes partes del documento original. Por ejemplo, el LLM puede recibir tanto un detalle granular sobre un personaje de un nodo hoja como un resumen del arco del personaje de un nodo intermedio, proporcionando una comprensión mucho más profunda que el detalle por sí solo.

Contribuciones Clave y Evidencia Experimental

El artículo de RAPTOR destaca varias contribuciones clave:

Indexación Jerárquica Novedosa: La introducción de un proceso recursivo que utiliza incrustación, agrupamiento y resumen para construir una representación jerárquica en árbol de documentos extensos con fines de recuperación.
Provisión de Contexto Multinivel: Demostrar que la recuperación desde diferentes niveles de esta estructura de árbol proporciona un contexto superior a los LLMs en comparación con la recuperación de solo fragmentos contiguos.
Validación Experimental: Proporcionar experimentos controlados utilizando varios modelos de lenguaje (UnifiedQA, GPT-3 y GPT-4) que muestran mejoras significativas en el rendimiento aumentado por recuperación al usar RAPTOR en colecciones de documentos extensos.
Resultados de Vanguardia (State-of-the-Art): Lograr nuevos resultados de vanguardia en varias tareas desafiantes de respuesta a preguntas que requieren específicamente el procesamiento de textos extensos y un razonamiento complejo. Los ejemplos incluyen:
- NarrativeQA: Preguntas de respuesta de texto libre sobre libros y películas.
- QASPER: Preguntas basadas en artículos de investigación de PLN (Procesamiento de Lenguaje Natural) de texto completo.
- QuALITY: Preguntas de opción múltiple basadas en pasajes de longitud media, que a menudo requieren inferencia y síntesis a través del texto.

Específicamente, acoplar la recuperación de RAPTOR con GPT-4 demostró una mejora significativa, como aumentar el mejor rendimiento reportado en el benchmark QuALITY en un 20% en precisión absoluta. Este resultado subraya la efectividad de proporcionar a los LLMs un contexto que refleje mejor la estructura y la interconexión de la información dentro de documentos extensos. Incluso con modelos menos potentes como UnifiedQA, RAPTOR mostró ganancias de rendimiento, lo que indica la aplicabilidad general del método.

Comparación con Técnicas Existentes

El artículo posiciona a RAPTOR dentro del panorama de los modelos aumentados por recuperación y las técnicas de resumen. Si bien los avances en hardware han aumentado la longitud máxima de contexto que los LLMs pueden manejar, los modelos a menudo tienen dificultades para utilizar eficazmente contextos muy largos, y su procesamiento sigue siendo computacionalmente costoso y lento. Esto refuerza la necesidad de una selección inteligente de información a través de la recuperación.

Los métodos de recuperación existentes se basan predominantemente en la fragmentación contigua. Existe algún trabajo relacionado en resumen recursivo o representación jerárquica, como enfoques que resumen fragmentos de texto adyacentes (como LlamaIndex). Sin embargo, estos métodos a menudo dependen en gran medida de la adyacencia textual para la agrupación, perdiendo potencialmente relaciones entre partes distantes pero semánticamente conectadas de un documento. Al utilizar la incrustación y el agrupamiento antes del resumen, RAPTOR puede agrupar contenido semánticamente similar independientemente de su posición original en el texto, capturando potencialmente interdependencias que los métodos basados en la adyacencia pasarían por alto. El enfoque de resumen recursivo permite a RAPTOR comprimir información sin pérdidas a través de las capas, mientras que la capacidad de recuperar desde cualquier nodo preserva el acceso a detalles granulares cuando es necesario, mitigando la posible pérdida de información que puede ocurrir en métodos que dependen únicamente de resúmenes de nivel superior.

La estructura jerárquica basada en árbol, construida mediante agrupamiento y resumen recursivos, es el diferenciador clave de RAPTOR, permitiendo una estrategia de representación y recuperación más sofisticada para textos largos y complejos.

Conclusión

RAPTOR representa un avance significativo en los modelos de lenguaje aumentados por recuperación al abordar el desafío de utilizar eficazmente el contexto de documentos extensos. Su novedoso método de construir una representación de conocimiento recursiva y organizada en árbol mediante incrustación, agrupamiento y resumen permite a los LLMs acceder a información en diversos niveles de abstracción, desde detalles de grano fino hasta resúmenes de alto nivel.

Los resultados experimentales demuestran que este enfoque jerárquico produce mejoras sustanciales de rendimiento en tareas que requieren una comprensión profunda e integración de información de textos extensos, logrando resultados de vanguardia en benchmarks prominentes. Al proporcionar a los LLMs una representación más estructurada y contextualmente rica de los documentos fuente, RAPTOR mejora su capacidad para realizar razonamientos complejos y generar respuestas más precisas y completas. Esta investigación destaca el potencial de las estrategias avanzadas de indexación y recuperación para desbloquear todas las capacidades de los modelos de lenguaje grandes al interactuar con cuerpos de texto grandes y complejos.

Fuente(s)

Artículo RAPTOR: RECURSIVE ABSTRACTIVE PROCESSING FOR TREE-ORGANIZED RETRIEVAL

¿Disfrutaste esta publicación? ¿La encontraste reveladora? No dudes en dejar un comentario a continuación para compartir tus pensamientos o hacer preguntas. Se requiere una cuenta de GitHub para unirse a la discusión.