Arquitectura ThorV2 Mejorando las Capacidades de Llamada de Funciones de los Modelos de Lenguaje Grande (LLMs)

El artículo presenta ThorV2, una arquitectura novedosa diseñada para mejorar las capacidades de llamada de funciones de los Modelos de Lenguaje Grande (LLMs). El estudio evalúa ThorV2 en comparación con los modelos líderes de OpenAI y Anthropic utilizando un benchmark integral centrado en operaciones de HubSpot CRM. Los resultados demuestran el rendimiento superior de ThorV2 en precisión, confiabilidad, latencia y eficiencia de costos tanto para tareas de llamada de API única como múltiple.

Arquitectura ThorV2

ThorV2 emplea un enfoque innovador llamado "modelado en el borde del dominio", que se centra en corregir errores en lugar de proporcionar instrucciones completas de antemano. Este método reduce significativamente el recuento de tokens, mejora la escalabilidad y aumenta la confiabilidad.

Arquitectura Agente-Validador

ThorV2 utiliza Validadores de Expertos en Dominio (DEVs) para inspeccionar y corregir las llamadas API generadas por el LLM. Este proceso iterativo continúa hasta que se genera una llamada API correcta, asegurando una alta precisión y confiabilidad.

Planificación Compuesta

Para tareas de múltiples pasos, ThorV2 utiliza un enfoque de planificación compuesta que genera múltiples llamadas API en un solo paso, reduciendo la latencia y mejorando la eficiencia.

Benchmark y Evaluación

El estudio utiliza un conjunto de datos de benchmark basado en operaciones de HubSpot CRM, evaluando los modelos en precisión, confiabilidad, latencia y costo. ThorV2 supera a los modelos de comparación en todas las métricas, demostrando su superioridad en tareas de llamada de funciones.

Conclusión

ThorV2 representa un avance significativo en la mejora de las capacidades de llamada de funciones de los LLMs. Su rendimiento superior en precisión, confiabilidad, latencia y eficiencia de costos sugiere una dirección prometedora para mejorar la aplicabilidad práctica de los LLMs en escenarios del mundo real. El estudio destaca el potencial de ThorV2 para permitir asistentes de IA más capaces y confiables en diversos dominios.

Fuente(s):

Benchmarking Floworks against OpenAI & Anthropic: A Novel Framework for Enhanced LLM Function Calling