- Publicado el
Arquitectura ThorV2 Mejorando las Capacidades de Llamada de Funciones de los Modelos de Lenguaje Grande (LLMs)
El artículo presenta ThorV2, una arquitectura novedosa diseñada para mejorar las capacidades de llamada de funciones de los Modelos de Lenguaje Grande (LLMs). El estudio evalúa ThorV2 en comparación con los modelos líderes de OpenAI y Anthropic utilizando un benchmark integral centrado en operaciones de HubSpot CRM. Los resultados demuestran el rendimiento superior de ThorV2 en precisión, confiabilidad, latencia y eficiencia de costos tanto para tareas de llamada de API única como múltiple.
Arquitectura ThorV2
ThorV2 emplea un enfoque innovador llamado "modelado en el borde del dominio", que se centra en corregir errores en lugar de proporcionar instrucciones completas de antemano. Este método reduce significativamente el recuento de tokens, mejora la escalabilidad y aumenta la confiabilidad.
Arquitectura Agente-Validador
ThorV2 utiliza Validadores de Expertos en Dominio (DEVs) para inspeccionar y corregir las llamadas API generadas por el LLM. Este proceso iterativo continúa hasta que se genera una llamada API correcta, asegurando una alta precisión y confiabilidad.
Planificación Compuesta
Para tareas de múltiples pasos, ThorV2 utiliza un enfoque de planificación compuesta que genera múltiples llamadas API en un solo paso, reduciendo la latencia y mejorando la eficiencia.
Benchmark y Evaluación
El estudio utiliza un conjunto de datos de benchmark basado en operaciones de HubSpot CRM, evaluando los modelos en precisión, confiabilidad, latencia y costo. ThorV2 supera a los modelos de comparación en todas las métricas, demostrando su superioridad en tareas de llamada de funciones.
Conclusión
ThorV2 representa un avance significativo en la mejora de las capacidades de llamada de funciones de los LLMs. Su rendimiento superior en precisión, confiabilidad, latencia y eficiencia de costos sugiere una dirección prometedora para mejorar la aplicabilidad práctica de los LLMs en escenarios del mundo real. El estudio destaca el potencial de ThorV2 para permitir asistentes de IA más capaces y confiables en diversos dominios.