- Publicado el
Arquitectura ThorV2 Mejorando las Capacidades de Llamada de Funciones de los Modelos de Lenguaje Grande (LLMs)
El artículo presenta ThorV2, una arquitectura novedosa diseñada para mejorar las capacidades de llamada de funciones de los Modelos de Lenguaje Grande (LLMs). El estudio evalúa ThorV2 en comparación con los modelos líderes de OpenAI y Anthropic utilizando un benchmark integral centrado en operaciones de HubSpot CRM. Los resultados demuestran el rendimiento superior de ThorV2 en precisión, confiabilidad, latencia y eficiencia de costos tanto para tareas de llamada de API única como múltiple.
Arquitectura ThorV2
ThorV2 emplea un enfoque innovador llamado "modelado en el borde del dominio", que se centra en corregir errores en lugar de proporcionar instrucciones completas de antemano. Este método reduce significativamente el recuento de tokens, mejora la escalabilidad y aumenta la confiabilidad.
Arquitectura Agente-Validador
ThorV2 utiliza Validadores de Expertos en Dominio (DEVs) para inspeccionar y corregir las llamadas API generadas por el LLM. Este proceso iterativo continúa hasta que se genera una llamada API correcta, asegurando una alta precisión y confiabilidad.
Planificación Compuesta
Para tareas de múltiples pasos, ThorV2 utiliza un enfoque de planificación compuesta que genera múltiples llamadas API en un solo paso, reduciendo la latencia y mejorando la eficiencia.
Benchmark y Evaluación
El estudio utiliza un conjunto de datos de benchmark basado en operaciones de HubSpot CRM, evaluando los modelos en precisión, confiabilidad, latencia y costo. ThorV2 supera a los modelos de comparación en todas las métricas, demostrando su superioridad en tareas de llamada de funciones.
Conclusión
ThorV2 representa un avance significativo en la mejora de las capacidades de llamada de funciones de los LLMs. Su rendimiento superior en precisión, confiabilidad, latencia y eficiencia de costos sugiere una dirección prometedora para mejorar la aplicabilidad práctica de los LLMs en escenarios del mundo real. El estudio destaca el potencial de ThorV2 para permitir asistentes de IA más capaces y confiables en diversos dominios.
Fuente(s):
Sigue leyendo
Posts relacionados
Mar 15, 2025
0ComentariosDeepSeek R2: El Modelo de IA que Revolucionará la Industria
DeepSeek está acelerando el lanzamiento de su modelo R2, prometiendo avances revolucionarios en razonamiento de IA, codificación y capacidades multilingües. Con un enfoque en la eficiencia de costos y la innovación de código abierto, R2 podría desafiar a gigantes de la IA occidentales como OpenAI y Anthropic.
Dec 8, 2024
0ComentariosPydanticAI: Aplicaciones de grado de producción con IA generativa
PydanticAI es un framework de Python diseñado para simplificar el desarrollo de aplicaciones de grado de producción utilizando IA generativa.
Apr 17, 2025
0ComentariosComparativa de Precios de API de LLM 2025: Comparación de Costos de OpenAI, Google, Anthropic, Cohere y Mistral
Análisis exhaustivo de los precios por token de API entre los principales proveedores de LLM, revelando estrategias de ahorro de costos y posicionamiento competitivo en el mercado de IA en rápida evolución.