Architecture ThorV2 Améliorant les Capacités d'Appel de Fonction des LLM

Le document présente ThorV2, une architecture novatrice conçue pour améliorer les capacités d'appel de fonction des modèles de langage de grande taille (LLM). L'étude évalue ThorV2 par rapport aux modèles leaders d'OpenAI et d'Anthropic en utilisant un benchmark complet axé sur les opérations de HubSpot CRM. Les résultats démontrent la performance supérieure de ThorV2 en termes de précision, de fiabilité, de latence et d'efficacité des coûts pour les tâches d'appel d'API simples et multiples.

Architecture ThorV2

ThorV2 utilise une approche innovante appelée "modélisation au bord du domaine", qui se concentre sur la correction des erreurs plutôt que sur la fourniture d'instructions complètes en amont. Cette méthode réduit considérablement le nombre de tokens, améliore l'évolutivité et renforce la fiabilité.

Architecture Agent-Validateur

ThorV2 utilise des validateurs experts du domaine (DEVs) pour inspecter et corriger les appels d'API générés par le LLM. Ce processus itératif se poursuit jusqu'à ce qu'un appel d'API correct soit généré, garantissant une grande précision et fiabilité.

Planification Composite

Pour les tâches à plusieurs étapes, ThorV2 utilise une approche de planification composite qui génère plusieurs appels d'API en une seule étape, réduisant ainsi la latence et améliorant l'efficacité.

Benchmark et Évaluation

L'étude utilise un ensemble de données de benchmark basé sur les opérations de HubSpot CRM, évaluant les modèles sur la précision, la fiabilité, la latence et les coûts. ThorV2 surpasse les modèles de comparaison dans toutes les métriques, démontrant sa supériorité dans les tâches d'appel de fonction.

Conclusion

ThorV2 représente une avancée significative dans l'amélioration des capacités d'appel de fonction des LLM. Sa performance supérieure en termes de précision, de fiabilité, de latence et d'efficacité des coûts suggère une direction prometteuse pour améliorer l'applicabilité pratique des LLM dans des scénarios réels. L'étude met en lumière le potentiel de ThorV2 à permettre des assistants IA plus performants et fiables dans divers domaines.

Source(s) :

Benchmarking Floworks against OpenAI & Anthropic: A Novel Framework for Enhanced LLM Function Calling