ThorV2-Architektur zur Verbesserung der Funktionsaufruf-Fähigkeiten von LLMs

Das Papier stellt ThorV2 vor, eine neuartige Architektur, die entwickelt wurde, um die Funktionsaufruf-Fähigkeiten von Large Language Models (LLMs) zu verbessern. Die Studie bewertet ThorV2 im Vergleich zu führenden Modellen von OpenAI und Anthropic anhand eines umfassenden Benchmarks, der sich auf HubSpot CRM-Operationen konzentriert. Die Ergebnisse zeigen die überlegene Leistung von ThorV2 in Bezug auf Genauigkeit, Zuverlässigkeit, Latenz und Kosteneffizienz bei Einzel- und Multi-API-Aufrufaufgaben.

ThorV2-Architektur

ThorV2 verwendet einen innovativen Ansatz namens "Edge-of-Domain Modeling", der sich darauf konzentriert, Fehler zu korrigieren, anstatt umfassende vorab festgelegte Anweisungen zu liefern. Diese Methode reduziert die Token-Anzahl erheblich, verbessert die Skalierbarkeit und erhöht die Zuverlässigkeit.

Agent-Validator-Architektur

ThorV2 verwendet Domain Expert Validators (DEVs), um API-Aufrufe, die vom LLM generiert wurden, zu überprüfen und zu korrigieren. Dieser iterative Prozess wird fortgesetzt, bis ein korrekter API-Aufruf generiert wird, wodurch eine hohe Genauigkeit und Zuverlässigkeit sichergestellt wird.

Composite Planning

Für mehrstufige Aufgaben verwendet ThorV2 einen Composite-Planning-Ansatz, der mehrere API-Aufrufe in einem einzigen Schritt generiert, wodurch die Latenz verringert und die Effizienz verbessert wird.

Benchmark und Bewertung

Die Studie verwendet einen Benchmark-Datensatz, der auf HubSpot CRM-Operationen basiert, und bewertet Modelle hinsichtlich Genauigkeit, Zuverlässigkeit, Latenz und Kosten. ThorV2 übertrifft Vergleichsmodelle in allen Metriken und demonstriert seine Überlegenheit bei Funktionsaufruf-Aufgaben.

Fazit

ThorV2 stellt einen bedeutenden Fortschritt bei der Verbesserung der Funktionsaufruf-Fähigkeiten von LLMs dar. Seine überlegene Leistung in Bezug auf Genauigkeit, Zuverlässigkeit, Latenz und Kosteneffizienz deutet auf eine vielversprechende Richtung hin, um die praktische Anwendbarkeit von LLMs in realen Szenarien zu verbessern. Die Studie hebt das Potenzial von ThorV2 hervor, um leistungsfähigere und zuverlässigere KI-Assistenten in verschiedenen Domänen zu ermöglichen.

Quelle(n):

Benchmarking Floworks against OpenAI & Anthropic: A Novel Framework for Enhanced LLM Function Calling