Hymba : Une Nouvelle Architecture pour les Petits Modèles de Langage

Le papier présente Hymba, une nouvelle architecture pour les petits modèles de langage qui combine les mécanismes d'attention des transformers avec les modèles d'espace d'état (SSMs) dans une structure parallèle à têtes hybrides. Cette conception vise à améliorer l'efficacité et les performances en tirant parti des forces des têtes d'attention et des têtes SSM.

Architecture à Têtes Hybrides

Hymba intègre des têtes d'attention pour un rappel à haute résolution et des têtes SSM pour une synthèse efficace du contexte au sein de la même couche. Cette approche de traitement parallèle permet au modèle de gérer plus efficacement les flux d'informations divers et les modèles d'accès à la mémoire.

Méta-Tokens Apprenables

Le modèle introduit des méta-tokens apprenables qui sont ajoutés au début des prompts. Ces tokens stockent des informations critiques et réduisent la charge sur les mécanismes d'attention, améliorant ainsi les performances sur diverses tâches.

Techniques d'Optimisation

Hymba intègre le partage de clés-valeurs (KV) inter-couches et une attention partielle par fenêtre glissante pour optimiser la taille du cache et le débit. Ces optimisations aboutissent à un modèle plus efficace et compact.

Benchmarks de Performance

Des évaluations approfondies montrent que Hymba atteint des résultats de pointe pour les petits modèles de langage. Par exemple, le modèle Hymba-1.5B-Base surpasse les autres modèles de moins de 2B et dépasse même le modèle Llama-3.2-3B en termes de précision, de réduction de la taille du cache et de débit.

Conclusion

Hymba représente une avancée significative dans la conception des petits modèles de langage, offrant une efficacité et des performances améliorées grâce à son architecture à têtes hybrides et ses techniques d'optimisation. La capacité du modèle à surpasser des modèles plus grands souligne son potentiel pour diverses applications, y compris les tâches sur appareil.

Source(s) :

Hymba: A Hybrid-head Architecture for Small Language Models