Xmodel15 Le Nouveau Modèle de Langage Multilingue à Grande Échelle

Ce document présente Xmodel-1.5, un nouveau modèle de langage multilingue à grande échelle (LLM) développé par le laboratoire d'IA de Xiaoduo Technology. Entraîné sur un ensemble de données massif, ce modèle de 1 milliard de paramètres vise à améliorer la compréhension et la génération interlangues, en particulier pour les langues moins représentées. Les chercheurs ont également publié un nouvel ensemble de données d'évaluation en thaï pour soutenir les recherches futures.

Compétence Multilingue

Xmodel-1.5 démontre des performances solides dans plusieurs langues, y compris des langues moins courantes comme le thaï, l'arabe et le français, en plus de l'anglais et du chinois. Les comparaisons de référence avec des modèles de taille similaire comme OPT, Pythia et TinyLLaMA montrent que Xmodel-1.5 obtient des résultats supérieurs dans diverses tâches de raisonnement de bon sens. Les évaluations multilingues utilisant des ensembles de données comme XCOPA, PIQA_AR et Belebele_tha_thai confirment davantage ses capacités interlangues.

Ajustement des Instructions pour une Performance Améliorée

Le modèle a subi un ajustement fin des instructions pour améliorer ses performances sur les tâches basées sur des instructions, en particulier dans le domaine du commerce électronique pour la génération augmentée par récupération (RAG). Ce processus a impliqué une stratégie d'apprentissage progressif, incorporant des ensembles de données comme Belle, infinity-instruct-subject et RAG_mixed. L'évaluation utilisant les benchmarks ifeval et MT-Bench, ainsi qu'un ensemble d'évaluation thaï personnalisé, démontre l'efficacité de cet ajustement des instructions.

Contribution de l'Ensemble de Données d'Évaluation Thaï

Une contribution clé de cette recherche est la publication d'un nouvel ensemble de données d'évaluation en thaï, annoté par des étudiants de l'Université Chulalongkorn. Cet ensemble de données fournit une ressource précieuse pour évaluer les performances des modèles de langage en thaï et contribue au développement de systèmes NLP multilingues plus robustes.

Évolution des Performances et Directions Futures

L'analyse de l'évolution des performances du modèle pendant le pré-entraînement révèle une amélioration constante sur divers benchmarks multilingues. Bien que les résultats soient prometteurs, les chercheurs reconnaissent des domaines à améliorer à l'avenir, en particulier dans la gestion des nuances comme l'argot, la différenciation de genre et les distinctions de ton formel/informel.

Conclusion

Xmodel-1.5 représente une avancée significative dans les modèles de langage multilingues à grande échelle, montrant des performances solides dans une gamme diversifiée de langues et de tâches. La publication accompagnée d'un ensemble de données d'évaluation thaï renforce encore sa contribution au domaine. Tout en reconnaissant les domaines à affiner à l'avenir, ce travail représente une étape précieuse vers une communication et une compréhension interlangues plus inclusives et efficaces.

Source(s) :

Xmodel-1.5: An 1B-scale Multilingual LLM