- Publié le
Ce document présente Xmodel-1.5, un nouveau modèle de langage multilingue à grande échelle (LLM) développé par le laboratoire d'IA de Xiaoduo Technology. Entraîné sur un ensemble de données massif, ce modèle de 1 milliard de paramètres vise à améliorer la compréhension et la génération interlangues, en particulier pour les langues moins représentées. Les chercheurs ont également publié un nouvel ensemble de données d'évaluation en thaï pour soutenir les recherches futures.
Compétence Multilingue
Xmodel-1.5 démontre des performances solides dans plusieurs langues, y compris des langues moins courantes comme le thaï, l'arabe et le français, en plus de l'anglais et du chinois. Les comparaisons de référence avec des modèles de taille similaire comme OPT, Pythia et TinyLLaMA montrent que Xmodel-1.5 obtient des résultats supérieurs dans diverses tâches de raisonnement de bon sens. Les évaluations multilingues utilisant des ensembles de données comme XCOPA, PIQA_AR et Belebele_tha_thai confirment davantage ses capacités interlangues.
Ajustement des Instructions pour une Performance Améliorée
Le modèle a subi un ajustement fin des instructions pour améliorer ses performances sur les tâches basées sur des instructions, en particulier dans le domaine du commerce électronique pour la génération augmentée par récupération (RAG). Ce processus a impliqué une stratégie d'apprentissage progressif, incorporant des ensembles de données comme Belle, infinity-instruct-subject et RAG_mixed. L'évaluation utilisant les benchmarks ifeval et MT-Bench, ainsi qu'un ensemble d'évaluation thaï personnalisé, démontre l'efficacité de cet ajustement des instructions.
Contribution de l'Ensemble de Données d'Évaluation Thaï
Une contribution clé de cette recherche est la publication d'un nouvel ensemble de données d'évaluation en thaï, annoté par des étudiants de l'Université Chulalongkorn. Cet ensemble de données fournit une ressource précieuse pour évaluer les performances des modèles de langage en thaï et contribue au développement de systèmes NLP multilingues plus robustes.
Évolution des Performances et Directions Futures
L'analyse de l'évolution des performances du modèle pendant le pré-entraînement révèle une amélioration constante sur divers benchmarks multilingues. Bien que les résultats soient prometteurs, les chercheurs reconnaissent des domaines à améliorer à l'avenir, en particulier dans la gestion des nuances comme l'argot, la différenciation de genre et les distinctions de ton formel/informel.
Conclusion
Xmodel-1.5 représente une avancée significative dans les modèles de langage multilingues à grande échelle, montrant des performances solides dans une gamme diversifiée de langues et de tâches. La publication accompagnée d'un ensemble de données d'évaluation thaï renforce encore sa contribution au domaine. Tout en reconnaissant les domaines à affiner à l'avenir, ce travail représente une étape précieuse vers une communication et une compréhension interlangues plus inclusives et efficaces.
Source(s) :
Continuer la lecture
Articles similaires
Nov 28, 2024
0CommentairesTeuken-7B : Modèle de Langue IA Multilingue
Découvrez le développement et les fonctionnalités de Teuken-7B, un modèle de langue IA multilingue conçu pour prendre en charge les 24 langues officielles de l'Union européenne.
Apr 5, 2025
0CommentairesReaRAG : Améliorer la factualité des grands modèles de raisonnement grâce au raisonnement guidé par les connaissances
Cet article explore ReaRAG, une nouvelle approche qui intègre la génération augmentée par la récupération itérative (RAG) avec le raisonnement guidé par les connaissances afin d’améliorer la factualité et la robustesse des grands modèles de raisonnement (LRM) dans les tâches de réponse aux questions à plusieurs étapes.
Jan 1, 2025
0CommentairesOPEN-RAG : Améliorer le raisonnement augmenté par la récupération avec des LLMs open-source
Découvrez comment OPEN-RAG améliore les capacités de raisonnement dans la génération augmentée par la récupération (RAG) en utilisant des modèles de langage de grande taille (LLMs) open-source, surpassant les modèles de pointe en précision et en vitesse.