- Publicado el
Xmodel15: El nuevo modelo de lenguaje grande multilingüe
Este artículo presenta Xmodel-1.5, un nuevo modelo de lenguaje grande (LLM) multilingüe desarrollado por el AI Lab de Xiaoduo Technology. Entrenado en un conjunto de datos masivo, este modelo de 1 billón de parámetros tiene como objetivo mejorar la comprensión y generación multilingüe, especialmente en idiomas menos representados. Los investigadores también lanzaron un nuevo conjunto de datos de evaluación en tailandés para apoyar futuras investigaciones.
Competencia multilingüe
Xmodel-1.5 demuestra un fuerte rendimiento en múltiples idiomas, incluyendo aquellos menos comunes como el tailandés, árabe y francés, además del inglés y el chino. Las comparaciones de benchmarks con modelos de tamaño similar como OPT, Pythia y TinyLLaMA muestran que Xmodel-1.5 logra resultados superiores en diversas tareas de razonamiento de sentido común. Las evaluaciones multilingües utilizando conjuntos de datos como XCOPA, PIQA_AR y Belebele_tha_thai confirman aún más sus capacidades multilingües.
Ajuste de instrucciones para un rendimiento mejorado
El modelo se sometió a un ajuste fino de instrucciones para mejorar su rendimiento en tareas basadas en instrucciones, particularmente en el dominio del comercio electrónico para la Generación Aumentada por Recuperación (RAG). Este proceso involucró una estrategia de aprendizaje curricular progresivo, incorporando conjuntos de datos como Belle, infinity-instruct-subject y RAG_mixed. La evaluación utilizando benchmarks como ifeval y MT-Bench, junto con un conjunto de evaluación personalizado en tailandés, demuestra la efectividad de este ajuste de instrucciones.
Contribución del conjunto de datos de evaluación en tailandés
Una contribución clave de esta investigación es el lanzamiento de un nuevo conjunto de datos de evaluación en tailandés, anotado por estudiantes de la Universidad de Chulalongkorn. Este conjunto de datos proporciona un recurso valioso para evaluar el rendimiento de los modelos de lenguaje en tailandés y contribuye al desarrollo de sistemas de NLP multilingües más robustos.
Evolución del rendimiento y direcciones futuras
El análisis de la evolución del rendimiento del modelo durante el preentrenamiento revela una mejora constante en varios benchmarks multilingües. Si bien los resultados son prometedores, los investigadores reconocen áreas para futuras mejoras, particularmente en el manejo de matices como la jerga, la diferenciación de género y las distinciones de tono formal/informal.
Conclusión
Xmodel-1.5 ofrece un avance significativo en los LLM multilingües, exhibiendo un fuerte rendimiento en una amplia gama de idiomas y tareas. El lanzamiento del conjunto de datos de evaluación en tailandés fortalece aún más su contribución al campo. Si bien se reconocen áreas para futuros refinamientos, este trabajo representa un paso valioso hacia una comunicación y comprensión multilingüe más inclusiva y efectiva.