Hymba: Una arquitectura novedosa para modelos de lenguaje pequeños

El artículo presenta Hymba, una arquitectura novedosa para modelos de lenguaje pequeños que combina mecanismos de atención de transformadores con modelos de espacio de estados (SSM) en una estructura de cabezales híbridos en paralelo. Este diseño tiene como objetivo mejorar la eficiencia y el rendimiento aprovechando las fortalezas de los cabezales de atención y SSM.

Arquitectura de cabezales híbridos

Hymba integra cabezales de atención para la recuperación de alta resolución y cabezales SSM para la resumen eficiente del contexto dentro de la misma capa. Este enfoque de procesamiento en paralelo permite que el modelo maneje flujos de información diversos y patrones de acceso a la memoria de manera más efectiva.

Tokens meta aprendibles

El modelo introduce tokens meta aprendibles que se agregan al principio de las indicaciones. Estos tokens almacenan información crítica y reducen la carga en los mecanismos de atención, mejorando el rendimiento en diversas tareas.

Técnicas de optimización

Hymba incorpora el uso compartido de claves-valores (KV) entre capas y atención parcial de ventana deslizante para optimizar el tamaño de la caché y el rendimiento. Estas optimizaciones resultan en un modelo más eficiente y compacto.

Evaluaciones de rendimiento

Evaluaciones extensas muestran que Hymba logra resultados de vanguardia para modelos de lenguaje pequeños. Por ejemplo, el modelo Hymba-1.5B-Base supera a otros modelos de menos de 2B e incluso supera al modelo Llama-3.2-3B en términos de precisión, reducción del tamaño de la caché y rendimiento.

Conclusión

Hymba representa un avance significativo en el diseño de modelos de lenguaje pequeños, ofreciendo una mayor eficiencia y rendimiento a través de su arquitectura de cabezales híbridos y técnicas de optimización. La capacidad del modelo para superar a modelos más grandes subraya su potencial para diversas aplicaciones, incluyendo tareas en dispositivos.

Fuente(s):

Hymba: A Hybrid-head Architecture for Small Language Models