JanusPro7B Por DeepSeek AI

JanusPro7B es un marco autoregresivo innovador diseñado para unificar la comprensión y generación multimodal. Desarrollado por DeepSeekAI, supera las limitaciones de enfoques anteriores al desacoplar la codificación visual en rutas distintas mientras mantiene una única arquitectura de transformador. Este diseño mejora la flexibilidad y el rendimiento, convirtiéndolo en un candidato prometedor para los modelos multimodales de próxima generación.

Codificación Visual Desacoplada

JanusPro separa la codificación visual en rutas dedicadas para la comprensión y la generación, reduciendo conflictos y mejorando la flexibilidad.

Arquitectura de Transformador Unificada

A pesar del desacoplamiento, el marco utiliza una única arquitectura de transformador, asegurando un procesamiento eficiente de tareas multimodales.

Excelencia en Rendimiento

El modelo supera a los marcos unificados anteriores y rivaliza o supera las capacidades de los modelos específicos para tareas.

Fundamentos Técnicos

Construido sobre DeepSeekLLM1.5b/7b-base, emplea SigLIPL para la comprensión visual (soportando entradas de imágenes de 384x384) y un tokenizador especializado para la generación de imágenes.

Conclusión

JanusPro7B representa un avance significativo en la IA multimodal, combinando simplicidad, flexibilidad y alto rendimiento. Su codificación visual desacoplada y arquitectura unificada lo convierten en una solución robusta tanto para la comprensión como para la generación de contenido multimodal.

Fuente(s):

DeepSeekAI/JanusPro7B en Hugging Face