JanusPro7B Par DeepSeek AI

JanusPro7B est un cadre autoregressif innovant conçu pour unifier la compréhension et la génération multimodales. Développé par DeepSeekAI, il surmonte les limites des approches précédentes en découplant l'encodage visuel en voies distinctes tout en conservant une architecture de transformateur unique. Cette conception améliore la flexibilité et les performances, en faisant un candidat prometteur pour les modèles multimodaux de nouvelle génération.

Encodage Visuel Découplé

JanusPro sépare l'encodage visuel en voies dédiées pour la compréhension et la génération, réduisant les conflits et améliorant la flexibilité.

Architecture de Transformateur Unifiée

Malgré le découplage, le cadre utilise une architecture de transformateur unique, assurant un traitement efficace des tâches multimodales.

Excellence des Performances

Le modèle surpasse les cadres unifiés précédents et rivalise ou dépasse les capacités des modèles spécifiques à une tâche.

Fondements Techniques

Basé sur DeepSeekLLM1.5b/7b-base, il emploie SigLIPL pour la compréhension visuelle (supportant des entrées d'images de 384x384) et un tokenizer spécialisé pour la génération d'images.

Conclusion

JanusPro7B représente une avancée significative dans l'IA multimodale, combinant simplicité, flexibilité et hautes performances. Son encodage visuel découplé et son architecture unifiée en font une solution robuste pour la compréhension et la génération de contenu multimodal.

Source(s) :

DeepSeekAI/JanusPro7B sur Hugging Face