- Publié le
JanusPro7B Par DeepSeek AI
JanusPro7B est un cadre autoregressif innovant conçu pour unifier la compréhension et la génération multimodales. Développé par DeepSeekAI, il surmonte les limites des approches précédentes en découplant l'encodage visuel en voies distinctes tout en conservant une architecture de transformateur unique. Cette conception améliore la flexibilité et les performances, en faisant un candidat prometteur pour les modèles multimodaux de nouvelle génération.
Encodage Visuel Découplé
JanusPro sépare l'encodage visuel en voies dédiées pour la compréhension et la génération, réduisant les conflits et améliorant la flexibilité.
Architecture de Transformateur Unifiée
Malgré le découplage, le cadre utilise une architecture de transformateur unique, assurant un traitement efficace des tâches multimodales.
Excellence des Performances
Le modèle surpasse les cadres unifiés précédents et rivalise ou dépasse les capacités des modèles spécifiques à une tâche.
Fondements Techniques
Basé sur DeepSeekLLM1.5b/7b-base, il emploie SigLIPL pour la compréhension visuelle (supportant des entrées d'images de 384x384) et un tokenizer spécialisé pour la génération d'images.
Conclusion
JanusPro7B représente une avancée significative dans l'IA multimodale, combinant simplicité, flexibilité et hautes performances. Son encodage visuel découplé et son architecture unifiée en font une solution robuste pour la compréhension et la génération de contenu multimodal.