Pixtral 12B intègre un adaptateur de vision de 400 millions de paramètres, ce qui permet aux utilisateurs de soumettre des images via des URL ou encodées en base64,un schéma d’encodage binaire-texte. Il peut gérer des images de haute résolution (1024 x 1024 pixels), découpées en patchs de 16 x 16 pixels pour une analyse détaillée. En outre, le modèle peut également reconnaître et traiter plus de 131 000 jetons, cette taille de vocabulaire étendue permet une plus grande flexibilité dans la gestion des données textuelles. Il est disponible sur GitHub et Hugging Face sous la licence Apache 2.0. Le modèle est efficace pour des tâches telles que le sous-titrage d'images, la classification et le comptage d'objets dans des scènes visuelles. Il utilise la technologie RoPE 2D pour la compréhension spatiale des images.