Pixtral 12B : mistral AI révolutionne l'analyse multimodale avec 12 milliards de paramètres
Découvrez Pixtral 12B de Mistral AI, un modèle multimodal révolutionnaire pour l'analyse intégrée d'images et de textes, surpassant les géants du secteur.
Pixtral 12B : Mistral AI révolutionne l'analyse multimodale
La start-up française Mistral AI continue de se démarquer dans le domaine de l'intelligence artificielle.
Après avoir collaboré avec Nvidia pour créer le modèle Mistral NeMo, elle dévoile aujourd'hui Pixtral 12B, un modèle multimodal capable d'analyser des images et des textes de manière intégrée.
Ce modèle promet de surpasser les géants du secteur tels que Google, Microsoft et Anthropic.
Une avancée technologique majeure
Pixtral 12B est un modèle de 12 milliards de paramètres, conçu pour comprendre et analyser des images et des documents textuels.
Il excelle dans des tâches complexes comme la compréhension de graphiques, la réponse à des questions sur des documents, le raisonnement multimodal et le suivi d'instructions.
Ces capacités font de Pixtral un outil puissant pour les entreprises et les chercheurs.
Qu'est-ce qu'un modèle multimodal ?
Un modèle multimodal est un type de modèle d'intelligence artificielle capable de traiter et d'analyser plusieurs types de données simultanément, comme des images et du texte. Cela permet une compréhension plus riche et plus contextuelle des informations.
Des performances impressionnantes
Pixtral 12B a obtenu un score de 52,5% sur le benchmark de raisonnement MMMU, surpassant des modèles plus volumineux comme Gemini Flash-8B et Claude-3 Haiku. Il a également égalé ou dépassé des modèles tels que Qwen2-VL 7B, LLaVa-OneVision 7B et Phi-3.5 Vision dans le suivi d'instructions, avec une amélioration relative de 20% dans l'IF-Eval et le MT-Bench par rapport au modèle le plus proche.
« Pixtral ne fait pas de compromis sur les performances de référence du texte pour exceller dans les tâches multimodales. »
Une architecture innovante
Pixtral 12B est composé de deux éléments principaux : un encodeur de vision de 400 millions de paramètres entraîné "from scratch" et un décodeur multimodal 12B basé sur le LLM NeMo. Cette architecture permet au modèle de traiter n'importe quel nombre d'images de taille variable dans une grande fenêtre contextuelle de 128K tokens. Les images sont converties en jetons d'image pour chaque patch 16x16, permettant une analyse précise et rapide.
En intelligence artificielle, un token est une unité de donnée utilisée pour le traitement du langage naturel. Dans le contexte des modèles multimodaux, les tokens peuvent représenter des parties de texte ou des segments d'image, permettant au modèle de traiter et d'analyser ces informations de manière intégrée.
Flexibilité et précision
Grâce à son architecture unique, Pixtral peut comprendre des diagrammes, des graphiques et des documents complexes en haute résolution tout en offrant des vitesses d'inférence rapides pour des images plus petites comme des icônes ou des cliparts. Cette flexibilité permet aux utilisateurs de choisir le nombre de jetons nécessaires pour traiter une image, sans compromettre les performances.
Disponibilité et intégration
Pixtral est disponible sur l'interface de conversation Le Chat et sur la console de Mistral AI. Les utilisateurs peuvent choisir Pixtral dans la liste des modèles, télécharger une image et commencer à poser des questions sur celle-ci.
Le modèle peut également être intégré via une API dans diverses applications et flux de travail, offrant une grande flexibilité d'utilisation.
Une offre tarifaire renouvelée
En parallèle du lancement de Pixtral, Mistral AI a annoncé de nouveaux tarifs pour l'utilisation de ses modèles. La start-up propose également une nouvelle version de son modèle Mistral Small, disponible sous la licence Mistral Research.
Ce modèle, avec ses 22 milliards de paramètres, se situe entre Mistral NeMo 12B et Mistral Large 2, offrant une solution économique et fiable pour des tâches spécifiques comme la traduction, la synthèse et l'analyse des sentiments.
Perspectives d'avenir
Avec le lancement de Pixtral 12B, Mistral AI confirme sa position de leader dans le domaine de l'intelligence artificielle en France. La start-up continue d'innover et de proposer des solutions adaptées aux besoins des entreprises et des chercheurs.
Les performances impressionnantes de Pixtral et sa flexibilité d'utilisation ouvrent de nouvelles perspectives pour l'analyse multimodale, promettant des avancées significatives dans divers secteurs.