Gemini 3 Pro API

google/gemini-3-pro

par Google DeepMind•date de sortie: 11/18/2025

Gemini 3 Pro est le modèle d'IA multimodale phare de Google offrant un raisonnement avancé, des capacités agentiques et un traitement de contexte long à travers le texte, l'image et la vidéo.

$1/$6par 1M de tokens

Gemini 3 Pro API - Contexte

Aperçu

Gemini 3 Pro est le modèle d'IA multimodale phare de Google DeepMind, lancé le 18 novembre 2025. Il représente un bond significatif par rapport à la série Gemini 2.5, offrant un raisonnement avancé, des capacités agentiques et un support robuste pour le traitement de texte, d'images, de vidéos, d'audio et de code. Conçu pour les développeurs et les entreprises, Gemini 3 Pro est accessible via l'API Gemini 3 Pro, permettant une intégration transparente dans diverses applications et flux de travail.

Historique de développement

Gemini 3 Pro a été développé comme l'évolution de nouvelle génération de la série Gemini, s'appuyant sur les succès de Gemini 2.5 Pro. Publié sous forme d'aperçu fin 2025, il a été conçu pour répondre à la demande croissante d'IA multimodale sophistiquée et d'automation agentique. Le développement du modèle s'est concentré sur l'amélioration de la profondeur de raisonnement, la compréhension multimodale et les capacités d'utilisation d'outils, avec des tests approfondis de sécurité et de fiabilité avant le lancement. Les versions ultérieures, telles que Gemini 3 Flash et le mode Deep Think, ont encore étendu les capacités de la plateforme.

Innovations clés

Support natif pour le traitement multimodal à travers le texte, les images, la vidéo, l'audio et le code
Mécanisme de réflexion dynamique permettant un raisonnement multi-étapes avec hypothèses parallèles
Capacités agentiques pour l'utilisation autonome d'outils, la planification et l'exécution de tâches multi-étapes

Gemini 3 Pro API - Spécifications techniques

Architecture

Gemini 3 Pro utilise une architecture basée sur des transformateurs à grande échelle optimisée pour la fusion de données multimodales. Il présente une gestion de contexte avancée, des couches de raisonnement dynamiques et un support intégré pour les flux de travail agentiques, le rendant hautement adaptable pour les tâches complexes. Le modèle est étroitement intégré à l'API Gemini 3 Pro pour un déploiement rationalisé.

Paramètres

Le nombre exact de paramètres n'est pas divulgué, mais Gemini 3 Pro fonctionne à une échelle adaptée au traitement de jusqu'à 1 million de tokens en contexte (certaines sources indiquant jusqu'à 2 millions), permettant le traitement de longs documents, vidéos et bases de code étendues.

Capacités

Compréhension et synthèse multimodales complètes
Génération, édition et ancrage d'images haute fidélité
Exécution de tâches agentiques autonomes et invocation d'outils

Limitations

La compréhension audio et la segmentation d'images ne sont pas des cibles d'optimisation primaires
Certaines fonctionnalités avancées peuvent nécessiter des modèles spécialisés pour des résultats optimaux

Gemini 3 Pro API - Performance

Points forts

Résultats de pointe en raisonnement multimodal, traitement de contexte long et tâches agentiques
Améliorations significatives de la précision de génération de code et de la fiabilité d'utilisation d'outils

Efficacité en conditions réelles

Gemini 3 Pro surpasse constamment les modèles précédents et les concurrents dans les benchmarks pratiques, tels que MMMU-Pro (81%), Video-MMMU (87,6%) et SWE-bench Verified (76,2%). Son API Gemini 3 Pro robuste permet l'intégration dans diverses applications du monde réel, de l'automatisation d'entreprise à la recherche scientifique, offrant haute précision, fiabilité et évolutivité pour les environnements de production.

Gemini 3 Pro API - Quand l'utiliser

Scénarios

Vous avez un besoin professionnel d'analyser et de synthétiser des informations à partir de documents complexes, d'images et de vidéos. L'API Gemini 3 Pro est idéale pour ce scénario grâce à ses capacités multimodales natives, permettant l'extraction et l'intégration transparentes d'insights à partir de sources de données diverses. Cela conduit à une prise de décision améliorée et à une efficacité opérationnelle.
Vous développez un agent intelligent qui doit planifier, exécuter et surveiller de manière autonome des tâches multi-étapes, telles que le développement logiciel ou les flux de travail automatisés. L'API Gemini 3 Pro excelle ici avec ses capacités agentiques, supportant l'invocation d'outils, les opérations de terminal et le contrôle de navigateur, résultant en une livraison de projet plus rapide et une intervention manuelle réduite.
Vous nécessitez une génération de code avancée, du débogage et un support d'ingénierie logicielle à grande échelle. En tirant parti de l'API Gemini 3 Pro, vous bénéficiez d'une précision leader de l'industrie (par exemple, 76,2% sur SWE-bench Verified), le rendant adapté à l'automatisation de tâches de codage complexes, à l'amélioration de la productivité des développeurs et à la réduction des erreurs dans les grandes bases de code.

Meilleures pratiques

Tirez parti de l'API Gemini 3 Pro pour les tâches nécessitant l'intégration de données multimodales et la compréhension de contexte long.
Utilisez la sortie structurée et le mode JSON pour un traitement en aval et une automatisation fiables.

Spécifications techniques

Longueur du contexte1,000,000

Date de sortie11/18/2025

Formats d'entrée

textimagevideoaudiocode

Formats de sortie

textimagejson

Capacités et fonctionnalités

Capacités

multimodal understanding (text, image, video, audio, code)advanced reasoningdynamic multi step thinkingtool use and agentic task automationparallel hypothesis explorationlong context processingimage generation and editingstructured and JSON outputmedical, biological, scientific image understandingdocument and screen analysissoftware/code generation

Types de fichiers pris en charge

.txt.jpg.jpeg.png.mp4.mp3.pdf

← Retour à la recherche