Gemini 3 Pro API

google/gemini-3-pro
by Google DeepMindリリース日: 11/18/2025

Gemini 3 Proは、テキスト、画像、動画にわたって高度な推論、エージェント機能、長文脈処理を提供するGoogleの最先端マルチモーダルAIモデルです。

$1/$6100万トークンあたり

Gemini 3 Pro API - 背景

概要

Gemini 3 Proは、2025年11月18日にリリースされたGoogle DeepMindの主力マルチモーダルAIモデルです。Gemini 2.5シリーズから大幅な進歩を遂げ、高度な推論、エージェント機能、テキスト、画像、動画、音声、コード処理への堅牢なサポートを提供します。開発者と企業の両方向けに設計されており、Gemini 3 Pro APIを通じてアクセス可能で、様々なアプリケーションやワークフローへのシームレスな統合を可能にします。

開発履歴

Gemini 3 Proは、Gemini 2.5 Proの成功を基盤として、Geminiシリーズの次世代進化として開発されました。2025年後半にプレビュー形式でリリースされ、高度なマルチモーダルAIとエージェント自動化への需要の高まりに対応するよう設計されました。モデルの開発は推論の深さ、マルチモーダル理解、ツール使用能力の強化に焦点を当て、リリース前に広範囲な安全性と信頼性のテストが行われました。Gemini 3 FlashやDeep Thinkモードなどの後続リリースにより、プラットフォームの機能がさらに拡張されました。

主要な革新

  • テキスト、画像、動画、音声、コード全体でのマルチモーダル処理のネイティブサポート
  • マルチステップ、並列仮説推論を可能にする動的思考メカニズム
  • 自律的なツール使用、マルチステップタスク計画、実行のためのエージェント能力

Gemini 3 Pro API - 技術仕様

アーキテクチャ

Gemini 3 Proは、マルチモーダルデータ融合に最適化された大規模なトランスフォーマーベースのアーキテクチャを使用しています。高度なコンテキスト管理、動的推論レイヤー、エージェントワークフローへの内蔵サポートを特徴とし、複雑なタスクに対して高い適応性を持ちます。モデルはスムーズなデプロイのためにGemini 3 Pro APIと密接に統合されています。

パラメータ

正確なパラメータ数は非公開ですが、Gemini 3 Proは最大100万トークンのコンテキスト(一部の情報源では最大200万トークンとされています)を処理可能な規模で動作し、長い文書、動画、大規模なコードベースの処理を可能にします。

機能

  • 包括的なマルチモーダル理解と合成
  • 高忠実度の画像生成、編集、グラウンディング
  • 自律的なエージェントタスク実行とツール呼び出し

制限事項

  • 音声理解と画像セグメンテーションは主要な最適化対象ではありません
  • 一部の高度な機能は最適な結果のために専門モデルが必要な場合があります

Gemini 3 Pro API - 性能

強み

  • マルチモーダル推論、長文脈処理、エージェントタスクにおける最先端の結果
  • コード生成精度とツール使用信頼性の大幅な改善

実世界での有効性

Gemini 3 Proは、MMMU-Pro(81%)、Video-MMMU(87.6%)、SWE-bench Verified(76.2%)などの実用的なベンチマークにおいて、過去のモデルや競合他社を一貫して上回る性能を示しています。堅牢なGemini 3 Pro APIにより、企業自動化から科学研究まで、多様な実世界アプリケーションへの統合が可能で、本番環境において高い精度、信頼性、スケーラビリティを提供します。

Gemini 3 Pro API - 使用場面

シナリオ

  • 複雑な文書、画像、動画からの情報分析と統合のビジネスニーズがある場合。Gemini 3 Pro APIは、ネイティブマルチモーダル機能により、多様なデータソースからの洞察のシームレスな抽出と統合を可能にし、このシナリオに最適です。これにより、意思決定の改善と運用効率の向上が実現されます。
  • ソフトウェア開発や自動ワークフローなど、マルチステップタスクを自律的に計画、実行、監視する知能エージェントを開発している場合。Gemini 3 Pro APIは、ツール呼び出し、ターミナル操作、ブラウザ制御をサポートするエージェント能力により、この分野で優れており、プロジェクト配信の高速化と手動介入の削減をもたらします。
  • 大規模な高度コード生成、デバッグ、ソフトウェアエンジニアリングサポートが必要な場合。Gemini 3 Pro APIを活用することで、業界最高レベルの精度(例:SWE-bench Verifiedで76.2%)の恩恵を受け、複雑なコーディングタスクの自動化、開発者生産性の向上、大規模コードベースでのエラー削減に適しています。

ベストプラクティス

  • マルチモーダルデータの統合と長文脈理解を必要とするタスクにGemini 3 Pro APIを活用する
  • 信頼性の高い下流処理と自動化のために構造化出力とJSONモードを利用する

技術仕様

コンテキスト長1,000,000
リリース日11/18/2025
入力形式
textimagevideoaudiocode
出力形式
textimagejson

機能と特徴

機能
multimodal understanding (text, image, video, audio, code)advanced reasoningdynamic multi step thinkingtool use and agentic task automationparallel hypothesis explorationlong context processingimage generation and editingstructured and JSON outputmedical, biological, scientific image understandingdocument and screen analysissoftware/code generation
対応ファイル形式
.txt.jpg.jpeg.png.mp4.mp3.pdf