Gemini 3.1 Pro Preview API

google/gemini-3.1-pro-preview
Google LLC发布日期: 2/19/2026

Gemini 3.1 Pro Preview 是谷歌最先进的多模态大语言模型,在复杂推理、长上下文任务和强大的智能体工作流程方面表现卓越。

$1/$6每百万token

Gemini 3.1 Pro Preview API - 背景介绍

概述

Gemini 3.1 Pro Preview是谷歌有限责任公司最先进的推理AI模型,作为Gemini 3系列的一部分于2026年2月发布。Gemini 3.1 Pro Preview API专为需要深度思考、多步骤推理和强大多模态理解的复杂现实任务而设计。它支持文本、图像、视频、音频和PDF输入的原生处理,为高要求的企业和开发者应用提供了多功能解决方案。

发展历史

Gemini 3.1 Pro Preview基于Gemini 3 Pro基础构建,在推理、可靠性和多模态能力方面引入了重大改进。于2026年2月19日发布,标志着谷歌AI路线图的重大飞跃,增强功能针对代理工作流、软件工程和长上下文任务。开发重点是减少幻觉、提高令牌效率,并优化复杂的工具驱动场景。

关键创新

  • 输入端100万令牌和输出端65k令牌的大规模上下文窗口,支持长上下文和大规模文档处理
  • 跨文本、图像、视频、音频和PDF的深度多模态支持,具有无缝的跨模态推理
  • 代理和软件工程工作流优化,包括可靠的多步骤工具编排和代码执行

Gemini 3.1 Pro Preview API - 技术规格

架构

Gemini 3.1 Pro Preview是一个大规模、基于Transformer的多模态模型,原生支持文本、图像、视频、音频和PDF输入。它具有先进的工具集成、函数调用和代理工作流能力,提供针对工具使用和代理任务优化的定制变体。

参数

确切参数数量未公开,但该模型在前沿规模运行,与Claude Opus 4.6和GPT-5系列等领先模型竞争。

功能

  • 处理和推理多模态输入,包括文本、图像、视频、音频和PDF
  • 支持函数调用、结构化输出、代码执行和批量API操作
  • 处理极长上下文(高达1,048,576个输入令牌),具有高事实一致性和稳定性

局限性

  • 不支持图像或音频生成、实时API集成或地图定位
  • 预览状态可能在非代理场景中导致质量波动;超长输出最好分步生成

Gemini 3.1 Pro Preview API - 性能

优势

  • 与之前版本相比,具有出色的推理和事实准确性,显著减少了幻觉
  • 在软件工程、代理工作流和长上下文多模态任务方面表现优异

实际效果

在实际应用中,Gemini 3.1 Pro Preview API在复杂、高风险场景中表现出强劲性能,如金融建模、自主编码代理和交互设计。它在ARC-AGI-2(77.1%)、GPQA Diamond(94.3%)和SWE-Bench Verified(80.6%)等基准测试中的高分反映了其处理抽象推理、科学知识和代理编码任务的能力。该模型的效率和可靠性使其成为需要高级AI推理的企业和开发者用例的强有力选择。

Gemini 3.1 Pro Preview API - 适用场景

应用场景

  • 您有涉及文本、图像和PDF等多种格式的大规模文档分析或数据综合项目。Gemini 3.1 Pro Preview API在处理和推理具有大规模上下文窗口的多模态输入方面表现出色,能够对复杂数据集进行全面分析和洞察提取。这提高了知识管理和研究工作流的效率和准确性。
  • 您正在开发自主编码代理或需要自动化软件工程工作流。Gemini 3.1 Pro Preview API针对代理任务进行了优化,提供可靠的多步骤工具编排和代码执行。这导致更快的开发周期、减少人工干预,并为企业软件项目提供更高的代码质量。
  • 您需要集成多模态数据和用户输入的交互式实时设计或仿真工具。Gemini 3.1 Pro Preview API支持高级用例,如带有手势跟踪的3D仿真和生成音乐,使其成为创意产业和产品原型设计的理想选择。这实现了快速迭代和更丰富的用户体验。

最佳实践

  • 利用模型的多模态和长上下文能力处理需要深度推理和跨格式理解的任务。
  • 对于超长输出或高度复杂的生成任务,将任务分解为可管理的步骤,以确保最佳质量和可靠性。

技术规格

上下文长度1,048,576
发布日期2/19/2026
输入格式
textimagevideoaudiopdf
输出格式
text

功能特性

功能
multimodal reasoning (text, image, audio, video, PDF)large context understanding (1M tokens)advanced multi step and agentic reasoningfunction callingstructured outputcode interpretation and generationreal time search groundingbatch API supportcontextual URL/file ingestionlong sequence codebase handlingcache utilization
支持的文件类型
.txt.jpg.jpeg.png.mp4.mp3.pdf