在Google I/O 2025 大会上,Google 宣布了 Gemini 2.5 Pro 和 Flash 的功能增强,同时引入了多个突破性能力,包括:

  • 高阶推理模式 Deep Think
  • 原生音频交互能力
  • 多语言语音生成
  • 电脑操作能力(Project Mariner)
  • 安全性与开发体验优化

Gemini 2.5 Pro:全面升级的通用大模型

✅ 更强的智能表现

  • 学术与实用能力大幅提升

    • WebDev Arena 排行中拿下最高 ELO 评分 1415(网页开发任务);
    • LMArena 的人类偏好评分中,多个维度居首;
  • 100 万 token 上下文窗口

    • 支持复杂多轮对话、长篇文档处理、视频逐帧理解。

📚 教育场景的首选模型

  • 集成 LearnLM(由教育专家协作训练):

    • 更擅长解释知识、引导学习;
    • 在教学对话、人类评测中,超越 GPT-4 与 Claude 等竞品。
    • 成为当前最适合学习与教学场景的通用模型之一。

Deep Think:实验性“深度思维”模式

🧠 高阶逻辑能力

  • Deep Think 是 Gemini 2.5 Pro 的一项新实验特性,支持模型“多假设并行推理”,在回答前模拟多路径思考;
  • 目前已在以下高难任务中表现优异:

    • USAMO 2025(美国数学奥林匹克):领先成绩;
    • LiveCodeBench(代码能力竞赛任务):排名第一;
    • MMMU(多模态推理):准确率达 84.0%

⚠️ 当前状态

  • 仅开放给“受信开发者”(trusted testers);
  • 正在接受更严格的安全评估,预计未来逐步放开。

Gemini 2.5 Flash:轻量高效的“AI 工具马达”

⚡ 更快、更省、更聪明

  • 设计目标:低延迟 + 高吞吐量 + 低成本
  • 在推理、多模态处理、长文本任务中全面提速;
  • Token 使用减少 20–30%,显著降低推理成本。

📦 使用渠道

  • 现已通过 Google AI Studio、Vertex AI 及 Gemini App 向开发者与公众开放。

原生音频能力:对话更自然、情感更丰富

🔊 新功能亮点

  • Native Audio Output

    • 支持自然语音生成,可控制语调、情绪、说话风格;
    • 适配 24+ 种语言,支持多语种无缝切换;
  • Text-to-Speech(TTS)升级

    • 可生成双角色对话语音,表现轻声细语、情绪起伏;
  • Live API 扩展

    • Affective Dialogue:识别用户语气情绪并匹配反馈;
    • Proactive Audio:自动屏蔽背景杂音,智能判断是否回应。

Project Mariner:让 Gemini 控制你的电脑

🖱️ 关键能力

  • 引入“模拟人类操作电脑”的能力:点击、填写表单、网页交互;
  • 已与以下企业展开合作测试:

    • Automation Anywhere、UiPath、Browserbase 等
  • 将于夏季向开发者开放更多 API 测试权限。

安全性大升级

🛡️ 防御新型攻击

  • Gemini 2.5 显著加强对“间接提示注入攻击(Indirect Prompt Injection)”的防护;
  • 通过新的检验机制提升系统在工具使用场景中的鲁棒性;
  • 目前为 Google 最安全的模型版本。

Google还在 Gemini API 中添加了对模型上下文协议 (MCP) 定义的原生 SDK 支持,以便更轻松地与开源工具集成。