信息差

重磅！Google I/O 2025发布Gemini 2.5深度升级：高阶推理模式Deep Think震撼登场

在Google I/O 2025 大会上，Google 宣布了 Gemini 2.5 Pro 和 Flash 的功能增强，同时引入了多个突破性能力，包括：

Gemini 2.5 Pro：全面升级的通用大模型

学术与实用能力大幅提升：
- 在 WebDev Arena 排行中拿下最高 ELO 评分 1415（网页开发任务）；
- 在 LMArena 的人类偏好评分中，多个维度居首；
100 万 token 上下文窗口：
- 支持复杂多轮对话、长篇文档处理、视频逐帧理解。

集成 LearnLM（由教育专家协作训练）：
- 更擅长解释知识、引导学习；
- 在教学对话、人类评测中，超越 GPT-4 与 Claude 等竞品。
- 成为当前最适合学习与教学场景的通用模型之一。

Deep Think 是 Gemini 2.5 Pro 的一项新实验特性，支持模型“多假设并行推理”，在回答前模拟多路径思考；
目前已在以下高难任务中表现优异：
- USAMO 2025（美国数学奥林匹克）：领先成绩；
- LiveCodeBench（代码能力竞赛任务）：排名第一；
- MMMU（多模态推理）：准确率达 84.0%。

Native Audio Output：
- 支持自然语音生成，可控制语调、情绪、说话风格；
- 适配 24+ 种语言，支持多语种无缝切换；
Text-to-Speech（TTS）升级：
- 可生成双角色对话语音，表现轻声细语、情绪起伏；
Live API 扩展：
- Affective Dialogue：识别用户语气情绪并匹配反馈；
- Proactive Audio：自动屏蔽背景杂音，智能判断是否回应。

Google还在 Gemini API 中添加了对模型上下文协议 (MCP) 定义的原生 SDK 支持，以便更轻松地与开源工具集成。

如果觉得文章对你有用，请随意赞赏

快讯

重磅！Google I/O 2025发布Gemini 2.5深度升级：高阶推理模式Deep Think震撼登场

破晓

2025-05-21

2025-05-21

CC BY 4.0