Google Gemini 2.0 Flash-Lite API现已全面开放,开发者可以通过 Gemini API 在 Google AI Studio 和 Vertex AI 上使用。

  • 性能提升:相比 Gemini 1.5 Flash,Gemini 2.0 Flash-Lite 在推理能力、多模态处理、数学能力和事实准确性等关键基准测试中表现更优。

  • 成本效益:定价为每 100 万输入令牌 0.075 美元,每 100 万输出令牌 0.30 美元,与 1.5 Flash 相同,但性能显著提升。对于超过 128K 令牌的长上下文任务,定价更简化,性价比更高。

Gemini 2.0 Flash 系列定位于轻量级、高效、低延迟的 AI 模型,专为需要快速响应和经济实惠解决方案的开发场景设计。

技术特性

  • 快速响应:2.0 Flash-Lite 的首次令牌生成时间(TTFT)极快,适合构建自然流畅的对话式 AI。
  • 多模态支持:支持文本、图像等多模态输入输出,未来还将扩展至音频。
  • 长上下文窗口:支持高达 100 万令牌的上下文处理,适用于复杂任务。
  • 工具调用:原生支持 Google 搜索、代码执行和第三方功能调用,提升应用灵活性。
  • 无缝升级:开发者只需更改一行 API 调用代码即可从 gemini-1.5-flash 切换到 gemini-2.0-flash-lite),无需重构现有应用。

应用案例

• Daily.co 的语音 AI 改进:

  • 背景Daily.co 是一家专注于视频和音频通信的公司,他们结合 Gemini 2.0 Flash-Lite 和开源框架 Pipecat,开发了一个语音 AI 系统。
  • 具体任务:提升语音助手识别语音信箱的能力(例如,判断通话是否转入语音信箱并作出适当响应)。
  • 成果:新系统在准确性上超越了现有商业模型,同时保持低延迟和高效率。
  • 技术细节:利用模型的快速 TTFT 和多模态潜力(未来可能整合音频输入)。

• Mosaic 的视频编辑加速:

  • 背景Mosaic 是一家提供视频编辑工具的公司,他们使用 Gemini 2.0 Flash(完整版而非 Lite)的长上下文能力,优化了从长视频中提取短视频片段(如 YouTube Shorts)的流程。
  • 具体改进:将原本需要数小时的手动编辑缩短至几秒钟,成本降低 33%(定价为每 100 万输入令牌 0.10 美元)。
  • 实现方式:模型分析视频字幕或音频转录的完整上下文,自动识别关键片段并生成剪辑建议。

• Dawn 的语义监控管道:

  • 背景Dawn 是一家数据分析公司,他们利用 2.0 Flash 开发了一个“语义监控”系统,用于实时分析用户交互数据。
  • 应用场景:帮助工程团队快速发现产品中的潜在问题(如用户反馈中的负面情绪或 Bug 报告)。
  • 技术细节:模型处理大量文本输入,提取语义模式并生成警报,依赖其高效的推理能力和长上下文支持。

获取API:http://aistudio.google.com/

官方介绍:https://developers.googleblog.com/en/start-building-with-the-gemini-2-0-flash-family/