面对快速变化的创意工具生态,Google 在 2025 年 I/O 大会宣布了一整套新一代生成式媒体模型与创作工具,涵盖视频、图像、音乐和内容溯源等多个维度。
Google 推出了 Flow —— 个由 Google 内部最先进的 AI 模型(包括 Veo、Imagen 和 Gemini)驱动的 AI 电影创作平台,帮助创作者用自然语言就能生成电影片段,无需高超特效或动画技术。
它并非只是又一个视频生成工具,而是一个与电影创作者共创、专为叙事与电影工业构建的完整创作系统。Flow 的推出意味着,从想法到电影级画面的转化,将比以往任何时候都更加迅速、自由和高效。
它的特点不仅在于能“生成图像”,而在于它能理解故事的逻辑、镜头语言的语法,以及视觉风格的延续性,这些特性构成了它与普通 AI 视频生成工具的本质差异。
你只需描述想要的场景,Flow 就能生成像电影一样的画面,还能控制镜头、剪辑场景、统一角色等。
现已面向 Google AI Pro 和 Ultra 计划的订阅者开放。
访问:flow.google
背后三大 AI 引擎:协同驱动创作流程
这些模型形成协同网络,让 Flow 能实现如下核心能力:
- 用文字描述生成角色与场景;
- 支持角色在不同镜头中的一致性;
- 控制镜头移动、光影与视角;
- 场景之间可连续过渡,支持“剪辑”概念;
- 多次生成内容可整合为一个完整短片结构。
无缝过渡
相机控制
影院级品质
关键功能:不仅是生成,而是导演工具箱
Flow 提供的不仅仅是图像与视频生成,还包含了大量针对创意制作流程的功能模块:
1. Camera Controls(镜头控制)
允许用户手动指定镜头的角度、轨迹和运动方式,比如“近景推镜”、“缓慢横移”等,实现具有导演感的镜头语言。
2. SceneBuilder(场景构建器)
可以扩展现有镜头,或者在场景之间建立自然的过渡,如揭示更多信息、变换视角等。
3. Asset Management(资产管理)
集中管理已生成的“ingredients”(角色、背景、物件),并可重复使用它们,维持风格统一。
4. Flow TV(案例学习平台)
平台上集成了大量基于 Flow 生成的短片作品,附带详细提示词和制作方法,便于学习与模仿。
Flow案例展示
Google 在 Flow 开发过程中邀请了多位具有前瞻意识的导演与艺术家参与合作,下面是其中三位的案例:
🔹 Dave Clark
获奖导演,代表作《Battalion》《NinjaPunk》均尝试融合 AI 技术,其新片《Freelancers》由 Flow 与其他 AI 工具协助完成,讲述失散兄弟间的成长与冒险。
🔹 Henry Daubrez
数字艺术家,使用 Flow 制作新片《Electric Pink》,延续他对孤独与情感连接的探索。
🔹 Junie Lau
多领域创作者,正制作《Dear Stranger》——关于祖母与孙女跨越多重平行宇宙的诗意叙事作品,聚焦数字身份与情感的延伸。
这些案例不仅展示了 Flow 的技术能力,更反映出 AI 已深入参与到叙事逻辑、情感建构乃至艺术美学的多个层面。
📺 Veo 3 发布 Veo 2 能力更新
Google DeepMind 正式发布了其迄今为止最先进的视频生成模型——Veo 3。与前一代 Veo 2 相比,Veo 3 不仅在图像质量、物理一致性、提示词遵循性等方面实现质的飞跃,还引入了包括音频在内的新创作维度,标志着生成式视频技术迈入“电影级创作”时代。
Veo 3eo 3 的核心能力
- 4K高清输出与真实感增强
- 支持 原生 4K 分辨率输出,达到近似专业摄影机的视觉细节;
- 在运动物理、光照逻辑、材质质感等方面实现了对现实世界规则的高保真模拟;
- 场景间的物体一致性、透视准确性大幅提高,生成画面可无缝嵌入真实拍摄片段。
- 更强的提示词理解能力
- 相较于 Veo 2,Veo 3 显著提升了prompt adherence(提示遵循性);
- 支持更复杂的自然语言描述,包括镜头运动、情绪基调、构图细节;
- 允许用户用通俗语言表达专业导演指令(如“清晨,海边,手持镜头感,渐变色光”);
- 创作控制能力提升
- 支持镜头间连贯动作过渡,保持角色与背景逻辑一致;
- 可构建复杂场景结构(如多人互动、动态叙事节奏);
- 融合 音频生成功能(Veo 3 独有),首次将“环境音、对白”等音频生成能力引入视频模型中,支持生成环境声与对白,对应不同场景情绪氛围;
Veo 2 的能力更新(相较初版)
尽管焦点转向 Veo 3,Veo 2 仍进行了能力升级,尤其是在以下方面:
- 引入了新的“控制模块”(Control Modules),允许用户对生成内容的风格与细节进行更精准控制;
- 改善了场景连贯性及长时序镜头质量;
- 保持角色的一致性:通过为 Veo 提供角色的参考图像,确保角色在视频的不同场景中保持其外观。
- 更好地与平台(如 Flow)集成,用于实战创作流程。
Veo 目前已整合至 Google Labs 的 Flow 平台
服务于电影人、创意团队、广告制作人等角色。典型应用场景包括:
- 短片预演与镜头规划(Storyboarding & Previsualization);
- 虚拟场景搭建与角色动作模拟;
- 影视剧概念片段制作;
- 交互式叙事视频生成(如游戏场景动画)。
Veo 3详细介绍:https://deepmind.google/models/veo/
🖼️ Imagen 4:图像生成的速度与质量新高峰
关键词:2K分辨率 + 多风格 + 排版能力提升
- 图像质量:比 Imagen 3 提升显著,能精准生成如水滴、动物毛发、织物纹理等细节;
- 风格多样性:支持现实主义与抽象风格、不同长宽比(适配打印、社媒、演示);
- 文本排版能力提升:首次强化“拼写与排版”,适合用于卡片、海报、漫画等含文字视觉创作;
- 使用平台:Gemini App、Whisk、Workspace 套件(Docs、Slides、Vids)及 Vertex AI;
即将推出:Imagen 4 flash,生成速度为 Imagen 3 的 10 倍。
🎵 Lyria 2:实时音乐生成与控制
Lyria 2 是 Google DeepMind 最新发布的 音乐生成模型,目标是生成高保真、专业级别音频,涵盖多种音乐风格、结构复杂的乐曲以及创作工具应用场景。
1. 🎧 高保真音频输出
- 可生成具备录音棚质量的音频内容;
- 支持各种乐器、声部组合,甚至模拟真实演奏技巧;
- 音频质量足以用于正式发行、演出背景或专业混音场景。
2. 🎼 多体裁、多风格支持
- Lyria 可覆盖从电子、古典到嘻哈、爵士等多种音乐风格;
- 在处理复杂节奏结构与和声编配时表现出强一致性;
- 支持跨风格融合创作,例如“爵士元素的电子乐”或“配有非洲打击乐的管弦作品”。
3. 🎹 为创作者设计的生成流程
- 已集成至 Google 的 Music AI Sandbox 工具中,面向作曲人、音乐制作人和词曲创作者;
- 支持互动生成与控制(通过 MusicFX DJ 或 Lyria RealTime API);
- 可用于歌曲草稿创作、配乐创意探索、现场演奏生成等多种场景。
可用平台:YouTube Shorts、Vertex AI、AI Studio API。
Lyria 2 详细介绍:https://deepmind.google/models/lyria/