信息差

Google放大招！Flow电影AI+Veo 3视频模型+Imagen 4图像模型+Lyria 2音乐模型齐发

面对快速变化的创意工具生态，Google 在 2025 年 I/O 大会宣布了一整套新一代生成式媒体模型与创作工具，涵盖视频、图像、音乐和内容溯源等多个维度。

Google 推出了 Flow —— 个由 Google 内部最先进的 AI 模型（包括 Veo、Imagen 和 Gemini）驱动的 AI 电影创作平台，帮助创作者用自然语言就能生成电影片段，无需高超特效或动画技术。

它并非只是又一个视频生成工具，而是一个与电影创作者共创、专为叙事与电影工业构建的完整创作系统。Flow 的推出意味着，从想法到电影级画面的转化，将比以往任何时候都更加迅速、自由和高效。

它的特点不仅在于能“生成图像”，而在于它能理解故事的逻辑、镜头语言的语法，以及视觉风格的延续性，这些特性构成了它与普通 AI 视频生成工具的本质差异。

你只需描述想要的场景，Flow 就能生成像电影一样的画面，还能控制镜头、剪辑场景、统一角色等。

现已面向 Google AI Pro 和 Ultra 计划的订阅者开放。

访问：flow.google

背后三大 AI 引擎：协同驱动创作流程

这些模型形成协同网络，让 Flow 能实现如下核心能力：

用文字描述生成角色与场景；
支持角色在不同镜头中的一致性；
控制镜头移动、光影与视角；
场景之间可连续过渡，支持“剪辑”概念；
多次生成内容可整合为一个完整短片结构。

无缝过渡

相机控制

影院级品质

关键功能：不仅是生成，而是导演工具箱

Flow 提供的不仅仅是图像与视频生成，还包含了大量针对创意制作流程的功能模块：

1. Camera Controls（镜头控制）

允许用户手动指定镜头的角度、轨迹和运动方式，比如“近景推镜”、“缓慢横移”等，实现具有导演感的镜头语言。

2. SceneBuilder（场景构建器）

可以扩展现有镜头，或者在场景之间建立自然的过渡，如揭示更多信息、变换视角等。

3. Asset Management（资产管理）

集中管理已生成的“ingredients”（角色、背景、物件），并可重复使用它们，维持风格统一。

4. Flow TV（案例学习平台）

平台上集成了大量基于 Flow 生成的短片作品，附带详细提示词和制作方法，便于学习与模仿。

Flow案例展示

Google 在 Flow 开发过程中邀请了多位具有前瞻意识的导演与艺术家参与合作，下面是其中三位的案例：

🔹 Dave Clark

获奖导演，代表作《Battalion》《NinjaPunk》均尝试融合 AI 技术，其新片《Freelancers》由 Flow 与其他 AI 工具协助完成，讲述失散兄弟间的成长与冒险。

🔹 Henry Daubrez

数字艺术家，使用 Flow 制作新片《Electric Pink》，延续他对孤独与情感连接的探索。

🔹 Junie Lau

多领域创作者，正制作《Dear Stranger》——关于祖母与孙女跨越多重平行宇宙的诗意叙事作品，聚焦数字身份与情感的延伸。

这些案例不仅展示了 Flow 的技术能力，更反映出 AI 已深入参与到叙事逻辑、情感建构乃至艺术美学的多个层面。

📺 Veo 3 发布 Veo 2 能力更新

Google DeepMind 正式发布了其迄今为止最先进的视频生成模型——Veo 3。与前一代 Veo 2 相比，Veo 3 不仅在图像质量、物理一致性、提示词遵循性等方面实现质的飞跃，还引入了包括音频在内的新创作维度，标志着生成式视频技术迈入“电影级创作”时代。

Veo 3eo 3 的核心能力

4K高清输出与真实感增强

支持 原生 4K 分辨率输出，达到近似专业摄影机的视觉细节；
在运动物理、光照逻辑、材质质感等方面实现了对现实世界规则的高保真模拟；
场景间的物体一致性、透视准确性大幅提高，生成画面可无缝嵌入真实拍摄片段。

更强的提示词理解能力

相较于 Veo 2，Veo 3 显著提升了prompt adherence（提示遵循性）；
支持更复杂的自然语言描述，包括镜头运动、情绪基调、构图细节；
允许用户用通俗语言表达专业导演指令（如“清晨，海边，手持镜头感，渐变色光”）；

创作控制能力提升

支持镜头间连贯动作过渡，保持角色与背景逻辑一致；
可构建复杂场景结构（如多人互动、动态叙事节奏）；
融合 音频生成功能（Veo 3 独有），首次将“环境音、对白”等音频生成能力引入视频模型中，支持生成环境声与对白，对应不同场景情绪氛围；

Veo 2 的能力更新（相较初版）

尽管焦点转向 Veo 3，Veo 2 仍进行了能力升级，尤其是在以下方面：

引入了新的“控制模块”（Control Modules），允许用户对生成内容的风格与细节进行更精准控制；
改善了场景连贯性及长时序镜头质量；
保持角色的一致性：通过为 Veo 提供角色的参考图像，确保角色在视频的不同场景中保持其外观。
更好地与平台（如 Flow）集成，用于实战创作流程。

Veo 目前已整合至 Google Labs 的 Flow 平台

服务于电影人、创意团队、广告制作人等角色。典型应用场景包括：

短片预演与镜头规划（Storyboarding & Previsualization）；
虚拟场景搭建与角色动作模拟；
影视剧概念片段制作；
交互式叙事视频生成（如游戏场景动画）。

Veo 3详细介绍：https://deepmind.google/models/veo/

🖼️ Imagen 4：图像生成的速度与质量新高峰

关键词：2K分辨率 + 多风格 + 排版能力提升

图像质量：比 Imagen 3 提升显著，能精准生成如水滴、动物毛发、织物纹理等细节；
风格多样性：支持现实主义与抽象风格、不同长宽比（适配打印、社媒、演示）；
文本排版能力提升：首次强化“拼写与排版”，适合用于卡片、海报、漫画等含文字视觉创作；
使用平台：Gemini App、Whisk、Workspace 套件（Docs、Slides、Vids）及 Vertex AI；
即将推出：Imagen 4 flash，生成速度为 Imagen 3 的 10 倍。

🎵 Lyria 2：实时音乐生成与控制

Lyria 2 是 Google DeepMind 最新发布的 音乐生成模型，目标是生成高保真、专业级别音频，涵盖多种音乐风格、结构复杂的乐曲以及创作工具应用场景。

1. 🎧 高保真音频输出

可生成具备录音棚质量的音频内容；
支持各种乐器、声部组合，甚至模拟真实演奏技巧；
音频质量足以用于正式发行、演出背景或专业混音场景。

2. 🎼 多体裁、多风格支持

Lyria 可覆盖从电子、古典到嘻哈、爵士等多种音乐风格；
在处理复杂节奏结构与和声编配时表现出强一致性；
支持跨风格融合创作，例如“爵士元素的电子乐”或“配有非洲打击乐的管弦作品”。

3. 🎹 为创作者设计的生成流程

已集成至 Google 的 Music AI Sandbox 工具中，面向作曲人、音乐制作人和词曲创作者；
支持互动生成与控制（通过 MusicFX DJ 或 Lyria RealTime API）；
可用于歌曲草稿创作、配乐创意探索、现场演奏生成等多种场景。

可用平台：YouTube Shorts、Vertex AI、AI Studio API。

Lyria 2 详细介绍：https://deepmind.google/models/lyria/

如果觉得文章对你有用，请随意赞赏

快讯

Google放大招！Flow电影AI+Veo 3视频模型+Imagen 4图像模型+Lyria 2音乐模型齐发

https://soraor.com/archives/ai-today_20250521151846

作者

破晓

发布于

2025-05-21

更新于

2025-05-21

许可协议

CC BY 4.0