信息差

一张照片+动作视频=AI换人！DreamActor-M1复刻Runway Act效果

DreamActor-M1：由字节跳动开发的一种基于Diffusion Transformer（DiT）的人像动画生成框架，可以根据参考图片和驱动视频生成高质量、可控、长时一致的人物动画视频。具备全方位控制力、跨尺度适应性和长时序一致性。

它可以：

只需一张照片（人脸或全身）和一段视频结合，就能让照片里的人“动起来”，像视频中的人一样跳舞、说话、做动作。
做到表情细腻、动作自然、画质高清，而且不会“失真”或者“乱动”。
能控制让照片只动头或只动脸，也支持各种身材比例和语言根据语音生成同步口型的动画。
即使视频中有你从未见过的姿势，它也能自然衔接，效果非常稳定。

📌 简单理解：DreamActor-M1 是一个“让静态照片动起来”的系统。你给它一张照片和一段参考动作视频，它就能自动把照片上的人“变活”，做出视频中的动作、表情、甚至说话时的嘴型。

它解决了哪些问题？

以前的动画生成技术有三大痛点：

表情和动作做得不够细腻；
面对不同视角、不同距离的图片（如头像、半身照）适应不好；
视频一长，前后人物细节会对不上，穿帮。

✨ DreamActor-M1 的主要功能特点

✅ 1. 细粒度的人体动画控制

同时控制面部表情（如微笑、眨眼、嘴唇颤动）和身体动作（如转头、抬手、跳舞等）。
脸部、头部和身体的控制彼此独立又协同，实现更自然的动作合成。

✅ 2. 多尺度适应性强

无论是头像、半身照、还是全身照都能自适应生成对应范围的动作。
训练时使用多种分辨率和比例的数据，确保模型能处理不同尺度的输入图像。

✅ 3. 长时间动画一致性（Temporal Coherence）

在长视频合成中保持细节一致，避免“穿帮”现象（如背后的衣服颜色变来变去）。
引入“补充参考图像”，使模型在看不到区域也能填充一致内容。

✅ 4. 高保真、身份保持性强

合成视频中的人物风格、长相、发型等高度还原参考图像。
保证面部特征的独立性，不因驱动视频而改变人物本身外观。

✅ 5. 支持音频驱动的表情同步

可将语音信号直接转换为面部动作（如嘴型变化），实现音频驱动的人脸动画（如对口型动画）。

功能特性与扩展能力

✅ 控制能力（Controllability）

支持只转移面部表情或头部动作，适用于虚拟人直播、表情操控等场景。
支持人物骨骼比例自适应调整（如人物身高不同也能还原动作风格）。
支持任意头部方向下生成动作。

✅ 多模态驱动

可扩展为 音频驱动动画，自动生成多语言唇动同步视频（如 AI 虚拟主播口型同步）。

✅ 多样性与鲁棒性

兼容不同角色风格、不同类型动作，生成效果稳健、连续、自然。

核心创新

1️⃣ 混合动作控制（Hybrid Motion Guidance）

控制信号来源：
- 3D人体骨架（Body Skeleton）
- 3D头部球体（Head Sphere）
- 隐式面部表征（Implicit Face Features）

这些信息帮助模型精准控制身体姿态和面部表情，保持身份一致性。

2️⃣ 外观引导机制（Appearance Guidance）

从一张或多张参考图像中提取视觉细节，提供 身份与风格信息。
融入生成过程，提升图像的清晰度、外观一致性，特别是在被遮挡区域。

3️⃣ 动画生成模块（Diffusion Transformer, DiT）

输入为：动作控制信息 + 带噪视频潜变量 + 外观信息
DiT 在多轮去噪过程中融合以下三种注意力：
- Face Attention：用于控制面部动作
- Self Attention：保持帧间一致性
- Reference Attention：保持人物外观

实验结果

与多种当前主流 SOTA 方法进行定量和定性对比，DreamActor-M1 在所有指标上表现优异，特别是在面部与身体联动一致性、连续动作的自然程度方面效果显著。

项目地址：https://grisoon.github.io/DreamActor-M1/

论文：https://arxiv.org/pdf/2504.01724

如果觉得文章对你有用，请随意赞赏

快讯

一张照片+动作视频=AI换人！DreamActor-M1复刻Runway Act效果

https://soraor.com/archives/ai-today_20250407163556

作者

破晓

发布于

2025-04-07

更新于

2025-04-07

许可协议

CC BY 4.0