DreamActor-M1:由字节跳动开发的一种基于Diffusion Transformer(DiT)的人像动画生成框架,可以根据参考图片和驱动视频生成高质量、可控、长时一致的人物动画视频。具备全方位控制力、跨尺度适应性和长时序一致性。

它可以:

  • 只需一张照片(人脸或全身)和一段视频结合,就能让照片里的人“动起来”,像视频中的人一样跳舞、说话、做动作。
  • 做到表情细腻、动作自然、画质高清,而且不会“失真”或者“乱动”。
  • 能控制让照片只动头或只动脸,也支持各种身材比例和语言根据语音生成同步口型的动画。
  • 即使视频中有你从未见过的姿势,它也能自然衔接,效果非常稳定。

📌 简单理解:DreamActor-M1 是一个“让静态照片动起来”的系统。你给它一张照片和一段参考动作视频,它就能自动把照片上的人“变活”,做出视频中的动作、表情、甚至说话时的嘴型。

它解决了哪些问题?

以前的动画生成技术有三大痛点:

  1. 表情和动作做得不够细腻;
  2. 面对不同视角、不同距离的图片(如头像、半身照)适应不好;
  3. 视频一长,前后人物细节会对不上,穿帮。

✨ DreamActor-M1 的主要功能特点

✅ 1. 细粒度的人体动画控制

  • 同时控制面部表情(如微笑、眨眼、嘴唇颤动)和身体动作(如转头、抬手、跳舞等)。
  • 脸部、头部和身体的控制彼此独立又协同,实现更自然的动作合成。

✅ 2. 多尺度适应性强

  • 无论是头像、半身照、还是全身照都能自适应生成对应范围的动作。
  • 训练时使用多种分辨率和比例的数据,确保模型能处理不同尺度的输入图像。

✅ 3. 长时间动画一致性(Temporal Coherence)

  • 在长视频合成中保持细节一致,避免“穿帮”现象(如背后的衣服颜色变来变去)。
  • 引入“补充参考图像”,使模型在看不到区域也能填充一致内容。

✅ 4. 高保真、身份保持性强

  • 合成视频中的人物风格、长相、发型等高度还原参考图像。
  • 保证面部特征的独立性,不因驱动视频而改变人物本身外观。

✅ 5. 支持音频驱动的表情同步

  • 可将语音信号直接转换为面部动作(如嘴型变化),实现音频驱动的人脸动画(如对口型动画)。

功能特性与扩展能力

✅ 控制能力(Controllability)

  • 支持只转移面部表情或头部动作,适用于虚拟人直播、表情操控等场景。
  • 支持人物骨骼比例自适应调整(如人物身高不同也能还原动作风格)。
  • 支持任意头部方向下生成动作。

✅ 多模态驱动

  • 可扩展为 音频驱动动画,自动生成多语言唇动同步视频(如 AI 虚拟主播口型同步)。

✅ 多样性与鲁棒性

  • 兼容不同角色风格、不同类型动作,生成效果稳健、连续、自然。

核心创新

1️⃣ 混合动作控制(Hybrid Motion Guidance)

  • 控制信号来源

    • 3D人体骨架(Body Skeleton)
    • 3D头部球体(Head Sphere)
    • 隐式面部表征(Implicit Face Features)

这些信息帮助模型精准控制身体姿态和面部表情,保持身份一致性。


2️⃣ 外观引导机制(Appearance Guidance)

  • 从一张或多张参考图像中提取视觉细节,提供 身份与风格信息
  • 融入生成过程,提升图像的清晰度、外观一致性,特别是在被遮挡区域。

3️⃣ 动画生成模块(Diffusion Transformer, DiT)

  • 输入为:动作控制信息 + 带噪视频潜变量 + 外观信息
  • DiT 在多轮去噪过程中融合以下三种注意力:

    • Face Attention:用于控制面部动作
    • Self Attention:保持帧间一致性
    • Reference Attention:保持人物外观

实验结果

与多种当前主流 SOTA 方法进行定量和定性对比,DreamActor-M1 在所有指标上表现优异,特别是在面部与身体联动一致性、连续动作的自然程度方面效果显著。

项目地址:https://grisoon.github.io/DreamActor-M1/

论文:https://arxiv.org/pdf/2504.01724