信息差

微软开源ART模型：一键生成多图层透明图片

在图像生成领域，多层图像生成技术正逐渐改变用户与生成模型的互动方式，允许用户隔离、选择并编辑特定的图像层。近日，微软研究人员推出了一种名为 “Anonymous Region Transformer”（ART）的新型技术，它能够根据全球文本提示和匿名区域布局，直接生成可变多层透明图像。

ART 的设计灵感来源于 “图式理论”，通过采用匿名区域布局，使生成模型可以自主决定哪些视觉信息与哪些文本信息对齐。这一方法与以往的语义布局形成鲜明对比。传统的语义布局通常需要明确的对应关系，而 ART 的匿名区域布局则提供了更大的灵活性。

值得注意的是，ART 引入了一种逐层区域裁剪机制，该机制只选择与每个匿名区域相关的视觉信息，从而显著降低了注意力计算的成本。这种方法不仅加快了生成速度，使其比全注意力方法快12倍以上，还有效减少了图层之间的冲突，能够处理50个以上不同层次的图像生成。

此外，ART 还提出了一种高质量的多层透明图像自编码器，支持以联合方式直接编码和解码可变多层图像的透明度。这一创新设计为精确控制和可扩展的层生成提供了新的可能性，进一步推动了交互式内容创作的发展。

项目:https://art-msra.github.io/

划重点:

🌟 ART可根据全球文本提示和匿名区域布局，直接生成多层透明图像。

⚡️ 采用逐层区域裁剪机制，显著提高了图像生成效率，比传统方法快12倍。

💡 新型高质量自编码器支持多层透明图像的精确控制与生成，推动交互式内容创作。

如果觉得文章对你有用，请随意赞赏

快讯

微软开源ART模型：一键生成多图层透明图片

破晓

2025-03-05

2025-03-05

CC BY 4.0