字节跳动携手中国和新加坡大学研究团队推出的新型AI图像编辑系统PhotoDoodle,正在重新定义我们对图像创作的理解。这款基于Flux.1模型的创新技术,能够从少量样本中学习艺术风格,并精准执行特定编辑指令,为创意表达开辟了全新可能。

PhotoDoodle的核心是研究团队首先开发的OmniEditor系统,它巧妙地利用LoRA(低秩自适应)技术对德国初创公司Black Forest Labs的Flux.1图像生成模型进行了改良。这种方法不需要彻底重塑原始模型的权重,而是通过添加专用小型矩阵实现从微小概念调整到完整风格转换的能力。

随后,研究人员采用名为EditLoRA的变体训练OmniEditor,使其能够复制独特的艺术风格。通过与艺术家合作创建的精选图像对,系统得以掌握每种艺术风格的精妙之处。

image

PhotoDoodle 在保留原始图像构图的同时添加了怪物、魔法效果和装饰插图等有趣元素。| 图片:Huang 等人

PhotoDoodle最引人注目的创新是"位置编码克隆"技术。这项技术使AI能够记住原始图像中每个像素的确切位置,从而在添加新元素时保持画面构图的完整性,并确保新添加的元素自然融入背景。

这解决了传统图像编辑AI的关键痛点:要么改变整个图像风格,要么只能编辑局部区域,难以在保持原有视角和背景的同时融入新的装饰元素。而PhotoDoodle无需额外参数训练就能实现这一突破,大大提高了处理效率。

image

PhotoDoodle 使用各种艺术风格转换日常照片 - 从可爱的卡通怪物到手绘线条和色彩效果。| 图片:Huang 等人

在实际测试中,PhotoDoodle轻松应对从"让猫变白一点"到"添加一只爬上建筑物的粉红色怪物"等各种复杂指令。与现有技术相比,它在图像与文本描述相似度等基准测试中表现卓越,无论是针对性编辑还是全局图像更改,都远超同类产品。

image

PhotoDoodle 与现有的 AI 图像编辑系统的比较可以明显看出特定提示的执行质量存在差异。| 图片:Huang 等人

目前,PhotoDoodle需要数十对图像和数千个训练步骤才能掌握新风格。研究团队已将目光投向更高效的单图像训练方法,并发布了一个包含六种不同艺术风格和300多对图像的数据集,相关代码也已在GitHub上开源,为未来研究提供了坚实基础。

地址:https://github.com/showlab/PhotoDoodle