图像编辑模型SeedEdit 3.0发布！更强保持力，更高可用率

依靠 AI 完成指令式图像编辑的需求，广泛存在于视觉内容创意工作中。但此前，图像编辑模型在主体&背景保持、指令遵循等方面能力相对有限，导致编辑图像可用率不高。

图像编辑模型 SeedEdit 3.0 基于文生图模型 Seedream 3.0，叠加多样化的数据融合方法与特定奖励模型，较好地解决了上述难题。其图像主体、背景和细节保持能力进一步提升，尤其在人像编辑、背景更改、视角与光线转换等场景表现较为突出。

今日起，SeedEdit 3.0 技术报告对外公开，模型同步在即梦网页端开启测试，豆包 App 也即将上线，欢迎体验交流！

项目主页：https://seed.bytedance.com/seededit

技术报告：https://arxiv.org/pdf/2506.05083

体验入口：

即梦网页端-图片生成-上传参考图-选择图片 3.0 模型-输入修改 Prompt（灰度测试中）；

豆包 App-AI 生图-添加参考图-输入修改 Prompt（即将上线）。

字节跳动 Seed 团队今天正式发布图像编辑模型 SeedEdit 3.0。

该模型可处理并生成 4K 图像，在精细且自然地处理编辑区域的同时，还能高保真地维持其他信息。尤其针对图像编辑“哪里改与哪里不改”的取舍，该模型表现出更佳的理解力和权衡力，可用率相应提高。

当用户需要去掉图片内一众行人，模型不仅可以准确识别并移除场景内的无关人物，连影子也能一并去掉。

Prompt：移除中间人物以外的所有行人

在 2D 绘画转为真实模特的任务中，SeedEdit 3.0 较好地保持了人物的衣帽穿搭与手提包等细节，生成图片兼具时尚街拍感。

Prompt：使女孩看起来逼真

整个场景的光影变换，模型也可以处理得丝滑、自然。从近处房屋，到远处海水波纹，细节均能合理保留下来，并跟随光线变化，进行“像素级”的渲染调整。

Prompt：把场景变为白天

为了实现上述能力，团队在 SeedEdit 3.0 的研发工作中提出了一种高效的数据融合策略，并构建了多种专用奖励模型。

通过将这些奖励模型与扩散模型联合训练，团队针对性地改善了关键任务的编辑质量（如人脸对齐、文本渲染等）。实际落地中，我们也对推理加速进行了同步优化。

Prompt：将“STOP”更改为“WARM”

1. 图像编辑保持能力突出，真人评测可用率较高

为更好评估升级版的 SeedEdit 3.0，团队收集了数百张真实与合成的测试图像集合，共构建 23 类编辑操作子任务。除了常见的风格化、添加、替换和删除，我们还加入相机运动、物体位移、场景切换等指令式动作，以更全面评估模型表现。

机器评测结果

团队以 CLIP 图片相似度评估模型编辑保持效果，利用第三方 VLM 自动化评估“编辑需求是否在最终图片内体现”，即：指令响应程度。

在下方坐标图中，我们可以看到，SeedEdit 3.0 在编辑保持效果、指令响应能力上领先于此前版本 SeedEdit 1.0，以及引入新数据源的 SeedEdit 1.5、进一步加入数据合并策略的 SeedEdit 1.6。对比 Gemini 2.0 和 Step1X，SeedEdit 3.0 也有一定优势。我们同时观察到，GPT-4o 位于右下角，表明其图像保持能力较 SeedEdit 3.0 有差距，但指令遵循更为出色。

纵轴代表图像主体保持效果，横轴代表机器评测的指令响应程度

从下图则可以看到，SeedEdit 3.0 在人脸保持上，也有明显优势。

纵轴代表人脸保持效果，横轴同样代表机器评测的指令响应程度

真人评测结果

为增强评估参考性，团队还引入人工评价，采用 0–5 分制评估模型产出与预期差异，共分为五个维度：

指令遵循：评估模型是否准确响应编辑指令；
图像保持：评估模型是否修改了不该调整的部分；
生成质量：评估生成图像质量、美感高低、有无明显伪影；
用户满意度：评估不同方法编辑后图像的精品率；
可用率：编辑后生成图像结果被用户判断可用的占比。

在综合测评中，SeedEdit 3.0 的图像保持能力最为突出，保持能力得分达到 4.07 分（满分 5 分），较此前版本 SeedEdit 1.6 得分提升 1.19 分；SeedEdit 3.0 可用率达 56.1%，较 SeedEdit 1.6 绝对值增加 17.46 个百分点。同时，SeedEdit 3.0 的指令遵循、生成质量表现也处于行业前列。

不同图像编辑模型在可用率、用户满意度、指令遵循、图像保持、生成质量维度的表现

如下为部分对比案例。可以看到，SeedEdit 3.0 对非编辑区域的保持能力强，生成内容自然，细节保持较好，同时兼顾了美感。

通过定性比较能看到，SeedEdit 3.0 在人脸、物体/人物前景、图像细节保留、汉字更改和对齐方面有着较好表现

2. 增强型数据策略，让 AI 理解 P 图任务中的“变”与“不变”

图像编辑任务训练的关键在于——让模型能“听懂”指令、理解不同任务差异、可在画面中区分出“需要改动”和“需要保持”部分。而数据是模型能力的基石，为此，团队专门开发了一套增强型数据融合策略。

考虑不同任务与场景，该方法构建了以下几个类别的数据：

合成数据集

我们专门设计了配对采样策略，该过程既包括语言模型与视觉理解模型生成的提示词采样，也包括文生图模型生成的噪声采样。此类数据使模型能够关注重要和长尾的任务类型与图像主体，理解各种主体姿势的几何推理变化。

编辑专家数据

团队以合规方式收集了一部分真实数据，其中包含大量专业图像编辑流程（例如：ComfyUI 工作流、背景&光线调整、文本编辑等），将上述数据与图像生成 API 联合构建出多条数据创建管道，充分覆盖各类专家场景。

传统人工编辑操作

我们还基于传统编辑工具制作了高质量编辑操作数据（如：镜头模糊、光照调整、裁剪、按模板生成海报等）。这些数据提供了准确的损失方向信息，进一步让模型“理解”编辑行为中“变”与“不变”的差异。

视频帧与多镜头

大规模多样化真实图像对泛化能力至关重要。视频素材为图像配对或组图提供了天然资源，可用于标注并支持图像编辑。于是，我们从视频素材中采样了编辑对——先从视频片段随机抽取若干关键帧，添加文字指令描述区别，再根据 CLIP 图像相似度和光流指标粗筛，最后应用 VLM 精筛。

通过上述方法，我们获取了更多领域的数据，尽可能减少跨领域数据处理产生的域间差距（Domain Gap）问题，提升了模型对图像任务的理解力，让其能像人类设计师一样，处理图像“要改”与“要保持住”的部分。

以下为部分构造的例子：

基于上述数据，我们促使扩散模型在真实数据与合成的“输入-输出编辑空间”进行交错学习，在不损失各种编辑任务信息的同时，提高对真实图片的编辑效果。具体训练框架如下：

我们从多个数据源收集元信息，将多个 Loss 融合并插入训练过程中

考虑到不同来源的编辑数据差异较大，直接加入到原始合成图像对将导致性能下降。比如，“更换为巴黎”指令在传统 P 图任务中，可能只涉及简单背景替换，但在基于扩散模型的 IP/ID 保留任务中，则可能意味着对所有像素的彻底修改。

为此，我们提出一种多粒度标签策略，有效融合不同来源的图像编辑数据。对于差别比较大的数据，可通过统一任务标签区分，面向差别较小的，则加入特殊 Caption 以区分，减小模型推理的随机性。鉴于模型需要兼顾中英双语场景，团队对提示词进行了采样，并使用 VLM 生成新的中英文描述。

最后，经过重新描述、过滤和对齐，所有数据均可用于正向和反向的编辑操作训练，从而实现了整体性能的平衡。

3. 对齐不同模态信息，多阶段进行训练

我们沿用此前验证过的框架：底层使用视觉理解模型，推断图像高层语义信息；顶层采用因果扩散网络，并在扩散过程中重新引入图像编码器，以捕捉细节信息。

在视觉理解模型与扩散模型之间，我们加入一条连接，用于将前者获取的编辑推理（如任务类型、编辑标签等）信息与后者对齐。

在其基础上，我们将扩散网络升级为 Seedream 3.0，可原生生成 1K 至 2K 分辨率图像，显著提升了输入图像细节（如人脸与物体特征）的保留效果。此外，这还使得 SeedEdit 3.0 获得了充分的双语文本理解和文本渲染能力，并可轻松拓展到多模态图像生成场景。

改造完成后的 SeedEdit 3.0 结构

为训练该架构，我们采用多阶段训练策略。其中，预训练旨在融合所有收集的图像对数据，精调则聚焦于微调并稳定编辑性能。

具体来说，我们先进行了多长宽比训练，依靠多分辨率批次训练，使模型从低分辨率逐步过渡到高分辨率。

在微调阶段，团队重新采样大量精调数据，从中选出高分辨率、高质量样本，结合多种模型过滤器和人工审核，对数据进行筛选，确保数据高质量且覆盖丰富的编辑类别。接着，采用扩散 Loss 对模型进行微调。

对于部分对用户价值极高的属性（例如人脸身份、一些细节结构或美感等），我们引入特定奖励模型作为额外 Loss，并赋予权重，提升 SeedEdit 3.0 在高价值能力上的表现。

最后，我们将编辑任务与 T2I 任务联合训练，这使得：

（1）注入高质量/高分辨率的 T2I 图像后，模型高分辨率图像编辑能力显著提升；

（2）模型可保留 T2I 模型能力，进一步增强泛化性能。

4. 融合多个加速方法，实现 10 秒级推理

在训练与推理加速方面，SeedEdit 3.0 也采用了更为有效的方案：

蒸馏模型方法

我们的加速框架基于 Hyper-SD 和 RayFlow，通过为每个样本设定独特的目标分布，大幅减少路径重叠，提升了生成稳定性和输出多样性，避免了传统方法细粒度控制削弱、反向去噪不稳定的问题。

CFG 蒸馏

考虑到无类别引导（Classifier-Free Guidance，CFG）方法导致推理成本几乎翻倍，我们将 CFG 编码为一个可学习模块，与时间步编码联合嵌入。这种蒸馏方法实现约 2 倍的推理加速，且仍可按需调整引导强度。

统一噪声参照

为保证采样过程平滑过渡，我们引入由网络预测的单一噪声参照向量。该向量在每个时间步保持不变，为去噪阶段提供持续一致的引导，实现更稳健的采样和更逼真的重建。

自适应时间步采样

传统扩散训练过程损失方差较大，并在低信息量区间存在计算浪费，我们引入了一种自适应采样策略，在训练中，神经网络模块会重点选择对损失下降贡献最大的时间步，实现更具针对性的更新，使计算资源利用率提升，降低训练成本。

少步高保真采样

SeedEdit 3.0 的框架采用高度压缩去噪调度，相较标准方法，新框架让模型大幅减少采样步数，同时在美感、文本-图像对齐、结构准确性等关键指标上仍有较好表现。

量化

面向 DiT 模型的架构与规模，我们通过内核融合（kernel fusion）和内存访问合并（memory access coalescing）等技术手段，对特定算子进行了性能优化。

与原始结构相比，部分算子执行速度提升超过两倍。同时，我们还对 GEMM 和 Attention 模块进行了低比特量化，进一步提升了性能并节省内存。

5. 写在最后

尽管 SeedEdit 3.0 在图像保持、可用率等方面表现不错，团队同样也看到，其在指令遵循方面仍有一定提升空间。

未来，除进一步优化编辑性能外，团队还将探索更丰富的编辑操作，让模型拥有连续多图生成、多张图像合成、故事性内容生成等能力，帮助用户激发更多精彩创意。

点击“阅读原文”，了解 SeedEdit 3.0 更多信息

{{userData.name}}已认证