文章摘要
【关 键 词】 图像编辑、开源模型、架构优化、渐进训练、评测基准
小红书超级智能团队倾力打造的指令驱动图像编辑扩散模型FireRed-Image-Edit正式开源,该模型具备顶级指令理解与像素级控制力,通过系统性优化数据清洗、模型架构、训练策略及多维评测体系,在自然视觉编辑、文字渲染及创意生成上达到极高水准。
研发团队构筑十亿级高质量图文数据基石,从16亿张涵盖文本生成图像与图像编辑对的初始样本中,经分层抽样、三级去重、光度与统计过滤等多轮清洗,最终保留超1亿张高质量训练样本,且文本到图像与图像编辑数据比例均衡。为补充自然优质样本不足,团队搭建数据生产引擎生成样本,针对冷门任务基于向量检索库补全数据;同时打磨图文标注引擎,将标注从结构化描述转化为用户口语化表达,并引入困难负样本挖掘机制进一步提升数据集含金量。
FireRed采用双流多模态扩散变压器架构,融合文本词汇、高清图像潜变量及参考图像特征,搭配三维统一旋转位置编码机制,极大提升精确修改时保护原有图像结构的能力。多条件感知桶采样器打破传统训练加载器对图像尺寸的限制,减少无用黑边填充;随机指令对齐机制避免模型死记硬背固定关联;系统层面通过预存嵌入向量、完全分片数据并行、混合精度训练等优化,大幅提升训练吞吐量。
模型遵循基础预训练、持续预训练、监督微调、基于人类反馈的强化学习的渐进式训练路线,各阶段针对性优化能力。基础预训练用海量数据灌输世界常识,持续预训练聚焦高分辨率混合任务并均衡小众风格数据;监督微调采用高分辨率样本,结合指数移动平均技术;针对人类偏好优化,提出正样本强化策略避免双重退化,还推出排版感知文字奖励机制解决文字渲染顽疾,引入身份一致性约束保护人像ID。
团队自建REDEdit-Bench评测基准体系,含1600多组专业编辑对,填补开源界高质量实用评估工具空白。通过自动化多模态裁判和光学字符识别技术量化成功率、过度编辑率等指标;盲测人类评价显示,FireRed在指令跟随上紧咬行业顶级闭源模型,在原图一致性保留上获最高分,各类编辑任务表现均位居前列,极限测试、老旧照片修复、创意编辑等场景均展现卓越能力。
原文和模型
【原文链接】 阅读原文 [ 3595字 | 15分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 doubao-seed-1-8-251228
【摘要评分】 ★★★★★



