小红书图像编辑模型开源，媲美NanoBanana Pro

500 0 0

文章摘要

小红书超级智能团队倾力打造的指令驱动图像编辑扩散模型FireRed-Image-Edit正式开源，该模型具备顶级指令理解与像素级控制力，通过系统性优化数据清洗、模型架构、训练策略及多维评测体系，在自然视觉编辑、文字渲染及创意生成上达到极高水准。

研发团队构筑十亿级高质量图文数据基石，从16亿张涵盖文本生成图像与图像编辑对的初始样本中，经分层抽样、三级去重、光度与统计过滤等多轮清洗，最终保留超1亿张高质量训练样本，且文本到图像与图像编辑数据比例均衡。为补充自然优质样本不足，团队搭建数据生产引擎生成样本，针对冷门任务基于向量检索库补全数据；同时打磨图文标注引擎，将标注从结构化描述转化为用户口语化表达，并引入困难负样本挖掘机制进一步提升数据集含金量。

FireRed采用双流多模态扩散变压器架构，融合文本词汇、高清图像潜变量及参考图像特征，搭配三维统一旋转位置编码机制，极大提升精确修改时保护原有图像结构的能力。多条件感知桶采样器打破传统训练加载器对图像尺寸的限制，减少无用黑边填充；随机指令对齐机制避免模型死记硬背固定关联；系统层面通过预存嵌入向量、完全分片数据并行、混合精度训练等优化，大幅提升训练吞吐量。

模型遵循基础预训练、持续预训练、监督微调、基于人类反馈的强化学习的渐进式训练路线，各阶段针对性优化能力。基础预训练用海量数据灌输世界常识，持续预训练聚焦高分辨率混合任务并均衡小众风格数据；监督微调采用高分辨率样本，结合指数移动平均技术；针对人类偏好优化，提出正样本强化策略避免双重退化，还推出排版感知文字奖励机制解决文字渲染顽疾，引入身份一致性约束保护人像ID。

团队自建REDEdit-Bench评测基准体系，含1600多组专业编辑对，填补开源界高质量实用评估工具空白。通过自动化多模态裁判和光学字符识别技术量化成功率、过度编辑率等指标；盲测人类评价显示，FireRed在指令跟随上紧咬行业顶级闭源模型，在原图一致性保留上获最高分，各类编辑任务表现均位居前列，极限测试、老旧照片修复、创意编辑等场景均展现卓越能力。