打造图像编辑领域的ImageNet?苹果用Nano Banana开源了一个超大数据集
文章摘要
苹果公司在开放研究领域取得突破性进展,发布了Pico-Banana-400K数据集,这是视觉编辑领域首个基于真实图像的大规模开放数据集。该数据集包含40万张图像,通过利用谷歌Nano-Banana模型在OpenImages实拍照片上生成多样化的编辑对构建而成。与以往合成数据集不同,Pico-Banana-400K采用精细的图像编辑分类体系,确保编辑类型的全面覆盖,并通过多模态大模型的质量评分与人工精筛实现内容一致性与指令忠实性的平衡。
数据集由多个子集构成,单轮监督微调子集包含25.8万个成功的单轮图像编辑示例,涵盖35种编辑分类法的全部范围。此外,数据集还支持复杂的多轮编辑研究,包括7.2万组多轮编辑序列、5.6万个偏好样本以及长短指令配对集。偏好子集是该领域的重要贡献,通过系统收集成功与失败的编辑尝试,为人类对齐与偏好学习研究提供了可能。
苹果构建了一个能够自我编辑和评估的完整流程:纳米香蕉负责进行编辑,Gemini 2.5 Pro负责评判结果,失败会自动重试,直到通过。这一流程真正实现端到端运行,全程无需人工干预。数据集保留了失败的编辑结果,每个失败的编辑都与成功的编辑配对,这为训练模型理解”更好”的标准提供了可能。
研究团队评估了数据集中不同编辑类型的成功率,发现全局外观和风格编辑较为容易,而需要精细空间控制、布局或符号一致性的编辑仍然具有挑战性。全局编辑的可靠性最高,强艺术风格迁移的成功率达0.9340;而需要精确几何控制的编辑如移动物体成功率仅0.5923,文字编辑尤为脆弱,更改字体/样式的成功率最低仅0.5759。
Pico-Banana-400K的发布标志着人工智能现在可以大规模生成和验证自己的训练数据,且无需人工监督。该数据集不仅为训练和评测新一代文本引导图像编辑模型奠定基础,还支持多目标训练和复杂编辑场景研究。苹果公司通过这一工作,在多模态学习领域做出了重要贡献,为未来十年的发展奠定了基础。
原文和模型
【原文链接】 阅读原文 [ 2542字 | 11分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




