GPT-Image-2 ：随意做出可作为“证据”的图片，强到让人恐慌

349 0 0

文章摘要

4 月 21 日，OpenAI 正式发布 GPT-Image-2，其在 Image Arena 排行榜上以显著优势位居第一，实现了全榜领先的清洁横扫。该模型面向所有 ChatGPT 用户，核心参数包括最高 4096×4096 分辨率，生成速度较前代翻倍，文字渲染准确率从前代的 90-95% 提升至约 99%。模型分为 Instant 快速出图模式与集成推理及网页搜索的 Thinking 模式，后者支持生成风格一致的多张图片，但锁定在付费层级。生图模型的能力边界，正在从视觉扩展到信息。 社区测试显示，该模型在生成历史地图、餐厅菜单及品牌套件时，文字内容准确可读，角色一致性表现优异，部分输出可直接投入商业使用而无需人工修正。

技术层面，GPT-Image-2 不再基于 GPT-4o 的图像 pipeline，而是从头设计的独立系统。架构重写使得语言理解和图像生成在同一过程中完成，解决了以往模型文字渲染不准的问题。Thinking 模式允许模型在生成过程中规划构图、检查输出并迭代修正，同时调用网页搜索以维持上下文一致性。训练数据偏向真实世界的视觉素材，如 UI 截图和店面招牌，增强了生成内容的可信度。架构决定了它能读懂文字，Thinking 让它能检查文字，世界知识让它知道文字应该长什么样。 这三层能力叠加，使文字渲染从短板变成了长板。

尽管能力提升显著，精确的文字渲染与可信的视觉词汇也成为了制造虚假信息的工具集。假 UI 截图、假法庭文件等密集文本叠加已知视觉词汇的场景，正是该模型优化的工作负载。过去的生图模型因文字瑕疵带有天然防伪标记，而新模型拆除了这层屏障。虽然 OpenAI 引入了元数据水印和溯源分类器，但截图或压缩可能导致水印失效。人类必须一起严肃应对这种以假乱真的能力了。 随着 AI 图像生成进入文字时代，信息的判断变得前所未有的困难，未来将面临因此产生的冲突与讨论，这不仅仅是技术问题，更关乎人类媒介史上的文字可信度挑战。