文章摘要
【关 键 词】 AI 绘图、文字渲染、模型架构、虚假信息、技术突破
4 月 21 日,OpenAI 正式发布 GPT-Image-2,其在 Image Arena 排行榜上以显著优势位居第一,实现了全榜领先的清洁横扫。该模型面向所有 ChatGPT 用户,核心参数包括最高 4096×4096 分辨率,生成速度较前代翻倍,文字渲染准确率从前代的 90-95% 提升至约 99%。模型分为 Instant 快速出图模式与集成推理及网页搜索的 Thinking 模式,后者支持生成风格一致的多张图片,但锁定在付费层级。生图模型的能力边界,正在从视觉扩展到信息。 社区测试显示,该模型在生成历史地图、餐厅菜单及品牌套件时,文字内容准确可读,角色一致性表现优异,部分输出可直接投入商业使用而无需人工修正。
技术层面,GPT-Image-2 不再基于 GPT-4o 的图像 pipeline,而是从头设计的独立系统。架构重写使得语言理解和图像生成在同一过程中完成,解决了以往模型文字渲染不准的问题。Thinking 模式允许模型在生成过程中规划构图、检查输出并迭代修正,同时调用网页搜索以维持上下文一致性。训练数据偏向真实世界的视觉素材,如 UI 截图和店面招牌,增强了生成内容的可信度。架构决定了它能读懂文字,Thinking 让它能检查文字,世界知识让它知道文字应该长什么样。 这三层能力叠加,使文字渲染从短板变成了长板。
尽管能力提升显著,精确的文字渲染与可信的视觉词汇也成为了制造虚假信息的工具集。假 UI 截图、假法庭文件等密集文本叠加已知视觉词汇的场景,正是该模型优化的工作负载。过去的生图模型因文字瑕疵带有天然防伪标记,而新模型拆除了这层屏障。虽然 OpenAI 引入了元数据水印和溯源分类器,但截图或压缩可能导致水印失效。人类必须一起严肃应对这种以假乱真的能力了。 随着 AI 图像生成进入文字时代,信息的判断变得前所未有的困难,未来将面临因此产生的冲突与讨论,这不仅仅是技术问题,更关乎人类媒介史上的文字可信度挑战。
原文和模型
【原文链接】 阅读原文 [ 2165字 | 9分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 qwen3.5-397b-a17b
【摘要评分】 ★★★☆☆



