AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网

AIGC动态2个月前发布 AIera
387 0 0
AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网

 

文章摘要


【关 键 词】 AI技术历史文献手写识别推理能力模型优化

谷歌AI Studio上的一个神秘模型成功识别并修正了200多年前一位商人的「天书」账本,展现出接近人类专家级的手写文本识别能力和隐式推理水平。历史学家Mark Humphries通过测试发现,该模型不仅准确转写了潦草的手写内容,还纠正了原账本中的格式错误,甚至通过复杂的货币与重量单位换算,推断出文本中隐含的数值逻辑。这一表现标志着AI在历史文献处理领域的重大突破。

手写文本识别(HTR)的「最后一英里」难题被部分攻克。Humphries与团队构建的测试集包含50份18-19世纪的复杂文档,涵盖潦草字迹、拼写错误和非标准格式。新模型在严格字符错误率(CER)和词错误率(WER)上分别达到1.7%和6.5%,排除标点与大小写错误后进一步降至0.56%和1.22%,首次逼近专业转写服务的准确度上限。值得注意的是,这种提升并非依赖显式规则编程,而是模型通过训练数据自发形成的推理能力

非十进制货币系统的完美解析成为关键突破点。在转写奥尔巴尼商人账本时,模型不仅正确识别了「4/6」(4先令6便士)等旧式货币表达,还主动将省略的「0便士」补充为规范格式。更令人惊讶的是,面对「145」这一模糊数值,模型通过单价1先令4便士与总价19先令1便士的反向推算,准确推断出实际应为「14磅5盎司」,并完成单位标注。这种跨系统的多步换算能力,表明模型已开始理解文本背后的经济运作逻辑。

预测式架构的潜力边界被重新定义。传统观点认为,基于Transformer的大模型受限于其预测下一个token的核心机制,难以处理历史文献中的低概率表达。但新模型在未经专门提示的情况下,展现出对拼写错误、语言混杂(英语/荷兰语)和非常规记帐方式的适应性处理。Humphries推测,这可能源于模型规模扩大带来的涌现能力——当参数量达到临界点时,统计模式识别开始向符号推理演化。

这一进展对历史学研究具有双重意义:技术层面验证了AI辅助文献数字化的可行性,方法论层面则引发对机器「理解」边界的新讨论。虽然模型尚未完全复现人类史学家的语境化解读能力,但其在特定任务中表现出的抽象推理迹象,为AI在文化遗产保护、经济史研究等领域的应用开辟了新路径。谷歌尚未确认该模型是否为即将发布的Gemini-3,但其展现的技术跃迁已引发学界对下一代多模态模型的更高期待。

原文和模型


【原文链接】 阅读原文 [ 2849字 | 12分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...