硅星人 Eval Eps.1 | 8 家通用 Agent 预测 Google I/O keynote，结果出人意料

333 0 0

文章摘要

针对全球八款主流深度研究与智能体产品，研究团队以Google I/O 2026发布会为客观开奖场景，开展了一项同步同提示词的预测能力横评。评测采用过程评分占四成、结果评分占六成的综合算法，重点考察推理链路、信源质量与实际命中率。评测结果表明，在预测类任务中，少而精的信源策略与精准押注显著优于海量罗列与广泛覆盖。综合排名首位的模型凭借高度聚焦官方一手资料与严谨的细节对齐实现最高命中率，而过程表现优异的选手则因将已发布信息误判为未来预告而错失冠军。值得关注的是，综合排名靠后的模型反而通过拼接冷门公开线索，唯一押中了发布会的最大意外产品，展现出独特的反共识洞察潜力。

数据交叉比对揭示了智能体在实际应用中的典型行为特征。预测条目数量与综合得分呈明显负相关，过度堆砌技术细节会大幅拉低命中分母，导致综合评分下滑。信源采集方面，过度依赖长尾博客与营销内容会严重干扰推理准确性，甚至引发时序错位与事实编造；相反，保守但高质量的信息筛选能有效规避幻觉风险。此外，所有参测产品在面对全新商业定价策略、跨生态功能整合、全新品牌命名以及宏观规模数据时均出现集体预测失效。这反映出当前智能体擅长单点技术特性推演，但在理解企业商业逻辑、产品矩阵重组及非技术性战略发布方面存在结构性盲区。该评测体系及相关数据已全面开源，为客观衡量自主推理类工具的真实决策价值提供了可回溯的基准参照。