标签:模型横评

硅星人 Eval Eps.1 | 8 家通用 Agent 预测 Google I/O keynote,结果出人意料

针对全球八款主流深度研究与智能体产品,研究团队以Google I/O 2026发布会为客观开奖场景,开展了一项同步同提示词的预测能力横评。评测采用过程评分占四成、...