标签:智能体
阶跃发布 Step 3.7 Flash,效率模型开始争夺 Agent 主战场
在人工智能向智能体时代演进的过程中,Flash模型的定位正发生深刻转变,从旗舰模型的轻量版本转变为智能体时代的任务基座。在真实的智能体工作流中,速度、智...
DeepSeek狂吞17万亿Tokens?国产AI算力,最关键一战来了!
DeepSeek系列模型在OpenRouter平台上的月调用量表现突出,合计超过17万亿tokens,标志着Token消耗的绝对主力已从传统聊天机器人转向具备规划、检索和工具调用...
零信任,验证一切!Anthropic发布企业自主智能体安全白皮书
智能体面临的安全威胁主要包括提示注入、工具与资源劫持、身份与权限滥用、记忆和上下文投毒以及供应链风险。由于大语言模型无法可靠区分信息性上下文和可执...
硅谷大事件丨Anthropic 以9650亿美元估值登顶王座;Claude Opus 4.8发布,主打「知错就认」;苹果憋大招,欲将Gemini蒸馏塞入iPhone
近期人工智能领域在资本市场、模型技术以及基础设施布局方面呈现出显著的发展态势。在资本与市场表现方面,Anthropic完成650亿美元融资,投后估值达到9650亿...
Opus 4.8:一个不太诚实的模型
Anthropic近期发布了Claude Opus 4.8模型,此次升级被官方定义为温和但确实存在的改进,核心卖点聚焦于提升模型的诚实度与可靠性,同时在编码与智能体能力上...
实测Claude Opus 4.8,这可能是第一个不会偷懒的模型。
Anthropic近期发布了Claude Opus 4.8模型,并完成了新一轮巨额融资,估值逼近万亿美元。此次更新主要源于激烈的市场竞争压力以及前代模型表现未达预期。新模...
GUI Agent轨迹获取新范式:有限状态机合成无限轨迹数据,平均每条轨迹成本低至0.04美元
针对训练图形用户界面智能体时真实网页内部状态不可见导致轨迹验证困难的问题,研究团队提出了一种由有限状态机驱动的网页环境生成框架AutoWebWorld。该框架...
Agent 该怎么做真正的安全评测?
上海人工智能实验室等机构提出了一系列面向智能体安全评测与诊断的基准测试,包括ATBench及其扩展版本ATBench-Claw和ATBench-CodeX。这些研究将智能体安全评...
小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70%!
清华大学联合面壁智能等团队研发并开源了名为PilotDeck的智能体操作系统,旨在解决当前Agent工具在生产力应用中面临的工程化痛点。该系统通过提供独立工作舱...
CPU,夯爆了!
随着人工智能基础设施从训练中心向推理中心及智能体中心演进,中央处理器在数据中心的重要性日益凸显,其市场规模预测被各大机构大幅上调。由于智能体人工智...




