AIGC动态
AIGC,AGI,人工智能
Opus 4.8:一个不太诚实的模型
Anthropic近期发布了Claude Opus 4.8模型,此次升级被官方定义为温和但确实存在的改进,核心卖点聚焦于提升模型的诚实度与可靠性,同时在编码与智能体能力上...
让 AI 搭3D乐高,为什么这么难?VAST 联合浙大等高校开源LegoACE
生成式人工智能在文本和图像等领域已取得显著进展,但在物理世界的结构化生成中仍面临复杂约束的挑战。以乐高搭建为例,模型不仅需要视觉合理,还必须满足砖...
Opus 4.8 刚发布,Redis 之父质疑跑分:DHH 盛赞的 GPT-5.5,正在动摇编码王座
Anthropic发布了其旗舰模型Opus的最新版本Opus 4.8,此次升级的核心聚焦于开发者工作流的优化,而非单纯的基准测试跑分。新版本引入了动态工作流和更具性价比...
实测Claude Opus 4.8,这可能是第一个不会偷懒的模型。
Anthropic近期发布了Claude Opus 4.8模型,并完成了新一轮巨额融资,估值逼近万亿美元。此次更新主要源于激烈的市场竞争压力以及前代模型表现未达预期。新模...
GUI Agent轨迹获取新范式:有限状态机合成无限轨迹数据,平均每条轨迹成本低至0.04美元
针对训练图形用户界面智能体时真实网页内部状态不可见导致轨迹验证困难的问题,研究团队提出了一种由有限状态机驱动的网页环境生成框架AutoWebWorld。该框架...
四道题评测 Qwen3.7-Max:从空间推理到 3D 建模,它离 Agent 更近了吗?
阿里云通义千问团队在三个月内连续发布三款旗舰大模型,最新推出的Qwen3.7-Max在多项权威评测中表现卓越,位列全球第五、国产第一。该模型在推理和编程智能体...
Agent 该怎么做真正的安全评测?
上海人工智能实验室等机构提出了一系列面向智能体安全评测与诊断的基准测试,包括ATBench及其扩展版本ATBench-Claw和ATBench-CodeX。这些研究将智能体安全评...
小米狂撒Token!最高降幅99%,全面对标DeepSeek
近期,国产大模型API市场掀起激烈的价格战,竞争已正式杀入成本线。DeepSeek宣布V4-Pro API永久降价,随后小米MiMo迅速跟进,最高降幅达99%,其Pro版核心价格...
国内同行羡慕硅谷有钱,硅谷在羡慕宇树有副好身体
宇树科技的真正价值并非体现在传统成熟产业的财务指标中,而是其在全球具身智能竞赛中所占据的关键位置。当前,硅谷头部科技企业已将具身智能视为大模型发展...
超越 TurboQuant! OSCAR:面向真实 Serving 的 2bit KV Cache量化
长上下文模型在在线推理服务中面临KV Cache带来的显存容量和带宽压力。OSCAR方案旨在通过面向长上下文服务的近2-bit KV Cache量化技术,解决低比特压缩后模型...





