标签:模型测评
Kimi K2.7 Code 有多能打?找 Bug,写 3D 游戏,2000 行代码砍掉 55%
随着人工智能编程工具从单纯的代码补全向承担完整开发任务演进,Kimi K2.7 Code 正式发布。该模型主要面向长上下文、复杂编码任务和智能体工作流,官方数据显...
排名第九、国内第二,DeepSeek V4 凭什么让人又爱又恨?
针对DeepSeek V4发布后引发的市场落差感,实测并未沿用西方主导的通用榜单标准,而是转向贴合中国用户实际需求的定制化评估体系。通过构建古诗词理解、法律条...
一分钟的奇迹与幻觉:实测世界模型Happy Oyster
阿里发布了开放式世界模型产品 Happy Oyster,支持多模态输入与音视频联合生成,能在生成过程中持续接收用户指令实现画面实时响应。如果说 AGI 是终极愿景,...
神秘模型「大象」:仅100B拿下SOTA,Token效率超高!
神秘模型 Elephant 终于揭开面纱,由蚂蚁 Inclusion AI 团队研发。该模型大小仅为 100B,具备 256K 上下文窗口及 32 输出能力,主打敏捷属性。在实际体验中,...



