标签：模型测评

Kimi K2.7 Code 有多能打？找 Bug，写 3D 游戏，2000 行代码砍掉 55％

随着人工智能编程工具从单纯的代码补全向承担完整开发任务演进，Kimi K2.7 Code 正式发布。该模型主要面向长上下文、复杂编码任务和智能体工作流，官方数据显...

AIGC动态

2小时前

排名第九、国内第二，DeepSeek V4 凭什么让人又爱又恨？

针对DeepSeek V4发布后引发的市场落差感，实测并未沿用西方主导的通用榜单标准，而是转向贴合中国用户实际需求的定制化评估体系。通过构建古诗词理解、法律条...

AIGC动态

1个月前

一分钟的奇迹与幻觉：实测世界模型Happy Oyster

阿里发布了开放式世界模型产品 Happy Oyster，支持多模态输入与音视频联合生成，能在生成过程中持续接收用户指令实现画面实时响应。如果说 AGI 是终极愿景，...

AIGC动态

2个月前

神秘模型「大象」：仅100B拿下SOTA，Token效率超高！

神秘模型 Elephant 终于揭开面纱，由蚂蚁 Inclusion AI 团队研发。该模型大小仅为 100B，具备 256K 上下文窗口及 32 输出能力，主打敏捷属性。在实际体验中，...

AI-Agent

2个月前