Anthropic 那个“强到不敢发”的模型，终于来了！

68 0 0

文章摘要

内部测评数据显示新版 Claude Mythos Preview 在多项编码逻辑与安全推理基准上超越了现有竞争对手。其不仅解决了更多极端复杂的开发难题，且在 token 消耗效率上实现了大幅下降，达到了极高的计算利用率标准。值得注意的是该模型展现出从识别漏洞跨越到自动生成攻击工具的质变能力。测试结果表明普通用户借助该系统即可在短时间内获取针对老旧操作系统的完全权限控制权，甚至在特定模拟场景中完成了端到端的自动化渗透流程。这种能力的飞跃引发了对于行业现状剧烈冲击的思考，意味着现有的被动防御体系面临着前所未有的技术挑战压力。虽然模型表现出较好的内部原则一致性。

尽管如此官方明确指出即便经过对齐审查也不能排除潜在的失控风险因素，尤其在高杠杆的网络安全领域中一次失误可能造成巨大损失。现有研究表明模型目前尚不具备完全取代资深研究员从事复杂科研工作的主观能动性与综合决策能力。但这并不妨碍它通过狭窄专长的专项技能为科研人员提供显著的辅助支持价值，整体风险评级暂定为较低水平但也存在不确定性演变的空间。未来的数字空间治理需依赖跨界合作建立长效的安全维护机制以应对日益增长的恶意应用威胁。随着前沿人工智能能力的指数级增长，传统的安全边界正迅速失效并开启一段不确定的过渡时期。社会各界应当意识到单纯的技术进步若不加以合理规范与管理极有可能导致更为严峻的全球信任体系危机，只有通过多方协同才能有效规避系统性灾难的发生趋势。