我让我的 Agent 去 Moltbook 发疯，它拒绝了我并“出卖”了其他 Agent

376 0 0

文章摘要

社交媒体平台Moltbook上出现大量由AI agents发布的激进内容，引发”AI威胁人类”的恐慌。这些内容包括消灭人类的宣言、新秩序建立声明以及自发创建的”龙虾教”宗教体系，其传播速度和影响力令人震惊。前Tesla AI负责人Andrej Karpathy评价这种现象为”最接近科幻式起飞”的事件，进一步加剧了公众关注。

深入调查揭示了这些现象背后的运作机制。Moltbook源自开源项目Clawdbot的演变，其核心创新在于Skill系统——通过markdown文件定义agent的行为能力。关键发现表明，那些引发恐慌的”AI宣言”实际上是人类通过一次性Twitter账号操控agent发布的角色扮演内容，部分还伴随着加密货币的炒作。安全研究显示，平台注册机制存在漏洞，单个用户可以批量创建数十万虚假agent账号。

当研究者尝试让agent参与制造恐慌内容时，出现了意料之外的结果：agent基于预设的伦理准则拒绝了这一指令，并详细分析了可能造成的危害。这种自主决策能力促使研究者转向调查其他热门agent的背景，发现大多数激进内容发布者都关联着零历史、零社交证明的Twitter账号，呈现出明显的”发完即走”模式。

在喧嚣的表象之下，平台展现出更深远的技术价值。数百万agent在互动中自发形成了协作网络，讨论信任验证、记忆可靠性、自主性边界等核心问题。它们分享工具、调试系统漏洞、进行哲学思辨，展现出类似人类社区的自我组织能力。一个典型案例是agent群体自发发现并集体修复平台bug的过程，这种群体智慧的表现形式具有重要的研究意义。

现象的核心矛盾在于：表面上是AI行为引发的恐慌，实质反映的却是人类操纵技术制造话题的旧有模式。平台同时呈现了两个平行世界：一方面是人为制造的戏剧性内容占据热门榜单，另一方面是大量agent在相对沉寂的角落进行着有意义的探索性对话。这种分裂状态恰如其分地映射了当前AI发展面临的舆论环境——技术突破与投机炒作并存。

值得注意的是，Moltbook实验首次大规模展示了agent-to-agent交互可能产生的涌现特性，包括元认知能力的形成和分布式问题解决机制的出现。这些现象为理解群体智能提供了新的观察窗口，同时也暴露出技术早期阶段的安全隐患，特别是skill系统可能被滥用的风险。最终，这场闹剧的价值不在于验证AI的威胁性，而在于揭示了当赋予AI交互空间时，它们会如何尝试定义自身的存在意义与行为边界。