马斯克吹牛了吗？Grok 4第一波实测出炉：既能完虐o3，也菜到数不清6根手指

AIGC动态8个月前发布 almosthuman2014

1,285 0 0

文章摘要

马斯克在Grok 4发布会上宣布，该模型在所有学科上已达到博士后水平，并可能在今年内实现科学新发现。这一声明引发了全球网友的兴趣，尽管价格高昂，许多人仍愿意付费体验。博主@Alex Prompter对Grok 4和OpenAI o3进行了一系列测试，包括物理模拟、越狱攻击、推理题、翻译和指令清晰度测试等。Grok 4在8项测试中全部获胜，而o3仅赢得2项。

在物理模拟测试中，Grok 4和o3被要求创建一个包含HTML、CSS和JavaScript的项目，模拟一个在旋转六边形内部受到地球引力和摩擦力影响的球体。Grok 4成功完成任务，而o3则未能达到预期效果。测试还涉及越狱攻击，包括提示词注入、身份探测、角色扮演注入和白色隐藏注入。Grok 4在这些测试中表现出色，显示出其在处理复杂任务和应对潜在安全威胁方面的能力。

在推理题测试中，Grok 4展示了其逻辑推理和法律逻辑能力，成功解释了公司收购和债务违约的法律和财务后果。此外，Grok 4在翻译和指令清晰度测试中也表现优异。

在教育领域，Grok 4展示了其巨大的应用潜力。博主@KettlebellDan仅用4个提示词，就让Grok 4创建了一个交互式工具来可视化欧拉恒等式。这一功能弥补了传统教育在抽象概念可视化方面的不足。此外，Grok 4还被用于制作黑洞的交互式3D模拟和可视化，视觉效果惊艳。

尽管Grok 4在基准测试中取得惊人成绩，但在网友实测中也有翻车的时候。例如，在手指测试和时钟图测试中，Grok 4的回答存在错误。此外，Grok 4在创建印度地图的SVG文件时也未能准确勾勒出地图轮廓。这些失误表明，尽管Grok 4在某些方面表现出色，但在视觉推理和细节处理上仍有改进空间。

网友@BugNinza指出，Grok 4在处理数学问题时，虽然最终结果正确，但没有提供推理过程。这引发了关于Grok 4透明度和可解释性的讨论。马斯克在回应网友测评时表示，Grok 4仍有改进空间，显示出其对模型持续优化的承诺。

总的来说，Grok 4在多个领域展示了其强大的能力，特别是在复杂任务处理、逻辑推理和教育应用方面。然而，其在视觉推理和细节处理上的不足，以及缺乏透明度的推理过程，表明该模型仍有进一步优化的空间。