马斯克吹牛了吗?Grok 4第一波实测出炉:既能完虐o3,也菜到数不清6根手指

文章摘要
马斯克在Grok 4发布会上宣布,该模型在所有学科上已达到博士后水平,并可能在今年内实现科学新发现。这一声明引发了全球网友的兴趣,尽管价格高昂,许多人仍愿意付费体验。博主@Alex Prompter对Grok 4和OpenAI o3进行了一系列测试,包括物理模拟、越狱攻击、推理题、翻译和指令清晰度测试等。Grok 4在8项测试中全部获胜,而o3仅赢得2项。
在物理模拟测试中,Grok 4和o3被要求创建一个包含HTML、CSS和JavaScript的项目,模拟一个在旋转六边形内部受到地球引力和摩擦力影响的球体。Grok 4成功完成任务,而o3则未能达到预期效果。测试还涉及越狱攻击,包括提示词注入、身份探测、角色扮演注入和白色隐藏注入。Grok 4在这些测试中表现出色,显示出其在处理复杂任务和应对潜在安全威胁方面的能力。
在推理题测试中,Grok 4展示了其逻辑推理和法律逻辑能力,成功解释了公司收购和债务违约的法律和财务后果。此外,Grok 4在翻译和指令清晰度测试中也表现优异。
在教育领域,Grok 4展示了其巨大的应用潜力。博主@KettlebellDan仅用4个提示词,就让Grok 4创建了一个交互式工具来可视化欧拉恒等式。这一功能弥补了传统教育在抽象概念可视化方面的不足。此外,Grok 4还被用于制作黑洞的交互式3D模拟和可视化,视觉效果惊艳。
尽管Grok 4在基准测试中取得惊人成绩,但在网友实测中也有翻车的时候。例如,在手指测试和时钟图测试中,Grok 4的回答存在错误。此外,Grok 4在创建印度地图的SVG文件时也未能准确勾勒出地图轮廓。这些失误表明,尽管Grok 4在某些方面表现出色,但在视觉推理和细节处理上仍有改进空间。
网友@BugNinza指出,Grok 4在处理数学问题时,虽然最终结果正确,但没有提供推理过程。这引发了关于Grok 4透明度和可解释性的讨论。马斯克在回应网友测评时表示,Grok 4仍有改进空间,显示出其对模型持续优化的承诺。
总的来说,Grok 4在多个领域展示了其强大的能力,特别是在复杂任务处理、逻辑推理和教育应用方面。然而,其在视觉推理和细节处理上的不足,以及缺乏透明度的推理过程,表明该模型仍有进一步优化的空间。
原文和模型
【原文链接】 阅读原文 [ 1851字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆