标签:测试
我让10个大模型又参加了完整版数学高考,第一名居然是它。。。
在最近的一次测试中,多个大模型参与了数学高考的模拟考试,旨在评估它们在复杂数学问题上的表现。测试涵盖了单选题、填空题和解答题,特别关注了AI在处理高...
AI疯狂进化6个月,一张天梯图全浓缩!30+模型混战,大神演讲爆火
在旧金山AI工程师世博会上,Simon Willison通过自创的「骑自行车的鹈鹕」图像生成测试,回顾了过去六个月大语言模型(LLM)的飞速发展。他亲测了30多款AI模型...
看好了,这才是7家大模型做高考数学题的真实分数。
最近,许多媒体都在讨论使用AI进行高考测试的话题。尽管最初并不打算参与这一讨论,但在看到一些关于AI进行数学考试的测试方法后,发现这些方法存在明显的不...
高通基带,吊打苹果C1?
高通公司资助的一项研究显示,搭载骁龙X75和X80调制解调器的安卓手机在5G速度测试中表现优于苹果的iPhone 16e。测试在纽约市T-Mobile的Sub-6GHz独立5G网络上...
解密NVIDIA团队的代理式AI技术实践
在数字化转型的背景下,代理式AI(Agentic AI)作为前沿技术,正在成为企业提升效率和优化决策的关键工具。NVIDIA团队通过多个实践展示了代理式AI在不同场景...
o3一张图锁定地球表面坐标,AI看图猜地点战胜人类大师,奥特曼:这是我的「直升机」时刻
ChatGPT通过一组公开的prompt,展示了其在看图猜地点任务中的惊人能力。在一系列测试中,ChatGPT不仅能够根据图像中的细节推断出大致的地理位置,甚至在某些...
OpenAI紧急修复GPT-4o献媚问题,已回滚到老版本
OpenAI首席执行官Sam Altman在凌晨3点宣布,针对GPT-4o近期出现的“阿谀奉承”问题,已经进行了修复。免费用户已完成更新,回滚到老版本,而付费用户的更新预计...
刚刚,o4-mini发布!OpenAI史上最强、最智能模型
OpenAI在技术直播中发布了其最新的多模态模型o4-mini和满血版o3,这两款模型能够同时处理文本、图像和音频,并具备调用外部工具的能力。这一创新使得模型能够...
GPT-4.1偷偷开跑?神秘模型上线三天已被玩疯,网友发现大量OpenAI痕迹
Optimus Alpha作为一款新推出的大模型,在短时间内展现了惊人的处理能力,日Token处理量已超过340亿,位列Trending榜单第一。其表现不仅在编程任务中尤为突出...
刚刚,OpenAI开源BrowseComp,重塑Agent浏览器评测
OpenAI于今天凌晨2点开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这一测试基准的难度极高,即使是OpenAI自家的GPT-4o和GPT-4.5模型,准确率也仅...
1
2