标签:评测标准

重新认识具身行业,从自变量的这封邀请函开始

自变量机器人的发布会邀请揭示了具身智能行业的深层真相。相关数据分析表明外界展示的许多结果缺乏实际含金量,本质上体现出了专业团队与公众认知的显著差池...

更全面的具身智能真机评测来了!CVPR 2026 ManipArena挑战赛邀你打榜

具身智能领域在过去一年呈现爆发式增长,但技术演示的繁荣掩盖了对模型真实泛化能力评估的缺失。当前行业普遍依赖预设环境中的“甜点位”或反复重试进行测试,...

千亿模型 Yi-Large 杠上万亿 GPT-4 Turbo,多项能力不输 OpenAI

在近期的大模型竞技场Chatbot Arena中,一款名为“im-also-a-good-gpt2-chatbot”的模型引起了广泛关注,它超越了包括GPT-4-Turbo、Gemini 1.5 Pro等在内的国际...