标签:技术评估
从“大模型”到“好模型”:斯坦福预测2026年AI将迎来“祛魅”分水岭
2026年被预测为人工智能发展的重要转折点,标志着行业从狂热布道转向冷静评估阶段。斯坦福大学HAI研究院的学者们普遍认为,单纯依靠宏大叙事获取融资的时代即...
世界首个!李飞飞团队推出物理推理基准,大模型统统不及格?
斯坦福大学与中国科学技术大学的研究团队开发了首个定量评估视觉语言模型(VLMs)物理理解能力的基准测试QuantiPhy。该测试包含超过3355个视频-文本问答对,...
Llama 4 详细评测:开源模型的全面倒退?
Meta最新发布的开源大模型Llama 4在技术社区引发了广泛争议。尽管其规格参数堪称“顶配开源”,包括两个混合专家(MoE)架构版本——Scout(109B总参数,17B活跃...
实测 | GPT-o1:学会了思考,也学会了偷懒
在对OpenAI最新模型GPT-o1的测试中,作者林杰鑫通过一系列精心设计的题目来评估其在数学、物理和生物领域的综合逻辑思考能力。这些题目包括计算全球人类心算...



