标签:测评

下周聊:大模型进入 RL 下半场,模型评估为什么重要?

随着大模型技术进入发展的下半场,如何重新定义问题并设计真实用例的评估体系成为关键议题。OpenAI Agent Researcher姚顺雨的博客文章《The second half》引...

Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗?

Deep Research 产品是一种以大模型能力为基础,结合检索与报告生成的端到端系统,能够对信息进行迭代搜索和分析,并生成详细报告。这类产品在输出深度和训练...