大模型
LLM,VLM,模型
Llama 4在测试集上训练?内部员工、官方下场澄清,LeCun转发
Meta最新发布的大模型Llama 4在发布后引发了广泛讨论,但其实际表现与预期存在较大差距。尽管Meta官方宣称Llama 4在多个基准测试中取得了优异成绩,例如在大...
三个LLM顶一个OpenAI?2亿条性能记录加持,路由n个「小」模型逆袭
路由LLM是一种通过智能调度机制动态分配请求到多个候选大语言模型(LLM)的技术范式,旨在通过异构模型的协同增效突破单一模型的性能上限。当前大模型研究面...
拿 20 年前的苹果“古董”笔记本跑模型推理:九分之一现代 CPU 速度,但成功了!
软件工程师 Andrew Rossignol 成功在一台已有 20 年历史的 PowerBook G4 笔记本电脑上运行了生成式 AI 模型,展示了旧硬件与现代 AI 技术的兼容性。这台笔记...
Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开
大模型竞技场(Chatbot Arena)官方团队lmarena.ai近日公开了对Llama-4-Maverick-03-26-Experimental版本的评测数据,并对其表现进行了详细分析。该模型在竞...
斯坦福2025 AI指数出炉!中美AI终极对决差距仅剩0.3%,DeepSeek领衔
2025年斯坦福HAI报告揭示了全球AI领域的最新趋势,重点分析了中美在AI模型性能上的差距缩小、推理成本的大幅下降以及小模型性能的显著提升。中美顶级AI模型的...
用AI把微信聊天记录变成可视化报告,酷到封神。
一个AI自媒体群的聊天记录可视化工具引发了广泛关注。该工具由群友@Simon的精神世界开发,旨在解决群内信息过载的问题。通过三步操作,用户可以将微信聊天记...
反击DeepSeek失败!Llama 4效果不好,Meta承认有问题
Meta生成式AI领导者Ahmad Al-Dahle针对Llama 4开源后的质疑进行了官方回应。Ahmad承认,由于模型在开发完成后立即发布,不同服务中的模型质量存在差异,并承...
阿里开源R1-Omni,多模态情感识别
阿里巴巴通义实验室的研究人员开源了多模态情感识别模型R1-Omni,该模型首次将强化学习与可验证奖励(RLVR)应用于多模态大模型,显著提升了情感识别任务中的...
OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer
OpenAI 最近发布了 SWE-Lancer 基准测试,旨在评估大语言模型在现实世界自由职业软件工程任务中的表现。该基准测试的数据集包含来自 Upwork 的 1400 多个任务...
击败 Manus?前百度 AI 高管创业1年多,放弃500 万用户搜索产品,转推“最强 Agent ”,自述 9 个月研发历程
总部位于美国加州帕洛阿尔托的初创公司 MainFunc 近日发布了 Genspark Super Agent,这是一款能够自主思考、计划、行动并使用工具来处理复杂任务的 AI 代理系...