标签:推理
阿里千问 3 登顶全球最强开源模型,性能超越 DeepSeek-R1、OpenAI-o1
阿里巴巴最新发布的开源模型Qwen3(通义千问3)在性能、成本和灵活性方面取得了显著突破,成为全球最强开源模型。该模型采用混合专家(MoE)架构,总参数量为...
Qwen3深夜正式开源,小尺寸也能大力出奇迹。
阿里最新发布的Qwen3模型系列在多个方面展现了其技术实力和创新。Qwen3系列共包含8个不同尺寸的模型,从0.6B到235B,覆盖了从轻量级到旗舰级的应用场景。其中...
毛骨悚然!o3精准破译照片位置,只靠几行Python代码?人类在AI面前已裸奔
OpenAI的o3模型展示了通过照片识别地理位置的强大能力,引发了广泛的关注和讨论。Django Web框架的创始人Simon Wilson通过实验发现,o3能够通过Python代码和...
Windsurf团队科普Agent:不是什么都叫智能体!
Agent系统的核心概念可以简单理解为“LLM+工具”的循环。Agent系统通过接收用户输入,交替调用推理模型(LLM)和工具来完成任务。 推理模型负责决定下一步行动...
最新实测!文心4.5T/X1T双卷王登场效果惊人,骨折价卷到DeepSeek
百度最新发布的两款大模型——文心大模型4.5 Turbo和文心大模型X1 Turbo,标志着其在多模态、深度推理和低成本方面的显著突破。这两款模型不仅在性能上超越了市...
高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI
昆仑万维最新发布的Skywork-R1V 2.0版本,标志着多模态推理模型的又一次重大突破。作为全球首个工业界多模态推理模型,R1V 2.0不仅在技术上实现了显著进化,...
腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon
在人工智能快速发展的背景下,大模型的推理性能优化已成为应对算力挑战、内存瓶颈与通信压力的关键突破口。当前,优化工作主要围绕模型优化、推理加速与工程...
AI也要007?Letta、伯克利提出「睡眠时间计算」,推理效率翻倍还不加钱
AI 初创公司 Letta 和 UC 伯克利的研究人员提出了一种名为“睡眠时间计算”的新方法,旨在通过利用大型语言模型(LLM)在空闲时间的“思考”来提高推理效率并降低...
英伟达H20不让用?全国产算力深度推理模型讯飞星火X1升级,4张华为910B即可部署满血版
讯飞星火X1的升级标志着国产大模型在推理能力上的重大突破。该模型在参数规模比业界同类模型小一个数量级的情况下,实现了与顶尖模型的对标效果。星火X1不仅...
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源
扩散模型在推理任务中的表现正逐渐受到关注,尤其是通过强化学习(RL)方法的应用。传统上,自回归大语言模型(LLM)在推理任务中占据主导地位,但离散扩散大...