DeepSeek-V3.2正式版发布,将开源模型的能力推向极致

AIGC动态54分钟前发布 AIGCOPEN
34 0 0
DeepSeek-V3.2正式版发布,将开源模型的能力推向极致

 

文章摘要


【关 键 词】 AI模型开源技术推理能力智能体数学竞赛

DeepSeek团队正式开源了DeepSeekV3.2的两个版本:标准版和Speciale版。标准版专注于日常任务与通用智能体场景,在推理能力与输出效率之间取得了平衡,其性能与GPT-5相当,仅略逊于Gemini-3.0-Pro。该版本显著降低了计算开销和等待时间,输出更加精炼,避免了冗长的思考过程,具备极高的性价比。Speciale版则追求极致的推理能力,融合了DeepSeek-Math-V2在数学证明领域的积累,在指令跟随、数学证明和逻辑验证等高难度任务上展现出统治级表现。该版本在2025年国际数学奥林匹克和中国数学奥林匹克中均获金牌,并在多项编程竞赛中达到人类顶尖水平,但需要更高的计算资源。

架构层面的革新是性能突破的关键。DeepSeek稀疏注意力(DSA)机制将计算复杂度从平方级降至线性级,有效解决了长文本处理的算力瓶颈。该机制由闪电索引器和细粒度Token选择机制组成,前者快速扫描上下文,后者精准筛选高价值信息进行精细计算。DSA通过密集预热和稀疏训练两阶段优化,在处理长文本时展现出显著的成本优势,使模型能够高效处理书籍级或代码库级内容。

后训练阶段的强化学习策略进一步提升了模型的推理能力。团队将后训练计算预算提升至预训练的10%以上,采用GRPO算法和无偏KL估计等技术,确保训练稳定性和模型进化。针对混合专家模型的路由不稳定性,团队实施了保持路由策略和保持采样掩码技术,维护了语言生成的连贯性。这些底层算法改进支撑了模型在高难度任务上的稳定表现。

在智能体领域,DeepSeekV3.2实现了思考与工具使用的深度融合。创新的上下文管理机制确保模型在调用工具时思维过程不被中断,显著提升了多步复杂任务的执行能力。团队通过智能体任务合成流水线构建了海量高质量训练数据,在搜索和代码智能体场景中实现了真实环境下的验证和优化。模型在各类工具调用评测中表现优异,其泛化能力源自于合成数据训练,而非特定工具的过拟合。尽管在世界知识广度上仍与顶尖闭源模型存在差距,但在逻辑、数学、代码等核心能力上,DeepSeekV3.2已展现出冲击人类智力巅峰的潜力。

原文和模型


【原文链接】 阅读原文 [ 3000字 | 12分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...