
文章摘要
【关 键 词】 DeepSeek开源、模型受欢迎、参数众多、高效推理、模型探索
全球著名大模型开源平台DeepSeek于今天凌晨开源了Deepseek V3.1 – Base版本。该模型发布时非常低调,未作任何介绍,仅将其放置在平台上,但在Hugging Face的趋势榜单中已上升到第4名,颇受欢迎。其开源地址为https://huggingface.co/deepseek – ai/DeepSeek – V3.1 – Base/tree/main。
Hugging Face联合创始人Clement Delangue特意发推文祝贺,他指出Deepseek V3.1悄无声息发布且无模型卡片,却登上趋势榜第四位,凸显了在Hugging Face上拥有8万名关注者的影响力。网友推测该新升级版本速度更快、智能程度更高,可与GPT级模型媲美。此模型拥有6850亿参数,支持BF16、F8_E4M3、F32三种张量类型,以Safetensors格式发布,便于高效推理,还具备扩展的上下文窗口。
有人对DeepSeek“先放权重,后补说明”的风格表示欣赏,认为这能让社区优先开展模型探索,同时也很高兴看到仍有公司在发布基础模型。据分析,它可能是一个结合了v3和r1的模型,其对话模板包含一个用于控制思考过程的思考参数。
此外,有人尝试在4GB显卡上加载新的DeepSeek – V3.1 – Base 685B模型,结果显卡崩溃,但原因未知。最后还提出疑问,询问近期R2是否还有发布的希望。
原文和模型
【原文链接】 阅读原文 [ 406字 | 2分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...