标签:AI模型
DeepSeek发布V3.2-Exp:引入DSA、价格腰斩,为V4、R2铺路
DeepSeek在国庆前夕发布了实验性模型DeepSeek-V3.2-Exp,核心创新是引入DeepSeek Sparse Attention(DSA)架构,首次实现细粒度稀疏注意力机制。该技术通过让...
DeepSeek V3.2 发布:长文本能力新突破,API 价格砍半
DeepSeek正式推出实验性模型DeepSeek-V3.2-Exp,该版本在V3.1-Terminus基础上引入革命性的DeepSeek稀疏注意力(DSA)技术。DSA首次实现细粒度稀疏注意力机制...
阿里一口气发了N款新模型,让我们向源神致敬。
阿里云栖大会发布了众多模型,展现了其在AI领域强大的技术实力和构建全生态的决心。Qwen3-Max正式版对标GPT - 5等世界顶尖模型。它参数超1万亿,用36万亿toke...
亏钱的AI大厂们,养肥了吃播
AI吃播正成为新的财富密码,展现出强大的流量和变现能力。AI吃播是通过AI技术合成的“沉浸式吃播ASMR”视频,其内容丰富多样,如吃手办、钻石披萨等。这种吃播...
Cursor为Blackwell从零构建MXFP8内核,MoE层提速3.5倍,端到端训练提速1.5倍
在构建更强大 AI 模型的竞赛中,传统做法是升级硬件,但 Cursor 发现释放下一代 GPU 潜力并非易事。从 NVIDIA 的 Hopper H100s 升级到 Blackwell B200s 后,...
摆脱遥控器,波士顿动力人形机器人,开始「长脑子」干活了
世界人形机器人运动会上,宇树科技 H1 机器人“肇事逃逸”事件引发网友对需人工遥控人形机器人的讨论,宇树科技王兴兴表示下次比赛将采用全自主模式。而在全面...
Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝3天,编程再赢老东家模型!
近期,OpenAI和谷歌DeepMind在多个领域展示了其AI模型的强大能力,尤其是在数学和编程竞赛中的表现引发了广泛关注。OpenAI宣布其新AI模型在国际数学奥林匹克...
为什么 DeepSeek 大规模部署很便宜,本地很贵
AI模型的推理服务在吞吐量和延迟之间存在权衡,这种权衡的核心在于批处理大小的选择。GPU擅长执行大型矩阵乘法(GEMMs),因此同时计算一批补全比逐个处理tok...
跟着Google出海:教你怎么落地Gemini
Founder Park 与 Google 合作推出的「从模型到行动」系列 AI 工作坊,旨在帮助开发者将顶尖 AI 模型的能力转化为实际商业价值。该系列工作坊将在深圳、上海和...
长文本推理 5 倍提速!面壁MiniCPM4 端侧模型发布,0.5B模型效果秒杀同级
新一代端侧AI模型MiniCPM4.0发布,包含8B和0.5B两种参数规模,在性能、速度和部署效率上实现显著突破。8B稀疏闪电版通过5%的极致稀疏度实现长文本推理速度5倍...




