标签:算力优化
DeepSeek V4:架构极度聪明,黄仁勋担心的事也许就此开始
在参数训练与模型精炼环节,方案引入梯度整列独立更新技术与约束边界残差连接机制,确保深层网络传播过程中的数值稳定,并配套路由解耦与激活截断策略消除训...
Meta发布Muse Spark:华人天团废墟重建,最恨Llama的果然是小扎自己
Meta近日正式发布了旗下MSL部门成立后的首款模型,这一战略举措象征着公司在人工智能领域经历重大路线调整后的全面转型。九个月前为扭转此前技术栈的被动局面...
智谱发布龙虾基座模型GLM-5-Turbo,还适配了一个养龙虾的盒子
智谱推出的GLM-5-Turbo是专为“龙虾”(OpenClaw)智能体场景深度优化的基座模型,旨在解决通用大模型在真实复杂工作流中易出现的指令偏差、工具调用不稳定及长...
硅谷豪赌算力烧到停电,中国团队反向出击!这一刀,直接砍碎Scaling Law
硅谷的算力竞争已从GPU数量转向电力资源的争夺,OpenAI和马斯克的xAI等巨头正投入万亿级资金建设超大规模算力集群。然而,Anthropic的研究揭示了一个关键问题...
真武810E亮相,阿里如何「重构」估值?
云厂商在AI竞赛中的核心策略已转向自研芯片底座,以实现业务场景的深度适配与效率最大化。通用芯片设计因泛用性妥协而面临效率瓶颈,头部云厂商则通过真实业...
清华教授翟季冬:Benchmark正在「失效」,智能路由终结大模型选型乱象
「选择悖论」正在AI模型与算力领域显现。随着大模型参数激增、算力成本下降,用户的实际落地负担却日益加重。翟季冬教授指出,Benchmark的高分未必能匹配真实...
美团龙猫LongCat技术升级!新注意力机制解码速度快10倍,还能处理1M超长文本
美团龙猫LongCat系列发布全新稀疏注意力机制LoZA(LongCat ZigZag Attention),重点解决长文本任务的理解和算力难题。该技术通过改造原有的全注意力MLA机制...
一人剧组不是梦,商汤 Seko 2.0 把拍剧流程做成了按钮
2025年成为AI视频生成领域的'祛魅'年份,行业从OpenAI Sora等模型带来的技术震撼转向对产品化落地的集体焦虑。当前AI视频生成的核心矛盾在于'碎片化能力'与'...
V3.2逼近Gemini 3,DeepSeek硬气喊话:接下来我要堆算力了
OpenAI前首席科学家Ilya Sutskever近期提出,过去五年依赖算力堆叠模型的'规模时代'正面临瓶颈,单纯扩大模型规模难以实现质变。然而DeepSeek通过V3.2系列模...
抛弃“级联”架构!快手OneRec用大模型重构推荐系统,服务成本降至1/10
传统推荐架构面临规模化瓶颈与范式局限,级联式设计导致算力碎片化,整体算力利用效率(MFU)长期低于1%。快手提出的生成式端到端架构OneRec通过统一召回、粗...



