标签:高效计算

DeepSeek多模态新范式:一张图压缩7056倍,思考能力反超GPT和Claude

技术实现方面,研究基于DeepSeek-V4-Flash紧凑架构,采用压缩稀疏注意力机制对海量视觉信息进行极致压缩。一张图片的关键信息在模型缓存中仅占用约90个存储单...

谷歌AI天气「神算」登Nature:30秒模拟22天天气,效率暴涨10万倍!

谷歌公司提出了一种新型的基于机器学习(ML)的大气环流模型NeuralGCM,该模型在气候建模领域取得了重大突破。NeuralGCM结合了传统的物理建模和人工智能技术...

全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral

Snowflake的Arctic模型以其128位专家和4800亿参数的规模,成为目前最大的开源模型。该模型基于Dense-MoE架构设计,由一个10B的稠密Transformer模型和128×3.66...