标签:推理增强
估值 1200 亿后 Kimi 再扔王牌,新架构爆改 Transformer 老配件,比 DeepSeek 同款还省钱
深度学习领域长期依赖的残差连接机制,近期因Kimi与DeepSeek的创新工作引发广泛关注。残差连接自2015年由何恺明提出后,成为Transformer等深层网络训练稳定性...
融资 1200亿后 Kimi 再扔王牌,新架构爆改 Transformer 老配件,比 DeepSeek 同款还省钱
残差连接作为深度学习模型中的基础设计,自2015年ResNet提出以来长期被视作不可动摇的“主干道”,其核心作用是保障梯度有效反传、防止信息在深层网络中丢失。...
Qwen“半成品”推理模型刷下AIME满分,俘获大批国外开发者!实测碾压GPT-5 Thinking、还能写侦探小说
阿里最新发布的推理模型Qwen3-Max-Thinking引起广泛关注,该模型是Qwen3-Max-Preview的推理增强版本,目前仍处于训练阶段。尽管是中间检查点模型,但结合工具...
SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破
SALMONN家族在音视频理解领域取得重大突破,最新发布的video-SALMONN 2+、video-SALMONN-o1、F-16和AVUT基准在多个方面实现了技术飞跃。video-SALMONN 2+通过...






