标签:模型架构

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

从生物进化与AI技术发展的惊人相似性出发,Daniel Povey揭示了技术迭代的底层逻辑。 AI领域的进步如同自然界进化过程,表现为长期停滞与爆发式跃迁交替的非线...

1100多个模型殊途同归,指向一个「通用子空间」,柏拉图又赢一回?

研究发现,不同神经网络在训练过程中会收敛到共享的低维子空间,表明存在一种先验的数学结构,架构对学习结果的影响可能比数据更大。约翰斯・霍普金斯大学的...

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

Physical Intelligence团队发布的π_0.6和清华大学星动纪元的iRe-VLA研究,标志着视觉-语言-动作模型(VLA)与在线强化学习(RL)结合的重大突破。VLA+online ...

谷歌祭出Transformer杀手,8年首次大突破!掌门人划出AGI死线

谷歌DeepMind CEO Hassabis预测,2030年前将实现具备或超越人类能力的通用人工智能(AGI)。他认为,当前AI系统虽已取得显著进展,但仍需1-2个类似Transforme...

Transformers来到了v5时代:从工具包到真理之源,AI时代的操作系统内核的极简进化论

Transformers v5的发布标志着AI基础设施演进的重要里程碑。该版本通过模块化重构、统一量化标准和端云生态整合,将碎片化的开发流程收敛为工业标准,日均安装...

Google又发布了一篇可能改变AI未来的论文,这次它教AI拥有了记忆。

Google Research近期发表的论文《Nested Learning: The Illusion of Deep Learning Architectures》提出了一种突破性框架,旨在解决当前大模型存在的“顺行性...

大模型开发者必读!拆解世界级AI模型的诞生,Hugging Face把4年模型训练经验写成了一本开源指南

Hugging Face发布的《The Smol Training Playbook》手册,由12位顶尖工程师团队撰写,系统总结了构建世界级大语言模型的核心方法论。手册开篇便颠覆性地指出...

HuggingFace发布超200页「实战指南」,从决策到落地「手把手」教你训练大模型

HuggingFace近期发布了一篇超过200页的技术博客,系统性地分享了训练先进大语言模型(LLM)的端到端经验。博客的核心价值在于揭示了LLM开发过程中「混乱的现...

新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!

火山引擎近期对豆包语音大模型进行了重大升级,推出了豆包语音合成模型2.0和豆包声音复刻模型2.0。此次升级的核心目标是让AI语音从“像人”走向“懂人”,通过深...

阿里DeepSeek时刻!开源新架构模型:推理快10倍、成本暴降90%

今天凌晨2点,阿里巴巴开源新架构模型Qwen3-Next-80B-A3B,引发广泛关注。Qwen3-Next是混合专家模型,总参数800亿,仅激活30亿,训练成本较Qwen3 - 32B暴降90...
1 2 3