标签:模型架构
Transformers来到了v5时代:从工具包到真理之源,AI时代的操作系统内核的极简进化论
Transformers v5的发布标志着AI基础设施演进的重要里程碑。该版本通过模块化重构、统一量化标准和端云生态整合,将碎片化的开发流程收敛为工业标准,日均安装...
Google又发布了一篇可能改变AI未来的论文,这次它教AI拥有了记忆。
Google Research近期发表的论文《Nested Learning: The Illusion of Deep Learning Architectures》提出了一种突破性框架,旨在解决当前大模型存在的“顺行性...
大模型开发者必读!拆解世界级AI模型的诞生,Hugging Face把4年模型训练经验写成了一本开源指南
Hugging Face发布的《The Smol Training Playbook》手册,由12位顶尖工程师团队撰写,系统总结了构建世界级大语言模型的核心方法论。手册开篇便颠覆性地指出...
HuggingFace发布超200页「实战指南」,从决策到落地「手把手」教你训练大模型
HuggingFace近期发布了一篇超过200页的技术博客,系统性地分享了训练先进大语言模型(LLM)的端到端经验。博客的核心价值在于揭示了LLM开发过程中「混乱的现...
新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!
火山引擎近期对豆包语音大模型进行了重大升级,推出了豆包语音合成模型2.0和豆包声音复刻模型2.0。此次升级的核心目标是让AI语音从“像人”走向“懂人”,通过深...
阿里DeepSeek时刻!开源新架构模型:推理快10倍、成本暴降90%
今天凌晨2点,阿里巴巴开源新架构模型Qwen3-Next-80B-A3B,引发广泛关注。Qwen3-Next是混合专家模型,总参数800亿,仅激活30亿,训练成本较Qwen3 - 32B暴降90...
从GPT-2到gpt-oss,深度详解OpenAI开放模型的进化之路
OpenAI 近日发布的 gpt - oss - 120b 和 gpt - oss - 20b 是自 2019 年 GPT - 2 发布以来的首批开放权重模型,Sebastian Raschka 对其进行了详细分析并与 Qwe...
RecFound:面向推荐系统的生成式表征学习统一框架
构建能够在多样化任务中表现卓越的单一基座模型是人工智能领域的长期目标。随着通用大模型技术的推进,其影响力已扩展至推荐系统领域。然而,当前针对推荐任...
中科院、百度提出新架构:突破参数限制,实现高效推理
针对大模型参数规模扩大与性能提升不匹配的挑战,中国科学院信息工程研究所联合百度与北京师范大学AI学院提出了Inner Thinking Transformer架构(ITT)。该架...
OpenAI发布GPT-4.5:功能非常特殊,推理很贵
OpenAI于今日凌晨发布最新模型GPT-4.5,该模型在情感交互能力与架构设计上实现重大突破。GPT-4.5的核心创新在于引入“情商”功能,通过深度学习与对话数据训练...




