标签:性能提升
「通用大脑」来了!MIT何恺明用大模型思维玩出机器人预训练新花样
在机器人领域,通用智能的探索正在取得新进展。MIT的何恺明和Lirui Wang等人提出了一种名为“异构预训练Transformers”(HPT)的新架构,旨在解决机器人数据异...
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
字节跳动豆包大模型团队最近提出了一种名为超连接(Hyper-Connections)的新方法,旨在替代传统的残差连接,以解决梯度消失和表示崩溃之间的权衡问题。超连接...
xAI、Anthropic同日上线API:Grok免费公测,Claude Haiku价格暴涨
Anthropic公司宣布其最新的人工智能模型Claude 3.5 Haiku现已开放API访问,并在Amazon Bedrock和Google Cloud的Vertex AI上提供服务。该模型更新了截至2024年...
腾讯放大招,超Meta!史上参数最大,开源专家混合模型
腾讯公司在开源大模型领域推出了一款名为Hunyuan-Large的超大模型,该模型基于Transformer架构,拥有3890亿参数,其中激活参数为520亿,能够处理长达256K的上...
AI圈卷疯了!xAI、Anthropic同日上线API:Grok免费公测,Claude 3.5 Haiku价格暴涨
Anthropic公司宣布其最新的人工智能模型Claude 3.5 Haiku现已开放API访问,并在Anthropic的API、Amazon Bedrock和Google Cloud的Vertex AI上提供服务。该模型...
苹果发布高效双EMA梯度优化方法,适配Transformer、Mamba模型
在深度学习模型训练中,优化非凸损失函数是一个挑战,尤其是当使用依赖于指数移动平均(EMA)的优化器如Adam和AdamW时。这些优化器可能在处理超大规模数据集...
强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法
阿尔伯塔大学教授Richard Sutton及其团队提出了一种名为“奖励聚中”(Reward Centering)的新型强化学习思想,旨在改进现有强化学习方法。该思想通过从奖励中...
苹果地表最强AI PC诞生,M4 Max猛兽加持性能暴涨!顶配6万,续航飙至24小时
苹果公司推出了全新的MacBook Pro系列,标志着M4芯片家族的诞生。这些笔记本电脑搭载了M4、M4 Pro和M4 Max芯片,采用第二代3nm工艺制造,提供了显著的性能提...
Meta开源首个量化模型Llama 3.2:减少40%内存,效率提升2倍以上
Meta公司最近开源了一款名为Llama 3.2的轻量级量化版大语言模型,提供10亿和30亿两种参数规模的版本。这款模型经过特别优化,以适应手机、平板和笔记本等移动...
我们能够让开源小模型变得比人类更聪明吗
本文由安全研究员Harish SG撰写,旨在探讨如何提升开源大语言模型(LLM)的推理能力,以期达到或超越闭源模型的性能。Harish SG是德克萨斯大学达拉斯分校网络...