大模型

LLM,VLM,模型

Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍

Mamba-2架构在AI界再次引发关注,其在统一状态空间模型(SSM)和注意力机制(Attention)的基础上,成功将Transformer模型与SSM结合,形成了一种新的高效序列...

AI预测极端天气提速5000倍!微软发布Aurora,借AI之眼预测全球风暴

微软发布了首个大规模大气基础模型Aurora,其具有前所未有的准确率和效率,计算速度提升了约5000倍。Aurora采用灵活的3D Swin Transformer架构,经过预训练和...

昆仑万维开源 2 千亿稀疏大模型天工 MoE,全球首创能用 4090 推理

昆仑万维宣布开源其千亿稀疏大模型Skywork-MoE,此模型基于先前的Skywork-13B模型中间checkpoint扩展而成,是首个将MoE Upcycling技术应用并落地的开源千亿Mo...

再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升

自2017年提出以来,Transformer架构在AI大模型领域占据了主导地位,尤其是在语言建模方面。然而,随着模型规模的扩大和序列长度的增加,其局限性也逐渐凸显,...

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

研究人员推出了Mamba-2模型,该模型在状态空间模型(SSM)与Transformer架构之间建立了新的联系。通过对两种模型的数学基础进行深入分析,研究团队发现,尽管...

终于来啦!Stable Diffusion 3将在6月12日正式开源

在人工智能生成内容(AIGC)领域,Stable Diffusion模型由开源大模型平台Stability AI开发,一直备受关注。6月3日,Stability AI的联合首席执行官Christian L...

Adobe推出超分辨率,细节丰富视频模型VideoGigaGAN

视频超分辨率技术致力于将低分辨率视频转化为高分辨率,面临两大挑战:一是保持视频帧的时间连贯性,避免闪烁或抖动;二是放大视频帧时重建高频细节,以呈现...

我们跟一线 AI 开发者聊了聊,发现中国开源生态已经在全球找到了自己的位置

在中国开源社区在大语言模型领域的全球角色和贡献的直播讨论中,多位嘉宾分享了他们的观点和发现。以下是对讨论内容的分段摘要:中国开源社区的全球角色中国...

斯坦福Llama3-V抄袭面壁智能被迫认错,开源社区:这就是忽视中国模型的后果

在人工智能领域,一场关于开源大模型的争议近日在学界和社交媒体上引发热议。事件的起因是斯坦福AI团队发布的名为“Llama 3-V”的模型,该模型声称在性能上能够...

黄仁勋最新主题演讲:Blackwell 芯片将打破摩尔定律,解决大模型耗电难题

在2024年台北国际电脑展上,英伟达创始人黄仁勋发表了主题演讲,揭示了人工智能时代如何推动全球新产业革命。他介绍了最新的Blackwell芯片,并宣称这是全球最...
1 407 408 409 410 411 414