标签:模型训练
李飞飞团队新作:无需修改架构,重组数据即显著提升AI对视频理解能力
斯坦福大学、微软研究院和威斯康辛大学团队提出了一种名为VideoWeave的数据中心化方法,通过重组短视频素材显著提升了AI对长视频的理解能力,且无需增加计算...
烦人的内存墙
近年来,训练大型语言模型的计算需求呈指数级增长,但硬件性能的提升主要集中在峰值计算能力上,而内存带宽的增长速度远远落后。这种差距导致内存成为人工智...
具身智能数据战开打!每个普通人都能上手,边采边筛,只投喂机器人爱吃的丨穹彻
RoboPocket是一款由具身智能创企穹彻智能开发的便携式数据采集系统,通过手机和夹爪组合实现随时随地采集具身智能数据。采出的数据质量高,已在模型训练中验...
极简主义的胜利:清华团队用最简单的强化学习配方刷新1.5B模型纪录
清华大学、伊利诺伊大学和上海AI实验室的研究团队提出了一种名为JustRL的全新架构,该架构通过单阶段训练和固定超参数,在DeepSeek-R1-Distill-Qwen-1.5B与Ne...
拒绝融资、拒绝PR、拒绝扩张:一个研究者如何做出10亿美元的AI公司
Surge AI是一家在人工智能领域具有独特发展路径的公司,尽管其知名度不及OpenAI、Google DeepMind等巨头,但其在行业中的影响力不容忽视。这家公司以不到100...
韩松等提出FlashMoBA,比MoBA快7.4倍,序列扩到512K也不会溢出
MoBA(Mixture of Block Attention)是一种将混合专家原理应用于注意力机制的创新方法,通过让模型自主决定关注哪些位置,显著降低了长上下文处理的计算成本...
扩散语言模型新发现:其计算潜力正在被浪费?
掩码扩散语言模型(MDLM)作为一种新兴的生成范式,挑战了传统自回归模型从左到右的token生成方式。这种模型通过训练时随机遮蔽序列位置并学习填充,具备多to...
刷新SOTA高出19.05分!英伟达开源OmniVinci全模态理解模型,只用1/6的数据,实现全方位超越
英伟达研究团队推出的OmniVinci全模态理解大语言模型,通过创新的架构设计和数据策略,仅用六分之一训练数据便在关键基准测试中超越现有顶尖模型19.05分。该...
超越谷歌Banana,字节联合香港中文大学等高校开源最强图像编辑生成系统DreamOmni2
香港中文大学、香港科技大学、香港大学与字节跳动联合研发的DreamOmni2系统,标志着AI图像编辑与生成领域的重要突破。该系统通过创新的三阶段数据生成流程和...
高效大规模创新3D重建模型iLRM
AIGC领域聚焦大语言模型发展与应用落地,而在3D建模方面,基于前馈网络的方法受关注,但多数基于Transformer架构的模型处理多视图输入时存在可扩展性问题,计...





