标签:模型训练
具身智能数据战开打!每个普通人都能上手,边采边筛,只投喂机器人爱吃的丨穹彻
RoboPocket是一款由具身智能创企穹彻智能开发的便携式数据采集系统,通过手机和夹爪组合实现随时随地采集具身智能数据。采出的数据质量高,已在模型训练中验...
极简主义的胜利:清华团队用最简单的强化学习配方刷新1.5B模型纪录
清华大学、伊利诺伊大学和上海AI实验室的研究团队提出了一种名为JustRL的全新架构,该架构通过单阶段训练和固定超参数,在DeepSeek-R1-Distill-Qwen-1.5B与Ne...
拒绝融资、拒绝PR、拒绝扩张:一个研究者如何做出10亿美元的AI公司
Surge AI是一家在人工智能领域具有独特发展路径的公司,尽管其知名度不及OpenAI、Google DeepMind等巨头,但其在行业中的影响力不容忽视。这家公司以不到100...
韩松等提出FlashMoBA,比MoBA快7.4倍,序列扩到512K也不会溢出
MoBA(Mixture of Block Attention)是一种将混合专家原理应用于注意力机制的创新方法,通过让模型自主决定关注哪些位置,显著降低了长上下文处理的计算成本...
扩散语言模型新发现:其计算潜力正在被浪费?
掩码扩散语言模型(MDLM)作为一种新兴的生成范式,挑战了传统自回归模型从左到右的token生成方式。这种模型通过训练时随机遮蔽序列位置并学习填充,具备多to...
刷新SOTA高出19.05分!英伟达开源OmniVinci全模态理解模型,只用1/6的数据,实现全方位超越
英伟达研究团队推出的OmniVinci全模态理解大语言模型,通过创新的架构设计和数据策略,仅用六分之一训练数据便在关键基准测试中超越现有顶尖模型19.05分。该...
超越谷歌Banana,字节联合香港中文大学等高校开源最强图像编辑生成系统DreamOmni2
香港中文大学、香港科技大学、香港大学与字节跳动联合研发的DreamOmni2系统,标志着AI图像编辑与生成领域的重要突破。该系统通过创新的三阶段数据生成流程和...
高效大规模创新3D重建模型iLRM
AIGC领域聚焦大语言模型发展与应用落地,而在3D建模方面,基于前馈网络的方法受关注,但多数基于Transformer架构的模型处理多视图输入时存在可扩展性问题,计...
全球百万网友迷上赛博「养鱼」,我也被这群AI小丑鱼拿捏了
Draw A Fish 是一款让全球百万网友疯狂上头的 AI 小游戏。其玩法简单,打开网站利用绘图工具,选择颜色和笔刷粗细,在画布上绘制面朝右侧的小鱼,AI 会实时判...
三个月、零基础手搓一块TPU,能推理能训练,还是开源的
大模型技术发展使 AI 专用芯片受关注,谷歌 TPU 是典型例子,其自 2015 年部署后已发展到第 7 代,推动了大模型技术进展。加拿大西安大略大学工程师 Surya Su...




