标签:算法设计
成本不到8千美元!新浪微博1.5B小模型超越近万亿参数模型
新浪微博近期开源的VibeThinker-1.5B模型以15亿参数、不足8000美元的训练成本,在多项顶级数学竞赛基准上击败了参数量达6710亿的DeepSeek-R1等巨型模型。这一...
Meta用40万个GPU小时做了一个实验,只为弄清强化学习Scaling Law
在大型语言模型(LLM)领域,强化学习(RL)的算力扩展正成为关键研究范式,但其扩展规律尚未明确。Meta等机构的研究者通过40万GPU小时的实验,提出了可预测R...
清华汪玉教授团队支招:如何把“大”模型部署到“小”设备上 | Q福利
2024年,AI驱动的应用产品如GPT-4o等因其广泛的应用前景而受到广泛关注,这促使大量资源被投入到AI的基础建设中,包括算法研究、数据清洗和算力提升。这些应...





