大模型
LLM,VLM,模型
暌违六年、互联网女皇340页AI报告刷屏:AI「太空竞赛」开启,下一个10亿用户市场机会来了!
Mary Meeker,被誉为“互联网女皇”,在沉寂数年后携一份340页的《AI趋势报告2025》重返公众视野。这份报告在科技界引发了广泛关注,尤其是其核心观点:AI驱动...
微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好
随着大语言模型(LLM)的快速发展,扩展Transformer架构已成为推动人工智能领域进步的关键途径。然而,LLM参数规模的指数级增长带来了高昂的训练成本和推理效...
无需人工标注!AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力
新加坡国立大学、清华大学和Salesforce AI Research的研究者提出了一种名为“元能力对齐”的训练框架,旨在提升大型推理模型在数学、编程和科学问题上的基本推...
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
西北大学与Google、谷歌DeepMind团队提出了一种新的强化学习方法——贝叶斯自适应强化学习(BARL),旨在解决传统强化学习(RL)在反思探索方面的局限性。传统R...
硅谷今夜集体失眠!互联网女皇340页AI报告猛料刷屏,大佬熬夜头秃
互联网女皇Mary Meeker发布的《AI趋势报告2025》引发了广泛关注,报告长达340页,深入探讨了人工智能领域的变革与趋势。AI驱动的变革已经全面且不可逆转,既...
商汤官宣联合创始人徐冰将卸任执行董事、董事会秘书职务
商汤集团在端午节前夕发布公告,宣布其联合创始人徐冰将卸任执行董事及董事会秘书职务,专注于推动公司战略性新兴业务的发展,特别是AI芯片业务。徐冰的卸任...
微软再放LLM量化大招!原生4bit量化,成本暴减,性能几乎0损失
微软亚研院的研究团队近期发布了原生1bit精度的大模型BitNet b1.58 2B4T的升级版本——BitNet v2。这一新版本在性能几乎无损失的情况下,显著降低了内存占用和...
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
随着OpenAI的o1/o3和Deepseek-R1等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式。这种范式在纯文本领域取得...
2个月,20亿美元估值、硅谷7500万美元投资,Manus给中国AI创业者指了条什么路?
Manus作为一家源自中国的创业公司,近期在AI领域引发了广泛关注。尽管在国内曾面临质疑和批评,但其在海外尤其是硅谷的评价却截然不同,获得了OpenAI、微软、...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
研究团队提出两种专为推理“量身定制”的注意力机制——Grouped-Tied Attention(GTA)和Grouped Latent Attention(GLA),旨在优化大语言模型的推理效率和硬件...