大模型 | 第 9 页

逆天！Mata用13个参数26字节让模型正确率从76%飙升至91%

Meta FAIR等机构研究人员开发出一种名为TinyLoRA的极致微调技术，仅需调整13个参数（26字节）即可显著提升大语言模型的数学推理能力。该方法配合强化学习框架...

AIGC动态

3个月前

2026开年关键词：Self-Distillation，大模型真正走向「持续学习」

2026年初，大模型领域的研究焦点集中在自蒸馏（Self-Distillation）技术上，这一方法被视为解决持续学习瓶颈的关键突破。传统监督微调（SFT）在模型吸收新知...

AIGC动态

3个月前

清华刘知远团队论文：最小化结构改动，短文本到长文本丝滑升级 | ICLR 2026

InfLLM-V2通过最小结构扰动实现大模型从短上下文到长上下文的平滑升级。随着大语言模型应用场景的复杂化，传统4k或8k序列长度已无法满足长文档理解、跨轮对话...

AIGC动态

3个月前

9B 模型“平替”GPT-4o ？！面壁赌对OpenClaw端侧AI，内部上演一人月产65万行代码的效率核爆

面壁智能在2023年百模大战中转向端侧大模型赛道，这一战略决策起初备受质疑，但随着苹果入局才验证了其前瞻性。三年后，公司通过发布MiniCPM-o 4.5全模态旗舰...

AIGC动态

3个月前

前OpenAI科学家&GPT之父：预训练精准数据过滤，极低成本削弱大模型危险能力数千倍

Claude价值观塑造者Neil Rathi与前OpenAI科学家Alec Radford共同发表的研究提出了一种革命性的AI安全方法。该方法主张在预训练阶段通过Token级数据过滤精准切...

AIGC动态

3个月前

18个月，中国Token消耗狂飙300倍！别乱烧钱了，清华系AI Infra帮你腰斩API成本

中国大模型API服务市场正面临前所未有的挑战与机遇。随着Clawdbot等应用的爆发式增长，Token消耗量在一年半内激增300倍，达到日均30万亿的规模。这种爆炸式增...

AI-Agent

3个月前

18个月，中国Token消化狂飙300倍！别乱烧钱了，清华系AI Infra帮你腰斩API成本

中国大模型API服务市场正面临严重的'黑盒'焦虑，服务碎片化和不透明性导致开发者面临巨大挑战。数据显示，中国大模型数量已超过1500个，日均Token消耗量从202...

AIGC动态

3个月前

天津大学牵头「拧干」RLVR「低效海绵」：ICLR 2026新作ReMix 让样本效率暴涨 30–450 倍

随着大语言模型在复杂推理任务中的广泛应用，强化学习已成为激发其深度思考潜力的核心范式。然而，当前主流的强化微调方法普遍面临严重的样本效率瓶颈，导致...

AIGC动态

3个月前

全球首个大模型在轨部署：中国太空算力解锁“软硬一体”

把大模型送上太空，这件事正在从科幻变成现实。2025年11月，中国科技企业国星宇航成功将千问大模型Qwen3实时部署到在轨卫星上，完成全球首次通用大模型的在轨...

AIGC动态

3个月前

阿里官宣自研AI芯片，“通云哥”成AI时代梦之队

阿里平头哥正式发布高端AI芯片“真武810E”，标志着国产芯片技术迈入国际顶尖梯队。该芯片整体性能对标英伟达H20，累计出货量达数十万片，超越寒武纪成为国产GP...

AIGC动态

3个月前

标签：大模型

逆天！Mata用13个参数26字节让模型正确率从76%飙升至91%

2026开年关键词：Self-Distillation，大模型真正走向「持续学习」

清华刘知远团队论文：最小化结构改动，短文本到长文本丝滑升级 | ICLR 2026

9B 模型“平替”GPT-4o ？！面壁赌对OpenClaw端侧AI，内部上演一人月产65万行代码的效率核爆

前OpenAI科学家&GPT之父：预训练精准数据过滤，极低成本削弱大模型危险能力数千倍

18个月，中国Token消耗狂飙300倍！别乱烧钱了，清华系AI Infra帮你腰斩API成本

18个月，中国Token消化狂飙300倍！别乱烧钱了，清华系AI Infra帮你腰斩API成本

天津大学牵头「拧干」RLVR「低效海绵」：ICLR 2026新作ReMix 让样本效率暴涨 30–450 倍

全球首个大模型在轨部署：中国太空算力解锁“软硬一体”

阿里官宣自研AI芯片，“通云哥”成AI时代梦之队

热门网址

标签：大模型

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址