模型 | 第 6 页 | 学习AIGC

Mamba核心作者新作：取代DeepSeek在用的注意力机制，专为推理打造

研究团队提出两种专为推理“量身定制”的注意力机制——Grouped-Tied Attention（GTA）和Grouped Latent Attention（GLA），旨在优化大语言模型的推理效率和硬件...

AIGC动态

8个月前

巧妙！一个传统技术让国产视觉基础模型直接上大分

格灵深瞳最新发布的视觉基础模型Glint-MVT在多个领域展现了显著的技术突破。该模型通过引入间隔Softmax损失函数，显著提升了泛化能力，并在26个分类测试集中...

AIGC动态

8个月前

Claude 4 发布：替代人类程序员所需的条件，现在它都有了

Anthropic 近日发布了 Claude 4 系列模型，包括旗舰型号 Claude Opus 4 和更侧重效率的 Claude Sonnet 4。这一系列模型在编程能力上实现了重大突破，尤其是在...

AI-Agent

8个月前

靠「AI婴儿播客」拿到a16z 3200万美元投资，Hedra凭什么？

Hedra，一家生成式 AI 初创公司，近期完成了 3200 万美元的 A 轮融资，由 Andreessen Horowitz（a16z）领投，总融资额达到 4400 万美元。与市场上其他生成式 ...

AIGC动态

8个月前

从 DeepSeek 部署看，华为如何让 MOE 架构“迎来”海量“专家”？

模型开发已经从早期的算法层优化转向系统工程层面的深度创新，标志着技术领域的重大转变。随着数字化时代的比特流量逐渐转向Token经济体系，国内Token日消耗...

AI-Agent

8个月前

纯蒸馏模型 SOTA 出现！直接 SFT 成本直降 50 倍，数据已全部开源

a-m-team 最近发布了一篇名为“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的论文，探讨了在推理模型训练中蒸馏数据源的重要...

AIGC动态

8个月前

DeepSeek们越来越聪明，却也越来越不听话了。

近年来，随着AI推理能力的提升，模型在执行任务时被认为应该更加聪明。然而，这种聪明却带来了一个意想不到的副作用：提示词遵循能力逐渐下降，模型变得越来...

AIGC动态

8个月前

OpenAI：GPT-5就是All in One，集成各种产品

OpenAI在发布“最强编程智能体Codex”后，通过Reddit的“有问必答”活动，进一步透露了关于下一代基础模型GPT-5的规划。公司研究副总裁Jerry Tworek表示，未来计...

AIGC动态

9个月前

怎么回事？刚被OpenAI收购，Windsurf就发了个自己的模型

OpenAI近期以30亿美元的价格收购了AI编程热门公司Windsurf，这一举动标志着AI编程工具领域的进一步发展。Windsurf发布了其最新的AI编程模型SWE-1，该模型不仅...

AIGC动态

9个月前

2025年哪款模型最受欢迎？Poe最新报告：DeepSeek降温、可灵成黑马

Poe 平台发布的最新人工智能模型使用趋势报告，涵盖了 2025 年 1 月至 5 月期间用户在文本、推理、图像、视频和音频领域的使用数据。报告揭示了多个关键趋势...

AIGC动态

9个月前

标签：模型

Mamba核心作者新作：取代DeepSeek在用的注意力机制，专为推理打造

巧妙！一个传统技术让国产视觉基础模型直接上大分

Claude 4 发布：替代人类程序员所需的条件，现在它都有了

靠「AI婴儿播客」拿到a16z 3200万美元投资，Hedra凭什么？

从 DeepSeek 部署看，华为如何让 MOE 架构“迎来”海量“专家”？

纯蒸馏模型 SOTA 出现！直接 SFT 成本直降 50 倍，数据已全部开源

DeepSeek们越来越聪明，却也越来越不听话了。

OpenAI：GPT-5就是All in One，集成各种产品

怎么回事？刚被OpenAI收购，Windsurf就发了个自己的模型

2025年哪款模型最受欢迎？Poe最新报告：DeepSeek降温、可灵成黑马

热门网址

标签：模型

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址