标签:模型

性能大涨!阿里开源新版Qwen3模型,霸榜文本表征

阿里巴巴近日开源了两款基于Qwen3基础模型的新模型——Qwen3-Embedding和Qwen3-Reranker,专为文本表征、检索与排序任务设计。这两款模型在多语言文本理解方面...

Anthropic“断供”Windsurf,硅谷也玩“二选一”

Windsurf作为一款广受欢迎的AI编程工具,近期因Anthropic决定切断对其Claude 3.x系列模型的直接供应而陷入困境。这一决定对依赖Claude模型进行编程的开发者产...

天塌了,Claude 全面断供Windsurf!CEO喊冤控诉也挡不住开发者退订,祸起OpenAI收购?

Windsurf CEO Varun Mohan 近日公开表示,Anthropic 在不到五天的通知时间内切断了 Windsurf 对 Claude 3.x 系列模型的直接访问权限,包括 Claude 3.5 Sonnet...

微软再放LLM量化大招!原生4bit量化,成本暴减,性能几乎0损失

微软亚研院的研究团队近期发布了原生1bit精度的大模型BitNet b1.58 2B4T的升级版本——BitNet v2。这一新版本在性能几乎无损失的情况下,显著降低了内存占用和...

Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造

研究团队提出两种专为推理“量身定制”的注意力机制——Grouped-Tied Attention(GTA)和Grouped Latent Attention(GLA),旨在优化大语言模型的推理效率和硬件...

巧妙!一个传统技术让国产视觉基础模型直接上大分

格灵深瞳最新发布的视觉基础模型Glint-MVT在多个领域展现了显著的技术突破。该模型通过引入间隔Softmax损失函数,显著提升了泛化能力,并在26个分类测试集中...

Claude 4 发布:替代人类程序员所需的条件,现在它都有了

Anthropic 近日发布了 Claude 4 系列模型,包括旗舰型号 Claude Opus 4 和更侧重效率的 Claude Sonnet 4。这一系列模型在编程能力上实现了重大突破,尤其是在...

靠「AI婴儿播客」拿到a16z 3200万美元投资,Hedra凭什么?

Hedra,一家生成式 AI 初创公司,近期完成了 3200 万美元的 A 轮融资,由 Andreessen Horowitz(a16z)领投,总融资额达到 4400 万美元。与市场上其他生成式 ...

从 DeepSeek 部署看,华为如何让 MOE 架构“迎来”海量“专家”?

模型开发已经从早期的算法层优化转向系统工程层面的深度创新,标志着技术领域的重大转变。随着数字化时代的比特流量逐渐转向Token经济体系,国内Token日消耗...

纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍,数据已全部开源

a-m-team 最近发布了一篇名为“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的论文,探讨了在推理模型训练中蒸馏数据源的重要...
1 2 3 4 5 6 18