标签:大模型

Bye,英伟达!华为NPU,跑出了准万亿参数大模型

华为基于昇腾国产算力平台,成功实现了7180亿参数MoE模型的长期稳定训练,突破了负载均衡、通信开销和训练效率等多项技术挑战。这一成就标志着国产算力平台在...

一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face榜二

基于文本指令的图像编辑任务一直是图像生成和编辑领域的热点,近年来随着Gemini、GPT-4o等商业大模型的推出,这一领域的技术水平不断提升。然而,传统方法通...

陶哲轩:感谢ChatGPT,4小时独立完成了一个开源项目

菲尔兹奖得主陶哲轩在五一假期期间发布了一个开源项目,该项目旨在通过大模型的协助,开发一个用于验证涉及任意正参数的估计是否成立的概念验证软件工具。这...

谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙

大语言模型(LLMs)在智能体应用中的潜力引发了广泛关注,但其在决策场景中的表现却存在显著缺陷。谷歌DeepMind的研究者深入分析了LLMs在决策中的三种常见失...

小米入局大模型赛道!开源MiMo-7B,性能超o1-mini

小米近日宣布进军大模型领域,并开源了一款名为MiMo-7B的模型。尽管MiMo-7B仅有70亿参数,但其在多个测试中表现优异,在数学AIME24/25中分别达到68.2分和55.4...

阿里最新开源模型Qwen3到底能不能打?不妨上「通义App」亲自试试

阿里最新发布的通义千问 Qwen3 模型在4月29日凌晨正式开源,并迅速登顶多项大模型测评榜单,引发了广泛关注。Qwen3 在推理、指令遵循、工具调用、多语言能力...

Qwen3真香!通义App满血接入,一手实测在此

开源大模型Qwen3的发布引发了广泛关注,成为全球最强开源模型之一。该模型在多个领域展现出卓越性能,尤其是在编程、逻辑推理和多语言处理方面。Qwen3的参数...

大模型时代,百度智能云迎来最大机会

随着AI技术的快速发展,尤其是DeepSeek等大模型的崛起,AI产业化进程显著加速。然而,AI的真正落地不仅依赖于技术突破,更需要强大的基础设施和开放的生态系...

上交大冷静文:模型发展需要和芯片、系统厂商协同

上海交通大学与魔形智能联合研究团队在HPCA 2025会议上发表了论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Infer...

打造「无所不能、无处不在」的 AI,百度为何要从「操作系统」做起?

大模型虽然具备广泛的知识储备和强大的解释能力,但在实际应用中却常常无法满足具体的任务需求。聪明、博学并不等同于能干活,大模型需要从单纯的“深度思考”...
1 26 27 28 29 30 79