标签:大模型

DeepSeek精度效率双提升,华为&信工所提出思维链“提前退出”机制

华为与中科院信工所合作提出了一种名为DEER(动态提前退出推理)的新方法,旨在解决大模型在长思维链推理中可能出现的过度思考问题。DEER的核心在于找到推理...

AI 线下实战公开课(广州场)来啦!2.5小时 解锁 AI 大模型 MCP 开发核心技能

首场AI线下实战课于5月24日下午在广州黄埔区举行,聚焦AI大模型的MCP开发协议,旨在通过深度知识剖析与实战演练,帮助参与者掌握这一关键技术。MCP开发协议在...

下周聊:大模型进入 RL 下半场,模型评估为什么重要?

随着大模型技术进入发展的下半场,如何重新定义问题并设计真实用例的评估体系成为关键议题。OpenAI Agent Researcher姚顺雨的博客文章《The second half》引...

国家级AI赛事报名开启!全球精英同台竞技近20个热点赛题,大奖等你拿

第二届「兴智杯」全国人工智能创新应用大赛于5月8日正式开幕,主题为「兴智赋能,创新引领」。作为国内规模最大、参赛主体最丰富的AI专业赛事品牌,「兴智杯...

对话阶跃星辰姜大昕:我们就是“多模态卷王”,这便是阶跃冲击AGI的方式

阶跃星辰是一家成立仅两年的大模型公司,已经发布了22款自研基座模型,涵盖文字、图像、视频、语音、音乐和推理等多个模态,其中大多数为多模态模型。创始人...

Bye,英伟达!华为NPU,跑出了准万亿参数大模型

华为基于昇腾国产算力平台,成功实现了7180亿参数MoE模型的长期稳定训练,突破了负载均衡、通信开销和训练效率等多项技术挑战。这一成就标志着国产算力平台在...

一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face榜二

基于文本指令的图像编辑任务一直是图像生成和编辑领域的热点,近年来随着Gemini、GPT-4o等商业大模型的推出,这一领域的技术水平不断提升。然而,传统方法通...

陶哲轩:感谢ChatGPT,4小时独立完成了一个开源项目

菲尔兹奖得主陶哲轩在五一假期期间发布了一个开源项目,该项目旨在通过大模型的协助,开发一个用于验证涉及任意正参数的估计是否成立的概念验证软件工具。这...

谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙

大语言模型(LLMs)在智能体应用中的潜力引发了广泛关注,但其在决策场景中的表现却存在显著缺陷。谷歌DeepMind的研究者深入分析了LLMs在决策中的三种常见失...

小米入局大模型赛道!开源MiMo-7B,性能超o1-mini

小米近日宣布进军大模型领域,并开源了一款名为MiMo-7B的模型。尽管MiMo-7B仅有70亿参数,但其在多个测试中表现优异,在数学AIME24/25中分别达到68.2分和55.4...
1 6 7 8 9 10 60