标签:性能提升

让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞

微软亚洲研究院的研究团队提出了一种名为rStar-Math的小型语言模型(SLM),在数学推理能力上表现出色,能够媲美甚至超越OpenAI的o1模型。rStar-Math通过自我...

陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

陈丹琦团队提出了一种新的预训练方法,名为元数据调节然后冷却(MeCo),旨在提高大模型的性能并降低训练数据的需求。该方法通过在预训练阶段引入元数据,如...

机器人技术永远不会出现“ChatGPT时刻”

2024年对于通用机器人技术领域而言是充满激动人心进展的一年,而2025年的发展预测同样引人关注。首先,硬件趋同现象预计将导致人型机器人在2025年底实现商用...

时隔6年,谷歌BERT终于有替代品了!更快更准更长,还不炒作GenAI

新型AI研发实验室Answer.AI和英伟达等近日发布了ModernBERT,这是一个在速度和准确率上显著改进的模型系列,包含基础版139M和较大版395M两个型号。ModernBERT...

OpenAI员工在推特上,像极了上班的你

OpenAI近期发布了其旗舰推理模型o3和o3-mini,标志着公司2024年的收官。此次发布在Twitter上引发了广泛讨论,特别是OpenAI员工的积极参与,几乎全员出动为公...

DeepSeek V3刷屏,550万元2000张卡做出的开源模型,和OpenAI几亿烧出来的一样好

深度求索公司发布的DeepSeek V3技术报告揭示了其高效训练的关键数据,展现了该模型在资源依赖小、成本低的同时,效果异常出色。在预训练阶段,DeepSeek-V3在...

英伟达GB 300细节曝光,下一代GPU怪兽

Nvidia的第二代Blackwell B300系列处理器预计将带来显著的性能提升和内存容量增加。与前代B200系列相比,B300系列的计算性能提高了50%,而热设计功耗(TDP)仅...

超越Claude 3.5紧追o1!DeepSeek-V3-Base开源,编程能力暴增近31%

DeepSeek AI公司在2024年底开源了其最新的混合专家(MoE)语言模型DeepSeek-V3-Base,该模型拥有685B参数,包含256个专家,并采用sigmoid路由方式,每次选取...

英特尔至强6独享MRDIMM,内存带宽飙升,加速推理达2.4倍!

英特尔至强6性能核处理器以其显著的推理性能提升2.4倍而受到业界关注。其架构、核数和内存带宽的大幅提升是性能激增的关键因素。尽管至强6性能核处理器的Die ...

o3 都要来了还能做点什么?人大&蚂蚁团队:自下而上数据合成让大模型能够多模态推理

中国人民大学高瓴人工智能学院与蚂蚁技术研究院的研究团队在EMNLP 2024上提出了一种视觉推理框架,旨在提升视觉语言模型的多模态推理能力。该框架基于“由浅入...
1 2 3 4 5 6 15