性能超越GPT-4 Turbo!6000亿商汤多模态大模型登场,35万元一体机能自动生成代码|钛媒体AGI

性能超越GPT-4 Turbo!6000亿商汤多模态大模型登场,35万元一体机能自动生成代码|钛媒体AGI

 

文章摘要


【关 键 词】 商汤科技大模型多模态技术升级产业落地

商汤科技近日发布了“日日新SenseNova”5.0多模态大模型系列,这一系列模型采用了混合专家(MoE)架构,并支持高达10T Tokens的中英文训练数据。这一技术升级使得推理合成数据达到数千亿Token,有效提升了模型的推理能力,尤其是在知识、推理、数学、代码等方面的综合能力,全面对标GPT-4 Turbo。商汤科技表示,这是行业内首个“云、端、边”全栈大模型产品矩阵,旨在满足不同规模场景的应用需求,加速生成式AI向产业落地的全面跃迁。

商汤科技董事长兼CEO徐立强调,公司将持续推动大模型研发,探索大模型的KRE三层架构(知识-推理-执行),不断突破大模型能力边界。他预测,2024年将是端侧大模型爆发的一年。

商汤科技联合创始人、首席科学家王晓刚也表示,端侧模型市场潜力巨大,AI PC和汽车智能化将成为重要的发展机遇,有助于大模型的普及应用。他指出,大模型的发展将导致资源投入、软硬件基础设施要求越来越高,未来不会有太多公司从事大模型研发,不会形成“百模”或“千模大战”。

商汤集团在2023年3月宣布将AGI作为核心战略目标,以期在未来几年内实现AGI技术的重大突破。公司建立了AI for All的发展目标,并将重点放到以SenseCore AI大装置作为大模型生产的核心平台,以及商汤AIDCAI计算中心平台作为大算力AI基础设施能力,打造通用能力的多模态大模型,降低大模型的下游应用成本和门槛。

商汤“日日新SenseNova”大模型体系自2023年发布以来,每隔三个月都有显著提升,实现了万卡万参的大模型训练能力,在多个领域达到国内领先水平。商汤的生成式AI收入实现了200%的飞速增长,大模型基础设施大装置SenseCore的总算力规模突破性增长至12000 petaFLOPS,运营GPU数量达4.5万卡。

在技术开放日上,商汤发布了日日新大模型V5.0,这是国内首个有能力建立“云、端、边”全栈大模型产品矩阵的企业。商汤千亿大模型SenseChat(商量)升级到5.0,达到6000亿参数,提升了创意写作、推理、总结能力等,并在多模态交互能力上取得了显著进步。

商汤还推出了1.8B参数规模的SenseChat-Lite版本端侧大模型,其性能在基准测试中超越了同量级的大模型,并且越级比肩一些更大参数量的模型。此外,商汤还推出了企业级大模型一体机,降低企业应用大模型的门槛,并节约了推理成本。

商汤研发了多个生成式AI产品,如商量、秒画、如影、格物、琼宇、大医以及最新的小浣熊家族系列,并在5.0版本中有更新。商汤还公布了“文生视频”等领域的新技术突破,并展示了完全由商汤大模型生成的视频。

王晓刚强调,AI大模型是一个长期投入、长期竞争的过程,商汤将继续在这条路上坚定前行,并与合作伙伴、生态一起支持这些成果和基础能力。商汤的未来发展重点将是打造机器人的“大脑”,而不是实体的机器人。

原文和模型


【原文链接】 阅读原文 [ 3303字 | 14分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...