中国版GPT-4o炸场：国内首个流式多模态交互模型，现场实时且丝滑

AIGC动态2年前 (2024)发布 QbitAI

4,073 0 0

文章摘要

商汤科技在世界人工智能大会上发布了国内首个流式原生多模态交互模型——日日新5.5系列中的5o。这一模型整合了文本、声音、图像和视频等多种模态，能够实现实时、可打断的交互，并且具有拟人的声音和精准的视觉识别能力。商汤CEO徐立表示，这一技术很快将投入使用。

除了交互模型，商汤还展示了基于日日新5.5能力打造的Vimi，这是首个可控人物视频生成大模型，只需一张照片即可生成长达1分钟的视频，解决了以往大模型在人物生成上的难题。Vimi能够精确控制人物表情和姿态，并自动生成匹配的头发、服装和背景。这一技术在世界人工智能大会上获得了最高荣誉“镇馆之宝”。

商汤的日日新5.5采用了混合端边云协同专家架构，并通过超过10TB tokens的高质量训练数据，包括合成的思维链数据，全面提升了模型的语言理解和交互能力。在数学推理、英文理解、指令跟随等核心指标上，日日新5.5相比上个版本有了显著提升。

此外，商汤还推出了端侧模型矩阵，包括专门定制的模型，如商量Mini写作助手、总结助手和百科助手等，满足不同场景下的性能需求。日日新端侧模型5.5 Lite在性能上全面升级，首次安装包耗时仅为0.19秒，推理速度提高15%，达到每秒90.2个汉字的处理速度。商汤还推出了“0元Go”计划，为新用户提供多项免费服务和5000万Tokens包。

商汤的技术和产品已在多个领域得到应用，合作企业超过3000家，覆盖互联网、医疗、金融等行业。商汤CEO徐立认为，重塑交互对于推动行业垂直应用和引起广泛变化至关重要，而商汤推出的流式原生多模态交互模型正是为了实现更丰富、更精准的多模态交互，推动应用的发展。随着技术的进步，人工智能2.0的超级时刻正加速到来。