混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

AIGC动态2年前 (2024)发布 QbitAI

4,497 0 0

文章摘要

随着大模型行业的快速发展，评判标准已经从单一的技术层面扩展到了战略布局、落地进展和未来判断等多个维度。腾讯作为大模型行业的重要参与者，其战略布局逐渐显现，主要围绕企业训练和应用大模型的需求，提供AI基础设施、自主可控的大模型以及贴近场景的智能应用。腾讯不断提升模型性能的同时，也在降低模型使用的门槛，通过封装好的PaaS产品让企业构建面向具体场景的应用，例如智能客服和营销工具。

腾讯云的AI布局主要分为四大方面：基础设施、模型层、工具平台层和应用层。在基础设施层面，腾讯云构建了HCC高性能算力集群、AIGC云存储和星脉高性能网络，为训练大模型提供基础。去年9月，腾讯推出了混元大模型，目前已扩展至万亿参数规模，覆盖文本、多模态理解及生成等领域。在文本生成方面，混元采用MoE架构，性能较上一代提升50%，部分中文能力已追平GPT-4。此外，混元还具备超长文本处理能力，能一次性处理长达1000万字的文档，并支持多种格式文件解析。

在图像生成方面，混元推出了首个中文原生的DiT架构文生图模型，并开源了训练代码、推理代码和模型权重等。该模型结合双语CLIP和多语言T5编码器提升理解能力，并应用多模态大语言模型改进图像描述。通过混元DiT的加速库，生图时间可缩短75%，大幅提升推理效率。在视频生成方面，腾讯支持文生视频、图生视频、图文生视频和视频生视频等能力。此外，腾讯在3D生成领域也进行了布局，实现了文/图生3D，单图生成3D模型仅需30秒。

腾讯还持续开源大模型成果，如全链路自研DiT文生图模型（15B）及其小显存版本，使得个人电脑也能运行大模型。这些开源成果与LoRA、ControlNet等插件适配至Diffusers库，为开发者提供便利。

腾讯云通过构建大模型知识引擎、图像创作引擎和视频创作引擎三大PaaS工具，将大模型技术封装，降低技术开发门槛，让更多企业参与到AI应用落地进程中。知识引擎基于LLM+RAG模式，是一个创新的知识应用构建平台，满足产业应用对大模型的需求。用户可以通过低代码或无代码方式快速构建知识服务应用，如客服、知识问答等。知识引擎整合了腾讯的混元大模型和特定行业的大模型能力，提供企业知识服务应用模板，以及文档解析、向量检索、多轮改写等原子能力。

图像创作引擎提供图像风格化、AI写真训练与生成、商品背景生成、线稿生成等能力。基于混元文生图大模型，图像创作引擎能提供更符合国内要求的图像，具备更高质量的中文理解能力，生成更优质的图像。视频创作引擎则面向视频创作者，提供视频转译、视频风格化、图像跳舞、视频插帧等应用，适用于短视频平台、广告营销、游戏等领域。

腾讯还推出了TI平台等工具，面向专业AI工程师，提供从数据预处理、模型构建、模型训练、模型评估到模型服务的全流程开发支持。TI平台包含丰富的算法组件，支持多种算法框架，满足多种应用场景需求。最新升级中，TI平台发布了全新数据处理链、大模型精调工具链，并与知识引擎联调，实现了边迭代边评测机制，帮助企业及时了解并优化大模型业务效果。

腾讯云的大模型产品矩阵兼顾了市面上所有突出需求，如构建专有大模型、零门槛上手、快速开发等。这体现了腾讯对技术趋势的理解：大模型必须用起来才有价值。技术的打造只是起点，把技术落地到产业场景、创造价值才是目标。在腾讯自身内部，这些价值已经初步显现，腾讯决定聚焦模型场景落地，打一场持久战。