字节豆包发布全新视觉深度思考模型，国内AI大模型行业从“百模大战”转向“基座五强”｜钛媒体AGI

2,284 0 0

文章摘要

在FORCE LINK AI创新巡展·上海站上，火山引擎发布了多款AI模型，包括豆包·视频生成模型Seedance 1.0 lite、豆包1.5·视觉深度思考模型，并对豆包·音乐模型进行了升级。同时，Data Agent正式亮相，Trae接入豆包深度思考模型并全新升级。这些举措旨在帮助企业打通从业务到智能体的应用链路，提升智能化水平。

Seedance 1.0 lite模型在视频生成方面实现了两大突破：影视级的视频生成质量和视频生成速度的大幅提升。该模型支持文生视频、图生视频，生成时长可达5s、10s，分辨率提供480P、720P。通过强大的语义理解，模型能够精细控制人物外貌气质、衣着风格、表情动作等，并在多主体动作解析、嵌入式文本响应、程度副词和镜头切换响应方面具有优势。此外，模型支持多种镜头语言，如360度环绕、航拍、变焦等，具备细腻高清的基础画质和影视级美感。Seedance 1.0 lite可广泛应用于电商广告、娱乐特效、影视创作等场景，帮助商家快速生成高质量的营销视频素材，降低制作成本与周期。

豆包1.5·视觉深度思考模型具备强大的多模态理解和推理能力，在60个公开评测基准中，有38个取得SOTA表现。该模型在视频理解、视觉推理、GUI Agent能力等方面均处于第一梯队。在视频理解方面，模型支持动态帧率采样，视频时序定位能力显著增强，结合向量搜索，可精准定位视频中与文本描述相对应的片段。此外，模型新增视频深度思考能力，通过学习数万亿多模态标记数据，掌握广泛视觉知识，结合强化学习，使视觉推理能力大幅提升。在复杂的图形推理题中，模型能够提出假设，进行推理检验，并不断反思，直到得出正确答案。该模型还新增GUI Agent能力，可在PC端、手机端等不同环境中完成复杂交互任务，目前已应用于字节跳动多款APP产品的开发测试中。

豆包·音乐模型升级后，不仅支持英文歌曲创作，还可以通过理解视频，自动适配纯音乐BGM。该模型已全量上线，个人和企业用户可在海绵音乐、火山引擎官网体验。

Data Agent是火山引擎推出的企业数据全场景智能体，具备主动思考、洞察、分析、行动能力，帮助企业挖掘数据资产价值。在数据分析上，Data Agent能融合企业内结构化与非结构化数据，结合联网知识，精准理解业务需求，快速生成专业深度研究报告。通过自动化制定分析方案、追溯指标波动、运用自助分析工具及搭建预警系统，实现数据处理全流程智能化，将复杂报表生成的时间从2天缩短至30分钟，显著提升数据获取与决策效率。在智能营销领域，Data Agent实现从策略制定到执行优化的全链路闭环管理，高效完成人群圈选与策略拆解，基于个性化引擎实现精准营销。其智能会话辅助与自动复盘优化功能，可不断提升转化率与客户满意度，动态迭代营销策略。

Trae接入豆包1.5·深度思考模型，基于模型主动深度思考和20毫秒极低延迟，让代码生成的质量更好、效率更高。Trae还带来多个重点功能升级，如统一的AI对话面板、支持自定义@Agent、新增联网搜索#Web和文档#Doc的上下文理解类型等，帮助开发者更便捷地利用AI提升开发效率。

豆包大模型已在汽车、智能终端、互联网、金融、教育科研、零售消费等行业广泛落地，覆盖4亿终端设备、八成主流车企、70%系统重要性银行和数十家证券基金公司、近七成的C9顶级高校和100多家科研院所。随着国内AI大模型行业不断演进，AI大模型从“百模大战”转向“基座五强”，市场竞争越来越激烈。海外重量级玩家如OpenAI、Google、Anthropic、Meta、Xai也在积极推动基座模型研究。市场极速进化，“AI六小虎”分化加剧，行业全面转向AI应用、AI智能体、具身智能等方向，本质上AI软件需要硬件的加持。