字节豆包发布全新视觉深度思考模型,国内AI大模型行业从“百模大战”转向“基座五强”|钛媒体AGI

AI-Agent2天前发布 TMTPOSTAGI
122 0 0
字节豆包发布全新视觉深度思考模型,国内AI大模型行业从“百模大战”转向“基座五强”|钛媒体AGI

 

文章摘要


【关 键 词】 AI模型视频生成智能体数据分析音乐创作

在FORCE LINK AI创新巡展·上海站上,火山引擎发布了多款AI模型,包括豆包·视频生成模型Seedance 1.0 lite、豆包1.5·视觉深度思考模型,并对豆包·音乐模型进行了升级。同时,Data Agent正式亮相,Trae接入豆包深度思考模型并全新升级。这些举措旨在帮助企业打通从业务到智能体的应用链路,提升智能化水平。

Seedance 1.0 lite模型在视频生成方面实现了两大突破:影视级的视频生成质量和视频生成速度的大幅提升。该模型支持文生视频、图生视频,生成时长可达5s、10s,分辨率提供480P、720P。通过强大的语义理解,模型能够精细控制人物外貌气质、衣着风格、表情动作等,并在多主体动作解析、嵌入式文本响应、程度副词和镜头切换响应方面具有优势。此外,模型支持多种镜头语言,如360度环绕、航拍、变焦等,具备细腻高清的基础画质和影视级美感。Seedance 1.0 lite可广泛应用于电商广告、娱乐特效、影视创作等场景,帮助商家快速生成高质量的营销视频素材,降低制作成本与周期。

豆包1.5·视觉深度思考模型具备强大的多模态理解和推理能力,在60个公开评测基准中,有38个取得SOTA表现。该模型在视频理解、视觉推理、GUI Agent能力等方面均处于第一梯队。在视频理解方面,模型支持动态帧率采样,视频时序定位能力显著增强,结合向量搜索,可精准定位视频中与文本描述相对应的片段。此外,模型新增视频深度思考能力,通过学习数万亿多模态标记数据,掌握广泛视觉知识,结合强化学习,使视觉推理能力大幅提升。在复杂的图形推理题中,模型能够提出假设,进行推理检验,并不断反思,直到得出正确答案。该模型还新增GUI Agent能力,可在PC端、手机端等不同环境中完成复杂交互任务,目前已应用于字节跳动多款APP产品的开发测试中。

豆包·音乐模型升级后,不仅支持英文歌曲创作,还可以通过理解视频,自动适配纯音乐BGM。该模型已全量上线,个人和企业用户可在海绵音乐、火山引擎官网体验。

Data Agent是火山引擎推出的企业数据全场景智能体,具备主动思考、洞察、分析、行动能力,帮助企业挖掘数据资产价值。在数据分析上,Data Agent能融合企业内结构化与非结构化数据,结合联网知识,精准理解业务需求,快速生成专业深度研究报告。通过自动化制定分析方案、追溯指标波动、运用自助分析工具及搭建预警系统,实现数据处理全流程智能化,将复杂报表生成的时间从2天缩短至30分钟,显著提升数据获取与决策效率。在智能营销领域,Data Agent实现从策略制定到执行优化的全链路闭环管理,高效完成人群圈选与策略拆解,基于个性化引擎实现精准营销。其智能会话辅助与自动复盘优化功能,可不断提升转化率与客户满意度,动态迭代营销策略。

Trae接入豆包1.5·深度思考模型,基于模型主动深度思考和20毫秒极低延迟,让代码生成的质量更好、效率更高。Trae还带来多个重点功能升级,如统一的AI对话面板、支持自定义@Agent、新增联网搜索#Web和文档#Doc的上下文理解类型等,帮助开发者更便捷地利用AI提升开发效率。

豆包大模型已在汽车、智能终端、互联网、金融、教育科研、零售消费等行业广泛落地,覆盖4亿终端设备、八成主流车企、70%系统重要性银行和数十家证券基金公司、近七成的C9顶级高校和100多家科研院所。随着国内AI大模型行业不断演进,AI大模型从“百模大战”转向“基座五强”,市场竞争越来越激烈。海外重量级玩家如OpenAI、Google、Anthropic、Meta、Xai也在积极推动基座模型研究。市场极速进化,“AI六小虎”分化加剧,行业全面转向AI应用、AI智能体、具身智能等方向,本质上AI软件需要硬件的加持。

原文和模型


【原文链接】 阅读原文 [ 2121字 | 9分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...