硬刚Sora2，万相2.6轻松定制角色、控制分镜，普通人也能当导演

AIGC动态3个月前发布 almosthuman2014

503 0 0

文章摘要

2025年标志着视频生成技术进入全新范式，以阿里万相2.6为代表的模型实现了从单点突破到系统级创新的跨越。该模型首次在国内实现声画一致性角色定制，通过多模态联合建模技术，不仅能固定视频中角色IP形象，还能复刻参考视频中的音色、语调等声学特征，支持单人独白和多人对手戏的精准生成。实测显示，模型对科技领袖黄仁勋等人物微表情、习惯动作的还原度达到影视级水准，英文声线复刻效果尤其突出。

在专业叙事能力上，分镜控制功能通过高层语义理解将简单提示词转化为多镜头脚本，单次最长可生成15秒连贯视频。测试案例中，日式电影感镜头对眼镜起雾的物理模拟、皮肤毛孔的”呼吸感”呈现等细节，证实其具备专业影棚级的画面控制力。苏轼穿越短片的成功案例则表明，模型已掌握情绪递进与节奏把控的导演思维，能自主完成运镜设计和表演调度。

静态图像生成方面，模型在风格融合与精准控制上取得突破，支持印象派与涂鸦等跨风格合成，改善文字生成能力使其可制作带复杂排版的海报。新增的图文混排、多图融合功能强化了商业应用价值，配合API接口为企业用户提供从平面到视频的全套解决方案。

技术落地上，万相2.6通过千问APP实现移动端免费创作，将专业影视制作流程简化为”@主角+动作+场景”的公式化操作。官方提供的两套提示词模板（角色引用公式与分镜时间戳公式）大幅降低创作门槛，使AI视频从实验室走向大众娱乐与商业生产。随着模型登陆阿里云百炼平台，其能力已渗透至短剧制作、广告设计等垂直领域，标志着视频生成进入工业化应用阶段。当前系统的局限在于中文配音质量较英文略有差距，且复杂叙事仍需分段生成后拼接，但整体已实现技术普惠化，使个人创作者获得堪比专业团队的表现手段。