实测拿215项SOTA的Qwen3.5-Omni：摄像头一开，AI给我现场讲论文、撸代码

25 0 0

文章摘要

【关键词】 全模态、音视频理解、vibe coding、语义打断、215项SOTA

Qwen3.5-Omni作为通义实验室最新推出的多模态大模型，实现了从输入到输出的全流程原生全模态支持，能够无缝处理文本、图片、音频及音视频混合输入，并生成带时间戳的细粒度音视频脚本。该模型提供Plus、Flash、Light三种尺寸版本，支持256K上下文长度和113种语言识别能力，可处理长达10小时的音频或1小时的视频内容。在权威基准测试中，Qwen3.5-Omni-Plus取得215项SOTA（最先进水平）成绩，与Gemini 3.1 Pro形成有力竞争：在通用音频理解、推理、识别、翻译与对话等任务上全面超越Gemini 3.1 Pro，音视频整体理解能力接近其表现水平；视觉与文本能力则与同尺寸Qwen3.5基础模型相当。

模型核心亮点在于“vibe coding”功能——能在实时视频通话场景中，依据画面逻辑自动生成Python代码或前端原型。实验中，用户通过摄像头向模型展示手绘草图，模型迅速输出对应HTML+CSS网页代码并提供预览，期间还调用WebSearch填充内容。这一过程无需人工复制文本，也未依赖屏幕截图或字幕信息，体现极强的端到端理解与生成能力。此外，模型支持边观看边解读学术论文，在观看Yann LeCun团队发布的LeWorldModel论文时，模型能以口语化方式解析技术原理、方法差异与创新点，并可灵活应对中断式提问；特别强调的是，它不会被环境杂音干扰，真正实现抗干扰语义打断机制。

技术架构层面，Qwen3.5-Omni延续Thinker-Talker双系统设计：Thinker模块采用Hybrid-Attention MoE结构负责多模态融合理解，通过统一位置编码策略建模音频、视频与文本间的时空关联；Talker模块则基于RVQ语音压缩编码技术重构语音合成流程，显著提升效率并改善稳定性。针对此前AI语音易出现节奏错位问题，模型引入ARIA（自适应速率交错对齐）技术，动态调整文本与语音同步节奏，有效避免漏读或发音失准现象。配合流式交互设计，支持边说边听边响应，形成高度自然的实时对话体验，使交互行为接近真人节奏。

目前，Qwen3.5-Omni已在Qwen Chat平台上线，可通过网页端体验视频通话与vibe coding功能；开发者亦可通过阿里云百炼平台调用其API接口。整体而言，该模型标志着通用人工智能向具身智能演进的重要一步，为工作协作、教育科研与创意开发提供了全新的互动范式。