实测拿215项SOTA的Qwen3.5-Omni:摄像头一开,AI给我现场讲论文、撸代码

AIGC动态2小时前发布 QbitAI
25 0 0
实测拿215项SOTA的Qwen3.5-Omni:摄像头一开,AI给我现场讲论文、撸代码

 

文章摘要


【关 键 词】 全模态音视频理解vibe coding语义打断215项SOTA

Qwen3.5-Omni作为通义实验室最新推出的多模态大模型,实现了从输入到输出的全流程原生全模态支持,能够无缝处理文本、图片、音频及音视频混合输入,并生成带时间戳的细粒度音视频脚本。该模型提供Plus、Flash、Light三种尺寸版本,支持256K上下文长度和113种语言识别能力,可处理长达10小时的音频或1小时的视频内容。在权威基准测试中,Qwen3.5-Omni-Plus取得215项SOTA(最先进水平)成绩,与Gemini 3.1 Pro形成有力竞争:在通用音频理解、推理、识别、翻译与对话等任务上全面超越Gemini 3.1 Pro,音视频整体理解能力接近其表现水平;视觉与文本能力则与同尺寸Qwen3.5基础模型相当。

模型核心亮点在于“vibe coding”功能——能在实时视频通话场景中,依据画面逻辑自动生成Python代码或前端原型。实验中,用户通过摄像头向模型展示手绘草图,模型迅速输出对应HTML+CSS网页代码并提供预览,期间还调用WebSearch填充内容。这一过程无需人工复制文本,也未依赖屏幕截图或字幕信息,体现极强的端到端理解与生成能力。此外,模型支持边观看边解读学术论文,在观看Yann LeCun团队发布的LeWorldModel论文时,模型能以口语化方式解析技术原理、方法差异与创新点,并可灵活应对中断式提问;特别强调的是,它不会被环境杂音干扰,真正实现抗干扰语义打断机制。

技术架构层面,Qwen3.5-Omni延续Thinker-Talker双系统设计:Thinker模块采用Hybrid-Attention MoE结构负责多模态融合理解,通过统一位置编码策略建模音频、视频与文本间的时空关联;Talker模块则基于RVQ语音压缩编码技术重构语音合成流程,显著提升效率并改善稳定性。针对此前AI语音易出现节奏错位问题,模型引入ARIA(自适应速率交错对齐)技术,动态调整文本与语音同步节奏,有效避免漏读或发音失准现象。配合流式交互设计,支持边说边听边响应,形成高度自然的实时对话体验,使交互行为接近真人节奏。

目前,Qwen3.5-Omni已在Qwen Chat平台上线,可通过网页端体验视频通话与vibe coding功能;开发者亦可通过阿里云百炼平台调用其API接口。整体而言,该模型标志着通用人工智能向具身智能演进的重要一步,为工作协作、教育科研与创意开发提供了全新的互动范式。

原文和模型


【原文链接】 阅读原文 [ 2212字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...