音视频理解 - 标签 - DeepBlog 博客

千问Qwen3.5-Omni发布：最强全模态AI，动嘴就能编程！

阿里千问发布新一代全模态大模型Qwen3.5-Omni，在音视频理解、识别与交互等215项任务中取得SOTA性能。该模型采用混合注意力MoE架构，支持图片、视频、语音、文字全模态输入输出，能识别113种语言及方言，并涌现出创新的“音视频Vibe Coding”能力——用户只需对着摄像头口述需求，模型即可自主生成APP、网页、游戏等复杂产品代码。此外，它具备超长音频处理与智能视频分析能力，可大幅提升内容创作与审核效率。...

2026-03-31 12:18 • 模型前沿 • 浏览 25