多模态AI - 标签 - DeepBlog 博客

千问Qwen3.5-Omni发布：最强全模态AI，动嘴就能编程！

阿里千问发布新一代全模态大模型Qwen3.5-Omni，在音视频理解、识别与交互等215项任务中取得SOTA性能。该模型采用混合注意力MoE架构，支持图片、视频、语音、文字全模态输入输出，能识别113种语言及方言，并涌现出创新的“音视频Vibe Coding”能力——用户只需对着摄像头口述需求，模型即可自主生成APP、网页、游戏等复杂产品代码。此外，它具备超长音频处理与智能视频分析能力，可大幅提升内容创作与审核效率。...

2026-03-31 12:18 • 模型前沿 • 浏览 25

小米正式发布MiMo-V2系列大模型

小米正式发布MiMo-V2系列大模型，包括旗舰文本基座MiMo-V2-Pro、全模态基座MiMo-V2-Omni和语音合成模型MiMo-V2-TTS。该系列旨在推动AI从对话转向任务执行，具备强大推理、多模态感知和情感语音能力。其中MiMo-V2-Pro以高性价比定价策略和1M上下文窗口为亮点，MiMo-V2-Omni在音频、图像理解上表现突出。系列模型将作为智能中枢，深度集成至小米“人车家全生态”。...

2026-03-19 15:24 • 开源生态 • 浏览 45