阿里炸场!通义千问Qwen2.5-Omni横空出世,多模态AI要变天?

通义千问Qwen2.5-Omni:阿里巴巴发布最新多模态旗舰模型

北京时间3月27日凌晨,阿里巴巴重磅发布了通义千问系列的最新旗舰模型——Qwen2.5-Omni。这款模型定位为端到端多模态模型,其核心在于能够处理包括文本、图像、音频和视频在内的多种输入形式,并以生成文本和合成语音的方式提供实时流式响应,预示着多模态AI交互的新纪元。

Qwen2.5-Omni的主要特点:全能、实时、自然、卓越

据官方介绍,Qwen2.5-Omni展现出以下关键特性:

  • 全能创新架构: 采用了由Qwen团队自主研发的Thinker-Talker架构,这一端到端设计能够同时理解文本、图像、音频、视频等多种模态的信息,并以流式方式生成文本和自然语音的反馈。同时,引入了TMRoPE(Time-aligned Multimodal RoPE)这种新的位置编码技术,通过时间轴对齐,确保视频和音频输入的精准同步。

  • 实时音视频交互: 架构设计充分考虑了实时交互的需求,支持分块输入和即时输出,保证交互的流畅性。

  • 自然流畅的语音生成: 在语音合成的自然度和稳定性上,Qwen2.5-Omni超越了许多现有的流式和非流式语音生成方案。

  • 全模态性能优势: 在同等规模的模型中,Qwen2.5-Omni在各项基准测试中均展现出卓越的性能。尤其在音频能力上,超越了类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持在同一水平。

  • 卓越的端到端语音指令跟随能力: Qwen2.5-Omni在处理语音指令方面,达到了与处理文本输入相媲美的效果,并在MMLU通用知识理解和GSM8K数学推理等基准测试中表现出色。

    Thinker-Talker双核架构:Qwen2.5-Omni的核心技术

Qwen2.5-Omni的核心在于其Thinker-Talker双核架构。

  • Thinker模块: 类似于大脑,负责处理文本、音频、视频等多模态输入信息,生成高层次的语义表征和对应的文本内容。Thinker模块基于Transformer解码器架构,并融合了音频/图像编码器以进行特征提取。

  • Talker模块: 类似于发声器官,以流式方式接收Thinker模块实时输出的语义表征和文本,并流畅地合成离散的语音单元。Talker模块采用双轨自回归Transformer解码器设计,在训练和推理过程中直接接收来自Thinker模块的高维表征,并共享全部历史上下文信息,最终形成一个端到端的统一模型架构。

Qwen2.5-Omni模型架构图

模型性能:多模态任务和单模态任务均表现优异

Qwen2.5-Omni在图像、音频、音视频等各种模态下的表现均优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

在多模态任务OmniBench上,Qwen2.5-Omni达到了SOTA(State-of-the-Art,即当前最佳水平)的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域均表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

Qwen2.5-Omni模型性能图

开源开放:Qwen2.5-Omni现已登陆各大平台

Qwen2.5-Omni现已在Hugging Face、ModelScope、DashScope和GitHub等平台上开源开放。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注