通义千问团队今日开源Qwen3-ASR系列语音识别模型,包括Qwen3-ASR-1.7B和Qwen3-ASR-0.6B两个语音识别模型,以及Qwen3-ForcedAligner-0.6B强制对齐模型。该系列模型支持多达52种语言和方言的识别,其中1.7B版本在中文、英文及复杂场景下达到领先水平,0.6B版本则在性能与效率间取得平衡,可实现高速并发处理。强制对齐模型在11种语言的时间戳预测精度上超越传统方案。团队同步开源了模型权重、技术报告及易用的推理框架,旨在推动语音技术的研究与应用。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

