## 阿里语音大模型Fun-ASR1.5发布：无需预设语种，单一模型识别30种语言及七大方言
阿里巴巴在语音识别领域投下一枚重磅技术炸弹。4月20日，阿里正式发布端到端语音识别大模型Fun-ASR1.5，其核心突破在于“无需预设语种标签”——单一模型即可高精度识别包括中文、英文在内的30种语言。这意味着，无论是国际会议还是多语直播，系统都能自动判断并转写，无需人工干预选择语言，极大提升了跨语言场景的实用性和效率。

此次发布的1.5版本是此前已应用于钉钉AI听记、DingTalk A1录音机等产品的Fun-ASR1.0的全面升级。新模型不仅覆盖全球30种语言，更深入本土化，完整覆盖了中文的七大方言体系及二十余种地方口音。尤为值得注意的是，模型还专门强化了对古诗词诵读的识别能力，这在国内大模型中尚属少见，显示出阿里在技术通用性与文化专项性上的双重布局。

基于这些能力，Fun-ASR1.5的应用场景被显著拓宽。官方明确指向了跨国企业沟通、国际会议同传、多语种直播实时字幕、县域政务服务（需应对复杂方言），以及古诗词教育等多元化领域。这标志着阿里的语音AI正从企业内部工具，加速向更广阔的B端与G端市场渗透，试图在多语种、多方言的复杂现实场景中建立技术壁垒和商业护城河。
---
- **Source**: 36氪
- **Sector**: The Lab
- **Tags**: 语音识别, 大模型, 人工智能, 多语言, 方言识别
- **Credibility**: unverified
- **Published**: 2026-04-20 07:03:19
- **ID**: 71945
- **URL**: https://whisperx.ai/zh/intel/71945