支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源-赛迪网 - 集科技期刊、产业信息资讯、网络新媒体、视频新媒体于一体的融媒体智能化传播平台

首页> 智能生活> 正文

支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源

来源：赛迪网作者：赛迪网 2025-04-02 16:59:27

在当今数字化时代，语音识别技术已成为人机交互的关键桥梁，广泛应用于智能客服、语音助手、会议转录等众多领域。然而，对于东方语言的识别如越南语、缅甸语等，现有模型往往表现不佳，难以满足用户的需求。为解决这一难题，海天瑞声携手清华大学电子工程系语音与音频技术实验室，共同推出了Dolphin —— 一款专为东方语言设计的语音大模型。

论文.png

Dolphin核心亮点：

· 支持东方40个语种的语音识别，中文语种支持22方言（含普通话）；

· 训练数据总时长21.2万小时：其中海天瑞声高质量专有数据13.8万小时，开源数据7.4万小时；

· 在3个测试集（Dataocean AI，Fleurs，CommonVoice）下，与Whisper同等尺寸模型相比：

- base版本平均WER降低63.1%；

- small版本平均WER降低68.2%；

- medium版本平均WER降低67.7%；

- large版本平均WER降低60.6%

·base与small版本模型与推理代码全面开源；Dolphin 开源的small版本与Whisper large v3相比，平均WER降低54.1%。

·论文题目：Dolphin: A Large-Scale Automatic Speech Recognition Model for Eastern Languages

·论文链接：https://arxiv.org/abs/2503.20212

·Github：https://github.com/DataoceanAI/Dolphin

·Huggingface：https://huggingface.co/DataoceanAI

·Modelscope：https://www.modelscope.cn/organization/DataoceanAI

·OpenI启智社区：https://openi.pcl.ac.cn/DataoceanAI/Dolphin

·支持的语种：https://github.com/DataoceanAI/Dolphin/blob/main/languages.md

Dolphin的开源只是起点。未来，海天瑞声与清华大学电子工程系语音与音频技术实验室将继续探索更大规模模型的训练，以实现更广泛的语言覆盖和更卓越的性能。同时，我们也将优化模型以适应低延迟和实时应用场景，使其在更多领域发挥价值。此外，海天瑞声计划进一步加大对稀缺语言语种数据集的研发支持，为全球语音识别技术的均衡发展贡献力量。

Dolphin不仅是一款技术先进的语音识别模型，更是推动东方语言语音识别技术发展的重要力量。海天瑞声期待与全球研究者和开发者共同携手，开创语音识别技术的新篇章。

联丰迅声完成新一轮融资，以声学AI定义智能运维新范式

西安联丰迅声信息科技有限责任公司（以下简称“联丰迅声”）宣布完成新一轮千万级融资，本轮领投方为西安…

2025-04-02 16:57

千寻位置与城市运营合作：时空智能+AI赋能，道路巡检智能机器...

从2024年11月起，隧道股份上海城建城市运营（集团）有限公司与千寻位置网络有限公司（以下简称“千寻位置…

2025-04-02 17:02

你可能也喜欢这些文章