近日,由厦门大学、清华大学、海天瑞声、西北工业大学及昆山杜克大学联合主办,中国计算机学会语音对话与听觉专委会、中文信息学会协办的第六届 “OLR2021 东方语种识别 ” 国际竞赛研讨会在线上成功召开 。网易互娱 AI Lab 在本次竞赛中以绝对领先的优势夺取了多语种语音识别赛道双料冠军,分别是多语种语音识别受限任务的第一名和多语种语音识别开放任务的第一名 。
东方语种识别竞赛主要专注于东亚(中国、日本、韩国等)以及东南亚(印尼、越南等)地区的语言研究 。此次比赛多语种语音识别任务突破了历届比赛仅识别语种的任务限制,在不给定测试语音语种标签的情况下,参赛队伍模型需要识别出多语种混合测试集的语音内容 。今年已经是 OLR 比赛的第六届,本届比赛吸引来自中国、加拿大、印度 等国家的高校和企业参加 。
图 1 。OLR 历届冠军队伍及 2021 参赛队伍信息
本次比赛多语种语音识别赛道的任务是构建包含 13 种语言(普通话、粤语、日文、印尼语、越南语以及地区方言等)的混合语音识别系统 。而其中受限任务赛道每种语言仅提供约 10 小时带标签训练数据,训练数据资源的稀缺使得设计相应模型具有较大的挑战 。针对比赛中的难点,网易互娱 AI Lab 采用基于 Hybrid 和 E2E 的结构,针对普通话、粤语、上海话、日语和印尼语,使用 Hybrid 结构并训练相应单语种语音识别模型,该方法在低资源数据场景下,可以获得比 E2E 模型更好的结果;针对其他语言,由于缺少发音词典和文本数据,则使用多种语言混合训练 E2E 结构 。比赛通过语种识别模型将多语种模型和单语种模型进行耦合,进一步提升性能 。
【网易互娱AILab斩获“OLR2021东方语种识别”国际竞赛双料冠军】比赛使用 CER(字符错误率)作为评价指标,CER 越小表示系统识别率越高 。在受限任务赛道上,网易互娱 AI Lab 取得 13 。1% 的平均 CER,字符错误率比官方基线系统相对降低 66%,比第二名相对降低 28% 。值得一提的是,网易互娱 AI Lab 的多语种单模型亦超过第二名的融合系统 。在实际工业级语音识别应用中,使用单系统部署可以降低服务成本,也便于快速更新维护 。
图 2 。多语种语音识别受限赛道排名情况
在开放任务赛道上,网易互娱 AI Lab 基于受限赛道系统,融合了中文普通话、日语、印尼语等三个利用外部数据的模型,取得 12 。6% 的 CER,字符错误率比第二名相对降低 30% 。
图 3 。多语种语音识别开放赛道排名情况
目前,网易互娱多语种语音识别的应用价值主要在海外业务应用场景 。对于海外语音识别,仅根据用户手机语言设置、IP 所在地区进行相应语言、语种的判断,无法做到非常高的准确率 。通过使用多语种语音识别系统,在一定程度上可以解决 / 缓解语种不匹配导致的语音转文字语种混乱问题 。针对东南亚地区,网易互娱 AI Lab 目前已支持集印尼、马来、英语三种语言于一体的多语言混合语音识别系统,该系统可以同时支持 3 种语言的语音识别 。
网易互娱 AI Lab 成立于 2017 年,隶属于网易互动娱乐事业群,在广州、杭州、上海均有分部,是游戏行业领先的人工智能实验室 。实验室致力于计算机视觉、语音和自然语言处理,以及强化学习等技术在游戏场景下的研究,应用和落地,旨在通过 AI 技术助力互娱旗下热门游戏及产品的技术升级,目前技术已应用于网易互娱旗下多款热门游戏,如《梦幻西游》《哈利波特:魔法觉醒》《阴阳师》《天下 3》等等 。
推荐阅读
- AI大牛吴恩达确诊新冠
- 帕萨特是几驱的车型
- cpu散热器安装风扇方向,cpu散热器风扇朝哪个方向
- 雅顿时空胶囊和小棕瓶哪个好
- 蟑螂为什么不能踩死
- 腊肠要晾晒多久
- 奥运会举办国家
- 冬天麦盖三层被来年枕着馒头睡指的是什么天气
- 宝骏630有几个缸
