谷歌研究人员训练AI来区分9种印度语言

世界上讲数千种语言,准确地说大约是6,500种语言,而Google,Facebook,Apple和Amazon等系统每天都在更好地识别它们。问题是,并非所有这些语言都具有大量可用的语料库,这会使训练支撑这些系统的数据量巨大的模型变得困难。

这就是Google研究人员正在探索将知识从数据丰富的语言应用于数据稀缺的语言的技术的原因。它以多语言语音解析器的形式取得了成果,该解析器学习了多种语言的转录,最近在2019年奥地利Interspeech会议上接受的预印本中对此进行了详细说明。合著者说,他们的单一端到端模型可以高度准确地识别九种印度语言(印地语,马拉地语,乌尔都语,孟加拉语,泰米尔语,泰卢固语,卡纳达语,马拉雅拉姆语和古吉拉特语),同时证明了“戏剧性”的改进自动语音识别(ASR)的质量。

“在这项研究中,我们关注的是印度,这是一个固有的多语言社会,那里有三十多种语言,至少有一百万人以英语为母语。由于母语的地理位置和共同的文化历史,这些语言中的许多语言在声学和词汇上都有重叠。”主要合著者以及Google Research软件工程师Arindrima Datta和Anjuli Kannan在博客中解释道。“此外,许多印度人是双语或三语的,这使得在对话中使用多种语言成为一种普遍现象,并且是训练单一多语言模型的自然案例。”

在某种程度上,研究人员的系统体系结构将声学,发音和语言成分结合在一起。先前的多语言ASR工作无法解决实时语音识别的问题。相比之下,由Datta,Kannan及其同事提出的模型利用了递归神经网络传感器,该传感器适于一次输出一个字符的多种语言的单词。

为了减轻因转录的语言的小数据集而引起的偏见,研究人员修改了系统架构,以包括额外的语言标识符输入,即从训练数据的语言区域派生的外部信号。(一个示例:在智能手机中设置的语言首选项。)与音频输入相结合,它使模型可以消除给定语言的歧义,并根据需要学习不同语言的单独功能。

该团队通过以剩余适配器模块的形式为每种语言分配其他参数,进一步扩展了模型,从而有助于微调全局每种语言模型并提高整体性能。最终结果是一种多语言系统,其性能优于所有其他单语言识别器,并简化了培训和服务,同时满足了Google Assistant等应用程序的延迟要求。

共同作者写道:“基于这一结果,我们希望继续针对其他语言群体的多语言ASR进行研究,以更好地帮助我们不断增长的多样化用户群体。” “ Google的使命不仅是组织世界各地的信息,而且使世界各地的人们都可以访问它,这意味着确保我们的产品能够以世界上尽可能多的语言工作。”

该系统-或类似的系统-可能会进入Google Assistant,该系统在2月份获得了对多韩语,北印度语,瑞典语,挪威语,丹麦语和荷兰语的多圈对话的多语言支持。在相关新闻中,Google推出了解释器模式,可翻译数十种语言和九种由AI生成的新声音。

栏目推荐