计算模型通过预测对语音进行解码

2020-06-28 16:21

大脑通过识别音节来分析口语。日内瓦大学(UNIGE)和不断发展的语言国家能力研究中心(NCCR)的科学家设计了一种计算模型，该模型再现了中枢神经系统执行此操作所采用的复杂机制。该模型汇集了两个独立的理论框架，使用等效于大脑活动产生的神经元振动来处理关联语音的连续声音流。

该模型根据称为预测编码的理论起作用，从而大脑通过不断尝试基于候选假设(此模型中的音节)来预测感觉信号来优化感知。结果模型在《自然通讯》杂志上进行了描述，该模型有助于实时识别以自然语言说出的数百个句子中包含的数千个音节。这证实了神经元振动可以用来协调我们听到的音节流与大脑预测的想法。

UNIGE医学院基础神经科学系教授，不断发展的语言NCCR联合主任Anne-Lise Giraud说：“脑部活动会产生可通过脑电图测量的神经元振荡。” 这些是电磁波，是由整个神经元网络的相干电活动产生的。有几种类型，根据它们的频率定义。它们被称为α，β，θ，δ或γ波。这些节奏单独或叠加在一起，与不同的认知功能相关，例如感知，记忆，注意力，机敏性等。

但是，神经科学家尚不知道他们是否对这些功能做出积极贡献以及如何发挥作用。在2015年发表的一项较早研究中，Giraud教授的团队表明，theta波(低频)和gamma波(高频)相互配合，对音节中的音流进行排序，并分析其内容，以便对其进行识别。

总部位于日内瓦的科学家根据这些生理节律开发了一种突跳的神经网络计算机模型，该模型在现场(在线)音节排序方面的性能优于传统的自动语音识别系统。

音节的节奏

在他们的第一个模型中，theta波(介于4赫兹与8赫兹之间)使跟随系统感知的音节节奏成为可能。伽马波(大约30赫兹)用于将听觉信号切成较小的切片并进行编码。这会产生一个链接到每个声音序列的“音素”配置文件，可以将其与后一个音节进行比较，并与已知音节库进行比较。这种类型的模型的优点之一是，它可以自发地适应语音速度，语音速度可能因人而异。

预测编码

在这篇新文章中，为了更接近生物学现实，Giraud教授和她的团队开发了一种新模型，其中结合了来自另一个理论框架的元素，而与神经元振荡无关：“预测编码”。

“该理论认为，大脑的功能是如此之好，因为它一直在使用外界事件如何产生感官信号的学习模型来不断尝试预测和解释环境中正在发生的事情。就口语而言，它试图找到最有效的方法。根据已学到的，并且正在不断更新的一组心理表征，可能会随着语音的发展而使耳朵感知到的声音的可能原因。” Giraud小组的计算神经科学家Itsaso Olasagasti博士说，他监督了新的模型实施。

“我们开发了一种模拟这种预测编码的计算机模型，”基础神经科学系研究员，该论文的第一作者Sevada Hovsepyan解释说。“而且我们通过引入振荡机制来实现它。”

经过2888个音节的测试

进入系统的声音首先由类似于神经元种群产生的θ(慢)波调制。这样就可以发信号通知音节的轮廓。然后，(快速)伽马波序列有助于在音节被感知时对音节进行编码。在此过程中，系统会建议可能的音节，并在必要时更正选择。在两个级别之间来回几次后，它会发现正确的音节。随后，系统在每个音节结束时将其重置为零。

该模型已成功使用220个句子中的2888个不同音节以英语自然语言进行了测试。Giraud教授说：“一方面，我们成功地将两个非常不同的理论框架整合到一个计算机模型中。” “另一方面，我们已经表明，神经元振荡很可能在节奏上使大脑的内源性功能与通过感觉器官从外部传入的信号对齐。如果将其放回预测编码理论中，则意味着这些振荡可能使大脑大脑在正确的时机做出正确的假设。”