图源:图虫创意
加州大学旧金山分校的科学家利用深度学习算法开发出了一套高效的语音合成器,有望让因为患病而失声的人群以正常的语速“说话”,相关的研究成果发表在了 4 月 24 日出版的《自然》(Nature)上。
中风、脑瘫、肌萎缩性脊髓侧索硬化症(渐冻症)等疾病都有可能会让患者失去说话的能力。目前市面上已有一些设备能够通过追踪患者眼球或者面部肌肉运动的方式,逐字拼出患者想要说的话,再利用语音合成器将这些话“说”出来。最为著名的例子就是身患渐冻症的已故英国物理学家斯蒂芬·霍金在晚年的时候需要利用单边脸颊肌肉控制语音合成器发声。
但是这样的方式沟通效率极其低下,一般每分钟不会超过 10 个单词,而正常人说话的语速大约是每分钟 150 个单词。
不同于先打字再朗读的方式,加州大学旧金山分校的科学家试图利用算法,建立起大脑信号和声道(vocal tract)活动间的关系——找出这样的关系之后,便能够将大脑中的信号转变为相应的声道运动,进而发出声音。
为了实现这一点,研究人员招募了 5 名患有癫痫的志愿者。志愿者均能正常说话,而且他们的大脑中被临时植入了用于术前确定病灶的电极。这就让研究人员能够在志愿者说话的同时,监测大脑语言中枢的活动情况。
研究人员要求志愿者大声朗读一些给定的句子,在志愿者朗读的同时,大脑中语言中枢的活动便被记录了下来。之后,研究人员将这些大脑活动记录与之前已经确定了的声道运动数据进行了结合。
研究人员利用这些数据对一套深度学习算法进行了训练,然后将算法整合进了解码器中。这一装置先将大脑信号转变为声道运动,再将声道运动转变为合成语音。
未参与这项研究的圣地亚哥州立大学的神经学家 Stephanie Riès 表示通过将大脑活动与声道运动进行联系、再将声道运动转换成声音的方式所生成的语音,要比直接将大脑活动与声音进行联系所生成的语音更加容易让人理解。
“实际上,我们中很少有人真正知道当我们说话的时候,我们的嘴巴发生了什么,”论文的通讯作者、神经外科医生 Edward Chang 说,“大脑把你想说的话转化成声道运动,而这就是我们试图解码的东西。” Chang 表示,听过合成句子的人平均能够理解其中 70% 的单词。
科学家们此前已经利用人工智能技术将大脑活动解译为单个单词,不过大部分都是简单的单音节单词。“从单音节跳跃到句子在技术上非常具有挑战性,这也是这项研究令人如此印象深刻的地方之一,”未参与这项研究的埃默里大学(Emory University)的神经工程师 Chethan Pandarinath 评论说。
“当我们第一次听到结果的时候,其实挺震惊的——我们简直不敢相信自己的耳朵。令人难以置信的是,真实语音里的许多方面在合成器输出的语音里都得到了呈现。”论文的共同作者、加州大学旧金山分校的博士生 Josh Chartier 说,“当然,让语音变得更加自然和清楚还有许多工作要做,不过我们对于能够解码多少大脑活动印象深刻。”
“我们希望这些发现为那些表达受阻的人们带来希望,有一天我们将能够恢复交流的能力,这是我们作为人类的基础之一”,他补充说。
我们做了一个壁纸应用,给你的手机加点好奇心。去 App 商店搜好奇怪下载吧。