应用科技

台裔神经科学家以脑机介面结合AI技术,助失语妇以数位化身说话,每分钟78字破纪录

文:刘馨香

美国时间8月23日,旧金山加州大学(UCSF)和柏克莱加州大学(UC Berkeley)研究团队,以脑机介面(BCI)结合人工智慧(AI)技术,首度将大脑讯号转换成合成语音和脸部表情动画,成功让一名因中风而失去说话能力的妇女以数位化身自然地与人交流,且每分钟可讲78个字,比过去任何类似技术都更快。此项成果刊登於顶尖科学期刊《Nature》。

领导此项研究的是知名台裔神经科学家、UCSF医学院神经外科主任张复伦(Edward Chang),他投入脑机介面研究已有十多年。其团队在2021年7月於《NEJM》发表,首次将瘫痪者试图说话时的大脑活动讯号,翻译成单字和句子并呈现於萤幕上,当时每分钟可打出15个字。

张复伦表示,「在这项新研究中,我们将试图说话时的大脑活动讯号翻译成文字的速度,加快到每分钟约78个字;不仅如此,我们还可以将此大脑讯号直接转换成可以聆听的合成语音,并在数位化身上呈现准确的脸部动作。」

参与此项研究的是一名48岁妇女Ann,她在18年前发生脑干中风,导致其严重瘫痪,经过多年的物理治疗後才能转动头部与控制笑或哭等脸部肌肉动作,不过,能让她说话的肌肉仍然动也不动。

研究团队将一个含有253个电极、薄如纸张的长方形电极片,植入至Ann的大脑语言区域的皮层表面,并在其头部设置一个端口以电缆连接到电脑。此技术称为脑皮层电图(electrocorticography, ECoG),能同时记录数千个神经元的综合活动。如果Ann没有中风,这些电极接收到的神经讯号,原本可能会传送到她的舌头、下巴、喉咙和脸的肌肉。

Photo Credit: UCSF官网 团队将一个含有253个电极、薄如纸张的长方形电极片,植入至Ann的大脑语言区域的皮层表面。

Ann与研究团队一起训练系统的人工智慧演算法好几周,她需要从一个含有1024个单字的对话词汇表中,重复地在尝试说不同的短语,直到电脑能辨识她每个音素(phonemes)独特的神经活动模式。音素是指语音中的最小声音单位,例如,「Hello」包含四个音素:HH、AH、L和OW。

使用这种方法,电脑只需学习39个音素就能解读英语中的任何单字,这不仅提高了系统的准确性,还使其速度提高3倍。

而为了创建数位分身,研究团队开发出一种合成语音演算法,以Ann中风前、在婚礼上演讲的影像档案来训练,打造出一个听起来像她本人的个人化合成语音。

研究团队也藉助一套Speech Graphics公司开发的脸部动画软体,并透过机器学习将Ann大脑讯号转化成虚拟角色脸部的肌肉运动,包含下颚、嘴唇、舌头的移动,以及表达快乐、悲伤和惊讶等情绪的脸部表情。

Ann对於听到数位分身成功代替她讲话,表示「感觉很有趣,这就像听到一位老朋友的声音。」她并说:「参与这项研究给了我一种使命感,我觉得我正在为社会做出贡献,感觉就像我又找到工作了。这项研究让我感到真正地生活!」

张复伦表示,我们的目标是让瘫痪者恢复一种完整而真实的沟通方式,也就是人们与他人交谈时最自然的方式。

研究团队表示,下一阶段的关键是打造出不需要电线连接的脑机介面。

参考资料

  • How Artificial Intelligence Gave a Paralyzed Woman Her Voice Back
  • A high-performance neuroprosthesis for speech decoding and avatar control(Nature)

本文经环球生技月刊授权刊登,原文刊载於此
原标:《Nature》脑机介面再突破!失语妇以数位化身说话 每分钟78字破纪录

手机怎么挂梯子上google