机器学习系统复制人类听觉行为,预测脑反应
图像:切尔西·特纳/麻省理工学院
使用称为深度神经网络的机器学习系统,麻省理工学院研究人员已经创建了第一款,可以在听觉任务中复制人类性能,例如识别音乐类型。
该模型包括许多可以在大量数据上培训的信息处理单元,以执行特定任务,用于揭示人类大脑如何执行相同的任务。
“这型号首次向我们提供了哪些机器系统,可以对人类进行重要的机器系统,并且在人类水平上执行这些任务,”弗雷德里克A.和Carole J. Middleton助理教授神经科学教授Josh McDermott在麻省理工学院的大脑和认知科学系和该研究的高级作者。“从历史上看,这种类型的感官加工很难理解,部分原因是我们并没有真正有一个非常明确的理论基础和发展可能发生的模型的好方法。”
该研究出现在4月19日神经元,还提供了证据表明人类听觉皮质安排在分层组织中,就像视觉皮质一样。在这种类型的布置中,感官信息通过加工的连续阶段,基本信息处理之前和更高级的特征,例如在以后提取的单词含义。
麻省理工学院研究生亚历山大凯尔和斯坦福大学助理教授丹尼尔·亚马逊是纸的主要作者。其他作者是前麻省理工学院访问学生Erica Shook和前MIT Postdoc Sam Norman-Haignere。
建模大脑
当深度神经网络首次在20世纪80年代开发时,神经科学家希望这些系统可用于模拟人类大脑。然而,来自该时代的计算机不够强大,无法建立足够大的模型来执行诸如对象识别或语音识别之类的现实世界任务。
在过去的五年中,计算能力和神经网络技术的进步使得可以使用神经网络来执行困难的现实任务,并且它们已成为许多工程应用中的标准方法。并行地,一些神经科学家重新审视了这些系统可能用于模拟人脑的可能性。
“这是神经科学的令人兴奋的机会,因为我们实际上可以创造可以做一些人可以做的事情的系统,然后我们可以询问模型并将它们与大脑进行比较,”凯尔说。
麻省理工学院研究人员培训了他们的神经网络,以执行两个听觉任务,涉及演讲和其他涉及音乐的听觉任务。对于语音任务,研究人员给了一个人交谈的数千次二秒记录的型号。任务是识别剪辑中间的单词。对于音乐任务,要求该模型识别音乐的两秒钟剪辑的类型。每个剪辑还包括背景噪音,使任务更加真实(更困难)。
经过数千个示例,模型学会了以人类听众准确地执行任务。
“这个想法是随着时间的推移,这一模型在任务中变得越来越好,”凯尔说。“希望是它正在学习一般的东西,所以如果你介绍了模型从未听过的模型以前从未听过的新声音,那么它将做得好,并且在实践中往往是这种情况。”
该模型也倾向于犯下人类最大的剪辑的错误。
构成神经网络的处理单元可以以各种方式组合,形成影响模型性能的不同架构。
麻省理工学院团队发现,这两个任务的最佳型号是将加工到两组阶段的处理。第一组阶段在任务之间共享,但之后,它分为两个分支,以进一步分析 - 语音任务的一个分支,以及一个用于音乐类型任务的分支。
层次结构的证据
然后,研究人员使用模型来探讨了关于听觉皮层结构的长期问题:是否是分层组织的。
在分层系统中,在流过系统时,一系列大脑区域对感官信息执行不同类型的计算。它已经充分记录了Visual Cortex具有这种类型的组织。早期地区称为主要视觉皮层,响应颜色或方向等简单功能。稍后的阶段可以实现更复杂的任务,例如对象识别。
但是,难以测试这种类型的组织是否存在于听觉皮层中,部分是因为可以复制人类听觉行为的好模型。
“我们认为,如果我们能够构建一个可以做人们所做的一些相同事物的模型,我们可能会能够将模型的不同阶段与大脑的不同部分进行比较,并获得一些这些部分的证据McDerMott说,大脑可能是分层组织的。“
研究人员发现,在他们的模型中,诸如频率之类的声音的基本功能更容易在早期阶段提取。随着信息的处理并沿网络更远地移动,提取频率变得更难,但更容易提取诸如单词的更高级别信息。
要查看模型阶段是否可能复制人类听觉Cortex流程如何处理声音信息,研究人员使用功能磁共振成像(FMRI)来测量视听皮层的不同区域,因为大脑处理真实世界的声音。然后,当它处理相同的声音时,它们将大脑对模型中的响应进行比较。
他们发现,模型的中间阶段在主要听觉皮层中最佳的活性相当,并且后续阶段对应于主要皮质外的活动。这提供了证据表明,研究人员说,听觉皮质可能以等级方式排列,类似于Visual Cortex。
“我们看到的是非常清楚的是,主要听觉皮层和其他一切之间的区别,”麦克塞特蒙特说。
奥斯汀德克萨斯大学神经科学和计算机科学助理教授Alex Huth表示,这篇论文部分是令人兴奋的,因为它提供了令人信服的证据表明听觉皮层的早期部分表现了通用声音处理,而较高的听觉皮质表现更多专门任务。
“这是听觉神经科学中的持续奥秘之一:从更高听觉皮层中区分早期听觉皮质的区别?这是我见过的第一篇论文,其中有一个计算假设,“Huth说,谁没有参与研究。
该作者现在计划开发可以执行其他类型的听觉任务的模型,例如确定特定声音的位置,以探索这些任务是否可以通过本模型中识别的途径来完成,或者如果它们需要单独的途径,那么然后可以在大脑中进行研究。
该研究由国家卫生研究院,国家科学基金会,能源计算科学研究生奖学金和麦克唐纳学者奖资助。
出版物:亚历山大J.E.Kell等,“一个任务优化的神经网络重复人类听觉行为,预测脑反应,并揭示了皮质处理等级,”2018年神经元; DOI:10.1016 / J.NEURON.2018.03.044