新的通用技术揭示了神经网内部工作
来自麻省理工学院的研究人员旨在提出一种新的通用技术,用于了解培训的神经网络感,以执行自然语言处理任务,其中计算机试图解释以普通或自然语言编写的自由形式文本(而不是编程例如,语言)。
人工智能研究已被称为神经网络的机器学习系统改造,这将学习如何通过分析大量培训数据来执行任务。
在培训期间,神经网络不断重新调整数千个内部参数,直到它可以可靠地执行一些任务,例如识别数字图像中的对象或将文本从一种语言转换为另一个语言。但是,他们自己的最终价值观谈到了神经网络如何做到这一点。
了解神经网络正在做什么可以帮助研究人员提高他们的性能并转移他们对其他应用的见解,并且计算机科学家最近开发了一些聪明的技术,用于消除特定神经网络的计算。
但是,在2017年关于本周开始的自然语言处理的实证方法会议上,MIT计算机科学和人工智能实验室的研究人员正在提出一种新的通用技术,用于了解培训的神经网络,以进行自然语言处理任务,其中计算机尝试解释以普通写入的自由形式文本或“自然”语言(与结构化语言相反,例如数据库查询语言)。
该技术适用于任何将文本作为输入的系统,并将符号的字符串作为输出产生,例如自动转换器。并且由于其分析来自不同的输入和检查输出影响,它可以使用在线自然语言处理服务,而无需访问底层软件。
事实上,该技术与任何黑盒文本处理系统配合使用,无论其内部机械如何。在他们的实验中,研究人员表明,该技术也可以识别人类翻译工作人员的特质。
主题和变体
该技术类似于用于分析培训的神经网络以执行计算机视觉任务,例如对象识别。软件系统地渗透 - 或者变化 - 图像的不同部分,并将图像重新提交给对象识别器可以识别哪些图像功能导致该分类。但是,适应自然语言处理的方法并不简单。
“在语义上扰乱句子甚至意味着什么?”询问Tommi Jaakkola,Mit电气工程和计算机科学教授和新论文的两位作者之一。“我不能只是做一个简单的随机化。你预测的是现在是一个更复杂的对象,就像一个句子,所以给出解释是什么意思?“
有些讽刺的是,生成测试句子以喂给黑盒神经网,Jaakkola和David Alvarez-Melis,电气工程和计算机科学的麻省理工学院研究生和新纸上的第一作者,使用黑匣子神经网。
他们首先培训一个网络压缩和解压缩自然句子 - 创建一些句子的中间,紧凑的数字表示,然后尝试将其重新扩展到其原始形式。在训练期间,根据解码器的输出与编码器的输入匹配,同时评估编码器和解码器。
神经网络是内在的概率:例如,对物体识别系统馈送一只小狗的图像可能得出结论,图像具有代表狗的70%的概率和代表猫的25%的概率。同样,Jaakkola和Alvarez-Melis的句子压缩网络在解码的句子中为每个单词提供替代方案,以及每个替代方案是正确的概率。
由于网络自然地使用单词的共同发生来提高其解码精度,因此其输出概率定义了一组语义相关句子。例如,如果编码的句子是“她惊讶地喘息着”,系统可能会分配“她惊讶地尖叫”的替代方案或“她陷入恐怖”的概率相当高,但它会为“她游泳”分配更低的概率惊讶“或”她喘息着咖啡。“
对于任何句子,系统都可以生成密切相关的句子列表,其中Jaakkola和Alvarez-Melis进给黑箱自然语言处理器。结果是输入输出对的长列表,研究人员的算法可以分析,以确定输入的哪些更改,原因导致其输出更改。
测试用例
研究人员将其技术应用于三种不同的自然语言处理系统。一个是一个推断词'发音的系统。另一个是一组翻译人员,两个自动化和一个人;第三个是一个简单的计算机对话系统,试图向任意言论或问题提供合理的回应。
如可能预期的那样,翻译系统的分析在输入和输出序列中的inpidual单词之间展示了强的依赖关系。然而,该分析的更有趣的结果之一是在培训机器翻译系统的文本中识别性别偏见。
例如,随结的英语单词“舞者”有两种法国,“Danseur”和“Danseuse”的性别翻译。系统翻译了“舞者是迷人”的句子,使用女性化:“La Danseuse Est Charmante。”但研究人员的分析表明,“Danseuse”这个词的选择受到“迷人”这个词的影响,因为它是“舞者”这个词。不同的形容词可能导致“舞者”的不同翻译。
在从好莱坞电影的一对线上培训的对话制度故意受到动力。虽然训练集很大,但网络本身太小而无法利用它。
“我们所做的其他实验是在缺陷的系统中,”Alvarez-Melis解释道。“如果你有一个没有做好工作的黑匣子模型,你能首先使用这种方法来识别问题吗?这种可解释性的激励应用是通过了解自己出错的原因以及为什么,修复系统,以改善系统。“
在这种情况下,研究人员的分析表明,对话系统经常在输入短语中只键入,它正在使用它用于选择股票回应 - 回答“我不知道”到任何开始的任何句子有一个查询词,例如“谁”或“什么”,例如。
PDF纸本副本:解释黑盒序列到序列模型预测的因果框架