通用技术揭示了训练用于处理语言的神经网络的内部工作

2019-06-12 01:26

  人工智能研究已通过称为神经网络的机器学习系统进行转换,该系统通过分析大量训练数据来学习如何执行任务。

  在训练期间,神经网络不断地重新调整数千个内部参数,直到它可以可靠地执行某些任务,例如识别数字图像中的对象或将文本从一种语言翻译成另一种语言。但就他们自己而言,这些参数的最终值很少说明神经网络是如何做到的。

  了解神经网络正在做什么可以帮助研究人员提高他们的表现并将他们的见解转移到其他应用程序,计算机科学家最近开发了一些聪明的 技术来划分特定神经网络的计算。

  但是,在本周开始的2017年自然语言处理经验方法会议上,来自麻省理工学院计算机科学和人工智能实验室的研究人员正在展示一种新的通用技术,用于理解经过自然语言处理训练的神经网络。任务,计算机试图解释用普通或“自然”语言编写的自由形式文本(而不是结构化语言,如数据库查询语言)。

  该技术适用于将文本作为输入并生成符号串作为输出的任何系统,例如自动翻译器。由于其分析来自不同的输入并检查对输出的影响,因此它可以与在线自然语言处理服务一起使用,而无需访问底层软件。

  实际上,该技术适用于任何黑盒文本处理系统,无论其内部机器如何。在他们的实验中,研究人员表明,该技术也可以识别人类翻译工作中的特质。

  该技术类似于已经用于分析经过训练以执行计算机视觉任务(例如对象识别)的神经网络的技术。系统地扰乱 - 或变化 - 图像的不同部分并将图像重新提交给对象识别器的软件可以识别哪些图像特征导致哪些分类。但是,将这种方法应用于自然语言处理并不简单。

  “在语义上扰乱一个句子甚至意味着什么?”麻省理工学院电子工程和计算机科学的Thomas Siebel教授,以及新论文的两位作者之一Tommi Jaakkola问道。“我不能只做一个简单的随机化。而你所预测的现在是一个更复杂的对象,就像一个句子,那么解释是什么意思呢?“

  具有讽刺意味的是,为了生成测试句子以供给黑盒神经网络,Jaakkola和David Alvarez-Melis是麻省理工学院电气工程和计算机科学研究生,也是新论文的第一作者,他们使用黑盒神经网络。

  他们首先训练网络压缩和解压缩自然句子 - 创建一些中间的,紧凑的句子数字表示,然后尝试将其重新扩展为其原始形式。在训练期间,根据解码器输出与编码器输入的匹配程度,同时评估编码器和解码器。

  神经网络本质上是概率性的:例如,一个物体识别系统喂养一只小型犬的图像,可能会得出这样的结论:该图像具有代表狗的概率为70%,而代表猫的概率为25%。同样,Jaakkola和Alvarez-Melis的句子压缩网络为解码语中的每个单词提供了替代方案,以及每个替代方案正确的概率。

  因为网络自然地使用单词的共现来增加其解码精度,所以其输出概率定义了语义相关句子的集群。例如,如果编码的句子是“她惊讶地喘息着”,那么系统可能将“她惊慌失措”或“她惊恐万分”的替代品分配为相当高的概率,但它会为“游泳”分配更低的概率。惊讶地说“或”她喝着咖啡。“

  那么,对于任何一个句子,系统都可以生成一个密切相关的句子列表,Jaakkola和Alvarez-Melis将这些句子提供给黑盒自然语言处理器。结果是一长串输入 - 输出对,研究人员的算法可以分析这些对,以确定哪些输入导致哪些输出变化的变化。

  研究人员将他们的技术应用于三种不同类型的自然语言处理系统。一个是推断词语发音的系统; 另一个是一组翻译,两个自动翻译,一个人翻译; 第三个是一个简单的计算机对话系统,试图对任意言论或问题提供合理的答复。

  正如所料,对翻译系统的分析表明输入和输出序列中各个单词之间存在很强的依赖关系。然而,该分析的一个更有趣的结果是识别机器翻译系统所训练的文本中的性别偏见。

  例如,非英语单词“dancer”有两个用法语翻译的性别翻译,“danseur”和“danseuse”。该系统使用女性形式翻译了句子“The dancer is charming”:“la danseuse est charmante。”但研究人员“分析表明,”danseuse“这个词的选择受到”迷人“这个词的影响,就像”舞者“这个词一样。一个不同的形容词可能导致了”舞者“的不同翻译。

  这部对话系统是在好莱坞电影的成对线路上进行训练的,故意制服不足。尽管训练集很大,但网络本身太小而无法利用它。

  “我们做的另一项实验是在有缺陷的系统中,”Alvarez-Melis解释道。“如果你的黑匣子模型做得不好,你能先用这种方法来识别问题吗?这种可解释性的激励应用是通过理解他们出错的原因和原因来修复系统,改进系统。

  在这种情况下,研究人员的分析表明,对话系统经常只输入一个输入短语中的几个单词,它用来选择一个股票反应 - 回答“我不知道”任何开头的句子例如,使用诸如“who”或“what”之类的查询词。

  免责声明:本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。

  Java 10和Java的新6个月发布Cadence对开发人员意味着什么

  对于Verge读者来说翻新的Google Pixel 3s和Pixel 3 XL比以往任何时候都便宜

分享到:
相关阅读
文章评论 · 所有评论
评论请遵守当地法律法规
点击加载更多
© 2016-2018 12小时新闻网 http://www.12hnews.com/ 中国互联网举报中心
违法和不良信息举报:lobtom@163.com