登陆

极彩平台登录-关于数据增强在机器翻译中的使用现状和远景,刘群、黄辉等专场讨论

admin 2019-10-04 160人围观 ,发现0个评论

作者 | 丛末

修改 | Camel

近年来,跟着深度学习的呈现和核算才干的进步,机器翻译也取得了较大的发展,在数据量比较满足的状况下,都能够完成十分不错的作用,可是在一些资源稀缺、范畴或者说小语种的翻译使命上,有时神经网络机器翻译的体现乃至还不如依据计极彩平台登录-关于数据增强在机器翻译中的使用现状和远景,刘群、黄辉等专场讨论算的机器翻译。对此,研讨人员提出了一些数据增强的技能,例如 Back Translation、毛主席纪念堂开放时间将一些词替换成一些相似的词等,以此来添加机器翻译的数据,然后进步机器翻译的质量。

在 9 月 27 日至 29 日举行的全国机器翻译大会(CCMT)上,一场主题为「机器翻译数据增强技能评论」的圆桌会为咱们带来了数据增强技能在机器翻译中的运用现状以及未来的运用远景的评论和展望。

从左到右:刘树杰博士、陈毅东副教授、陈博兴博士、刘群教授、黄辉副教授、王明轩博士

本场圆桌会由微软亚洲研讨院高档研讨员刘树杰博士掌管,华为诺亚方舟试验室语音语义首席科学家刘群教授、阿里巴巴达摩院资深算法专家陈博兴博士、澳门大学科技学院电脑及资讯科学系黄辉副教授、厦门大学信息学院陈毅东副教授,以及字节跳动翻译技能负责人王明轩博士五位机器翻译范畴的专家坐镇。

咱们下面来看本场圆桌会中,各位专家都评论了哪些论题~

1、现在机器翻译中最常用的数据增强方法:Back Translation

刘树杰:咱们在机器翻译范畴的研讨和作业中运用到的数据增强技能首要有哪些?

陈毅东:我自己在数据增强方面并没有很深化的研讨,可是我在与学生做评测过程中的确也用到了一些数据增强技能,首要有两个:一个是比较常用的 Back Translation;另一个是咱们上一年参与 CCMT 多言语评测时,经过参与多言语的标签来运用其它多言语对练习模型做数据增强,这种方法相似于 Back Translation 的变体。

陈博兴:阿里首要倾向运用,现在在机器翻译场景下用得最多而且最有用的,仍是 Back Translation。其次,咱们在做 Quality Estimation 的时分,也会选用对齐技能生成相似于给词打「Bad」和「OK」标签的伪数据的方法。别的咱们在 Disfluency Detection,即白话输出的不流利检测中也会加一些伪数据,人为依据规矩参与的一些不流利数据自身也就自带了标签。所以,咱们在不同的场景下,一般都会用到相似的生成伪数据的方法。

刘群:我以为数据增强是一项重要的技能,由于其实不光是机器翻译,天然言语处理的许多研讨方向,特别是在工业界,数据稀缺都是一个很大的问题。到华为今后,我发现了一个研讨课题,叫做文本复述(paraphrasing),这个课题我之前也了解过,可是不怎么感兴趣,而到工业界后,我发现 paraphrasing 太有用了,而且运用价值比我幻想得要大得多,由于工业界的大部分运用场景都没有标示数据。

现在咱们都说到 Back Translation 在机器翻译中特别有用,咱们在相关作业中运用这项数据增强技能时,也发现它十分有用。而且,Back Translation 这个课题自身仍是很值得研讨的,比方我本年参与 WMT 评测的时分,就发现咱们都在对这个方法自身做一些改善,而其实 Facebook 上一年就针对 Back Translation 做了一些改善作业,本年则有更多单位都在往这个方向做相关作业,我以为都是比较有价值的。

我今天之所以在这儿提这一点,一是由于 Back Translation 的确很有用,二是由于它自身的运用是有一些小技巧的,咱们能够愈加深化地研讨。

别的值得一提的是,咱们现在一个比较有意思的作业是选用字典的方法做数据增强。其完成在许多场景或许没有双语数据,但都有字典。极彩平台登录-关于数据增强在机器翻译中的使用现状和远景,刘群、黄辉等专场讨论以咱们本年参与 WMT 的 Biomedical 机器翻译使命为例,中-英根本没有双语数据,但有字典,在这种场景下,怎么运用字典来生成范畴内的双语数据呢?这是我以为比较有意思的一个研讨课题,现在咱们也在这个方向上做了一些作业。

黄辉:我也同享一下咱们是在机器翻译的数据增强方面的一些经历。除了简略的进行数据增强,咱们也从不同的层次在做一些测验,首要分为三个层次:

  • 第一个是语句的层次,Back Translation 便是一个很好的比方。
  • 第二个是词的层次,比方说选用加噪音、扔词、换词等方法。我以为这个层次上,数据增强首要处理两个问题,一个是鲁棒性的问题,即让体系取得更多不同款式的语句来学习,二是过拟合的问题。
  • 第三个是词向量的层次,咱们之前做了一个作业,叫做 Shared Private Embedding,比方说在 Low-resource 机器翻译的状况下,咱们依据源端和方针端的词对齐信息,将两头的词汇进行不同程度词向量的同享。

一起,咱们发现在做无监督机器翻译时,在学习词向量的映射联系上,Back Translation 有助于学习好词向量对齐信息,作用十分好。所以说,Back Translation 除了在数据增强方面很有用,在无监督机器翻译方面也作用很大。

王明轩:黄教师其实是从粒度的层次来分。我觉得在预练习上,假设从运用视点来看,能够分为两个方向:

第一种是方针端有语料,源端没有语料。比较常用的 Back Translation 便是这种状况的一个典型方法。第二种状况是源端有语料,方针端没有语料。

Back Translation 的有用性是充沛验证的,可是这块的理论剖析现在仍是没有构成共同的知道,其间一个原因是现在大部分研讨是在一些限制的数据集上运用这一方法。而从工业界来看,我以为很有意思的一个不同点在于,学术界中的练习数据是固定的,而且和一般状况下无监督单语数据、双语数据和测验集的散布也是共同的。这种状况下,数据增强的上限相对比较低,许多定论都以为单语数据有用可是不应该添加太多,比方超越一倍,其实是由于无监督数据多样性不行,而且对练习集的弥补不行;可是在工业界,咱们比较喜爱更大规划的单语数据,确保数据的多样性,简直能够以为单语数据能一向添加即使是双语数据的 10 倍,也是有用的。比方说 GPT 汇聚了整个互联网的数据,它或许不再需求考虑范畴的问题了,由于它简直在一切范畴上的体现的都十分好。

而 Back Translation 其实也是这种思路,即一向去采样多样化的数据。而且我个人以为,只需方针的数据是实在的,采样的数据是没有上限的。

第二种刚好是一个对偶问题,也便是怎么去运用源端的数据,这一点其他各位教师提的比较少。咱们现在极彩平台登录-关于数据增强在机器翻译中的使用现状和远景,刘群、黄辉等专场讨论一向在运用微软的一项作业,叫做 R2L Regularization,遍及的认知是源端的数据有必要是真的,而在微软的这项作业中,即使源端数据是伪数据,相同有用。这项作业供给的一个视角是从表明上来进行数据增强,我以为也能够从模型集成的视点动身,即一个体系从另一个体系采样的成果来学习知识。

别的,黄教师刚刚说到的预练习模型也是一个视点。比方说有许多的 Multilingual,能够去比较天然地将比方说 BERT 结合到机器翻译中,现在咱们在这方面也在做一些作业,我以为这个方向未来也比较有远景。

刘树杰:咱们刚刚都总结得很好,咱们都说到了 Back Translation,而且感觉是十分有用的,可是它本质上就像王教师所说的,真的方针数据生成假的源数据,这种方法为什么比真的源数据生成假的方针数据更有用一些?咱们以为这是什么原因?

王明轩:源言语数据对源言语表明增强必定是有用的,可是假设用它来生成假的方针数据进行学习的话,或许无法彻底取得源信息,运用是不行充沛的。我以为对源言语数据的运用最有用的或许是 pretrain。方针言语的运用或许极彩平台登录-关于数据增强在机器翻译中的使用现状和远景,刘群、黄辉等专场讨论更天然一些,经过 Back Translation 生成的数据方针端始终是实在的。

刘群:我觉得这一点其实很好了解,比方咱们做 SMT 时,咱们做言语模型必定是在方针端做,而不会在源端做。假设源端翻译成假的方针数据,是会搅扰到方针端的言语模型的。反过来,方针端翻译成假的源数据,实际上咱们是比较少遇到这种数据的,因而不会对翻译发生欠好的影响。而且方针端必定要是真,才干够确保生成比较好的数据。

陈博兴:关于这一点,其实咱们之前做过一个小的试验,是在数据比较小可是实在的状况下,真的方针数据翻成假源数据比真的源数据翻成假的方针数据更有用,刚刚刘群教师也讲的很清楚了,我不再重复。

试验中,假设咱们有十分多实在的数据,比方说有一亿个数据,用咱们的体系对这一亿个原文进行翻译,然后用生成的方针伪数据再翻译一遍,咱们发现伪数据翻译出来的成果比前一个亿的实在数据翻译出来的成果更好。其间的关键在于,你用来体系生成的方针伪数据是否靠谱,数据量大的话,能够做规整化;数据量小的话,生成的方针伪数据或许就不靠谱了。

刘树杰:Back Translation 有几种生成伪数据的方法,比方说依据 Beam Search 的,依据 Greedy Search 的,或依据 Sampling 的,不同的战略或许会带来不同的作用,而且不同的方法生成伪数据的速度也会不同。不知道咱们都是运用哪种战略?

陈博兴:其实由于咱们的算力不成问题,所以咱们一般运用的方法是 Beam Search。

2、数据增强在资源丰富的翻译使命上是否有用?

刘树杰:咱们刚刚谈到的都是在一些资源稀缺的使命进步行数据增强,不知道在例如中-英、英-法此类资源丰富的翻译使命上,数据增强技能是否也有一些作用?

刘群:我以为仍是很有用的,由于数据永久都不会太多,不会彻底满足。比方说在中-英使命上,本来就现已有上千万的数据,咱们运用数据增强来添加数据仍是十分有用的。

陈博兴:假设是范畴数据,比方说医学范畴的数据很少,那咱们做数据增强是很有协助的,可是假设是一个具有 4 到 5 亿的练习数据的通用范畴,再添加许多的伪数据,其实根本上不能带来收益。所以我以为关键是要看某个实在场景中所需求的数据是否满足,假设满足的话,添加更多的伪数据或许就不必定有用了;假设还不行的话,那便是有用的。

刘群:我不太赞同陈教师的观念。比方说尽管你本来的数据满足大,根本能掩盖测验数据,可是还或许还存在测验数据没有掩盖到的状况,这样的状况下,添加的伪数据或许就刚好掩盖到了本来数据没有掩盖到的状况,这相同是有用的。正如刚刚明轩说到的,咱们对数据的要求是无穷无尽的,数据是永久不会满足的。

陈博兴:一种状况是本来的数据彻底能掩盖评测数据,另一种状况便是刚刚刘群教师说到的状况,但在这种状况下,添加伪数据也会带来噪声。别的咱们刚说到的观念——「只需方针端数据是真的,哪怕源端的数据是假的,联系不大」,我以为也并不是彻底必定的,由于只需带来了噪声,其实多少仍是会有危害的。所以咱们都要尽量模仿输入数据本来的姿态,生成与本来数据相似的数据,这样才是有协助的。

王明轩:对,但有时分源端数据其实并不那么好,加一些噪音或许反而会进步作用。现在在咱们的作业经历中,Sampling 的数据增强作用要比 Beam Search 要好,当然咱们的经历或许有些不太相同。

3、预练习模型怎么与现有数据增强技能结合得更好?

刘树杰:刚刚王明轩教师和黄辉教师都说到,其实预练习模型也是数据增强的一种方法,那它与现有的数据增强技能是否有比较好的结合方法呢?我知道今天头条最近也做过一个相关的作业......

王明轩:我觉得这项作业其实结合得并不是很好。我以为最好的方法应该是一同对一切的数据进行练习,而不是直接用预练习模型去做下流的使命。

刘群:咱们测验过用预练习模型去改善机器翻译。实际上假设双语的数据现已很大了的话,预练习模型的作用不是很大。咱们现在做的开始试验成果是这样的。刚刚明轩说到的联合练习,清华大学有一个叫程勇的博士生之前在一篇 ACL 2016 的论文中做过相似的作业,思路跟 Back Translation 差不多。

陈博兴:现在 BERT 在机器翻译使命中的确还没有太大的进步,可是我信任会进步,由于单言语的语料是无穷无尽的,BERT 等方法是能够学到许多知识乃至一些知识的。有许多知识是咱们现在没有方法描绘出来的,但关于机器翻译而言,必定有较大的协助,不过至于怎样运用这些知识协助极彩平台登录-关于数据增强在机器翻译中的使用现状和远景,刘群、黄辉等专场讨论机器翻译,咱们现在还没走到这一步。

刚刚在台下,我也在跟其他专家说到,咱们要做一些有意思的机器翻译测验,比方说咱们能够考虑构建一个测验集,它的一个要求便是机器有必要具有人的知识才干翻译正确,这样才干从知识的视点来进步机器翻译的作用。而现在的测验中,机器翻译即使没有知识也能够将英文翻译得不错,在这种状况下是很难推进机器翻译得到真实进步的。

刘群:但其实知识这个东西是很难界说的,相较于之前的 SMT 而言,现在机器现已学到了不少知识,但仍是会犯知识性的过错。所以究竟要学习到多少知识才够呢?咱们现在也欠好界定。

我自己也考虑过知识问题,比方说,咱们从前用机器生成一个语句,成果生成的语句很古怪——「一架飞机在离它机舱 50 米的当地爆破了」,可是咱们又说不出这个语句犯的知识过错在哪儿。因而这种躲藏得比较深的知识,机器很难学到,而咱们现在也没有很好的方法将这种知识过错给总结出来。

刘树杰:那您以为现在是否到了去处理这种知识性问题的机遇呢?

刘群:我以为现在是能够考虑的,而且咱们现在到了应该直面这个问题的时分了。

4、数据增强技能在其他 NLP 使命中的运用潜力怎么?

刘树杰:现在数据增强技能在机器翻译顶用得比较多了,那在其他 NLP 使命上有哪些运用潜力呢?

黄辉:数据增强最早来自于图画处理范畴,相对而言,机器翻译中的数据增强运用还处于刚刚起步的阶段。而在天然言语范畴,BERT 是一个运用数据增强技能的很好比方。

陈博兴:刚刚咱们说到在不流利检测中也用到了数据增强技能,其实一切有监督的使命,在数据量不行的状况下,咱们都能够用这种方法。而且深度学习方法呈现今后,数据增强生成的这些伪数据都能够做预练习。所以,这种生成伪数据的方法能够扩展到简直一切其他的场景中去。

王明轩:咱们之前也做过一些试验,即在 ASR 和 TTS 中做 Back Translation,可是发现数据增强在这些使命上并不是很有用,所以数据增强的作用或许跟使命的特性存在必定的联系。

刘群:其实 NLP 范畴顶用数据增强技能的场景十分多,尤其是工业场景中。我这儿举两个比方:一个比方是给数据打标签,许多时分标签满足大,可是真实打了标签的数据很少,这样的话选用数据增强能够添加许多数据;另一个比方是对话,由于对话也是一个数据稀缺的场景,假设能够用数据增强来添加数据,是十分有协助的。

黄辉:说到在 ASR 中做数据增强,其实我之前也考虑过这个问题,比方说现在咱们的语音组成体系能够生成许多的伪数据来进行练习,可是成果发现并不可行,由于体系生成的语音十分单调,是不具有人类语音的生物特征的。

5、怎么在数据增强这个课题上找到发论文的好主意?

刘树杰:我最终替现场台下的同学识一个问题,假设想在数据增强这个课题上做深化研讨,大约能够从哪些视点动身?也便是说,假设想发一些这个主题的论文,有哪些好的主意吗?

王明轩:其实我以为现在还有许多能够研讨的点,第一点,比方说深度学习今后,能够测验结合其他模态进行研讨,例如能够将数据增强技能运用到语音到语音的翻译使命中,实际上现在语音翻译的数据十分少,数据增强会有很大的发挥空间;第二点,咱们现在比较重视文档翻译,现在例如 GPT 其实现已能够做整篇文档的翻译,我以为能够测验去进行难度更高的翻译使命,数据增强技能也能够得到很好的发挥。

黄辉:我觉得要发好论文,首先要多看论文,要看看现在他人在做什么。例如说能够从我刚刚说到的三个层次,来看 Back Translation 究竟做得好欠好,我以为仍是有许多值得研讨的点。别的,我以为咱们现在在许多研讨上都仍是比较开始的,例如在评测中,咱们还只是停留在觉得哪个方法好用就用哪个方法的阶段,而并没有很深化地剖析这些方法自身。

陈博兴:现在这个范畴的研讨人员无论是国内仍是国外,都实在太多了,往往咱们能够简略地想到的点,实际上现已有人做过了。所以咱们要想一些更难、更深的问题。比方说我现在想到的一个比较难的问题,便是说天然言语数据其实是天然散布不均匀的,不论添加多少数据,总会存在有的类型的数据多、有的极彩平台登录-关于数据增强在机器翻译中的使用现状和远景,刘群、黄辉等专场讨论类型的数据少的状况,而咱们练习数据的方法是最大似然,它总会生成数量最多的那类数据,那咱们是否有方法来处理这个数据不平衡的问题呢?我以为能够测验用数据增强的方法来试一试。

陈毅东:我以为前期言语学家比方说在字典中总结的一些规律性的东西,是能够用来辅导数据增强的相关作业的。

  • 极彩平台登录-中国邮政刘爱力:加速推动中邮稳妥等子公司引战混改
  • 请关注微信公众号
    微信二维码
    不容错过
    Powered By Z-BlogPHP