Transformer家族之Latent Transformer

  |  

之前提到Auto-regression的decoding方法使得transformer在推理上的表现很慢,所以很多研究者在这方面做了很多研究,本文就介绍一个使用Non-Auto Regression的方法——Discrete Latent Variable。该方法与Auto-regression方法相比,效果上要稍差 一些,但是取得了比其他Non-auto regression方法都好的结果,而效率上也有很大的提升。

Transformer虽然在训练上比RNNCNN快,但是在做推理(decoding)的时候由于采用的是Auto-regression不能做到并行计算,所以速度很慢(甚至可能比纯RNN还要慢),所以针对这种情况很多研究者提出了decoding时也能采用并行计算的改进方案,下面要介绍的这个transformer大家族的以为成员就是其中之一:Average Attention Network

NLP中的注意力机制简介(二)

  |  

——Transformer专题篇

1. 前言

之前我们介绍了各种各样的注意力机制,如果仔细回想一下就可以发现无论是哪种注意力机制都不是单独出现的,都是伴随着RNN或者其他RNN的变种。这种基于RNN的注意力机制会面临一个问题就是,难以处理长序列的句子,因为无法实现并行计算,所以非常消耗计算资源。