Tag: sparse | Rogerspy's Home

Rogerspy's Home

Transformer家族之Sparse Transformer

Rogerspy

2020-03-30

NLP

字数统计: 4k字 | 阅读时长≈ 14分

目前来看，自注意力机制有一统NLP的趋势，其凭借能够捕捉序列中任意两个元素的关联信息，且易于并行等优势，在与传统的NLP武林盟主RNN的较量中，几乎是全方位碾压。但是它也并不是没有弱点，之前我们介绍过在机器翻译过程中，它的推理过程是auto-regression的，严重制约了它的推理效率。因此，很多研究人员对它做了一定程度上的改善。今天我们继续来对它进行其他方面的优化，也就是变形金刚家族的另一成员 —— Sparse Transformer。

阅读全文