Rogerspy's Home

Rogerspy's Home

关于Transformer的分析

Rogerspy

2019-09-01

NLP

字数统计: 10.9k字 | 阅读时长≈ 44分

Transformer 的模型框架我们已经介绍完了，接下来这篇文章我们讨论一下更多关于 Transformer 的模型细节。比如多头注意力的头越多越好吗？自注意力为什么要进行归一化？训练的时候 Warm-up 有什么用？

Attention Transformer

NLP中的注意力机制简介（二）

Rogerspy

2019-08-27

NLP

字数统计: 5.6k字 | 阅读时长≈ 23分

——Transformer专题篇

1. 前言

之前我们介绍了各种各样的注意力机制，如果仔细回想一下就可以发现无论是哪种注意力机制都不是单独出现的，都是伴随着RNN或者其他RNN的变种。这种基于RNN的注意力机制会面临一个问题就是，难以处理长序列的句子，因为无法实现并行计算，所以非常消耗计算资源。

Attention Transformer

3 / 3