关于Transformer的分析 Rogerspy 2019-09-01 NLP 字数统计: 10.9k字 | 阅读时长≈ 44分 Transformer 的模型框架我们已经介绍完了,接下来这篇文章我们讨论一下更多关于 Transformer 的模型细节。比如多头注意力的头越多越好吗?自注意力为什么要进行归一化?训练的时候 Warm-up 有什么用? 阅读全文 Attention Transformer
NLP中的注意力机制简介(二) Rogerspy 2019-08-27 NLP 字数统计: 5.6k字 | 阅读时长≈ 23分 ——Transformer专题篇 1. 前言之前我们介绍了各种各样的注意力机制,如果仔细回想一下就可以发现无论是哪种注意力机制都不是单独出现的,都是伴随着RNN或者其他RNN的变种。这种基于RNN的注意力机制会面临一个问题就是,难以处理长序列的句子,因为无法实现并行计算,所以非常消耗计算资源。 阅读全文 Attention Transformer