预训练语言模型-神经网络语言模型：FFNNLM

Rogerspy

2021-03-21

语言模型

字数统计: 2.6k字 | 阅读时长≈ 9分

1. 简介

统计语言模型中，无论是 n-gram 还是对数线性语言模型都面临一个非常严重的问题——维度爆炸。为了解决维度爆炸问题，Bengio & Bengio 2000 年提出了一种使用分布式词特征表示的方法，也就是后来所说的词向量。

阅读全文

预训练语言模型-对数线性语言模型

Rogerspy

2021-03-19

语言模型

字数统计: 3.8k字 | 阅读时长≈ 15分

1. 前言

回想语言模型问题，我们的任务是在给定前 $j-1$ 个词的情况下，预测第 $j$ 个词：

$p(W_j=w_j|W_1=w_1, W_2=w_2, ..., W_{j-1}=w_{j-1}) = p(w_j|w_1, w_2, ..., w_{j-1})$

在马尔科夫假设条件下：

$p(w_j|w_1, w_2, ..., w_{j-1}) \approx p(w_j|w_{j-n+1:j-1})$

阅读全文

NLP Log-Linear Language Model

预训练语言模型-统计语言模型平滑技术（补充）

Rogerspy

2021-03-17

语言模型

字数统计: 2.7k字 | 阅读时长≈ 12分

1. N-gram 语言模型

$p(s) = \prod_{i=1}^n p(w_i|w_1...w_{n-1}) \approx \prod_{i=1}^n p(w_i|w_{i-n+1:i-1})$

阅读全文

Smoothing

预训练语言模型-统计语言模型

Rogerspy

2021-03-16

语言模型

字数统计: 7.5k字 | 阅读时长≈ 29分

1. 简介

1.1 词表/语料

词表表示语言中包含的所有的词，比如对于中文来说：

阅读全文

NLP Probabilistic Language Model

预训练语言模型-前言

Rogerspy

2020-10-13

语言模型

字数统计: 16.9k字 | 阅读时长≈ 62分

自从 2017 年 Vaswani 等人提出 Transformer 模型以后 NLP 开启了一个新的时代——预训练语言模型。而 2018 年的 BERT 横空出世则宣告着 NLP 的王者降临。那么，什么是预训练？什么是语言模型？它为什么有效？

阅读全文

NLP Language Model

Rogerspy's Home

预训练语言模型-神经网络语言模型：FFNNLM

1. 简介

预训练语言模型-对数线性语言模型

1. 前言

预训练语言模型-统计语言模型平滑技术（补充）

1. N-gram 语言模型

预训练语言模型-统计语言模型

1. 简介

1.1 词表/语料

预训练语言模型-前言