预训练语言模型:CVT Rogerspy 2021-09-30 语言模型 字数统计: 1.9k字 | 阅读时长≈ 8分 之前介绍的预训练模型都是将预训练过程和下游特定任务分成两阶段进行训练, Cross-View Training 将着来年各个阶段合并成一个统一的半监督学习过程:bi-LSTM 编码器通过有标注数据的监督学习和无标注数据的无监督学习同时训练。 阅读全文 Language Model CVT