0


【自然语言处理】从词袋模型到Transformer家族的变迁之路

从词袋模型到Transformer家族的变迁之路

在这里插入图片描述
模型名称年份描述

Bag of Words
1954

即 BOW 模型,计算文档中每个单词出现的次数,并将它们用作特征。

TF-IDF
1972

对 BOW 进行修正,使得稀有词得分高,常见词得分低。

Word2Vec
2013

每个词都映射到一个称为词嵌入的高维向量,捕获其语义。词嵌入是通过在大型语料库中寻找词相关性的神经网络来学习的。

RNN
1986

RNN 利用句子中词的上下文计算文档嵌入,这仅靠词嵌入是不可能的。后来发展为

LSTM

1997

)以捕获长期依赖关系,并演变为

Bidirectional RNN

1997

)以捕获从左到右和从右到左的依赖关系。最终,

Encoder-Decoder RNNs

2014

)出现了,其中一个 RNN 创建文档嵌入(即编码器),另一个 RNN 将其解码为文本(即解码器)。

Transformer
2017

一种 编码器-解码器 模型,它利用注意力机制来计算更好的嵌入并更好地将输出与输入对齐。

BERT
2018

双向 Transformer,使用掩码语言建模(

Masked Language Modeling

)和下一句预测目标(

Next Sentence Prediction objectives

)的组合进行预训练。它使用全局注意力。

GPT
2018

第一个基于 Transformer 架构的自回归模型。后来演变成

GPT-2

2019

),一个在 WebText 上预训练的更大和优化的 GPT 版本,以及

GPT-3

2020

),一个更大和优化的

GPT-2

版本,在

Common Crawl

上预训练。

CTRL
2019

类似于 GPT,但具有用于条件文本生成的控制代码。

Transformer-XL
2019

一个自回归 Transformer,可以重用以前计算的隐藏状态来处理更长的上下文。

ALBERT
2019

BERT 的轻量级版本,其中:(1)下一句预测被句序预测取代;(2)参数减少技术用于降低内存消耗和加快训练速度。

RoBERTa
2019

BERT 的更好版本,其中:(1)Masked Language Modeling 目标是动态的;(2)Next Sentence Prediction 目标被删除;(3)使用

BPE tokenizer

;(4)使用更好的超参数.

XLM
2019

Transformer 使用因果语言建模、掩码语言建模和翻译语言建模等目标在多种语言的语料库上进行了预训练。

XLNet
2019

Transformer-XL 具有广义自回归预训练方法,可以学习双向依赖性。

PEGASUS
2019

一个双向编码器和一个从左到右的解码器,使用掩码语言建模和间隙句子生成目标进行了预训练。

DistilBERT
2019

与 BERT 相同,但更小更快,同时保留 BERT 95% 以上的性能。通过预训练的 BERT 模型的蒸馏进行训练。

XLM-RoBERTa
2019
RoBERTa

在具有掩蔽语言建模目标的多语言语料库上进行训练。

BART
2019

一个双向编码器和一个从左到右的解码器,通过使用任意噪声函数破坏文本并学习模型来重建原始文本来训练。

ConvBERT
2019

BERT 的更好版本,其中自注意力模块被新模块取代,利用卷积更好地模拟全局和局部上下文。

Funnel Transformer
2020

一种 Transformer,它逐渐将隐藏状态的序列压缩到更短的状态,从而降低计算成本。

Reformer
2020

由于对局部敏感的哈希注意力、轴向位置编码和其他优化,一个更高效的 Transformer。

T5
2020

一个双向编码器和一个从左到右的解码器,在无监督和监督任务的混合上进行了预训练。

Longformer
2020

一种将注意力矩阵替换为稀疏矩阵以提高训练效率的 Transformer 模型。

ProphetNet
2020

一种使用未来 N-gram 预测目标和新颖的自注意力机制训练的 Transformer 模型。

ELECTRA
2020

与 BERT 相同,但更轻更好。该模型使用 Replaced Token Detection 目标进行训练。

Switch Transformers
2021

一种稀疏激活的专家 Transformer 模型,旨在简化和改进专家混合模型。


本文转载自: https://blog.csdn.net/be_racle/article/details/129390759
版权归原作者 皮皮要HAPPY 所有, 如有侵权,请联系我们删除。

“【自然语言处理】从词袋模型到Transformer家族的变迁之路”的评论:

还没有评论