0


5分钟NLP:从 Bag of Words 到 Transformer 的时间年表总结

本文不是 NLP 研究的完整列表,因为太多了无法总结的这么完整!但是本文对影响NLP研究的一些重要的模型进行总结,并尽量让它简约而不是简单,如果你刚刚进入NLP领域,本文可以作为深入研究该领域的起点。

Bag of Words (BOW) [1954]:计算文档中每个单词的出现次数并将其用作特征。

TF-IDF [1972]:修改 BOW 分数,使稀有词得分高,普通词得分低。

Word2Vec [2013]:每个单词都映射到一个称为单词嵌入的高维向量,该向量捕获其语义。词嵌入是通过神经网络在大型语料库上寻找词相关性来学习的。

RNN [1986]:RNNs 利用句子中的单词上下文计算文档嵌入。后来演变为 LSTM [1997] 以捕获长期依赖关系,并演变为 Bidirectional RNN [1997] 以捕获从左到右和从右到左的依赖关系。最后Encoder-Decoder RNNs [2014] 出现了,其中一个 RNN 创建文档嵌入(即编码器),另一个 RNN 将其解码为文本(即解码器)。

Transformer [2017]:一种编码器-解码器模型,它利用注意力机制来计算更好的嵌入并更好地将输出与输入对齐。

BERT [2018]:双向 Transformer 使用掩蔽语言建模和下一句预测目标的组合进行预训练。它使用全球关注。

GPT [2018]:第一个基于 Transformer 架构的自回归模型。后来演变成 GPT-2 [2019],这是在 WebText 上预训练的更大和优化的 GPT 版本,以及 GPT-3 [2020],在 Common Crawl 上预训练的更大和优化的 GPT-2 版本。

CTRL [2019]:类似于 GPT,但带有用于条件文本生成的控制代码。

Transformer-XL [2019]:它是一个自回归 Transformer,可以重用先前计算的隐藏状态来处理更长的上下文。

ALBERT [2019]:BERT 的轻量级版本,其中(1)下一句预测被句子顺序预测取代,(2)参数减少技术用于降低内存消耗和更快的训练。

RoBERTa [2019]:BERT 的更好版本,其中 (1) Masked Language Modeling 目标是动态的,(2) Next Sentence Prediction 目标被删除,(3) 使用 BPE 标记器 (4) 使用更好的超参数.

XLM [2019]:使用因果语言建模、掩码遮蔽语言建模和翻译语言建模等目标在多种语言的语料库上进行预训练的 Transformer。

XLNet [2019]:Transformer-XL 具有广义的自回归预训练方法,可以学习双向依赖。

PEGASUS [2019]:一个双向编码器和一个从左到右的解码器,预训练了掩码掩蔽语言建模和间隔句生成目标。

DistilBERT [2019]:与 BERT 相同,但更小更快,同时保留了 BERT 95% 以上的性能。通过蒸馏预训练的 BERT 模型进行训练。

XLM-RoBERTa [2019]:RoBERTa 使用 Masked Language Modeling 目标在多语言语料库上进行训练。

BART [2019]:双向编码器和从左到右的解码器,通过使用任意噪声函数破坏文本并学习模型来重建原始文本进行训练。

ConvBERT [2019]:BERT 的更好版本,其中自注意力块被替换为利用卷积更好地模拟全局和局部上下文的新块。

Funnel Transformer[2020]:一种Transformer,它逐渐将隐藏状态序列压缩到更短的序列,从而降低计算成本。

Reformer [2020]:由于局部敏感散列注意力、轴向位置编码和其他优化,更高效的 Transformer。

T5 [2020]:双向编码器和从左到右的解码器,在无监督和监督任务的混合上进行了预训练。

Longformer [2020]:一种 Transformer 模型,用稀疏矩阵替换注意力矩阵,以提高训练效率。

ProphetNet [2020]:使用 Future N-gram 预测目标和新颖的自注意机制训练的 Transformer 模型。

ELECTRA [2020]:与 BERT 相同,但更轻、更好。该模型使用 Replaced Token Detection 目标进行训练。

Switch Transformers [2021]:一种稀疏激活的专家 Transformer 模型,旨在简化和改进混合专家。

“5分钟NLP:从 Bag of Words 到 Transformer 的时间年表总结”的评论:

还没有评论