0


【NLP相关】NLP领域经典论文汇总(附代码实现)


❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️
👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈


NLP领域经典论文汇总

随着chat-gpt的爆火,越来越多的小伙伴们对NLP这个领域开始感兴趣。NLP设计多个领域,文本分类、文本摘要、机器翻译、信息抽取等等,本文对NLP领域的相关文献进行了梳理,筛选出一些必读文献和其他领域的基础文献,方便入门的小伙伴们学习。

1. 一些必读论文

1.1 Efficient Estimation of Word Representations in Vector Space

论文地址:https://arxiv.org/abs/1301.3781
论文大致介绍:论文发表于2013年,大名鼎鼎的W2V,提出了Skip-gram和CBOW两种W2V架构,作者是来自Google的Tomas Mikolov,也是Word2Vec和RNNLM开源软件的作者。
Skip-gram和CBOW两种W2V架构

相关代码:https://www.tensorflow.org/tutorials/word2vec
(更多代码实现待更新,欢迎关注后续更新)

1.2 Distributed Representations of Sentences and Documents

论文地址:https://arxiv.org/abs/1405.4053
论文大致介绍:W2V的延伸,可以是是sentence to vector,Mikolov在W2V基础上进一步优化得到的。
sentence to vector

相关代码:(更多代码实现待更新,欢迎关注后续更新)

1.3 Skip-Thought Vectors

论文地址:https://papers.nips.cc/paper/5950-skip-thought-vectors.pdf
论文大致介绍:文章发表于2015年的NIPS,作者来自于多伦多大学。这篇论文提出了一种训练句表示的方法,在Bert出现之前,这篇论文的方法是获得高质量句向量的常用方法。在这篇论文发表之前,获得句向量的方式主要有两种,一种是基于词袋模型的句表示,比如通过TF-IDF得到词的权重,然后对句子中的词对应的词向量加权求和得到句向量;另一种是基于神经网络的句表示,常见的有基于语言模型学习得到句向量,或者是基于复述句匹配的句表示。
Skip-Thought Vectors
相关代码:https://github.com/sanyam5/skip-thoughts
(更多代码实现待更新,欢迎关注后续更新)

1.4 Neural Machine Translation by Jointly Learning to Align and Translate

论文地址:https://arxiv.org/abs/1409.0473
论文大致介绍:提出了attention机制,为今后研究对话生成,问答系统,自动文摘等任务打下了坚实的基础。
attention机制

相关代码:(更多代码实现待更新,欢迎关注后续更新)

1.5 Attention Is All You Need

论文地址:https://arxiv.org/abs/1706.03762
论文大致介绍:也就是爆火的transformer,关于这块的细节可以参考我的博客——深度理解attention

transformer

相关代码:https://github.com/tensorflow/tensor2tensor
(更多代码实现待更新,欢迎关注后续更新)

1.6 Global Vectors for Word Representation

论文地址:https://nlp.stanford.edu/pubs/glove.pdf
论文大致介绍:Glove词向量,一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy)等。我们通过对向量的运算,比如欧几里得距离或者cosine相似度,可以计算出两个单词之间的语义相似性。
相关代码:https://github.com/stanfordnlp/GloVe
(更多代码实现待更新,欢迎关注后续更新)

1.7 BERT Pre-training of Deep Bidirectional Transforers for Language Understanding

论文地址:https://arxiv.org/abs/1810.04805
论文大致介绍:Google开源的完全基于自注意力机制打造的bert。
BERT

相关代码:https://github.com/google-research/bert

2. 文本分类

2.1 Convolutional Neural Networks for Sentence Classification

论文地址:https://arxiv.org/abs/1408.5882
论文大致介绍:也就是TextCNN,本文讨论一些CNN模型通过预训练词向量在句子分类任务上的表现,证明了简单的CNN模型进行较少的超参数调节和静态的词向量在多个基准上能获得较好的表现,在特定任务对词向量进行微调可以提升性能,另外对结构进行简单修改便于使用静态向量和基于任务调整两种方法,本文讨论的方法在7个任务上4个有所优化,其中包括情感分析和问题分类。
Textcnn

相关代码:https://cloud.tencent.com/developer/article/1687253
(更多代码实现待更新,欢迎关注后续更新)

2.2 Character-level Convolutional Networks for Text Classification

论文地址:https://arxiv.org/abs/1509.01626
论文大致介绍:一方面目前文本分类技术主要考虑词或词的组合;另一方面,研究表明,卷积神经网络在从原始信号中抽取信息的方面,非常有用。在这篇论文中,作者将字符级的文本当做原始信号,并且使用一维的卷积神经网络来处理它。研究表明,单词嵌入表示可以直接用于卷积神经网络,而无需考虑语言的语法或语义结构。
Character-level Convolutional Networks for Text Classification

相关代码:(更多代码实现待更新,欢迎关注后续更新)

2.3 A Convolutional Neural Network for Modelling Sentences

论文地址:https://arxiv.org/abs/1404.2188
论文大致介绍:DCNN,针对目前存在的模型,作者提出了DCNN–Dynamic Convolutional Neural Network,利用宽卷积和k-max pooling采样,构造了一种了类似parse tree的结构,能够提取长距离的信息。
DCNN

相关代码:(更多代码实现待更新,欢迎关注后续更新)

2.4 Bag of Tricks for Efficient Text Classification

论文地址:https://arxiv.org/abs/1607.01759
论文大致介绍:fasttext,将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类。这中间涉及到两个技巧:字符级n-gram特征的引入以及分层softmax分类。
相关代码:(更多代码实现待更新,欢迎关注后续更新)

2.5 Hierarchical Attention Networks for Document Classification

论文地址:https://www.researchgate.net/publication/305334401_Hierarchical_Attention_Networks_for_Document_Classification#fullTextFileContent
论文大致介绍:HAN, 提出了一种针对文档分类任务的层次注意力网络,既包含了一种层次结构,又在词级别和句子级别使用两种注意力机制来选择重要的信息。
相关代码:(更多代码实现待更新,欢迎关注后续更新)

3. 信息抽取

3.1 Neural Relation Extraction with Selective Attention over Instances

论文地址:https://www.researchgate.net/publication/306093646_Neural_Relation_Extraction_with_Selective_Attention_over_Instances
论文大致介绍:
相关代码:(更多代码实现待更新,欢迎关注后续更新)

3.2 End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF

论文地址:https://arxiv.org/abs/1603.01354
论文大致介绍:
相关代码:(更多代码实现待更新,欢迎关注后续更新)

4. seq2seq

4.1 Sequence to Sequence Learning with Neural Networks

论文地址:https://arxiv.org/abs/1409.3215
论文大致介绍:
相关代码:(更多代码实现待更新,欢迎关注后续更新)

4.2 Convolutional Sequence to Sequence Learning

论文地址:https://arxiv.org/abs/1705.03122
论文大致介绍:
相关代码:(更多代码实现待更新,欢迎关注后续更新)

5. Machine Translation

5.1 Google’s Neural Machine Translation System Bridging the Gap between Human and Machine Translation

论文地址:https://arxiv.org/abs/1609.08144
论文大致介绍:
相关代码:(更多代码实现待更新,欢迎关注后续更新)

6.Summarization

6.1 Get To The Point Summarization with Pointer-Generator Networks

论文地址:https://arxiv.org/abs/1704.04368
论文大致介绍:
相关代码:(更多代码实现待更新,欢迎关注后续更新)

6.2 End-To-End Memory Networks

论文地址:https://arxiv.org/abs/1503.08895
论文大致介绍:
相关代码:(更多代码实现待更新,欢迎关注后续更新)

7. Reading Comprehension

7.1 QANet Combining Local Convolution with Global Self-Attention for Reading Comprehension

论文地址:https://arxiv.org/abs/1804.09541
论文大致介绍:
相关代码:(更多代码实现待更新,欢迎关注后续更新)

7.2 Bidirectional Attention Flow for Machine Comprehension

论文地址:https://arxiv.org/abs/1611.01603
论文大致介绍:
相关代码:(更多代码实现待更新,欢迎关注后续更新)

8. Dialogue Generation

8.1 Adversarial Learning for Neural Dialogue Generation

论文地址:https://arxiv.org/abs/1701.06547
论文大致介绍:
相关代码:(更多代码实现待更新,欢迎关注后续更新)

8.2 SeqGAN Sequence Generative Adversarial Nets with Policy Gradient

论文地址:https://arxiv.org/abs/1609.05473
论文大致介绍:
相关代码:(更多代码实现待更新,欢迎关注后续更新)

9. Other

9.1 Modeling Relational Data with Graph Convolutional Networks

论文地址:https://arxiv.org/abs/1703.06103
论文大致介绍:
相关代码:(更多代码实现待更新,欢迎关注后续更新)

9.2 Exploring the Limits of Language Modeling

论文地址:https://arxiv.org/abs/1602.02410
论文大致介绍:
相关代码:(更多代码实现待更新,欢迎关注后续更新)

9.3 Transformer-XL Attentive Language Models Beyond a Fixed-Length Context

论文地址:https://arxiv.org/abs/1901.02860
论文大致介绍:
相关代码:(更多代码实现待更新,欢迎关注后续更新)

9.4 Deep contextualized word representations

论文地址:https://arxiv.org/abs/1802.05365
论文大致介绍:
相关代码:(更多代码实现待更新,欢迎关注后续更新)

9.5 How to Fine-Tune BERT for Text Classification?

论文地址:https://www.xueshufan.com/publication/2980708516
论文大致介绍:
相关代码:(更多代码实现待更新,欢迎关注后续更新)

参考文献

[1] Efficient Estimation of Word Representations in Vector Space https://zhuanlan.zhihu.com/p/21241739
[2] Distributed Representations of Sentences and Documents https://blog.csdn.net/Daniel_Singularity/article/details/102688656
[3] 一种传统的句表示学习方法——Skip-Thought Vectorshttps://zhuanlan.zhihu.com/p/100271181
[4] Neural Machine Translation by Jointly Learning to Align and Translate https://zhuanlan.zhihu.com/p/21287807
[5] 详解Transformer (Attention Is All You Need)https://zhuanlan.zhihu.com/p/48508221
[6] GloVe学习:Global Vectors for Word Representation https://blog.csdn.net/XB_please/article/details/103602964
[7] Convolutional Neural Networks for Sentence Classification https://zhuanlan.zhihu.com/p/340490873
[8] 论文笔记《Character-level Convolutional Networks for Text Classification》https://www.jianshu.com/p/75b691670ff7
[9] A Convolutional Neural Network for Modelling Sentences https://blog.csdn.net/sinat_33741547/article/details/84960361
[10] Bag of Tricks for Efficient Text Classification(FastText) https://blog.csdn.net/qq_42030496/article/details/119256082
[11] Hierarchical Attention Networks for Document Classification(HAN) https://blog.csdn.net/weixin_41362649/article/details/109591190


❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️
👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈



本文转载自: https://blog.csdn.net/qq_41667743/article/details/129071818
版权归原作者 Chaos_Wang_ 所有, 如有侵权,请联系我们删除。

“【NLP相关】NLP领域经典论文汇总(附代码实现)”的评论:

还没有评论