05. 深入理解 GPT 架构

在本章的前面，我们提到了类 GPT 模型、GPT-3 和 ChatGPT 等术语。现在让我们仔细看看一般的 GPT 架构。首先，GPT 代表生成式预训练转换器，最初是在以下论文中引入的：

通过生成式预训练提高语言理解（2018）作者：Radford 等人，来自 OpenAI，http://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

GPT-3 是该模型的放大版本，具有更多参数并在更大的数据集上进行训练。最初的 ChatGPT 模型是通过使用 OpenAI 的 InstructGPT 论文中的方法在大型指令数据集上微调 GPT-3 而创建的，我们将在第 8 章“使用人类反馈进行微调以遵循指令”中更详细地介绍。正如我们在前面的图 1.6 中看到的，这些模型是称职的文本完成模型，可以执行其他任务，例如拼写更正、分类或语言翻译。这实际上非常了不起，因为 GPT 模型是在相对简单的下一个单词预测任务上预训练的，如图 1.7 所示。

图 1.7 在 GPT 模型的下一个单词预训练任务中，系统通过查看前面的单词来学习预测句子中即将到来的单词。这种方法有助于模型理解单词和短语在语言中通常如何组合在一起，从而形成可应用于各种其他任务的基础。

下一个单词预测任务是自我监督学习的一种形式，是自我标记的一种形式。这意味着我们不需要显式收集训练数据的标签，但可以利用

标签： gpt 人工智能语言模型

本文转载自: https://blog.csdn.net/cq20110310/article/details/135504679
版权归原作者 这就是编程 所有，如有侵权，请联系我们删除。

05. 深入理解 GPT 架构

图 1.7 在 GPT 模型的下一个单词预训练任务中，系统通过查看前面的单词来学习预测句子中即将到来的单词。这种方法有助于模型理解单词和短语在语言中通常如何组合在一起，从而形成可应用于各种其他任务的基础。

发表评论

“05. 深入理解 GPT 架构”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航