【AI相关】《这就是ChatGPT》读书笔记

《这就是ChatGPT》

斯蒂芬·沃尔弗拉姆

这本书用了两天就一口气读完了，通篇读完后，这本书主要是介绍了ChatGPT怎么能做到生成内容的一些背后的原理逻辑，总结一下这本书是ChatGPT通过大量的数据（这些数据来自网络、书籍等等类似于数据库的东西）分析，这里的分析包括神经网络、嵌入、机器学习来推测下一步输出的内容是什么，通过这一连串的操作可以尽量达到“类人”的效果。

ChatGPT在做什么？它为何能做到这些？

首先需要解释，ChatGPT从根本上始终要做的是，针对它得到的任何文本产生“合理的延续”。这里所说的“合理”是指，“人们在看到诸如数十亿个网页上的内容后，可能期待别人会这样写”。
最终的结果是，它会列出随后可能出现的词及其出现的“概率”（按“概率”从高到低排列）。
写一篇文章时，它实质上只是在一遍又一遍地询问“根据目前的文本，下一个词应该是什么”
这里存在随机性意味着，如果我们多次使用相同的提示(prompt)，每次都有可能得到不同的文章。

概率从何而来

2024/04/24 发表想法****Chatgtp会通过对大量的数据进行分析，在这个分析的基础之上预测下一个词出现的频率，接着再通过这些概率来输出接下来的文本 > 原文：最佳思路是建立一个模型，让我们能够估计序列出现的概率—即使我们从未在已有的文本语料库中明确看到过这些序列。
最佳思路是建立一个模型，让我们能够估计序列出现的概率—即使我们从未在已有的文本语料库中明确看到过这些序列。

什么是模型

从来没有“无模型的模型”。你使用的任何模型都有某种特定的基本结构，以及用于拟合数据的一定数量的“旋钮”（也就是可以设置的参数）。ChatGPT使用了许多这样的“旋钮”—实际上有1750亿个。

神经网络

正如上面所说的，这并不是我们可以“根据第一性原则推导”出来的事实。这只是一些经验性的发现，至少在某些领域是正确的。但这是神经网络有用的一个关键原因：它们以某种方式捕捉了“类似人类”的做事方式。
我们可以说神经网络正在“挑选出某些特征”（也许尖尖的耳朵是其中之一），并使用这些特征来确定图像的内容。
2024/04/25 发表想法****神经网络识别就是chatgpt在模仿人类的思考方式或者类似于经验的东西来对所识别的内容“找出某种特征”，从而根据这些“特征”来确定所识别的内容 > 原文：假设我们想得到神经网络中的“猫

机器学习和神经网络的训练

基本思想是提供大量的“输入→输出”样例以供“学习”，然后尝试找到能够复现这些样例的权重。
应该如何调整权重呢？基本思想是，在每个阶段看一下我们离想要的函数“有多远”，然后朝更接近该函数的方向更新权重。
最后需要解释的关键是，如何调整权重以减小损失函数。正如我们所说的，损失函数给出了我们得到的值和真实值之间的“距离”。但是“我们得到的值”在每个阶段是由神经网络的当前版本和其中的权重确定的。

神经网络训练的实践和学问

这更多地反映了我们通常试图让神经网络去完成的任务是“类人”任务，而神经网络可以捕捉相当普遍的“类人过程”。
但是后来发现，（至少对于“类人任务”）最好的方法通常是尝试训练神经网络来“解决端到端的问题”，让它自己“发现”必要的中间特征、编码等。
神经网络的一个重要特征是，它们说到底只是在处理数据—和计算机一样
神经网络的实际学习过程是怎样的呢？归根结底，核心在于确定哪些权重能够最好地捕捉给定的训练样例。有各种各样的详细选择和“超参数设置”（之所以这么叫，是因为权重也称为“参数”），可以用来调整如何进行学习。有不同的损失函数可以选择，如平方和、绝对值和，等等。有不同的损失最小化方法，如每一步在权重空间中移动多长的距离，等等。然后还有一些问题，比如“批量”(batch)展示多少个样例来获得要最小化的损失的连续估计。是的，我们可以（像在Wolfram语言中所做的一样）应用机器学习来自动化机器学习，并自动设置超参数等。

“足够大的神经网络当然无所不能！”

能力和可训练性之间存在着一个终极权衡：你越想让一个系统“真正利用”其计算能力，它就越会表现出计算不可约性，从而越不容易被训练；而它在本质上越易于训练，就越不能进行复杂的计算。

“嵌入”的概念

2024/04/25 发表想法****不尝试在“特征”上对比，而是在“黑盒”中自己考虑怎么输出接近度更高的内容 > 原文：这里的关键概念是，我们不直接尝试表征“哪个图像接近哪个图像”，而是考虑一个定义良好、可以获取明确的训练数据的任务（这里是数字识别），然后利用如下事实：在完成这个任务时，神经网络隐含地必须做出相当于“接近度决策”的决策。因此，我们不需要明确地谈论“图像的接近度”，而是只谈论图像代表什么数字的具体问题，然后“让神经网络”隐含地确定这对于“图像的接近度”意味着什么。
就能以我们对常见物体的识别为“锚点”创建一个图像嵌入，然后根据神经网络的行为“围绕它进行泛化”。关键是，这种行为只要与我们人类感知和解读图像的方式一致，就将最终成为一种“我们认为正确”且在实践中对执行“类人判断”的任务有用的嵌入。

ChatGPT的内部原理

从根本上说，ChatGPT是一个庞大的神经网络— GPT-3拥有1750亿个权重。
ChatGPT（或者说它基于的GPT-3网络）到底是在做什么呢？它的总体目标是，根据所接受的训练（查看来自互联网的数十亿页文本，等等），以“合理”的方式续写文本。所以在任意给定时刻，它都有一定量的文本，而目标是为要添加的下一个标记做出适当的选择。
它的操作分为三个基本阶段。第一阶段，它获取与目前的文本相对应的标记序列，并找到表示这些标记的一个嵌入（即由数组成的数组）。第二阶段，它以“标准的神经网络的方式”对此嵌入进行操作，值“像涟漪一样依次通过”网络中的各层，从而产生一个新的嵌入（即一个新的数组）。第三阶段，它获取此数组的最后一部分，并据此生成包含约50000个值的数组，这些值就成了各个可能的下一个标记的概率。
关键是，这条流水线的每个部分都由一个神经网络实现，其权重是通过对神经网络进行端到端的训练确定的。换句话说，除了整体架构，实际上没有任何细节是有“明确设计”的，一切都是从训练数据中“学习”来的。
注意力头是做什么的呢？它们基本上是一种在标记序列（即目前已经生成的文本）中进行“回顾”的方式，能以一种有用的形式“打包过去的内容”，以便找到下一个标记。
ChatGPT每生成一个新的标记，都必须进行一次包括所有这些权重在内的计算。

ChatGPT的训练

：先提供一批样例，然后调整网络中的权重，以最小化网络在这些样例上的误差（“损失”）。

在基础训练之外

2024/04/25 发表想法所以输入给chatgpt的指令很重要 > 原文：基本上只需要把东西告诉ChatGPT一次—作为提示的一部分—它就可以成功用其生成文本。

真正让ChatGPT发挥作用的是什么

即使是具有简单的神经网络结构的ChatGPT，也能够成功地捕捉人类语言的“本质”和背后的思维方式。此外，在训练过程中，ChatGPT已经通过某种方式“隐含地发现”了使这一切成为可能的语言（和思维）规律。
它表明我们仍然可以期待能够发现重大的新“语言法则”，实际上是“思维法则”
ChatGPT并不明确地“了解”这些规则。但在训练过程中，它隐含地发现了这些规则，并且似乎擅长遵守它们

语义语法和计算语言的力量

人类语言是不精确的，这主要是因为它没有与特定的计算实现相“结合”，其意义基本上只由其使用者之间的“社会契约”定义。但是，计算语言在本质上具有一定的精确性，因为它指定的内容最终总是可以“在计算机上毫无歧义地执行”。人类语言有一定的模糊性通常无伤大雅。

那么，ChatGPT到底在做什么？它为什么能做到这些？

ChatGPT的基本概念在某种程度上相当简单：首先从互联网、书籍等获取人类创造的海量文本样本，然后训练一个神经网络来生成“与之类似”的文本。特别是，它能够从“提示”开始，继续生成“与其训练数据相似的文本”。
。ChatGPT不仅能产生连贯的人类语言，而且能根据“阅读”过的内容来“循着提示说一些话”。

来自微信读书

标签：人工智能 chatgpt

本文转载自: https://blog.csdn.net/lsj1345714539566/article/details/138198201
版权归原作者 吃不胖的熊猫 所有，如有侵权，请联系我们删除。

【AI相关】《这就是ChatGPT》读书笔记

《这就是ChatGPT》

ChatGPT在做什么？它为何能做到这些？

概率从何而来

什么是模型

神经网络

机器学习和神经网络的训练

神经网络训练的实践和学问

“足够大的神经网络当然无所不能！”

“嵌入”的概念

ChatGPT的内部原理

ChatGPT的训练

在基础训练之外

真正让ChatGPT发挥作用的是什么

语义语法和计算语言的力量

那么，ChatGPT到底在做什么？它为什么能做到这些？

发表评论

“【AI相关】《这就是ChatGPT》读书笔记”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航

【AI相关】《这就是ChatGPT》读书笔记

《这就是ChatGPT》

ChatGPT在做什么？它为何能做到这些？

** 概率从何而来**

什么是模型

神经网络

机器学习和神经网络的训练

神经网络训练的实践和学问

“足够大的神经网络当然无所不能！”

“嵌入”的概念

** ChatGPT的内部原理**

ChatGPT的训练

在基础训练之外

真正让ChatGPT发挥作用的是什么

语义语法和计算语言的力量

那么，ChatGPT到底在做什么？它为什么能做到这些？

发表评论

“【AI相关】《这就是ChatGPT》读书笔记”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航

概率从何而来

ChatGPT的内部原理