什么是AI?
AI是一个广泛的领域,涵盖了模拟和扩展人类智能的多种理论和技术;而大模型是AI领域中的一种具体技术,特别是在自然语言处理(NLP)方面取得了显著进展的深度学习模型。大模型通常指的是具有大量参数的深度学习模型,它们通过在大规模数据集上进行训练,能够学到丰富的数据表示和模式,从而在各种任务上表现出色,如文本生成、语言理解、图像识别等。
什么是大模型?
大模型,是指在人工智能领域,特别实在自然语言处理和机器学习中,拥有大量参数的深度学习模型。
这些模型通过在大规模数据集上进行训练,能够学到丰富的数据表示和模式,从而在各种任务上表现出色,如文本生成,语言理解,图像识别等。
大模型是具有大量参数和复杂结构的模型,这些模型通常具数十亿甚至数万亿个参数,能够处理大规模的数据和复杂的任务。
通常使用深度学习技术,如深度神经网络,可以从数据中学习并提取特征来执行各种任务。
什么是机器学习?
机器学习(Machine learning)是一种人工智能的技术,通过让机器通过对过去已知大量数据的学习,逐渐有能力从数据中发现接近现实的规律,并通过这些规律对未来的某些状况进行预测,从而实现自主学习和预测的能力。
建模过程中,根据数据是否有明确标签,可以把机器学习分为监督学习、无监督学习和半监督学习三种类型。
- 监督学习:从有标签的数据中学习规律和模式,以便在未知数据上进行预测和分类。
- 无监督学习:从无标签的数据中学习规律和模式,以便在未知数据上进行聚类和降维等操作。
- 半监督学习:将监督学习和无监督学习相结合,利用少量有标签的数据和大量无标签的数据进行学习。
根据机器学习的应用场景,目前可以分为分类问题、回归问题、聚类问题三大类。
- 分类问题:机器学习可以通过对已知类别的数据进行学习,从而对未知类别的数据进行分类。比如在垃圾邮件识别中,机器学习算法可以通过学习已知的垃圾邮件和非垃圾邮件,来判断一封新收到的邮件是否是垃圾邮件。分类问题的常见算法有K近邻算法、逻辑回归、朴素贝叶斯、决策树、随机森林、支持向量机(SVM算法)等,后续文章会详细介绍。
- 回归问题:机器学习可以通过对已知的数据进行学习,从而对新的数据进行预测。比如在股票市场中,机器学习算法可以通过学习历史股票价格数据,来预测未来的股票价格。回归问题的常见算法有线性回归等,后续文章会详细介绍。
- 聚类问题:机器学习可以将数据按照一定的特征进行聚类,从而将相似的数据归为一类。比如在客户分析中,机器学习算法可以通过学习客户的购买行为和喜好,将相似的客户归为一类,从而对不同的客户群体进行针对性的营销。聚类算法属于无监督学习,后续会介绍一下K均值算法(K-means)。
机器学习的优点(和深度学习相比):
- 易于理解和实现,成本较低,好落地。
- 适用于小规模数据。
- 可解释性强,相对可控。
- 适用于各种类型的数据。机器学习的算法适用于各种类型的数据,包括结构化数据和非结构化数据。
机器学习的缺点(和深度学习相比):
- 需要手动提取特征。这需要专业知识和经验,并且很难得到最佳特征,因此这也是体现产品经理价值的重要环节。
- 对数据质量要求高。机器学习的算法对数据质量要求较高,如果数据质量较差,会影响预测结果的准确性。
- 预测效果受限。机器学习的算法预测效果受限,无法处理较为复杂的数据集。
什么是深度学习?
深度学习(Deep learning)是一种机器学习的分支,它是通过构建多层神经网络来实现自主学习和预测的能力。深度学习的核心是深度神经网络,它由多个层次的神经元组成,每一层都可以提取出不同的特征信息,从而实现对复杂数据的学习和预测。深度学习的应用范围非常广泛,包括图像识别、语音识别、自然语言处理等领域。
深度学习常见算法有反向传播(Backpropagation)、卷积神经网络(CNN)、循环神经网络(RNN)、生成对抗网络(GAN)等,后续会详细介绍。
深度学习的优点(和传统机器学习相比):
- 自动提取特征。深度学习可以自动学习特征,从而避免了手动提取特征的麻烦。
- 适用于大规模数据。深度学习的算法适用于大规模的数据集。
- 预测效果较好。深度学习的算法预测效果较好,可以处理较为复杂的数据集。
深度学习的缺点(和传统机器学习相比):
- 计算资源要求高。深度学习的算法需要大量的计算资源,包括计算机性能和存储空间。
- 训练时间长。深度学习的算法需要较长的训练时间,这会增加成本和时间成本。
- 模型可解释性差。深度学习的算法模型可解释性较差,很难理解模型的内部运作机制。
学习路线推荐:
前置知识 Python基础 Linux基础
(1)学习目的
- 掌握Python基础,熟悉常用的Python库和工具,如NumPy、Pandas、Matplotlib、Scikit-learn、TensorFlow、PyTorch等
- 具备NLP相关的基础知识,包括文本预处理、分词、词性标注、命名实体识别、词向量表示等。
- 对大模型有一定了解,包括transfermer模型的结构和原理、基于注意力机制的自然语言处理技术等。 (2)参考内容
- 廖雪峰Python教程 (3)学习要求
- 熟练掌握并能够编写基础的Python函数、语法等,能够熟练使用Linux系统
- 推荐书籍
Step1:NPL相关基础知识
(1)学习目的
- 了解文本预处理、分词、词性标注、命名实体识别、词向量表示等基础知识
- 掌握自然语言处理(NPL)相关技术,如分词、词性标注、命名实体识别、句法分析等。
- 掌握机器学习的数据预处理、特征提取、分类、回归等基础算法,并了解在NPL领域的应用。
- 了解大规模NPL任务中的常用技术和方法,如深度学习中的transfermer模型、BERT、GPT等。 (2)参考内容 李沐 动手学深度学习 (3)学习要求 理解并掌握机器学习、深度学习、自然语言处理的基础概念,最好能阅读并吸收课程中提到的经典论文,能够独立实现在colab上训练模型(小模型)
Step2:GPT API调用及Prompt设计
(1)学习目的
- 了解GPT API的调用方式和基本操作,熟悉Prompt设计技巧和要点,能够结合自己的任务调用API实现对应的任务代码 (2)学习要求 了解大模型以及对应NPL知识的基础原理,能够熟练调用GPT API,编写Prompt完成各种任务
Step3:模型微调
(1)学习目的:了解常见的微调模型的基本流程和原理,熟练数据集的构造、训练、评估等过程,能够独立构建QA对,在服务器上对模型进行微调
(2)学习要求
能够独立完成大模型的微调数据构建、训练以及部署工作
Step4:RAG(外挂数据库)
(1)学习目的
RAG作为目前最火的一个LLM落地方向,可以结合私有数据(表格、word、txt、pdf、数据库皆可)实现本地回答,且训练成本较低,可以快速实现效果
(2)学习内容
- LangChain
- FastGPT
- LangChain-Chatchat(快速部署框架)
- DB-GPT (3)学习要求 能够在本地实现基于大模型的外挂部署方案。
- 推荐书籍
版权归原作者 玄清志 所有, 如有侵权,请联系我们删除。