机器学习基础知识测试 知识点题库
(一)1-21 基本概念、分类模型、线性回归模型、线性分类模型
(二)22-37 SVM、K近邻分类、决策树、集成学习、回归模型
(三)38-65 无监督学习、聚类、朴素贝叶斯算法、特征降维、特征抽取、特征筛选
(一)
1、人工智能、机器学习、深度学习的区别与联系
人工智能:让机器展现出人类智力,能够感知、推理、行动、和适应的程序
机器学习:抵达AI目标的一条路径,能够随着数据量的增加不断改进性能的算法
深度学习:实现机器学习的技术,机器学习的一个子集,利用多层神经网络从大量数据中进行学习
三者之间是相互包含的关系:人工智能涵盖范围最广,它包含了机器学习;而机器学习是人工智能的重要研究内容,它又包含了深度学习
2、机器学习的基本概念
机器学习主要是研究如何使计算机从给定的数据中学习规律,即从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或无法观测的数据进行预测。
机器学习是不需要确定性编程就可以赋予机器某项技能的研究领域
3、监督学习的基本概念
有监督学习:是利用一组已知输入x和输出y的数据来学习模型的参数,使得模型预测的输出标记和真实标记尽可能的一致。
无监督学习:无监督学习是用来学习的数据不包含输出目标,需要学习算法自动学习到一些有价值的信息
4、分类的基本概念
分类(Classification)如果输出y是离散的类别标记(符号),就是分类问题。在分类问题中,通过学习得到的决策函数f (x,θ )也叫分类器
5、回归的基本概念
回归(Regression)如果输出y是连续值(实数或连续整数),f (x)的输出也是连续值。这种类型的问题就是回归问题。对于所有已知或未知的(x, y),使得f (x,θ )和y尽可能地一致
6、什么是训练集和测试集
训练集:作用是用来拟合模型,通过设置分类器的参数,训练分类模型
测试集:得出最优模型后,使用测试集进行模型预测,用来衡量该最优模型的性能和分类能力。1/5~1/3样本作为测试集
7、什么是线性分类器
线性分类器(Linear Classifiers),是一种假设特征与分类结果存在线性关系的模型。这个模型通过累加计算每个维度的特征与各自权重的乘积来帮助类别决策。
8、Logistic 回归模型的定义
是一个分类算法,它可以处理二元分类以及多元分类。首先逻辑回归构造广义的线性回归函数,然后使用sigmoid函数将回归值映射到离散类别
9、Sigmoid函数的函数原型和取值范围是什么?
函数原型:
取值范围:(0,1)
10、 SGD的含义及解释
SGD:随机梯度下降
随机梯度下降(SGD)是一种用于在线性分类器下的线性分类器的判别学习方法
梯度下降的每一步中,用到一个样本,在每一次计算之后便更新参数,而不需要首先将所有的训练集求和
11、关于分类模型的性能评价指标有哪四个?
线性分类器•支持向量机•朴素贝叶斯•决策树
12、分类模型的准确性指标(Accuracy)、F1指标分别是如何定义的?
Accuracy:计算了分类正确的预测数与总预测数的比值
F1指标:机器学习综合考虑精确率和召回率的性能度量指标
13、分类模型的精确率指标(Precision)、召回率(Recall)分别是如何定义的?
精确率Precision=TP/(TP+FP)预测为正的样本中有多少是预测正确的
召回率Recall=TP/(TP+FN):样本中的正例有多少被预测正确了
14、简述梯度下降方法中学习率的含义
α表示学习率(步长),学习率决定了每次迭代下降的距离多少。过小的学习率,则会导致训练时间过长,收敛慢;而过大的学习率则会导致训练震荡,而且有可能跳过极小值点,导致发散
15、线性分类器常用的损失函数是?
常用的损失函数包括:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等
16、简述机器学习的一般过程
17、机器学习中的线性模型可以用数学公式表达为:
18、简述线性回归的算法流程
1)初始化权重w和截距b来构建最初的模型。
2)使用这个模型来计算代价函数的代价值(即误差之和)
3)对代价函数求偏导值
19、简述使用逻辑斯特回归模型进行分类的算法流程
- 确定输入变量和目标变量之间的模型
- 确定代价函数形式
- 训练算法找到回归系数
- 使用算法进行数据预测
20、线性回归模型的损失函数是如何定义的
为了衡量算法在全部训练样本上的表现如何,我们需要定义一个算法的代价函数,算法的代价函数是对m个样本的损失函数求和然后除以m
21、试解释在分类器评价指标中PR图、BEP的含义
PR曲线是准确率和召回率的点连成的线
BEP:平衡点
22、支持向量机分类具有什么特点(优点)?同时说明其缺点。
优点:模型精妙、节省了模型学习的内存、提高了模型预测的性能
缺点:预处理数据和调参都需要非常小心
23、说明K近邻分类模型的基本原理(算法思路)。
1、如果一个样本在特征空间中与k个实例最为相似(即特征空间中最邻近),那么这k个实例中大多数属于哪个类别,则该样本也属于这个类别。
2、对于分类问题:对新的样本,根据其k个最近邻的训练样本的类别,通过多数表决等方式进行预测。
3、对于回归问题:对新的样本,根据其k个最近邻的训练样本标签值的均值作为预测值。
24、在机器学习分类模型中,哪些是针对线性模型,
线性模型:感知机,LDA,逻辑斯蒂回归,SVM(线性核)。
哪些是针对非线性模型(每种回答出至少两个)
非线性模型:朴素贝叶斯,KNN,决策树,SVM(非线性核)
25、决策树适合应用于什么问题的分类?
1、具有决策者期望达到的明确目标;
2、存在决策者可以选择的两个以上的可行备选方案;
3、存在着决策者无法控制的两种以上的自然状态
4、不同行动方案在不同自然状态下的收益值或损失值可以计算出来;
5、决策者能估计出不同的自然状态发生概率。
26、决策树具有什么优点?(至少回答出两条)
决策树是一个白盒模型,易于理解和实现。
数据准备比较简单,能够同时处理数据型和常规型属性
27、根据不同的目标函数,建立决策树主要有哪三种算法?他们特征选择的依据是什么?
28、回归模型的评价指标包括哪几个?
MSE(均方误差),RMSE(均方根误差),MAE(平均绝对误差)、R-Squared
29、回归模型的均方误差、平均绝对误差评价指标分别的含义是什么?
均方误差:该统计参数是预测数据和原始数据对应点误差的平方和的均值
平均绝对误差:是MSE的平方根
30、回归模型的R-square(确定系数)评价指标的含义是什么?
R -square越接近1,越好. “确定系数”的正常取值范围为[0 1],越接近1,表明方程的变量对y的解释能力越强,这个模型对数据拟合的也较好
31、支持向量机回归中核函数的作用是什么?
核函数:它可以将样本从原始空间映射到一个更高维的特质空间中,使得样本在新的空间中线性可分
32、在svm分类模型中,什么是支持向量?什么是最大边缘超平面。
支持向量:他们就是离分界线最近的向量。也就是说超平面的参数完全由支持向量确定
最大边缘超平面:需要设计具有最大化决策边界边缘的线性分类器,以保证最坏情况下的泛化误差最小
33、支持向量机中常用的核函数有哪些
34、简述决策树的生成步骤
35、简述几种基于决策树的集成模型
Random Forest(随机森林)是 Bagging的扩展变体,它在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机特征选择
GBDT ( Gradient Boosting Decision Tree)是一种迭代的决策树算法,该算法由多棵决策树组成,GBDT的核心在于累加所有树的结果作为最终结果,所以GBDT中的树都是回归树,不是分类树,它是属于Boosting 策略。
36、什么是集成学习模型?包含哪些典型的算法?
集成学习方法是将几种机器学习技术 组合 成一个预测模型的元算法,以达到减小方差(bagging)、偏差(boosting)或改进预测(stacking)的效果
目前常见的集成学习算法主要有2种:基于Bagging的算法和基于Boosting的算法,基于Bagging的代表算法有随机森林,而基于Boosting的代表算法则有Adaboost、GBDT、XGBOOST等。
37、随机森林的生成规则
- 从样本集中通过重采样的方式产生n个样本。
- 建设样本特征数目为a,对n个样本选择a中的k个特征,用建立决策树的方式获得最佳分割点。
- 重复m次,产生m棵决策树。
- 多数投票机制进行预测。
(三)
38、什么是无监督学习?
聚类,主成分分析
39、 K均值聚类算法的核心思想是什么?
通过迭代的方法寻找K个簇的一种划分方案,使得聚类结果对应的代价函数最小,特别地,代价函数可以定义为各个样本距离所属簇中心点的误差平方和
40、K均值聚类算法的迭代停止条件是什么?
1)预先设置好迭代的轮数,一旦超过了迭代的最大轮数则停止迭代;
2)在某次循环中,没有数据点被重新分配到其他的簇,也就是算法已经收敛,则算法结束迭代;
3)某次循环,质心的位置没有发生改变,也是算法发生了收敛,则算法结束迭代;
4)某次循环,均方误差 SSE 递减的增量,小于预先设置的某个阈值,也就是这一次的迭代对聚类结果影响非常小,算法已经趋近于收敛,则算法结束迭代。
41、聚类算法的性能评价指标包含哪两个?
轮廓系数,调整兰德系数
42、聚类算法的ARI性能评价指标的含义是什么?
ARI取值范围为[一1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。与分类问题的准确性指标类似。
43、聚类算法的轮廓系数评价指标的含义是什么?
轮廓系数s(i)值越接近1表示样本i聚类越合理,越接近-1,表示样本i应该分类到另外的簇中,近似为0,表示样本i应该在边界上;所有样本的s(i)的均值被成为聚类结果的轮廓系数。
44、 K均值聚类算法的优缺点?(优缺点分别至少回答出两条)
优点:
原理简单,实现容易、收敛速度快
对大数据集有比较好的伸缩性
缺点:
只适合于数值属性数据
需要给出聚类数量K
对异常值敏感
对初始值敏感(算法收敛速度和结果受初始质心影响)
45、特征降维的目的
高维数据增加了运算的难度
高维使得学习算法的泛化能力变弱,维度越高,算法的搜索难度和成本就越大。
降维能够增加数据的可读性,利于发掘数据的有意义的结构
46、什么是维度灾难
通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。
47、说明主成分分析(PCA)的基本原理。
PCA的思想很简单——减少数据集的特征数量,同时尽可能地保留信息。
48、朴素贝叶斯分类模型的基本数学假设
49、朴素贝叶斯分类模型的应用场合
海量互联网文本分类 人脸识别,电子邮件是否是垃圾,
50、什么是特征抽取
将原始数据转化为特征向量的形式
51、在文本特征向量化中,常用的文本特征表示方法是
词袋法 ,其含义是将字词表示成一个向量,该向量的维度是词典(或字典)的长度。
52、什么是特征筛选
在已有的特征中,筛选出最具有代表的一部分特征来进行接下来的学习
53、为什么要做特征筛选
删除冗余数据、筛选出对结果有意义的因子
54、特征筛选与PCA区别是什么
对于PCA而言,我们经常无法解释重建后的特征;但是特征筛选不存在对特征值的修改,而更加侧重于寻找那些对模型的性能提升较大的少量特征。
55、特征筛选的流程
第一步:不进行特征筛选,训练模型得出score 第二步:按等步长筛选特征,训练模型得出score 第三步:选择score最高的特征组合
56、举几个文本处理中的“停用词”
常见的停用词包括代词、介词、连词、冠词等。另外,在英文中还有一些高频词如 "the" "and" "a" 等
57、简述 交叉验证的含义
就是重复的使用数据,把得到的样本数据进行切分,组合成不同的训练集和测试集,用训练集训练模型,用测试机来评估模型预测的好坏
58、主成分分析的算法步骤
1、均值归一化
2、计算协方差矩阵
3、求协方差矩阵的特征值和特征向量
4、对特征值从大到小排序选最大的K个组成特征向量矩阵P
5、将数据转换到K个特征向量构建的新空间中
59、简述朴素贝叶斯分类中的加法平滑(拉普拉斯平滑)
是一种用于平滑分类数据的技术,解决零概率问题,概率分子分母都+通常为1
60、简述词频统计的方法含义
只考虑每种词汇在该条训练文本中出现的频率
61、简述逆向文件频率统计的方法含义
对于某个单词,凡是出现了该单词的文档数,占了全部文档的比例,求倒数,再求自然对数。
62、简述朴素贝叶斯分类模型的优缺点
优点:
一、有着坚实的数学基础,以及稳定的分类效率。
二、所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
缺点:
一、需要知道先验概率。
二、分类决策存在错误率
三、特征相互独立
63、列举三种模型评估方法
留出法,交叉验证法,自助法
64、在文本特征抽取中,试解释CountVectorizer特征量化方式
只考虑每个词汇在该条训练文本中出现的频率
65、在文本特征抽取中,试解释TfidfVectorizer特征量化方式
除了考量某一词汇在当前文本中出现的频率 TF(Term Frequency)之外,同时关注包含这个词汇的所有文本条数的倒数,即逆文本频率指数
版权归原作者 吴佳昊 所有, 如有侵权,请联系我们删除。