1.机器学习
1、机器学习的经典定义是:利用()改善系统自身的性能。
- 经验
- 专家
- 规则
- 实践
2、随着机器学习领域的发展,目前主要研究以下哪个领域的理论和方法?
- 汇编语言
- 程序设计
- 硬件
- 智能数据分析
3、机器学习利用经验,必须对以下哪个选项进行分析?
- 天气
- 数据
- 生活
- 语言
2.典型得机器学习过程
1、西瓜书中的西瓜数据集中,“好瓜、坏瓜”是一个西瓜样例的什么?
- 属性
- 类别标记
- 没有意义
- 数据集名称
2、对于要预测的新的数据样本,它的类别标记是?
- 已知的
- 未知的
- 都可以
- 负类
机器学习要完成的任务是通过经验(一般我们指已有的数据)改善系统自身的性能,并期待它能在拿到与训练数据同分布的新的未知标记的数据集上表现较好;新的数据样本正是因为标记未知才需要我们进行估计。这里需要注意不要与数据集中验证集和测试集中的数据混淆:验证集和测试集的数据固然类别标记是已知的,但它们分别起到模型选择、和性能测试的过程,并非是机器学习的最终目的;最终机器学习是希望取得在数据上的泛化性能较好,即在所有未知样本上的表现都较好。
3、机器学习的模型,____(是/不是)从数据中产生的。
是
3.计算学习理论
1、计算学习理论中最重要的理论模型是?
- 计算模型
- 数据模型
- 机器学习
- PAC
计算学习理论(computational learning theory)研究的是关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计,其中最重要的理论模型是PAC模型(概率近似正确)。
2、以下哪个是对概率近似正确(PAC)的正确解释?
- 以很低概率得到不好的模型
- 以很低概率得到很好的模型
- 以很高概率得到很好的模型
- 以很高概率得到不好的模型
3、机器学习____(有/没有)坚实的理论基础。
有
4.基本术语
1、西瓜书中,训练数据中的“色泽”是什么?
- 属性
- 属性值
- 类别标记
- 样本
2、以下哪个选项指的是机器学习中的假设(hypothesis)?
- 属性
- 标记
- 数据
- 学到的模型
我们从监督学习入手说明。监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。我们也可以将学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集"匹配"的假设,即能够将训练集分类判断正确的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。换言之,学习过程实际上是要找到数据中的某种潜在规律,学到的模型本身我们亦可以将其看作为一种从样本空间到标记空间的映射,我们常称为假设;故机器学习中假设的概念往往指的是学到的模型。
3、多分类问题____(可以/不可以)分解为若干个二分类问题
可以
5.归纳偏好
1、归纳偏好指机器学习算法在学习过程中,对以下哪个选项的偏好?
- 数据
- 某种类型假设
- 标记
- 运行速度
2、以下哪个选项是指“奥卡姆剃刀”原则?
- 若有多个假设与观察一致,则随机选一个
- 若有多个假设与观察一致,则选既不简单又不复杂的那个
- 若有多个假设与观察一致,则选最简单的那个
- 若有多个假设与观察一致,则选最复杂的那个
3、利用“奥卡姆剃刀”原则时,确定哪个假设更“简单”,这个问题(是/不是)简单的。
不是
奥卡姆剃刀原理指的是“如无必要,勿增实体” ;在我们关心的问题中,即若有两个假设都可以达到我们的需求,则选择较为简单的那一个。但简单与否是人为判断的,并无一套完备的依据供我们来判断;这种选择可能与我们的归纳偏好有关,如何判定一个假设是简单的,本身是一个较为困难的问题。
6.NFL定理
1、以下哪种说法描述了NFL定理?
- 一个算法a若在某些问题上比另一个算法b好,必存在另一些问题没算法b好
- 机器学习算法需要数据
- 所有机器学习问题问题出现的机会相同
- 一个算法a若在某些问题上比另一个算法b好,a一定比b需要更多数据
2、以下哪个选项是NFL定理的重要前提?
- 所有“问题”难度不同
- 所有“问题”出现的机会服从任意分布
- 所有“问题”出现的机会不相同
- 所有“问题”出现的机会相同
NFL定理有一个主要的前提:所有“问题”出现的机会相同,或所有问题同等重要。换句话说,假设在整个函数空间中所有可能的目标函数f是均匀分布的。
3、脱离具体问题,空泛地谈论“什么学习算法更好”____(有/没有)意义。
没有
7.章节测试
1、下列有关机器学习基本术语的说法错误的是
- 从数据中学得模型的过程称为“学习”或“训练”
- 训练过程中使用的数据称为“训练数据”,每一个样本称为一个“训练样本”,训练样本组成的集合称为“训练集”
- 学得模型对应了关于数据的某种潜在的规律,称为“假设”
- 学习过程就是为了找出数据的某种潜在规律,这个规律自身,一般称为“数据特征”
学习过程是为了找出数据的某种潜在规律,这种规律自身一般称为假设;从数据中学得模型的过程称为学习,也可以称为训练;训练过程使用的数据称为训练数据,其中的样本称为训练样本。
2、以下关于机器学习预测任务的说法错误的是()
- 一般地,预测任务是希望通过对训练集进行学习,建立一个从输入空间 x x x 到输出空间 y y y 的映射
- 对于二分类任务,一般令 y = { − 1 , + 1 } y={-1,+1} y={−1,+1}或 { 0 , 1 } {0,1} {0,1}
- 对于回归问题,一般 y = R y=R y=R
- 预测任务不需要训练样本的的标记信息
3、聚类算法是机器学习中一种典型的____学习算法。(监督/无监督)
无监督
4、学出来的模型适用于新样本的能力,称为 ____ 能力。该能力越强,说明学得的模型越能很好地适用于整个样本空间。
泛化
泛化能力(generalization ability)是指机器学习算法对新样本的适应能力。 学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力。这种能力也是学习到的模型对未知数据的预测能力,这个未见过的测试数据必须是和训练数据处于同一分布,不在同一分布的数据是不符合独立同分布假设的(对同一规律不同的数据集的预测能力)。通常通过测试误差来评价学习方法的泛化能力。
5、学得模型后,使用其进行预测的过程称为____。
测试
学得模型后,使用其进行预测的过程称为"测试" (testing) ,被预测的样本称为测试样本" (testing sample)。
6、根据训练数据是否拥有标记信息,我们可以将学习任务分为两大类,监督学习和____。
无监督学习
7、分类和回归任务,按照数据是否拥有标记信息来说,属于机器学习中的____。
监督学习
机器学习任务中按照数据是否具有类别标记,我们可以把任务分为监督学习和无监督学习;分类和回归任务需要数据的类别标记,故应为监督学习。
8、下列不属于机器学习任务的是()
- 人脸识别
- 网页编写
- 文本分类
- 销量预测
9、下列说法错误的是()
- 模型是通过学习算法得到的
- 机器学习通常解决高度不确定性和复杂性的问题
- 分类和回归是监督学习的代表
- 机器学习一定需要类别标记
10、下列说法错误的是()
- 色泽”取值为“青绿”,这里的“青绿”是属性值
- 输出是离散值的学习任务为分类任务
- 模型找出的规律一定是正确的
- 一般假设正类和反类是可交换的
11、下列说法错误的是()
- 学得模型适用于新样本的能力称为“泛化”能力
- 机器学习一般有“独立同分布”假设
- 机器学习在只要见过的数据上做好就行了,未见过样本上的性能不重要
- 一般假设拿到的所有数据都来自一个潜在的分布
12、把见过的汽车分成若干组,这是一个____(分类/回归/聚类)任务。
聚类
把见过的汽车分组这样一个任务中,任务本身并未要求按什么样的准则划分、划分为什么样的类别;这样我们很难对汽车加上合适的label并将其看作是一个监督学习来实现分类过程。故本题应为无监督学习中的聚类任务,本题应填聚类。
13、上完机器学习课,小明在50个数据集上用不同算法模型进行训练和测试,发现算法a的效果一直比算法b好,他认为在所有问题上算法a的效果都会比b好。这个结论是____(正确/错误)的。
错误
14、奥卡姆剃刀原则中,两个假设哪一个“更简单”,是____(容易/不容易)判断的。
不容易
15、下列关于归纳偏好的说法错误的是()
- 机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”,或简称为“偏好”
- 一般来说,任何一个有效的机器学习算法都有其归纳偏好
- “奥卡姆剃刀”原则在某些情况下可以指导我们选择偏好
- 在任何情况下,总有一个最优的学习算法
版权归原作者 加油呀,哒哒哒 所有, 如有侵权,请联系我们删除。