**1. **以下不是分类问题的是( B )。
A. 用户流失模型 B. 身高和体重关系 C. 信用评分 D. 营销响应
**2. **对于回归分析,下列说法错误的是( D )
A. 在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定
B. 线性相关系数可以是正的,也可以是负的
C. 回归分析中,如果r^2 = 1,说明x与y之间完全相关
D. 样本相关系数r在区间(-1,1)
3. 数据分类是一个两阶段过程,包括( B )和分类阶段。
A. 分析阶段 B. 学习阶段 C. 预测阶段 D. 实验阶段
4. 线性判别分析是一种( A )的方法。
A. 降维 B. 升维 C. 二分类 D. 多分类
5. 我们想在大数据集上训练决策树,为了使用较少时间,可以( C )。
A. 增加树的深度 B. 增加学习率 C. 减少树的深度 D. 减少树的数量
6. 决策树分类器的构造不需要任何领域知识或参数设置,因此适合于( D )。
A. 实验式知识发现 B. 分析式知识发现 C. 创新式知识发现 D. 探索式知识发现
7. 在决策树创建时,由于数据中的( C ),许多分枝反映的是训练数据中的异常。
A. 鼓声 B. 内部节点 C. 离群点 D. 离散点
8. 决策树中不包含一下哪种结点( C )
A. 根结点 B. 内部结点C. 外部结点(external node)D. 叶结点(leaf node)
**9. **决策树容易转换成( A )
A. 分类规则 B. 分类阶段 C. 类预测 D. 数据
**10. **以下属于关联分析的是( B )。
A. CPU性能预测 B. 购物篮分析 C. 自动判断鸢尾花类别 D. 股票趋势建模
11. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( B )
A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链
**12. **关于K均值和DBSCAN的比较,以下说法不正确的是( A )。
A. K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B. K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
C. K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。
D. K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇
**13. **以下两种描述分别对应哪两种对分类算法的评价标准?( A )
(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。
A. Precision, Recall B. Recall, Precision C. Precision, ROC D. Recall, ROC
**14. **下列哪个描述是正确的。( C )
A. 分类和聚类都是有监督的学习 B. 分类和聚类都是无监督的学习
C. 分类是有监督的学习,聚类是无监督的学习
D. 分类是无监督的学习,聚类是有监督的学习
15. 根据信息增益来构造决策树的算法是( A )
A. ID3决策树 B. 递归 C. 归约 D. FIFO
16. 变量之间的关系可以分为两大类( A )
A. 函数关系与相关关系 B. 线性相关关系和非线性相关关系
C. 正相关关系和负相关关系 D. 简单相关关系和复杂相关关系
17. 对于C4.5算法说法不正确的是( D )。
A. 可以处理连续型属性 B. 可以处理属性值空缺情况
C. 采用基于信息增益率作为选择分裂属性的度量标准
D. 产生的决策树是二叉树
二. 多选题
1. 数据挖掘的对象包含( ABCD )
A. 关系数据库 B. 文本 C. 图象与视频数据 D. Web数据
2. 数据挖掘的数据准备阶段的主要工作包含( ABCDE )。
A.消除噪声 B.推导计算缺值数据 C.消除重复记录D. 数据转换E.消减数据维数或降维
3. 数据挖掘的任务包含( ABCDE )
A. 关联分析 B. 时序模式分析 C. 聚类 D. 分类 E. 偏差检测
4. 回归分析中按照自变量和因变量的关系类型可以分为?( AB )
A. 线性回归分析 B. 非线性回归分析 C. 一元回归分析 D. 多元回归分析
5. 常见的距离度量方法包括( ABCD )
A. 欧氏距离 B. 汉明距离 C. 曼哈顿距离 D. 切比雪夫距离
**6.**( AB )是预测问题的两种主要类型。
A. 分类 B. 数值预测 C. 分类规则 D. 分类类型
7. 线性模型的优点包括?( ABCD )
A. 形式简单、易于建模 B. 可解释性 C. 引入层级结构或高维映射
D. 线性模型中系数直观表达了各属性在预测中的重要性
**8. **当在一个决策树中划分一个节点时,以下关于“信息增益”的论述正确的是( BC )
A. 较不纯的节点需要更多的信息来描述总体。 B. 信息增益可以通过熵来推导。
C. 信息增益偏向于选择大量值的属性。 D. C4.5算法是根据信息增益来建树。
**9. **下面的决策树中,不能解决回归问题的是?( ABC )
A. ID3 B. C4.5 C. C5.0 D. CART
10. 以下哪项关于决策树的说法是正确的( BCD )
A. 冗余属性会对决策树的准确率造成不利的影响。 B. 子树可能在决策树中重复多次。
C. 决策树算法对于噪声的干扰不是很敏感。 D. 寻找最佳决策树是NP完全问题。
11. 下列关于决策树的说法正确的是?( ABCD )
A. ID3决策树是根据信息增益来划分属性 B. C4.5决策树是根据增益率来划分属性
C. CART决策树是根据基尼指数来划分属性
D. 基尼指数反映了从样本集D中随机抽取两个样本,其类别标记不一致的概率,因此越小越好
12. 决策树中属性选择的方法有?( BCD )
A. 信息值 B. 信息增益 C. 信息增益率 D. GINI系数
**13. **在决策树创建时,由于数据中的( BC ),许多分枝反映的是训练数据中的异常。
A. 鼓声 B. 噪声 C. 离群点 D. 离散点
14. 决策算法之间的差别包括在创建树时如何选择?( AB )
A. 属性 B. 用于剪枝的机制 C. 样本 D. 对象
15. 下列属于线性的降维方法有( AB )
A. PCA B. LDA C. 局部线性嵌套(LLE) D. 非负矩阵分解(NMF)
16. 特征选择的策略包括?( ABCD )
A. 穷举法 B. 前向选择 C. 后向选择 D. 双向选择
**17. **回归分析中按照自变量和因变量的关系类型可以分为( AB )
A. 线性回归分析 B. 非线性回归分析 C. 一元回归分析 D. 多元回归分析
**18. **关于OLAP和OLTP的说法,下列不正确的是( A )
A. OLAP事务量大,但事务内容比较简单且重复率高.
B. OLAP的最终数据来源与OLTP不一样.
C. OLTP面对的是决策人员和高层管理人员.
D. OLTP以应用为核心,是应用驱动的.
**19. **数据清理技术的主要目的包括( ABC )
A. 试图填充缺失的值 B. 光滑噪声并识别离群点
C. 纠正数据的不一致 D. 方便数据归约
20. 数据预处理方法包括( ACD )
A. 数据清理 B. 数据可视化 C. 数据变换 D. 数据归约
**21. **噪声数据的产生原因主要有?( ABC )
A. 数据采集设备有问题 B. 在数据录入过程中发生了人为或计算机错误
C. 数据传输过程中发生错误 D. 由于命名规则或数据代码不同而引起的不一致
22. OLAP技术的核心是( D )
A. 在线性; B. 对用户的快速响应; C. 互操作性. D. 多维分析;
**23. **数据清理的基本内容包括( ABCDEFG )
A. 尽可能复印属性名和属性值明确的含义 B. 统一多数据源的属性值编码
C. 去除无用的唯一属性或键值 D. 去除重复属性 E. 去除可以忽略的属性
F. 合理选择关联字段 G. 去掉数据中的噪声,填充空值,丢失值和处理不一致的数据
24. 接收者操作特征曲线(Receiver Operating Characteristic Curve,ROC)是一种反映分类模型敏感性和特异性连续变量的综合,ROC的横坐标,纵坐标分别表示( A )
A. 假正例率(FPR),真正例率(TPR) B. 真正例率(TPR),假正例率(FPR)
C. 假正例率(FPR),精度(Precision) D. 精度(Precision),召回率(Recall)
25. 噪声数据的产生原因主要有?( ABC )
A. 数据采集设备有问题 B. 在数据录入过程中发生了人为或计算机错误
C. 数据传输过程中发生错误 D. 由于命名规则或数据代码不同而引起的不一致
**26. **模型选择方法主要有( AB )。
A. 正则化 B. 交叉验证 C. 组合选择 D. 梯度下降法
27. 通过数据挖掘过程所推导出的关系和摘要经常被称为( AB )
A. 模型 B. 模式 C. 模范 D. 模具
28. 在谈到分类时,数据元组也称为?( ABCD )
A. 样本 B. 实例 C. 数据点 D. 对象
29. 解决分类问题的方法包括?( ABCD )
A. 决策树 B. 贝叶斯 C. 人工神经网络 D. 支持向量机
**30. **下列关于聚类的结果说法正确的是( ABCD )
A. 聚类的结果和初始中心的选择有关;
B. 聚类初始中心的选择可能使结果严重分离全局最优分类;
C. 为了得到较好的分类结果,通常以不同的初始聚类中心,多次运行K-Means算法。
D. 对于连续数据,聚类中心取该簇的均值。
31. 分类器的构造与评估需要把标记的数据集划分成训练集和检验集,典型方法包含( ABCD )。
A. 保持 B. 随机抽样 C. 交叉验证 D. 自助法
32. 噪声数据处理的方法主要有( ABD )
A. 分箱 B. 聚类 C. 关联分析 D. 回归
33. 关于L1正则和L2正则 下面的说法正确的是( BD )
A. L2范数可以防止过拟合,提升模型的泛化能力。但L1正则做不到这一点。
B. L2正则化标识各个参数的平方的和的开方值。
C. L2正则化有个名称叫“Lasso regularization”
D. L1范数会使权值稀疏。
34. K均值聚类分析在下面哪种情况下无法得出好的结果?( ABCD )
A. 具有异常值的数据点 B. 具有不同密度的数据点
C. 具有非环形的数据点 D. 具有非凹形的数据点
**35. **交叉验证(Cross Validation)的主要方法( ABC )
A. 简单交叉验证 B. k-折交叉验证(k-fold Cross-Validation)
C. 留一交叉验证(Leave-one-out Cross Validation) D. 奥卡姆剃刀原理
36. 组合方法可以通过学习和组合一系列个体(基)分类器模型来提高总体准确率.主要的组合方法有( ABC )。
A. 装袋 B. 提升 C. 随机森林 D. 阈值移动
37. 数据挖掘的挖掘方法包括:( ABCD )
A. 聚类分析 B. 回归分析 C. 神经网络 D. 决策树算法
**38. **评估分类器预测能力的度量包括( ABCDE )
A. 准确率 B. 灵敏度(又称为召回率) C. 特效性 D. 精度 E. F1和Fβ
39. 以下属于分类器评价或比较尺度的有?( ACD )
A. 准确率 B. 召回率 C. 模型描述的简洁度 D. 计算复杂度
40. 特征选择可以?( ABC )
A. 选择区分能力强的数据 B. 降低模型分析的时间复杂度
C. 减少无效特征 D. 创建新的特征
41. 簇评估的主要任务是( ABCDE )
A. 确定数据集的聚类趋势 B. 确定正确的簇个数
C. 不引用附加的信息,评估聚类分析结果对数据的拟合情况
D. 将聚类分析结果与已知的客观结果比较 E. 比较两个簇集,确定哪个更好
42. 数据预处理方法主要有?( ABCD )
A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约
43. 以下属于聚类算法的有( AB )
A. K-Means B. DBSCAN C. Apriori D. KNN
44. 对于数据挖掘中的原始数据,存在的问题有?( ABCD )
A. 不一致 B. 重复 C. 不完整 D. 含噪声
三. 判断题
**1. **知识发现(KDD-Knowledge-Discovery in Databases)是从数据中发现有用知识的整个过程。数据挖掘(DM-Data Mining是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns)。(对)
**4. **知识发现(KDD)包含数据准备、数据挖掘、结果评价三个阶段。(对)
**6. **事务型数据库由文件组成,文件包括若干记录,每条记录代表一个事物,每个事物由一些项组成。(对)
**9. **回归分析法即将具有相关关系的两个变量之间的数量关系进行测定,通过建立一个数学表达式进行统计估计和预测的研究。( 对 )
**10. **分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是是连续值。( 对 )
**11. **回归和分类都是有监督学习问题。( 对 )
**13. **回归问题和分类问题都有可能发生过拟合。( 对 )
15. 一般来说,回归不用在分类问题上,但是也有特殊情况,比如logistic 回归可以用来解决0/1分类问题。( 对 )
**16. **K-Means方法是基于划分的聚类方法;(对)
**17. **回归和分类都是有监督学习问题。(对)
19. K-Means的计算性能瓶颈发生在距离的计算上。(对)
20. K均值聚类时,初始化不良会导致收敛速度差。(对)
22. DBSCAN方法是基于密度的聚类方法;(对)
**24. **决策树可以用来执行聚类。 (对)
25. K均值聚类时,K均值对簇中心初始化非常敏感。(对)
**2. **事务型数据库就是关系型数据库。(错)
**3. **聚类分析是一种有监督的学习方法。(错)
**5. **知识发现的原始数据,可以是结构化的,如数据库中的数据; 也可以是半结构化的,如文本、图形和图像数据;但不能是异构型数据。(错)
**7. **在聚类分析中,样本之间的相似性通常采用样本之间的距离来表示。当两个样本之间的距离为零时,表示两个样本完全不同。(错)
**8. **回归方程总体线性显著性检验的原假设是模型中所有的回归参数同时为零。( 错 )
**12. **对回归问题和分类问题的评价 最常用的指标都是 准确率和召回率。( 错 )
14. 输出变量为有限个离散变量的预测问题是回归问题;输出变量为连续变量的预测问题是分类问题( 错 )
18. K-Means聚类分析使用目标字段,预测某一结果。(错)
**21. **数据挖掘就是知识发现的过程。(错) 数据库知识发现(KDD)中的一个步骤
**23. **在聚类分析中,样本之间的相似性通常采用样本之间的距离来表示。当两个样本之间的距离为零时,表示两个样本完全不同。(错)
版权归原作者 小步调LLY 所有, 如有侵权,请联系我们删除。