数据挖掘期末复习-作业（简答）

作业

１、数据挖掘的定义?

数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中，提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。

２、数据挖掘主要有哪些技术方向？

答：数据挖掘的技术可分为：统计方法、机器学习方法、神经网络方法、数据库方法。

３、简述数据挖掘的过程？

（1）数据采集　（２）特征提取和数据清洗　（３）分析处理和算法

４、数据预处理的主要任务？

（１）数据清洗：填补缺失值 | 平滑噪音数据 | 识别并移除异常值和噪音数据 | 解决不一致性 | 解决数据整合后带来的冗余；

（２）数据整合：集成多个数据库或多个文件；

（３）数据转换：正则化 | 聚合化；

（３）数据缩成：提取有特征化的数据，减少数据量，并能够产生相同或相似的分析结果；

（４）数据离散：对某些数值型数据有时需要

５、简述高维数据的可视化方法？

高维数据可视化：箱线图和平行坐标图

６、PCA（主成分分析）和LDA（线性判别分析）的异同点？
相同点：两者均可以对数据进行降维；都属于特征提取；两者在降维时均使用了矩阵特征分解的思想；两者都假设数据符合高斯分布。

不同点：
（1）LDA是有监督的降维方法，PCA是无监督的。

（2）LDA降维最多降到类别数K-1的维数，PCA没有这个限制。

（3）LDA选择分类性能最好的投影方向，PCA选择数据最大分差的方向。

（4）LDA可能会过拟合数据。

７、数据规范化的方法和公式？

（1）极值标准化：

(2)Z-Score 规范化:

８、特征提取和特征选择的区别？
特征提取的方法主要是通过属性间的关系，如组合不同的属性得到新的属性，这样就改变了原来的特征空间。特征选择的方法是从原始特征数据集中选择出子集，是一种包含的关系，没有更改原始的特征空间。

９、属性间相关联系分析方法和公式？

（１）皮尔森相关性

（2）卡方检验

１０、ID３的优点？缺点？

缺点：

只考虑分类的特征，没有考虑连续特征
对缺失值没有考虑
没有考虑拟合问题
划分过程会由于子集规模过大而造成统计特征不充分而停止

优点：理论清晰，方法简单，学习能力较强

１１、Ｃ４.５算法基于ID３算法做的改进？
改进1:用信息增益率代替信息增益来选择属性

改进2:能够完成对连续值属性的离散化处理
改进3∶能处理属性值缺失的情况
改进4:在决策树构造完成之后进行剪枝

１３、什么是频繁项集？性质？

频繁项集是指支持度大于等于最小支持度(min_sup)的集合。

性质1：频繁项集的子集必为频繁项集

性质2：非频繁项集的超集一定是非频繁的

１４、APRIORI算法的核心及思想？

核心：生成所有频繁项集。

思想：逐级搜索，先找出长度最大的频繁项集，接着找出长度为２的频繁项集，以此类推：Ｌ１＝＞Ｃ２＝＞Ｌ２＝＞Ｃ３．．．．．

１５、APRIORI算法的不足之处？

（ 1 ）可能产生庞大的候选集。
（２）算法需多次遍历数据集，算法效率低，耗时。

１６、聚类对算法的基本要求？

高的簇内相似性，低的簇间相似性

１７、什么是相似性度量？

相似性度量，即综合评定两个事物之间相近程度的一种度量。

（1）对称的二值离散型

简单匹配方法

SMC=（b+c）/（a+b+c+d）

不对称的二值离散属性（Jaccard系数）

JC=（b+c）/(a+b+c)

（2）多值离散型

简单匹配法

18、缺失值处理？

（ 1 ）人工填写（２）特殊值填充

（３）平均值填充（４）使用最有可能的值填充

１9、请描述 K 均值(K-Means)算法的核心思想？

（１）随机选择k个对象，每个对象代表一个簇的初始均值或中心

（２）对剩余的每个对象，根据它与簇均值的距离，将他指派到最相似的簇

（３）计算每个簇的新均值

（４）回到步骤2，循环，直到准则函数收敛。

20、为什么要数据预处理?列出三种常用的预处理技术?

答:数据预处理的目的:提供干净、简洁、准确的数据，提高挖掘效率和准确性。
预处理技术:数据清理、数据集成、数据变换、数据归约、数据离散化。
①数据清理:数据是不完整的、有噪声的、不一致的（填充缺失值、去除噪声并识别离散点、纠正数据中的不
致值)
②数据集成(聚合）︰对数据进行聚合，将两个或多个数据源的数据，存放在一个一致的数据存储设备中。
③数据变换:将数据转换成适合于挖掘的形式。(平滑、聚集、数据泛化、规范化、数据离散化)
④数据归约:包含抽样、特征选择。

21、噪声数据的平滑方法？

(1)分箱:
第一步:数据被分为n个等深箱
第二步:使用平均值或者边界平滑
箱越深、宽度越大，平滑效果越好。
(2)聚类:删除离群点
(3)回归:找适合的函数

22、什么是监督学习?与无监督学习的区别是?什么是训练集与检验集?

在机器学习领域，分类称做监督学习，因为给定了类标号信息，即学习算法是监督的，因为它被告知每个训练元组的类隶属关系。

聚类被称做无监督学习，因为没有提供类标号信息。

训练集由数据元组和与它们相关的类标号组成，检验集由检验元组和与它们相关联的类标号组成。

标签：数据挖掘人工智能

本文转载自: https://blog.csdn.net/m0_61640468/article/details/128248320
版权归原作者 小黎不爱.. 所有，如有侵权，请联系我们删除。

数据挖掘期末复习-作业（简答）

发表评论

“数据挖掘期末复习-作业（简答）”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航