作业
1、数据挖掘的定义?
数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。
2、数据挖掘主要有哪些技术方向?
答:数据挖掘的技术可分为:统计方法、机器学习方法、神经网络方法、数据库方法。
3、简述数据挖掘的过程?
(1)数据采集 (2)特征提取和数据清洗 (3)分析处理和算法
4、数据预处理的主要任务?
(1)数据清洗:填补缺失值 | 平滑噪音数据 | 识别并移除异常值和噪音数据 | 解决不一致性 | 解决数据整合后带来的冗余;
(2) 数据整合:集成多个数据库或多个文件;
(3) 数据转换:正则化 | 聚合化;
(3)数据缩成:提取有特征化的数据,减少数据量,并能够产生相同或相似的分析结果;
(4) 数据离散:对某些数值型数据有时需要
5、简述高维数据的可视化方法?
高维数据可视化:箱线图和平行坐标图
6、PCA(主成分分析)和LDA(线性判别分析)的异同点?
相同点:两者均可以对数据进行降维;都属于特征提取;两者在降维时均使用了矩阵特征分解的思想;两者都假设数据符合高斯分布。
不同点:
(1)LDA是有监督的降维方法,PCA是无监督的。
(2)LDA降维最多降到类别数K-1的维数,PCA没有这个限制。
(3)LDA选择分类性能最好的投影方向,PCA选择数据最大分差的方向。
(4)LDA可能会过拟合数据。
7、数据规范化的方法和公式?
(1)极值标准化:
(2)Z-Score 规范化:
8、特征提取和特征选择的区别?
特征提取的方法主要是通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间。特征选择的方法是从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间。
9、属性间相关联系分析方法和公式?
(1)皮尔森相关性
(2)卡方检验
10、ID3的优点?缺点?
缺点:
- 只考虑分类的特征,没有考虑连续特征
- 对缺失值没有考虑
- 没有考虑拟合问题
- 划分过程会由于子集规模过大而造成统计特征不充分而停止
优点:理论清晰,方法简单,学习能力较强
11、C4.5算法基于ID3算法做的改进?
改进1:用信息增益率代替信息增益来选择属性
改进2:能够完成对连续值属性的离散化处理
改进3∶能处理属性值缺失的情况
改进4:在决策树构造完成之后进行剪枝
13、什么是频繁项集?性质?
频繁项集是指支持度大于等于最小支持度(min_sup)的集合。
性质1:频繁项集的子集必为频繁项集
性质2:非频繁项集的超集一定是非频繁的
14、APRIORI算法的核心及思想?
核心:生成所有频繁项集。
思想:逐级搜索,先找出长度最大的频繁项集,接着找出长度为2的频繁项集,以此类推:L1=>C2=>L2=>C3.....
15、APRIORI算法的不足之处?
( 1 )可能产生庞大的候选集。
(2)算法需多次遍历数据集,算法效率低,耗时。
16、聚类对算法的基本要求?
高的簇内相似性,低的簇间相似性
17、什么是相似性度量?
相似性度量,即综合评定两个事物之间相近程度的一种度量。
(1)对称的二值离散型
简单匹配方法
SMC=(b+c)/(a+b+c+d)
不对称的二值离散属性(Jaccard系数)
JC=(b+c)/(a+b+c)
(2)多值离散型
简单匹配法
18、缺失值处理?
( 1 )人工填写(2)特殊值填充
(3)平均值填充(4)使用最有可能的值填充
19、请描述 K 均值(K-Means)算法的核心思想?
(1)随机选择k个对象,每个对象代表一个簇的初始均值或中心
(2)对剩余的每个对象,根据它与簇均值的距离,将他指派到最相似的簇
(3)计算每个簇的新均值
(4)回到步骤2,循环,直到准则函数收敛。
20、为什么要数据预处理?列出三种常用的预处理技术?
答:数据预处理的目的:提供干净、简洁、准确的数据,提高挖掘效率和准确性。
预处理技术:数据清理、数据集成、数据变换、数据归约、数据离散化。
①数据清理:数据是不完整的、有噪声的、不一致的(填充缺失值、去除噪声并识别离散点、纠正数据中的不
致值)
②数据集成(聚合)︰对数据进行聚合,将两个或多个数据源的数据,存放在一个一致的数据存储设备中。
③数据变换:将数据转换成适合于挖掘的形式。(平滑、聚集、数据泛化、规范化、数据离散化)
④数据归约:包含抽样、特征选择。
21、噪声数据的平滑方法?
(1)分箱:
第一步:数据被分为n个等深箱
第二步:使用平均值或者边界平滑
箱越深、宽度越大,平滑效果越好。
(2)聚类:删除离群点
(3)回归:找适合的函数
22、什么是监督学习?与无监督学习的区别是?什么是训练集与检验集?
在机器学习领域,分类称做监督学习,因为给定了类标号信息,即学习算法是监督的,因为它被告知每个训练元组的类隶属关系。
聚类被称做无监督学习,因为没有提供类标号信息。
训练集由数据元组和与它们相关的类标号组成,检验集由检验元组和与它们相关联的类标号组成。
版权归原作者 小黎不爱.. 所有, 如有侵权,请联系我们删除。