0


数据挖掘复习要点整理

复习要点: 回归课本

个人总结仅供参考

复习要点:回归课本

简答题:

1. Apriori算法主要步骤:

(1) 扫描全部数据,产生候选1-项集的集合C1.
(2) 根据最小支持度,由候选1-项集的集合C1产生频繁1-项集的集合L1
(3) 对k>1重复执行步骤4,5,6.
(4) 由LK执行连接和剪枝操作,产生候选(k+1)-项集的集合Ck+1
(5) 根据最小支持度,由候选(k+1)-项集的集合Ck+1 ,产生频繁(k+1)-项集的集合Lk+1
(6) 若L≠Ø,则k=k+1,跳往步骤,否则,跳往步骤7
(7) 根据最小置信度,由频繁项集产生强关联规则,结束。
在这里插入图片描述

2.数据挖掘流程

数据采集:爬虫
数据预处理:数据清洗
数据建模:算法
数据可视化:以图形方式显出
模型评估:准确率,RMSE等

3.数据预处理

数据清洗:填充缺失值,光滑噪声数据
数据集成:多个数据源中的数据存放到一个一致的数据存储中
数据转换:数据转换成适合于挖掘的形式
数据规约:数据立方体聚集,堆规约,数据压缩,数值规约,数据离散化与概念分层

4.信息熵

0稳定1最混乱
信息熵越大样本的混杂程序越大。
公式:

在这里插入图片描述

5.K-Means 聚类算法

基本思想:

1.指定需要划分的簇的个数K值
2.随机选择K个初始数据对象点作为初始的聚类中心
3.计算其余的各个数据对象到这K个初始聚类中心的距离,把对象划归为距离它最近的那个中心所处的簇类中。
4.调整新类并重新计算出新类的中心
5.如果两次计算出的聚类中心未曾发生任何变化,结束。否则重复步骤3,4

工作步骤:

输入:初始数据集DATA和簇的数目K
输出:K个簇,满足平方误差准测的函数收敛
(1) 任意选择K个数据对象作为初始聚类中心。
(2) Repeat
(3) 根据簇中的对象的平均值,将每个对象赋给最类似的簇
(4) 更新簇的平均值,即计算每个对象簇中的对象的平均值。
(5) 计算聚类准则函数E。
(6) Until准则函数E值不在变化。

计算题

1.朴素贝叶斯

记住公式,简简单单计算一下就好了。

2.BP神经网络

优慕课第八周第7个视频

在这里插入图片描述

3.Apriori算法

课本P38例题看懂即可

4.代码分析

代码分析题

复习要点:回归课本

个人总结如有错误记得评论区补充奥~


本文转载自: https://blog.csdn.net/m0_46381590/article/details/122145992
版权归原作者 天天向前张同学 所有, 如有侵权,请联系我们删除。

“数据挖掘复习要点整理”的评论:

还没有评论