最花费时间的数据预处理环节
数据挖掘会大量应用人工智能工具。
如决策树:细分问题。聚类、回归分析等。
数据分析更侧重数据展示。将趋势或一些其他内容呈现出来。
数据可视化就是将结果美观的展示出来,需要吸引眼球。(感觉说的是美工或者原型制作那种)
数据汇报:1、现状,2、对比,3、构成,4、趋势,5、原因,6、预测,7、建议
数据分析思维和方法
5W2H分析方法:通过设问题抛出问题,在尝试回答从而分析问题的方法。what、when、where、why、who。how、how much
逻辑树分析法:将复杂问题分解成子集,寻求简单解法。
对比分析法:广泛寻找不同维度,在不同维度上进行数据对比的办法。
假设分析法:万物先假设,尝试验证,通过验证结果分析问题。
GIGO原则(Garbage In GARbage Out) 为了保证分析结果正确
脏数据:不能为分析目标产生价值的数据成为脏数据;空缺值、无意义值、噪声数据。
数据质量六要素:完整性、唯一性、及时性(年龄、手机号码)、有效性(不符合格式)、准确性(符合格式内容错误)、一致性。
数据清洗保证数据质量
常见数据清洗方法:
编程法
excel法常用函数和查找替换(VLOOKUP,COUNTIFS)
Excel手动计算填充(平均数、中位数、众数,默认值填充;AVERAGE、MEDIAN、MODE)
中位数:员工的工资代表性
平均数:各个班级(门店)的平均成绩
众数:学历、评级等离散型数据的统计需求
按照计算量付费
QuickBI云上数据可视化分析
实验步骤
创建资源
打开账户
使用dataworks大数据开发治理平台管理MaxCompute功能
CREATE TABLE city_top as SELECT city_name, COUNT(ttext_id) as tempnum FROM `ttext` GROUP BY city_name ORDER BY tempnum desc limit 10
SQL解释:该SQL会查询各个城市各有多少条推文数量,并降序显示前十名的城市和推文数量,最后
把查询的前十名数据存储到一个叫做city_top的表中,便于下一步做可视化。
CREATE TABLE gender_num as SELECT `gender` , COUNT(gender) as tempnum FROM `ttext` GROUP BY `gender`
按照性别分别查询男女的推文数量,并存储到gender_num的表中,便于下一步做可视化。
CREATE TABLE age_num as SELECT user_age
, COUNT(user_age) FROM ttext
GROUP BY user_age
ORDER BY user_age
LIMIT 100
按照年龄分组查询各个年龄的用户总数,并按照年龄排序,最后存储到age_num的表中,便于下一步做可视化。
版权归原作者 考拉树 所有, 如有侵权,请联系我们删除。