0


Apsara Clouder大数据专项技能认证:基于MaxCompute的热门话题分析

最花费时间的数据预处理环节

数据挖掘会大量应用人工智能工具。

如决策树:细分问题。聚类、回归分析等。

数据分析更侧重数据展示。将趋势或一些其他内容呈现出来。

数据可视化就是将结果美观的展示出来,需要吸引眼球。(感觉说的是美工或者原型制作那种)

数据汇报:1、现状,2、对比,3、构成,4、趋势,5、原因,6、预测,7、建议

数据分析思维和方法

5W2H分析方法:通过设问题抛出问题,在尝试回答从而分析问题的方法。what、when、where、why、who。how、how much

逻辑树分析法:将复杂问题分解成子集,寻求简单解法。

对比分析法:广泛寻找不同维度,在不同维度上进行数据对比的办法。

假设分析法:万物先假设,尝试验证,通过验证结果分析问题。

GIGO原则(Garbage In GARbage Out) 为了保证分析结果正确

脏数据:不能为分析目标产生价值的数据成为脏数据;空缺值、无意义值、噪声数据。

数据质量六要素:完整性、唯一性、及时性(年龄、手机号码)、有效性(不符合格式)、准确性(符合格式内容错误)、一致性。

数据清洗保证数据质量

常见数据清洗方法:

编程法

excel法常用函数和查找替换(VLOOKUP,COUNTIFS)

Excel手动计算填充(平均数、中位数、众数,默认值填充;AVERAGE、MEDIAN、MODE)

中位数:员工的工资代表性

平均数:各个班级(门店)的平均成绩

众数:学历、评级等离散型数据的统计需求

按照计算量付费

QuickBI云上数据可视化分析

实验步骤

  1. 创建资源

  2. 打开账户

  3. 使用dataworks大数据开发治理平台管理MaxCompute功能

CREATE TABLE city_top as SELECT city_name, COUNT(ttext_id) as tempnum FROM `ttext` GROUP BY city_name ORDER BY tempnum desc limit 10

SQL解释:该SQL会查询各个城市各有多少条推文数量,并降序显示前十名的城市和推文数量,最后

把查询的前十名数据存储到一个叫做city_top的表中,便于下一步做可视化。

CREATE TABLE gender_num as SELECT `gender` , COUNT(gender) as tempnum FROM `ttext` GROUP BY `gender`

按照性别分别查询男女的推文数量,并存储到gender_num的表中,便于下一步做可视化。

CREATE TABLE age_num as SELECT user_age , COUNT(user_age) FROM ttext GROUP BY user_age ORDER BY user_age LIMIT 100

按照年龄分组查询各个年龄的用户总数,并按照年龄排序,最后存储到age_num的表中,便于下一步做可视化。

标签: sql

本文转载自: https://blog.csdn.net/qq_24583573/article/details/129267307
版权归原作者 考拉树 所有, 如有侵权,请联系我们删除。

“Apsara Clouder大数据专项技能认证:基于MaxCompute的热门话题分析”的评论:

还没有评论