前言
写给刚入学或迷茫在为几两碎银转行的你。可能你并不了解大数据,只是在选择专业时,听亲人朋友说了一句”选择大数据吧,现在很火“;只是听到身边的人说,大数据“工资高“. . . . . .,然后你糊里糊涂选择了大数据。那本篇就从生活的体现出发,告知生活中的大数据。从企业的角度,看待大数据技术的用途。当从你要踏入大数据行业的时候,你有没有想过你要怎么计划去学习呢?
** 关注公众号【大数据左右手】,和我一起学习吧!**
为什么需要大数据技术
大数据时代已经来临。大数据是众多数据信息的集合,随着社会的发展,我们周围的数据信息越来越多,一切的信息都可以变成数据。仅仅是通过我们人脑从这些数字中找到你想要的东西,是人力所不能及的。而大数据技术就是为了解决这个问题而产生的,通过大数据技术,把这些数据信息进行分类处理,然后把我们所需的数据信息呈现给我们。就像工业革命的成功,用机器代替人的手一样的逻辑,为我们查找数据信息带来了很大的便利。
大数据在生活的体现
在购物网站上浏览物品,看了好多同类的商品,唉,发现没有喜欢的,犹豫半天关掉购物app。有点累,去短视频网站刷刷视频。刷了一会儿,跳出一个广告,正是你近期需要买的品种。有没有反思,短视频网站怎么推广告这么精准。这就是大数据的用户数据分析。
某些平台使用的智能客服机器人,就是利用大数据,借助深度学习训练出来的。
在刷刷d音过程中,我对吃播视频感兴趣,然后,下一个,下再一个,大概率就是吃吃吃的视频。
买机票、订外卖、订酒店等等在线业务,早已经成为消费者不缺或少的部分。前段时间的报道,北京的韩女士使用手机在某电商平台购物时,中途错用了另一部手机结账,却意外发现,同一商家的同样一件商品,价格贵了25块钱。啧啧啧,这是大数据不好的一面,也就是所谓的大数据“杀熟”。
大多数银行都使用这些大数据来识别身份盗用。例如,如果一个工薪阶层在月初只是小额支出,但突然间银行发现消费激增,数额庞大,那么该银行就会知道情况正在恶化。他们可能会与客户联系,询问有关最近的购买交易的信息,以确定客户的卡是否被盗并需要冻结。
佩戴健康手表等设备可以监控日常活动和睡眠。一个保持健康和健康的好方法。大数据与技术相结合可以改变我们的生活方式,帮助我们自己追踪免疫力,以确保我们保持健康的习惯来抵抗冠状病毒大流行。
你也一定在公众号中/朋友圈看到一些广告,提示你一下,你看到的广告和别人看到的广告有所不同,这就是你的习惯被大数据分析所记录。
大数据对金融安全,生命健康,生活娱乐,物流,教育上对我们的影响已经越来越重要。
大数据对企业的决策
企业在重视获取大数据的同时,开始意识到要抓住大数据的机会并从中获取商业价值,需要使用先进的分析方法。从前我们通过对市场、行业和业务洞见来分析市场形势。
大数据分析是全量数据,精准体现数据价值。但是,我们还需要引入新的技术来提升解读数据价值的能力,比如机器学习和预测能力。
在数据的搜集和处理过程中,建立数据属性标签。我们常把数据属性标签比喻成脸谱勾画。就是所谓的用户画像。它就是根据用户的目标、行为和观点的差异,将他们区 分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照片、一些人口统计学要素、 场景等描述,形成了一个人物原型。所有它可以很精准的为你达到你的需求。
大数据风险控制,企业可以通过运用大数据构建模型的方法对用户进行风险控制和风险提示。
等等......以后可以慢慢了解。
大数据就业前景
未来的时代将不是IT时代,而是DT的时代。我国人口基数庞大,随着生活水平的提高和信息科技的发展。任何一个行业的数据量达到惊人的增长。随着数字中国建设的推进,各行业的数据资源、应用能力不断提升,将会导致更快更多的数据积累。所有,对当前和可预见的未来来看,社会对大数据人才的需求量还是非常之大的。
大数据方面的就业主要有三大方向
(1)数据分析类
(2)系统研发类
(3)应用开发类
需求之大,而不是什么人都要,所有你还要好好学习,提高技能水平来应对计算机类工作的“卷”。
大数据团队干什么工作
注:图中内容不一概而全,只是列举
数据采集
业务数据和用户行为数据的采集到大数据平台。
用的框架:datax/sqoop,flume等等(列举框架只是举例,以下也是)
数据清洗
原始数据中如果夹杂着大量的不要的特殊字或者脏数据,会在我们筛选数据或统计时带来一定麻烦。
人工录入或者数据爬虫等多方面的原因,会出现缺失值的情况,这就需要我们寻找,去做特殊处理。
有些数据需要脱敏处理。电话,身份证号,等等信息。
数据存储
清洗后的数据可以落地入到数据仓库。对于数据仓库是重点,一般会采取多层处理去存储。
用到的框架:hive,hbase,es,hadoop,clickhouse或者kafka
数据分析
有了上层的数据后,不管是实时处理数据,或者批处理数据。这个时候明确业务需求或产品需要进行计算,推荐,用户画像标签,风控,更或者为人工智能做数据准确度的训练等等
用到的框架:hive,即席查询框架(kylin,impala等等),spark,flink......
数据展示
用数据表格、数据图等直观的形式展示上游数据计算分析统计的数据。
用到的大多数的web的一些东西:公司内部的web大屏,supset,帆软等等
参考图一张
学习路线(只是列举主要部分)
第一阶段
- Java先行
- Mysql
- JDBC
第二阶段Hadoop生态
- Maven
- Linux
- Shell
- Hadoop
- Zookeeper
- Hive
- Flume
- Kafka
- Spark
第三阶段
数仓整体流程(项目)
第四阶段 Flink(推荐)
- Flink
- FlinkSQL
- Clickhouse
第五阶段
实时整体流程(项目)
对于上面学习路线,只是简化版。有人说,看了大学科目安排,还要学数据结构,数据库概论等等,我还要不要学?告诉你:学,当然要学,非常重要。对于转行的,可能时间很仓促,所以先有侧重点,然后多学习没坏处。
版权归原作者 大数据左右手 所有, 如有侵权,请联系我们删除。