day01-大数据概述
一、大数据定义
大数据(big data):无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合
大数据的数据量:1PB1EB <=> 1024TB1024*1024TB
大数据技术的任务:解决海量数据存储和计算问题
- 海量数据存储 - hadoop的HDFS
- 海量数据计算 - hadoop的MapReduce
二、大数据特点

三、大数据开发流程
- 需求分析 - 数据分析师,根据公司的业务,提出分析需求
- 架构设计(没几年经验干不了这个) - 架构师完成对项目总体设计,形成设计文档- 技术架构 - 选择哪些技术进行大数据开发- 分层架构 - 大数据具体表的设计及开发内容设计
- 环境搭建(我觉得这个比较人性化,省了不少配置环境的时间) - 大数据运维工程师- 负责搭建部署开发环境
- 大数据开发(说的好听点叫程序员,说的不好听就是码农) - 根据设计好的文档进行代码实现
- 大数据测试 - 测试开发的代码是否正确
- 上线部署 - 部署开发好的代码
- 数据展示(BI报表) - 对计算的结果进行可视化展示
四、大数据就业方向
- 数据分析师 - 提出数据分析需求
- 架构师 - 架构设计- 是公司的技术核心
- 大数据运维工程师 - 环境搭建- 上线部署
- 大数据开发工程师 - 数据的处理方向划分 - 离线开发工程师- 实时开发工程师- 从使用技术方向划分 - Flink开发工程师 - flink在实时开发中使用 Spark开发工程师- 在离线开发中使用 ETL开发工程师
- 大数据测试 - hiveSQL - 测试sql代码
- BI报表开发工程师 - 数据展示,制作数据大屏
五、大数据技术方向
- 数据采集 - 采集各类数据,存储到大数据的数仓中-
sqooq- kettle- flume- datax - 数据存储 -
Hadoop的HDFS- kafka 消息队列- hbase- 数据库 mysql、postgresql- ES 搜索引擎 - 数据计算 - hadoop的
MapReduce- Spark- Flink - 数据查询工具 -
hive- presto - 计算任务的资源调度 - hadoop的
yarn- mesos- standalone - 计算任务的定时执行 - 针对每天有新增数据需要每天定时执行代码- oozie- DS
- 数据的展示 -
FineBI- superset- powerBI- pyearchs - 新增数据需要每天定时执行代码 - oozie- DS
- 数据的展示 -
FineBI- superset- powerBI- pyearchs
本文转载自: https://blog.csdn.net/sxwwudi/article/details/142149035
版权归原作者 萌神想 所有, 如有侵权,请联系我们删除。
版权归原作者 萌神想 所有, 如有侵权,请联系我们删除。