0


day01-大数据概述

day01-大数据概述

一、大数据定义

大数据(big data):无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合

大数据的数据量:1PB1EB <=> 1024TB1024*1024TB

大数据技术的任务:解决海量数据存储计算问题

  • 海量数据存储 - hadoop的HDFS
  • 海量数据计算 - hadoop的MapReduce

二、大数据特点

大数据特点

三、大数据开发流程

  • 需求分析 - 数据分析师,根据公司的业务,提出分析需求
  • 架构设计(没几年经验干不了这个) - 架构师完成对项目总体设计,形成设计文档- 技术架构 - 选择哪些技术进行大数据开发- 分层架构 - 大数据具体表的设计及开发内容设计
  • 环境搭建(我觉得这个比较人性化,省了不少配置环境的时间) - 大数据运维工程师- 负责搭建部署开发环境
  • 大数据开发(说的好听点叫程序员,说的不好听就是码农) - 根据设计好的文档进行代码实现
  • 大数据测试 - 测试开发的代码是否正确
  • 上线部署 - 部署开发好的代码
  • 数据展示(BI报表) - 对计算的结果进行可视化展示

四、大数据就业方向

  • 数据分析师 - 提出数据分析需求
  • 架构师 - 架构设计- 是公司的技术核心
  • 大数据运维工程师 - 环境搭建- 上线部署
  • 大数据开发工程师 - 数据的处理方向划分 - 离线开发工程师- 实时开发工程师- 从使用技术方向划分 - Flink开发工程师 - flink在实时开发中使用 Spark开发工程师- 在离线开发中使用 ETL开发工程师
  • 大数据测试 - hiveSQL - 测试sql代码
  • BI报表开发工程师 - 数据展示,制作数据大屏

五、大数据技术方向

  • 数据采集 - 采集各类数据,存储到大数据的数仓中- sqooq- kettle- flume- datax
  • 数据存储 - Hadoop的HDFS- kafka 消息队列- hbase- 数据库 mysql、postgresql- ES 搜索引擎
  • 数据计算 - hadoop的MapReduce- Spark- Flink
  • 数据查询工具 - hive- presto
  • 计算任务的资源调度 - hadoop的yarn- mesos- standalone
  • 计算任务的定时执行 - 针对每天有新增数据需要每天定时执行代码- oozie- DS
  • 数据的展示 - FineBI- superset- powerBI- pyearchs
  • 新增数据需要每天定时执行代码 - oozie- DS
  • 数据的展示 - FineBI- superset- powerBI- pyearchs

本文转载自: https://blog.csdn.net/sxwwudi/article/details/142149035
版权归原作者 萌神想 所有, 如有侵权,请联系我们删除。

“day01-大数据概述”的评论:

还没有评论