day01-大数据概述

一、大数据定义

大数据（big data）：无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合

大数据的数据量：1PB~~1EB <=> 1024TB~~1024*1024TB

大数据技术的任务：解决海量数据存储和计算问题

海量数据存储 - hadoop的HDFS
海量数据计算 - hadoop的MapReduce

二、大数据特点

大数据特点

三、大数据开发流程

需求分析 - 数据分析师，根据公司的业务，提出分析需求

架构设计（没几年经验干不了这个） - 架构师完成对项目总体设计，形成设计文档- 技术架构 - 选择哪些技术进行大数据开发- 分层架构 - 大数据具体表的设计及开发内容设计

环境搭建（我觉得这个比较人性化，省了不少配置环境的时间） - 大数据运维工程师- 负责搭建部署开发环境

大数据开发（说的好听点叫程序员，说的不好听就是码农） - 根据设计好的文档进行代码实现

大数据测试 - 测试开发的代码是否正确

上线部署 - 部署开发好的代码

数据展示（BI报表） - 对计算的结果进行可视化展示

四、大数据就业方向

数据分析师 - 提出数据分析需求

架构师 - 架构设计- 是公司的技术核心

大数据运维工程师 - 环境搭建- 上线部署

大数据开发工程师 - 数据的处理方向划分 - 离线开发工程师- 实时开发工程师- 从使用技术方向划分 - Flink开发工程师 - flink在实时开发中使用 Spark开发工程师- 在离线开发中使用 ETL开发工程师

大数据测试 - hiveSQL - 测试sql代码

BI报表开发工程师 - 数据展示，制作数据大屏

五、大数据技术方向

数据采集 - 采集各类数据，存储到大数据的数仓中- sqooq- kettle- flume- datax
数据存储 - Hadoop的HDFS- kafka 消息队列- hbase- 数据库 mysql、postgresql- ES 搜索引擎
数据计算 - hadoop的MapReduce- Spark- Flink
数据查询工具 - hive- presto
计算任务的资源调度 - hadoop的yarn- mesos- standalone
计算任务的定时执行 - 针对每天有新增数据需要每天定时执行代码- oozie- DS
数据的展示 - FineBI- superset- powerBI- pyearchs
新增数据需要每天定时执行代码 - oozie- DS
数据的展示 - FineBI- superset- powerBI- pyearchs

标签：大数据单例模式

本文转载自: https://blog.csdn.net/sxwwudi/article/details/142149035
版权归原作者 萌神想 所有，如有侵权，请联系我们删除。

day01-大数据概述

day01-大数据概述

一、大数据定义

二、大数据特点

三、大数据开发流程

四、大数据就业方向

五、大数据技术方向

发表评论

“day01-大数据概述”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航