0


通俗大白话讲大数据(新手筑基篇,中国移动实习)

前情提要:新手向口吻描述,接受各位大佬在评论区指正

1.技术分类

数据采集传输:Flume、kafka、datax,maxwell,sqoop,logstash
数据存储:mysql、hdfs、hbase、redis、mongodb
数据计算:hive、spark、flink、storm、tez
数据查询:presto、kylin、impala、druid、clickhouse、doris
数据可视化:superset、echarts、quickbi、powerBI、AJ-Report
任务调度:dolphinscheduler、azkabanoozie、airflow
集群监控:zabbix、prometheus
元数据管理:atlas
权限管理:ranger、sentry

放两个框架图镇压一下bug

2.通俗解释

hadoop-框架

简单来讲,hadoop就是一个容纳各种组件的框架

kafka-消息队列

kafka就是一个消息缓存队列,辅助增量同步

比较Flume、datax,maxwell这三种数据传输工具

maxwell:用于读取MySQL的binlog(二进制日志),并将其解析为JSON格式,然后输出到Kafka、RabbitMQ等消息队列中。

Flume:用于高效地收集、聚合和移动大量日志数据。它支持在日志系统中定制和配置数据源、数据接收器以及数据通道。

增量同步的一种实现

maxwell+kafka+flume搭配实现了增量同步(数据库的知识)

全量同步的一种实现

DataX:适用于需要定期或不定期进行异构数据源之间数据同步的场景,如数据迁移、数据备份等,支持离线操作,实现全量同步

Hive-数仓和HDFS一种特殊的存储方式

hive可以看作是特殊的mysql?

Hive是建立在Hadoop之上的数据仓库工具,而HDFS作为Hadoop的分布式文件系统,为Hive提供了底层的数据存储支持。Hive不直接存储数据,而是将数据存储在HDFS上,利用HDFS的高可靠性和高可扩展性来存储和管理大规模数据集。

数仓分层-是一种思想理念,类似springboot分层

ODS(接收数据)-DWD(数据清洗)-DWS(接口级别的应用)-ADS(应用)

ODS层是数据仓库的第一层,主要用来接收和存储数据源系统中的数据,同时保证数据的准确性和完整性。ODS层对数据进行简单的清洗、去重、格式转换等操作,为后续的数据处理提供基础数据。

DWD层是数据处理的核心层,其主要任务是将ODS层中的数据进行清洗、加工、集成、聚合等操作,构建出符合业务需求的数据模型。DWD层主要关注业务模型的建立,为后续决策层提供精细化数据支持。

DWS层是面向业务应用的数据访问层,主要用于提供数据接口和数据服务。它可以提供各种类型的服务,如数据查询、统计、报表、分析等,同时可以通过ETL(Extract, Transform, Load)操作等方式对数据进行加工和处理,为用户提供实时数据服务。

ADS是面向多维分析和决策支持的数据存储区域,主要用于提供高性能的数据查询和分析服务。它通常采用优化的数据模型和索引结构,以支持复杂的多维分析、数据挖掘和报表查询。

为什么数据要从mysql传到hive,最后又从hive读到mysql

主要从查询性能数据分析处理性能两个角度考虑

MySQL等关系型数据库采用了更为高效的索引和数据存储机制(如B+树索引),这使得它们能够更快地响应查询请求,特别是在处理结构化数据的查询和分析时。

Hive的强项:Hive在处理大规模数据集时具有优势,尤其是在进行批量数据分析和挖掘时。所以,这些分析结果往往需要被进一步处理或用于其他系统(如MySQL)中的实时查询和分析。

Hadoop集群部署安装:

https://blog.51cto.com/u_16099165/6699494

Zookeeper集群部署安装:

https://www.jianshu.com/p/bbd7942c6615

Kafka集群部署安装:

Centos7安装kafka_2.12-3.0.0集群 - 简书

Hive部署安装:

https://blog.51cto.com/u_16099238/6841717

配置网关,静态ip可以看看

超级无敌详细使用ubuntu搭建hadoop完全分布式集群_ubuntu搭建hadoop集群-CSDN博客

ssh

ssh-keygen -t rsa //生成

cat id_rsa.pub >> authorized_keys //追加

scp

  • scp:scp在传输文件时采用全量复制的方式,即每次都会复制整个文件,无论文件是否已存在于目标位置。这种方式在传输小文件时可能效率较高,但在传输大文件或目录时,可能会导致传输速度较慢,并占用更多的网络带宽。
  • rsync:rsync通过差异传输来更新文件,只传输源和目标之间的不同之处。这种方式在传输大文件或目录时效率更高,因为它避免了重复传输未更改的数据。此外,rsync还使用较少的网络带宽,因为它仅传输文件的更改部分。

可视化工具

poweBI-增强版excel

AJ-Report

附上地址:https://gitee.com/anji-plus/report/releases

就是导入数据源,然后sql语句一下,报表拖动一下,数据源用一下

3.总结

整个数据流过程

mysql -> (maxwell->kafka->flume)or(Maxwell全量同步)->Hive ->DataX-> mysql -> 可视化

标签: 大数据 hadoop hive

本文转载自: https://blog.csdn.net/m0_62775341/article/details/140535453
版权归原作者 m0_62775341 所有, 如有侵权,请联系我们删除。

“通俗大白话讲大数据(新手筑基篇,中国移动实习)”的评论:

还没有评论