0


完整银行大数据hive数仓项目技术方案,基于hadoop生态构建,全网首发(独家)

完整银行大数据hive数仓项目技术方案,基于hadoop生态构建,全网首发(独家)

项目时长

根据项目的复杂度和数据量,预计本项目的时长为6个月,具体的时间安排如下:

  • 项目启动阶段:1个月,主要完成需求分析,数据源接入,数仓分层设计,项目架构搭建等工作。
  • 项目开发阶段:3个月,主要完成数据清洗,数据加工,数据模型构建,数据质量监控等工作。
  • 项目测试阶段:1个月,主要完成数据测试,性能测试,用户验收等工作。
  • 项目上线阶段:1个月,主要完成数据迁移,数据备份,数据恢复,故障处理等工作。

项目架构

本项目的架构如下图所示:

本项目采用了Hadoop生态圈中的多种技术来实现数仓的建设和运维,具体如下:

  • Mysql:用于存储元数据和维度数据,以及部分业务系统的数据源。
  • Sqoop:用于实现Mysql和HDFS之间的数据传输,支持全量和增量导入导出。
  • HDFS:用于存储原始数据和加工后的数据,提供高可用和高容错的分布式文件系统。
  • Hive:用于在HDFS上建立数仓模型,提供类SQL的语法来进行数据查询和分析。
  • Hue:用于提供一个可视化的界面来操作Hive,方便用户编写和执行HiveQL语句。
  • Oozie:用于调度和管理Hive任务的执行流程,支持依赖关系和重试机制。
  • Cloudera Manager:用于监控和管理Hadoop集群的状态和性能,提供友好的Web界面。
  • Yarn:用于管理Hadoop集群的资源和任务调度,支持多种计算框架如MapReduce和Spark。
  • Zookeeper:用于维护Hadoop集群的配置信息和协调信息,保证集群的高可用性。

人员配置

本项目的人员配置如下:

  • 项目经理:1人,负责整个项目的规划,协调,监督和控制。
  • 数据分析师:2人,负责需求分析,数据模型设计,数据质量评估等工作。
  • 数据开发工程师:4人,负责数据清洗,数据加工,数据测试等工作。
  • 数据运维工程师:2人,负责数据迁移,数据备份,数据恢复等工作。

主题开发

本项目根据银行业务的特点和需求,选择了以下几个主题进行开发:

  • 客户主题:包括客户基本信息,客户信用评级,客户风险评估等内容。
  • 账户主题:包括账户基本信息,账户余额变动,账户利息计算等内容。
  • 交易主题:包括交易基本信息,交易类型分类,交易金额统计等内容。
  • 营销主题:包括营销活动信息,营销渠道分类,营销效果评估等内容。

集群规模

根据项目的数据量和性能要求,预计本项目需要的集群规模如下:

  • NameNode节点:2台(一主一备),配置为32核64G内存2T硬盘。
  • DataNode节点:10台,配置为16核32G内存4T硬盘。
  • ResourceManager节点:2台(一主一备),配置为16核32G内存1T硬盘。
  • NodeManager节点:10台,配置为16核32G内存4T硬盘。

项目描述

本项目的目的是为银行业务提供一个基于Hive的数据仓库,实现对海量数据的存储,管理,分析和应用。本项目采用了数仓分层的设计思想,将数据分为原始数据源层,贴源模型层,主题模型层,共性加工层和应用集市层。本项目利用了Hadoop生态圈中的多种技术,如Mysql,Sqoop,HDFS,Hive,Hue,Oozie,Cloudera Manager,Yarn和Zookeeper等,构建了一个高可用,高性能,高扩展的数仓平台。本项目通过开发多个主题模型,如客户主题,账户主题,交易主题和营销主题等,满足了银行业务的多方面的数据需求,为银行业务的决策支持和优化提供了有价值的数据支持。

项目优化

本项目在开发过程中,采用了以下几种方法来优化项目的性能和效果:

  • 数据分区:根据数据的访问频率和特征,对数据进行合理的分区划分,提高数据查询的效率和准确性。
  • 数据压缩:根据数据的类型和特点,选择合适的压缩格式和算法,减少数据的存储空间和网络传输开销。
  • 数据缓存:利用Hive的缓存机制,将经常访问或计算的数据缓存在内存中,避免重复读取或计算。
  • 数据索引:对于部分需要精确查询或过滤的数据字段,创建索引来加速查询过程。
  • 数据倾斜:通过调整数据分布或调节任务并行度等方法,解决数据倾斜问题,提高任务执行的均衡性。

每天要处理的业务量

根据项目的预估数据量和业务规模,预计每天要处理的业务量如下:

  • 活跃人数:约10万人
  • 数据条数:约1000万条
  • 数据大小:约1TB

数据处理流程

  • 数据源接入:本项目的数据源包括多个业务系统的数据库,如客户系统,积分系统,渠道系统等。这些数据库中的数据需要通过Sqoop工具导入到HDFS中,形成原始数据源层。原始数据源层的数据保持了数据源的原始结构和格式,不做任何修改和加工。
  • 数据清洗:在贴源模型层,对原始数据源层的数据进行清洗,主要包括以下几个方面: - 数据格式转换:将不同格式的数据统一为标准的文本格式,如CSV或JSON。- 数据编码转换:将不同编码的数据统一为标准的UTF-8编码。- 数据去重:删除重复的数据记录,保证数据的唯一性。- 数据校验:检查数据是否符合预定义的规则和约束,如数据类型,数据范围,数据完整性等。对不合法的数据进行剔除或修正。- 数据补全:对缺失的数据进行填充或插补,提高数据的完整性。
  • 数据加工:在主题模型层,对贴源模型层的数据进行加工,主要包括以下几个方面: - 数据抽取:根据不同的主题需求,从贴源模型层中抽取相关的数据字段,形成主题模型层的事实表和维度表。- 数据转换:对抽取出来的数据进行必要的转换,如单位转换,数值计算,时间格式化等。- 数据聚合:对抽取出来的数据进行必要的聚合,如求和,求平均,求最大最小等。- 数据加载:将转换和聚合后的数据加载到主题模型层中,形成星型
标签: 大数据 hadoop hive

本文转载自: https://blog.csdn.net/qq1172851433/article/details/132532859
版权归原作者 阿杰学长666 所有, 如有侵权,请联系我们删除。

“完整银行大数据hive数仓项目技术方案,基于hadoop生态构建,全网首发(独家)”的评论:

还没有评论