Hadoop 系列 MapReduce:Map、Shuffle、Reduce
Hadoop 是一个开源的分布式计算框架,专为处理大规模数据而设计。它最初由 Apache 软件基金会开发,能够以经济高效的方式在分布式集群上存储和处理海量数据。Hadoop 的核心组件包括分布式存储(HDFS)和分布式计算(MapReduce),以及一套支持工具。本文将重点探讨分布式计算(MapR
Hadoop(HDFS)
Hadoop是一个开源的分布式系统架构,旨在解决海量数据的存储和计算问题,Hadoop的核心组件包括Hadoop分布式文件系统(HDFS)、MapReduce编程模型和YARN资源管理器,最近需求需要用到HDFS和YARN。
大数据分类分析的详概
大数据的分类分析是一种在大数据环境下广泛应用的数据挖掘和分析技术,旨在将大量复杂的数据按照特定的标准或特征进行分类,以便更好地理解数据的内在结构和规律,为决策提供有力支持。目录前言一,分类的依据1.基于数据的属性2.基于业务需求二,分类的方法1.决策树2.支持向量机3.朴素贝叶斯三,分类分析的应用场
【Kafka】Kafka-Eagle 和 Kafka-UI 的安装使用
Kafka Eagle 提供了完善的管理页面,可以监控 Kafka 集群的整体运行情况,很方便的去管理和可视化 Kafka 集群的一些信息,例如 Broker 详情、性能指标趋势、Topic 集合、消费者信息等,在生产环境中经常使用。
Spark 内存管理机制
如果堆外内存被启用,那么 Executor 内将同时存在堆内和堆外内存,两者的使用互补影响,这个时候 Executor 中的 Execution 内存是堆内的 Execution 内存和堆外的 Execution 内存之和,同理,Storage 内存也一样。通过以上介绍可知,应用程序申请到资源量可能
Flink中普通API的使用
使用env.fromElements:类型要一致使用env.fromcollections:支持多种collection的具体类型使用env.generateSequence()方法创建基于Sequence的DataStream --已经废弃了使用env.fromSequence()方法创建基于开始
Spark作业提交
角色作用Master管理集群和节点,不参与计算。Driver一个Spark作业运行时包括一个Driver进程,也是作业的主进程,具有main函数,并且有SparkContext的实例,是程序的入口点。负责向集群申请资源,向master注册信息,负责了作业的调度,负责作业的解析、生成Stage并调度T
Hadoop手把手教你生态搭建及项目实战系列(三)Hadoop伪分布式集群模式整体实现
伪分布式集群模式是一种在单台机器上模拟分布式环境的模式,适合学习和开发。它介于完全分布式和单节点模式之间,通过在一台计算机上配置多个 Hadoop 节点(如 NameNode、DataNode、ResourceManager、NodeManager 等),实现 Hadoop 集群的基础操作。伪分布式
Flink双流Join
需要注意的是,在滚动窗口 [6,7] 中,由于绿色流中不存在要与橘色流中元素 6、7 相关联的元素,因此该窗口不会输出任何内容。需要注意的是,一个元素可能会落在不同的窗口中,因此会在不同窗口中发生关联,例如,绿色流中的0元素。当在滑动窗口上进行 Join 时,所有有相同 Key 并且位于同一滑动窗口
Flink 常见问题汇总:反压积压,checkpoint报错,窗口计算,作业报错,无产出,流批不一致,调优等。
这可能是由于数据源的数据本身就不均衡,如Talos/Kafka的Topic中某些partition的数据量较大,某些partition的数据量较小,此时除了可以从业务上和数据源上解决该问题,如果不需要维护数据的有序性(同partition的数据是有序的,如果下游继续使用forward、hash等流分
【大数据学习 | HBASE】hbase的读数据流程与hbase读取数据
一句话:查询数据的时候将对其进行哈希处理,然后与哈希地图进行比对,如果哈希表取到的值为空,说明storeFile没有该要查询的数据,如果哈希表找到的值不为空,也不一定存在要查询的数据。存储在hdfs中的hbase文件,这个文件中会存在hbase中的数据以kv类型显示,同时还会存在hbase的。,会以
Cenots上Flink Standalone 集群部署
环境说明Centos7.5flink-1.20.0-bin-scala_2.12.tgzjdk1.8Flink运行依赖Java环境,如果没有Java环境,可自行下载Java后,再进行下面操作一,Flink下载~解压~运行去Flink官网进行下载,Downloads | Apache Flink,点击
【Spark源码分析】基于Spark3.4.2源码分析SparkSQL执行过程
** 为sql字符串创建逻辑计划 */// 获取构造器AstBuilder,将ParseTree转换为AST(visit模式)case _ =>command")// 将sql内容转换成字符流,并且转换成大写形式。词法解析器// 清空识别错误的监听器// ParseErrorListener将解析错
核心社群营销和覆盖区域选型
社群营销是一种通过精细化运营和长期用户关系维护,实现企业营销目标的新型营销模式。通过选择合适的平台,建立并管理高价值的社群,企业可以实现拉新、促活和转化等多个目标,为产品的推广和用户关系的维护提供有力支持。在这个过程中,企业微信因其强大的功能和完善的生态系统,成为企业进行社群营销的理想平台。
数据仓库和数据建模中,维度表、度量表、事实表和大宽表是什么
维度表:提供上下文信息(如时间、地点、产品等),通常包含描述性数据。度量表:主要存储用于分析的数值型数据,通常与事实表关联。事实表:存储与业务事件相关的度量数据及其与维度的关系,是数据仓库的核心。大宽表:将多个维度和事实结合在一起的扁平化数据表,以便于快速查询和多维分析。这些概念是数据仓库设计中非常
大数据-242 离线数仓 - 电商核心交易 数据导入 全量数据导入方案 产品分类、商家店铺、地域组织
业务需求,电商系统业务中最关键的业务,电商的运营活动都是围绕这个主题展开。选取的指标包括:订单数、商品数、支付金额,对这些指标按销售区域、商品类型分析。在大数据的分析中,"电商核心交易"是指电商平台上所有与商品交易相关的核心行为和交易数据的集合。具体来说,核心交易涵盖了商品的浏览、加购物车、下单、支
MaxCompute+Hadoop搭建实践
本文以E-MapReduce的Hive为例,为您介绍在MaxCompute中如何创建外部项目,并查询Hadoop中的表数据。
Spark SQL大数据分析快速上手-伪分布模式安装
前置环境安装参看此博文伪分布模式也是在一台主机上运行,我们直接使用2.2节配置好的CentOS7-201虚拟机。伪分布模式需要启动Spark的两个进程,分别是Master和Worker。启动后,可以通过8080端口查看Spark的运行状态。伪分布模式安装需要修改一个配置文件SPARK_HOME/co
智慧工地技术详解:如何利用 AI 和大数据提升建筑管理效率
智慧工地指的是在建筑项目中全面应用物联网(IoT)、大数据、人工智能(AI)、机器人技术、建筑信息模型(BIM)等高新技术,打造一个智能化的施工管理平台。通过这些技术手段,可以全面提升工地的效率、精度、数据透明度,同时最大限度降低人为错误,确保工地的安全和质量。数据驱动决策:通过大数据分析,项目管理
毕业设计——基于医疗大数据及neo4j构建知识图谱实现智慧医疗问诊系统
实体抽取:从医疗文本中识别出重要的医疗实体,如疾病名称(如感冒、肺炎等)、症状(如发热、咳嗽等)、药物名称(如阿莫西林、布洛芬等)等。它具有高效的图查询能力,能够快速根据节点和边的关系在知识图谱中找到所需的知识路径,支持复杂的查询操作,适合医疗诊断问答中频繁的知识检索需求。当整合来自不同数据源的医疗