全国职业院校技能大赛-大数据应用赛项-Hadoop-HA
本任务需要使用root用户完成相关配置,安装Hadoop需要配置前置环境。
Hadoop3.3.6完全分布式集群【三个节点】的安装配置
hadoop3.3.6完全分布式集群部署,三个节点配置
Kafka 典型问题与排查以及相关优化
Kafka 是一个高吞吐量的分布式消息系统,但在实际应用中,用户经常会遇到一些性能问题和消息堆积的问题。本文将介绍 Kafka 中一些典型问题的原因和排查方法,帮助用户解决问题并优化 Kafka 集群的性能。
一图展示免费开源的分布式版本控制系统Git
Git是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。也是Linus Torvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。
Spark复习
spark在内存中的运行速度是Hadoop mapreduce 运行速度的100多倍,spark在磁盘中的运行速度是Hadoop mapreduce运行速度的10多倍。spark用内存,Hadoop mapreduce用硬盘。spark支持使用Scala、python、java、R等语言快速编写应用
RabbitMQ的工作模式
RabbitMQ的工作模式
Hadoop搭建集群
Hadoop集群部署是为了实现分布式存储和计算,提高大数据处理的效率和性能。1.确定集群规模和硬件资源,选择合适的操作系统和Hadoop版本,进行网络配置,确保集群内各节点之间可以互相通信。2.设置各节点的环境变量,安装和配置Java环境以及其他必要的软件和工具。3.配置Hadoop的核心组件(如H
RabbitMQ消息的发布确认机制详解
RabbitMQ发布确认机制确保消息从生产者成功传输到交换机和队列,提高系统可靠性。在Spring Boot项目中,通过配置`publisher-confirm-type`和`publisher-returns`,启用发布确认和消息返回机制。配置`RabbitTemplate`的确认回调和返回回调,
Kafka详细教程(一)
官网:「http://kafka.apache.org/」 kafka 是最初由 linkedin 公司开发的,使用 scala 语言编写, kafka 是一个分布式,分区的,多副本的,多订阅者的日 志系统(分布式MQ 系统),可以用于搜索日志,监控日志,访问日志等 Kafka is
分布式服务框架zookeeper+消息队列kafka
在zookeeper集群中,有各自的角色,分为领导者Leader,学习者learner(跟随者Follower,观察者Observer)领导者主要工作:事务请求的唯一调度和处理者,保证集群事务处理的顺序性;集群内部个服务器的调度者。跟随者:处理客户端非事务请求,转发事务请求给leader服务器;参与
Hadoop3.1.3完全分布式平台搭建
Hadoop3.1.3完全分布式搭建教程
Spark核心知识要点(三)
Spark核心知识要点(三)
Zookeeper高频面试题整理(入门到精通)
Zookeeper 翻译过来就是动物园管理员,他是用来管 Hadoop (大象) 、Hive(蜜蜂)、Pig(小猪)的管理员,简称zk。Zookeeper是 Apache Hadoop项目下的一个子项目,是一个开源的分布式协调服务。配置管理命名服务分布式同步分布式锁集群管理。ZAB协议是一种原子广播
pyspark自定义UDF函数
当遇到一些复杂特殊的计算场景时,只通过pyspark的内置函数无法达到我们想要实现的效果,此时,可通过自定义函数然后注册为UDF函数,就能够很好的解决复杂计算场景问题,且计算效率非常快速。计算5000多万数据,仅需一分钟不到,效率非常高。
卡夫卡(Kafka)框架详解:从背景到应用实践
在大数据和分布式系统日益普及的今天,数据处理和消息传递成为了支撑复杂业务系统的关键基础设施。Apache Kafka,作为一个高性能的系统,因其高吞吐量、低延迟和可扩展性,成为了众多企业和开发者首选的消息传递解决方案。本文将从Kafka的诞生背景、基本概念、核心组件、数据读写机制以及应用场景等多个维
Hive 高可用分布式部署详细步骤
hive高可用分布式部署详细教程
Hadoop 端口号及常用配置文件
hadoop3.x:HDFS NameNode 内部通常端口:8020 / 9000 / 9820HDFS NameNode 对用户的查询端口: 9870Yarn查看任务运行情况的端口: 8088历史服务器: 19888hadoop2.x:HDFS NameNode 内部通常端口:8020 /
kafka如何保证高可用、顺序性、幂等性
本来你就是 A 系统调用 BCD 三个系统的接口就好了,ABCD 四个系统还好好的,没啥问题,但加个 MQ 进来,万一 MQ 挂了,整套系统就崩溃了。Kafka 0.8 以前,是没有 HA 机制的,就是任何一个 broker 宕机了,那个 broker 上的 partition 就废了,没法写也没法
Spark累加器、广播变量、案例需求
很自然地想到组合rdd的算子join,但是join只能组合相同的key,如果一个商品只有点击没有下单,那么使用join是不会出现在最终结果的,同理leftOuterJoin和rightOuterJoin也是类似的,不能实现相应的功能。1)已经从原始日志文件中读出了商品的点击数量rdd、下单数量rdd
Kafka~消息系列问题解决:消费顺序问题解决、消息丢失问题优化(不能保证100%)
假如这两条消息的消费顺序不一样造成的最终结果就会截然不同。我们知道 Kafka 中 Partition(分区)是真正保存消息的地方,我们发送的消息都被放在了这里。而我们的 Partition(分区) 又存在于 Topic(主题) 这个概念中,并且我们可以给特定 Topic 指定多个 Partitio