全国职业院校技能大赛-大数据应用赛项-Hadoop-HA

本任务需要使用root用户完成相关配置,安装Hadoop需要配置前置环境。

Hadoop3.3.6完全分布式集群【三个节点】的安装配置

hadoop3.3.6完全分布式集群部署,三个节点配置

Kafka 典型问题与排查以及相关优化

Kafka 是一个高吞吐量的分布式消息系统,但在实际应用中,用户经常会遇到一些性能问题和消息堆积的问题。本文将介绍 Kafka 中一些典型问题的原因和排查方法,帮助用户解决问题并优化 Kafka 集群的性能。

一图展示免费开源的分布式版本控制系统​Git

Git是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。也是Linus Torvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。

Spark复习

spark在内存中的运行速度是Hadoop mapreduce 运行速度的100多倍,spark在磁盘中的运行速度是Hadoop mapreduce运行速度的10多倍。spark用内存,Hadoop mapreduce用硬盘。spark支持使用Scala、python、java、R等语言快速编写应用

RabbitMQ的工作模式

RabbitMQ的工作模式

Hadoop搭建集群

Hadoop集群部署是为了实现分布式存储和计算,提高大数据处理的效率和性能。1.确定集群规模和硬件资源,选择合适的操作系统和Hadoop版本,进行网络配置,确保集群内各节点之间可以互相通信。2.设置各节点的环境变量,安装和配置Java环境以及其他必要的软件和工具。3.配置Hadoop的核心组件(如H

RabbitMQ消息的发布确认机制详解

RabbitMQ发布确认机制确保消息从生产者成功传输到交换机和队列,提高系统可靠性。在Spring Boot项目中,通过配置`publisher-confirm-type`和`publisher-returns`,启用发布确认和消息返回机制。配置`RabbitTemplate`的确认回调和返回回调,

Kafka详细教程(一)

官网:「http://kafka.apache.org/」 kafka 是最初由 linkedin 公司开发的,使用 scala 语言编写, kafka 是一个分布式,分区的,多副本的,多订阅者的日 志系统(分布式MQ 系统),可以用于搜索日志,监控日志,访问日志等 Kafka is

分布式服务框架zookeeper+消息队列kafka

在zookeeper集群中,有各自的角色,分为领导者Leader,学习者learner(跟随者Follower,观察者Observer)领导者主要工作:事务请求的唯一调度和处理者,保证集群事务处理的顺序性;集群内部个服务器的调度者。跟随者:处理客户端非事务请求,转发事务请求给leader服务器;参与

Hadoop3.1.3完全分布式平台搭建

Hadoop3.1.3完全分布式搭建教程

Spark核心知识要点(三)

Spark核心知识要点(三)

Zookeeper高频面试题整理(入门到精通)

Zookeeper 翻译过来就是动物园管理员,他是用来管 Hadoop (大象) 、Hive(蜜蜂)、Pig(小猪)的管理员,简称zk。Zookeeper是 Apache Hadoop项目下的一个子项目,是一个开源的分布式协调服务。配置管理命名服务分布式同步分布式锁集群管理。ZAB协议是一种原子广播

pyspark自定义UDF函数

当遇到一些复杂特殊的计算场景时,只通过pyspark的内置函数无法达到我们想要实现的效果,此时,可通过自定义函数然后注册为UDF函数,就能够很好的解决复杂计算场景问题,且计算效率非常快速。计算5000多万数据,仅需一分钟不到,效率非常高。

卡夫卡(Kafka)框架详解:从背景到应用实践

在大数据和分布式系统日益普及的今天,数据处理和消息传递成为了支撑复杂业务系统的关键基础设施。Apache Kafka,作为一个高性能的系统,因其高吞吐量、低延迟和可扩展性,成为了众多企业和开发者首选的消息传递解决方案。本文将从Kafka的诞生背景、基本概念、核心组件、数据读写机制以及应用场景等多个维

Hive 高可用分布式部署详细步骤

hive高可用分布式部署详细教程

Hadoop 端口号及常用配置文件

hadoop3.x:HDFS NameNode 内部通常端口:8020 / 9000 / 9820HDFS NameNode 对用户的查询端口: 9870Yarn查看任务运行情况的端口: 8088历史服务器: 19888hadoop2.x:HDFS NameNode 内部通常端口:8020 /

kafka如何保证高可用、顺序性、幂等性

本来你就是 A 系统调用 BCD 三个系统的接口就好了,ABCD 四个系统还好好的,没啥问题,但加个 MQ 进来,万一 MQ 挂了,整套系统就崩溃了。Kafka 0.8 以前,是没有 HA 机制的,就是任何一个 broker 宕机了,那个 broker 上的 partition 就废了,没法写也没法

Spark累加器、广播变量、案例需求

很自然地想到组合rdd的算子join,但是join只能组合相同的key,如果一个商品只有点击没有下单,那么使用join是不会出现在最终结果的,同理leftOuterJoin和rightOuterJoin也是类似的,不能实现相应的功能。1)已经从原始日志文件中读出了商品的点击数量rdd、下单数量rdd

Kafka~消息系列问题解决:消费顺序问题解决、消息丢失问题优化(不能保证100%)

假如这两条消息的消费顺序不一样造成的最终结果就会截然不同。我们知道 Kafka 中 Partition(分区)是真正保存消息的地方,我们发送的消息都被放在了这里。而我们的 Partition(分区) 又存在于 Topic(主题) 这个概念中,并且我们可以给特定 Topic 指定多个 Partitio

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈