分布式 - overfit.cn

全国职业院校技能大赛-大数据应用赛项-Hadoop-HA

本任务需要使用root用户完成相关配置，安装Hadoop需要配置前置环境。

overfit同步小助手 2024-08-06 22:03:51 0 收藏

Hadoop3.3.6完全分布式集群【三个节点】的安装配置

hadoop3.3.6完全分布式集群部署，三个节点配置

overfit同步小助手 2024-08-06 20:03:37 0 收藏

Kafka 典型问题与排查以及相关优化

Kafka 是一个高吞吐量的分布式消息系统，但在实际应用中，用户经常会遇到一些性能问题和消息堆积的问题。本文将介绍 Kafka 中一些典型问题的原因和排查方法，帮助用户解决问题并优化 Kafka 集群的性能。

overfit同步小助手 2024-08-06 18:03:45 0 收藏

一图展示免费开源的分布式版本控制系统Git

Git是一个开源的分布式版本控制系统，可以有效、高速地处理从很小到非常大的项目版本管理。也是Linus Torvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。

overfit同步小助手 2024-08-06 15:04:39 0 收藏

Spark复习

spark在内存中的运行速度是Hadoop mapreduce 运行速度的100多倍，spark在磁盘中的运行速度是Hadoop mapreduce运行速度的10多倍。spark用内存，Hadoop mapreduce用硬盘。spark支持使用Scala、python、java、R等语言快速编写应用

overfit同步小助手 2024-08-06 15:03:55 0 收藏

RabbitMQ的工作模式

overfit同步小助手 2024-08-06 15:03:46 0 收藏

Hadoop搭建集群

Hadoop集群部署是为了实现分布式存储和计算，提高大数据处理的效率和性能。1.确定集群规模和硬件资源，选择合适的操作系统和Hadoop版本，进行网络配置，确保集群内各节点之间可以互相通信。2.设置各节点的环境变量，安装和配置Java环境以及其他必要的软件和工具。3.配置Hadoop的核心组件（如H

overfit同步小助手 2024-08-06 12:03:46 0 收藏

RabbitMQ消息的发布确认机制详解

RabbitMQ发布确认机制确保消息从生产者成功传输到交换机和队列，提高系统可靠性。在Spring Boot项目中，通过配置`publisher-confirm-type`和`publisher-returns`，启用发布确认和消息返回机制。配置`RabbitTemplate`的确认回调和返回回调，

overfit同步小助手 2024-08-06 12:03:37 0 收藏

Kafka详细教程（一）

官网：「http://kafka.apache.org/」 kafka 是最初由 linkedin 公司开发的，使用 scala 语言编写， kafka 是一个分布式，分区的，多副本的，多订阅者的日志系统（分布式MQ 系统），可以用于搜索日志，监控日志，访问日志等 Kafka is

overfit同步小助手 2024-08-06 11:03:40 0 收藏

分布式服务框架zookeeper+消息队列kafka

在zookeeper集群中，有各自的角色，分为领导者Leader，学习者learner(跟随者Follower，观察者Observer)领导者主要工作：事务请求的唯一调度和处理者，保证集群事务处理的顺序性；集群内部个服务器的调度者。跟随者：处理客户端非事务请求，转发事务请求给leader服务器；参与

overfit同步小助手 2024-08-06 07:03:53 0 收藏

Hadoop3.1.3完全分布式平台搭建

Hadoop3.1.3完全分布式搭建教程

overfit同步小助手 2024-08-06 05:03:23 0 收藏

Spark核心知识要点（三）

overfit同步小助手 2024-08-06 02:03:53 0 收藏

Zookeeper高频面试题整理（入门到精通）

Zookeeper 翻译过来就是动物园管理员，他是用来管 Hadoop (大象) 、Hive(蜜蜂)、Pig（小猪)的管理员，简称zk。Zookeeper是 Apache Hadoop项目下的一个子项目，是一个开源的分布式协调服务。配置管理命名服务分布式同步分布式锁集群管理。ZAB协议是一种原子广播

overfit同步小助手 2024-08-06 01:03:40 0 收藏

pyspark自定义UDF函数

当遇到一些复杂特殊的计算场景时，只通过pyspark的内置函数无法达到我们想要实现的效果，此时，可通过自定义函数然后注册为UDF函数，就能够很好的解决复杂计算场景问题，且计算效率非常快速。计算5000多万数据，仅需一分钟不到，效率非常高。

overfit同步小助手 2024-08-05 21:03:30 0 收藏

卡夫卡（Kafka）框架详解：从背景到应用实践

在大数据和分布式系统日益普及的今天，数据处理和消息传递成为了支撑复杂业务系统的关键基础设施。Apache Kafka，作为一个高性能的系统，因其高吞吐量、低延迟和可扩展性，成为了众多企业和开发者首选的消息传递解决方案。本文将从Kafka的诞生背景、基本概念、核心组件、数据读写机制以及应用场景等多个维

overfit同步小助手 2024-08-05 19:03:23 0 收藏

Hive 高可用分布式部署详细步骤

hive高可用分布式部署详细教程

overfit同步小助手 2024-08-05 16:03:37 0 收藏

Hadoop 端口号及常用配置文件

hadoop3.x：HDFS NameNode 内部通常端口：8020 / 9000 / 9820HDFS NameNode 对用户的查询端口： 9870Yarn查看任务运行情况的端口： 8088历史服务器： 19888hadoop2.x：HDFS NameNode 内部通常端口：8020 /

overfit同步小助手 2024-08-05 12:05:11 0 收藏

kafka如何保证高可用、顺序性、幂等性

本来你就是 A 系统调用 BCD 三个系统的接口就好了，ABCD 四个系统还好好的，没啥问题，但加个 MQ 进来，万一 MQ 挂了，整套系统就崩溃了。Kafka 0.8 以前，是没有 HA 机制的，就是任何一个 broker 宕机了，那个 broker 上的 partition 就废了，没法写也没法

overfit同步小助手 2024-08-05 10:03:51 0 收藏

Spark累加器、广播变量、案例需求

很自然地想到组合rdd的算子join，但是join只能组合相同的key，如果一个商品只有点击没有下单，那么使用join是不会出现在最终结果的，同理leftOuterJoin和rightOuterJoin也是类似的，不能实现相应的功能。1）已经从原始日志文件中读出了商品的点击数量rdd、下单数量rdd

overfit同步小助手 2024-08-05 09:03:58 0 收藏

Kafka~消息系列问题解决：消费顺序问题解决、消息丢失问题优化（不能保证100%）

假如这两条消息的消费顺序不一样造成的最终结果就会截然不同。我们知道 Kafka 中 Partition(分区)是真正保存消息的地方，我们发送的消息都被放在了这里。而我们的 Partition(分区) 又存在于 Topic(主题) 这个概念中，并且我们可以给特定 Topic 指定多个 Partitio

overfit同步小助手 2024-08-05 09:03:25 0 收藏