分布式 - overfit.cn

探究Kafka原理-5.Kafka设计原理和生产者原理解析

如果将 retries 参数配置为非零值，并且 max .in.flight.requests.per.connection 参数配置为大于 1 的值，那可能会出现错序的现象：如果批次 1 消息写入失败，而批次 2 消息写入成功，那么生产者会重试发送批次 1 的消息，此时如果批次 1 的消息写入成功

overfit同步小助手 2024-02-27 07:03:15 0 收藏

Spark大数据分析与实战笔记（第三章 Spark RDD 弹性分布式数据集-05）

Spark的任务调度是指Spark集群中的任务如何被调度和执行。Spark的任务调度主要基于两个概念：DAG和RDD。DAG是有向无环图（Directed Acyclic Graph）的简称，用来描述Spark作业中的任务依赖关系。在Spark中，作业被划分为多个阶段（Stage），每个阶段包含一组

overfit同步小助手 2024-02-27 06:03:52 0 收藏

Hadoop

namenode是知道所有文件的块列表以及块列表的位置的，比如这个文件有3个块 1，2，3，分别在datanode1 datanode2 datanode3的位置上。当datanode启动的时候，会告诉namenode，说：“大哥，我启动了”，然后将自己负责的文件的块列表，也就是自己管理了哪些文件的

overfit同步小助手 2024-02-27 05:03:49 0 收藏

分布式版本控制系统 Git

Gitgit是一个分布式版本控制软件，最初由林纳斯·托瓦兹（Linus Torvalds）创作，于2005年以GPL发布。最初目的是为更好地管理Linux内核开发而设计。Git 官方中文手册Git - Book。

overfit同步小助手 2024-02-26 20:04:13 0 收藏

kafka监控工具Kafka-eagle安装

在开发工作中，当业务前提不复杂时，可以使用Kafka命令来进行一些集群的管理工作。但如果业务变得复杂，例如：我们需要增加group、topic分区，此时，我们再使用命令行就感觉很不方便，此时，如果使用一个可视化的工具帮助我们完成日常的管理工作，将会大大提高对于Kafka集群管理的效率，而且我们使用工

overfit同步小助手 2024-02-26 15:03:37 0 收藏

在虚拟机上从0开始安装 hadoop 3.1.3 集群记录

192.168.10.12 hadoop12是Yarn节点。192.168.10.11 hadoop11是主节点。192.168.10.13 hadoop13是从节点。使用centos7.5 DVD。-设置查询hadoop脚本。环境虚拟机 VMware。

overfit同步小助手 2024-02-26 14:03:36 0 收藏

使用 Hadoop 进行大数据处理

1.背景介绍Hadoop 是一个开源的分布式大数据处理框架，由 Apache 基金会支持和维护。它由 Google 的 MapReduce 算法和 Hadoop 分布式文件系统(HDFS)组成。Hadoop 可以处理大量数据，并在多个节点上并行处理数据，提高处理速度和效率。Hadoop 的核心组件包

overfit同步小助手 2024-02-26 09:03:34 0 收藏

【ShardingSphere专题】SpringBoot整合ShardingSphere（一、数据分片入门及实验）

最近线上的项目部分数据表增量速度比较快，可以预见的是，个把月后数据量会急剧增长至千万级，所以只是简单的使用索引等已经无法满足业务需求了，分库分表势在必行！于是着手研究如何整合ShardingSphere到现有项目中，顺带记录一下实验过程吧。特别声明：这边是实验配置阶段，还没有完成整合到项目、以及测试

overfit同步小助手 2024-02-26 07:02:15 0 收藏

【rabbitmq】发布确认（五）

单个确认发布方式非常慢，与单个等待确认消息相比，先发布一批消息，然后一起确认可以极大地提高吞吐量，此方式缺点：当发生故障导致发布出现问题时，不知道是哪个消息出现了问题，必须将整个批处理保存在内存中，以记录重要的信息。后续的消息才能继续发布，waitForConfirms这个方法只有在消息被确认的时候

overfit同步小助手 2024-02-26 02:03:53 0 收藏

kafka教程

Topic（主题）是消息的逻辑分类或通道。它是Kafka中用于组织和存储消息的基本单元。一个Topic可以被看作是一个消息发布的地方，生产者将消息发布到一个特定的Topic，而消费者则订阅一个或多个Topic以接收消息。

overfit同步小助手 2024-02-25 23:03:33 0 收藏

kafka的安装，用于数据库同步数据

如果说 Specified-Offset 策略要求你指定位移的绝对数值的话，那么 Shift-By-N 策略指定的就是位移的相对数值，即你给出要跳过的一段消息的距离即可。有时候你可能会碰到这样的场景：你修改了消费者程序代码，并重启了消费者，结果发现代码有问题，你需要回滚之前的代码变更，同时也要把位移

overfit同步小助手 2024-02-25 22:03:46 0 收藏

Spark大数据分析与实战笔记（第三章 Spark RDD 弹性分布式数据集-04）

设置检查点(checkPoint)方式，本质上是将RDD写入磁盘进行存储。当RDD在进行宽依赖运算时，只需要在中间阶段设置一个检查点进行容错，即通过Spark中的sparkContext对象调用setCheckpoint()方法，设置一个容错文件系统目录(如HDFS）作为检查点checkpoint，

overfit同步小助手 2024-02-25 18:03:46 0 收藏

Linux系统下Spark的下载与安装（pyspark运行示例）

最近需要完成数据课程的作业，因此实践了一下如何安装并配置好spark。

overfit同步小助手 2024-02-25 15:03:39 0 收藏

大数据本地环境搭建03-Spark搭建

需要提前部署好 Zookeeper/Hadoop/Hive 环境。

overfit同步小助手 2024-02-25 13:03:40 0 收藏

Spark中多分区写文件前可以不排序么

会根据partition或者bucket作为最细粒度来作为writer的标准，如果相邻的两条记录所属不同的partition或者bucket，则会切换writer，所以说如果不根据partition或者bucket排序的话，会导致。频繁的切换，这会大大降低文件的写入速度。目前 Spark中的实现中，

overfit同步小助手 2024-02-25 12:03:47 0 收藏

RabbitMQ控制界面详解

overfit同步小助手 2024-02-25 10:03:42 0 收藏

Kafka 命令行操作

Kafka常用命令行操作，Shell，.sh

overfit同步小助手 2024-02-25 08:03:45 0 收藏

RabbitMQ-业务的幂等性

消费者拿到id之后，保存到数据库，后续消费时，需要查数据库进行比较，因此这种方案的缺点就是有业务的入侵，对性有一定的影响。

overfit同步小助手 2024-02-25 08:03:22 0 收藏

Zookeeper与ApacheFlink的集成与优化

1.背景介绍1. 背景介绍Apache Flink 是一个流处理框架，用于实时数据处理和分析。它可以处理大量数据，并在实时性和性能方面表现出色。然而，在分布式环境中，Flink 需要一个可靠的集群管理系统来保证数据的一致性和可用性。这就是 Zookeeper 发挥作用的地方。Zookeeper 是一

overfit同步小助手 2024-02-25 06:03:48 0 收藏

RabbitMQ 消息中间件与集群的部署

Kafka是LinkedIn开源的分布式发布-订阅消息系统，目前归属于Apache顶级项目。Kafka主要特点是基于Pull的模式来处理消息消费，追求高吞吐量，一开始的目的就是用于日志收集和传输。0.8版本开始支持复制，不支持事务，对消息的重复、丢失、错误没有严格要求，适合产生大量数据的互联网服务的

overfit同步小助手 2024-02-25 06:03:21 0 收藏