分布式 - overfit.cn

Spark内容分享(二十五)：Spark读写Iceberg在腾讯的实践和优化

ZOrder可以认为是sort的变种，在Spark中，单列的sort对文件的过滤是比较友好的，但如果sort by多列的话，会首先对column0做sort，然后column0相同的时候再做column1的sort，所以如果过滤的where条件是column1或者column2的时候文件过滤效果就不

overfit同步小助手 2024-01-19 13:03:36 0 收藏

CentOS7 下 Zookeeper 安装及配置

介绍 ZooKeeper 的安装和基本配置， ZooKeeper 是一个开源的分布式协调服务，它提供了一个高性能的、可靠的分布式环境，用于协调和管理分布式应用程序的配置、状态和元数据信息。

overfit同步小助手 2024-01-19 11:03:34 0 收藏

Ubuntu22.04三台虚拟机Hadoop集群安装和搭建（全面详细的过程）

Java 的官网下载链接：https://www.oracle.com/java/technologies/downloads/为 hadoop 配置 java 环境，打开hadoop安装目录的etc/hadoop/hadoop-env.sh文件。打开hadoop安装目录，进入/etc/hadoop

overfit同步小助手 2024-01-19 10:06:24 0 收藏

【大数据】分布式协调系统 Zookeeper

从设计模式的角度来理解：Zookeeper 是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接收观察者的注册。一旦数据的状态发生变化，Zookeeper 就会通知那些已经注册的观察者，以便它们能够及时做出反应。

overfit同步小助手 2024-01-19 08:03:14 0 收藏

Zookeeper的基础介绍和安装教程

overfit同步小助手 2024-01-19 06:03:47 0 收藏

Kafka实战：消费指定时间范围内的Kafka Topic数据

首先，我们需要设置好Kafka的环境并创建一个Topic。这里假设你已经安装并配置好了Kafka，并创建了一个名为"my_topic"的Topic。这样，我们就完成了消费指定时间范围内的Kafka Topic数据的代码编写。在上述代码中，我们首先设置了Kafka集群的地址和消费者的配置。然后，我们创

overfit同步小助手 2024-01-19 05:03:28 0 收藏

node-red：使用node-red-contrib-amqp节点，实现与RabbitMQ服务器(AMQP)的消息传递

使用node-red的node-red-contrib-amqp节点，连接到RabbitMQ服务器(AMQP)，以使用路由键从某个主题获取一些消息，实现客户端与消息中间件数据的传递。

overfit同步小助手 2024-01-18 23:03:49 0 收藏

Spark 完全分布式的安装和部署

头歌Spark 完全分布式的安装和部署

overfit同步小助手 2024-01-18 19:03:43 0 收藏

【踩坑专栏】禁止kafka自带的日志

如果直接使用log4j.properties修改kafka的日志级别，会没有效果。有文章说是因为jar包冲突[2]。在测试kafka的时候，有很多kafka自带的debug和info日志，需要禁止掉。在resource文件夹下，新增一个logback.xml文件。

overfit同步小助手 2024-01-18 16:03:38 0 收藏

Kafka 分级存储在腾讯云的实践与演进

腾讯云消息队列 Kafka 内核负责人鲁仕林为大家带来了《Kafka 分级存储在腾讯云的实践与演进》的精彩分享，从 Kafka 架构遇到的问题与挑战、Kafka 弹性架构方案类比、Kafka 分级存储架构及原理以及腾讯云的落地与实践四个方面详细分享了 Kafka 分级存储在腾讯云的实践与演进。

overfit同步小助手 2024-01-18 14:03:50 0 收藏

kafka如何避免消息重复消费

应用程序层面可以保证消息的处理是幂等的，即使消息被重复处理也不会产生副作用。在处理消息时，使用数据库事务来确保消息的处理操作是原子性的，并且如果相同消息被处理多次，只会产生一次结果变更。在消费消息时，将消费记录存储在数据库或缓存中，并在消费前检查记录，如果已经消费过相同的消息，则不再进行处理。实现重

overfit同步小助手 2024-01-18 14:03:26 0 收藏

【Spark基础】-- RDD 转 Dataframe 的三种方式

1、通过 StructType 创建 Dataframe（3、通过定义 schema 类创建 DataFrame。2、通过 RDD 推断创建 DataFrame （强烈推荐使用这种方法。

overfit同步小助手 2024-01-18 09:03:52 0 收藏

Dubbo 3.x结合Zookeeper实现远程服务基本调用

Dubbo

overfit同步小助手 2024-01-18 09:03:35 0 收藏

Kafka三种认证模式，Kafka 安全认证及权限控制详细配置与搭建

Kafka三种认证模式，Kafka 安全认证及权限控制详细配置与搭建。

overfit同步小助手 2024-01-18 08:03:24 0 收藏

Flink 窗口（1）—— 基础概念

本文介绍了Flink框架中窗口的基本概念

overfit同步小助手 2024-01-18 04:03:54 0 收藏

分布式【zookeeper面试题23连问】

（5）线程将当前zxid最大的Server设置为当前Server要推荐的Leader，如果此时获胜的Server获得n/2 + 1的Server票数，设置当前推荐的leader为获胜的 Server，将根据获胜的Server相关信息设置自己的状态，否则，继续这个过程，直到leader被选

overfit同步小助手 2024-01-18 04:03:45 0 收藏

数据库信息速递 -- 别把kafka 当做你的第二个数据库（翻译）

开头还是介绍一下群，如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, Oceanbase, Sql Server等有问题，有需求都可以加群群内，可以解决你的问题。加群请联系 liuaustin3 ，（共1790人左右 1 + 2 + 3 + 4 +5）

overfit同步小助手 2024-01-17 23:03:57 0 收藏

消息队列kafka基础，基于go代码举例

消费者策略主要是定义对于多个消费者，分区如何分配的问题。以及解决发生reblance再平衡时，如何进行分区和消费者之间的分配。主要包括range范围分配，Round轮询策略(类似于生产者策略中的Round，Sticky粘性分配策略)

overfit同步小助手 2024-01-17 20:03:32 0 收藏

Kafka--Kafka日志索引详解以及生产常见问题分析与总结

Kafka的设计重点是在网络不稳定，服务也不稳定的复杂分布式环境下，如何保持高性能，高可用，高可扩展的三高架构。在这方面，Kafka的设计是很复杂也很完善的，是业内公认的老大哥。因此网上的解读文章也是最多的。但是这些解读的文章如果没有一条主线串起来，那永远都只是一些零散的，过目既忘的东西。在

overfit同步小助手 2024-01-17 19:03:51 0 收藏

rabbitmq 重试机制

当消息发送到RabbitMQ时，可能会出现一些问题，例如网络故障、消费者不可用等，导致消息无法成功发送或消费。重试机制是指在消息发送或消费过程中，当出现错误或失败时，RabbitMQ会自动尝试重新发送或消费消息，直到达到一定的重试次数或达到一定的时间限制。方法将消息重新发送到队列，实现了重试机制。

overfit同步小助手 2024-01-17 19:03:43 0 收藏