大数据 - overfit.cn

Java增加线程后kafka仍然消费很慢

概念：max.poll.interval.ms是Kafka消费者端的一个配置参数，用于设置消费者在轮询过程中处理消息的最大时间间隔。根据实际业务需求和消息处理的复杂性，设置合理的max.poll.interval.ms值，以确保消费者有足够的时间来处理消息。考虑到网络延迟和消息处理的时间，建议将ma

overfit同步小助手 2024-07-21 22:03:46 0 收藏

kafka与zookeeper的SSL认证教程

setAcl / ip:127.0.0.1:cdrwa,auth:kafka:kafka@123:cdrwa #(设置可以登陆的IP和用户账号密码，admin是上面的zk的配置文件里面定义的管理员，Kafka用户是/asop/kafka/kafka_2.11-2.1.0/config/kafk

overfit同步小助手 2024-07-21 22:03:25 0 收藏

数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比（Spark 引擎）

当前，业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake，和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试，那么本篇文章我们将回归到大数据最基础的场景，对海量数据的批处理查询。本文主要介绍通过 TPC-DS 3TB 的数据的99个SQ

overfit同步小助手 2024-07-21 22:03:19 0 收藏

spark总结

元组(Tuple)是一种类似于列表的结构，但与列表不同的是，元组可以包含不同类的元素。元组的值是通过将单个的值包含在圆括号中构成的。映射(Map)是一种可迭代的键值对结构，所有值都可以通过键获取，并且映射中键都是唯一的，定义如图2-31所示。#也可以使用write()方法写入数据，pw.write(

overfit同步小助手 2024-07-21 20:03:55 0 收藏

Spring Cloud中Eureka的知识学习

Spring Cloud 是一套开源的微服务框架，它建立在 Spring Boot 的基础上，旨在简化分布式系统的开发。Spring Cloud 提供了一系列的工具和服务，用于实现服务发现、配置管理、断路器、消息传递、负载均衡、API 网关、分布式追踪等微服务架构中的常见模式。这些工具和服务通过 S

overfit同步小助手 2024-07-21 20:03:44 0 收藏

【大数据】什么是数据湖？一文揭示数据湖的本质

本文探讨了数据湖和数据仓库在企业数据管理中的角色与差异。数据湖作为容纳结构化与非结构化数据的新兴模式，强调灵活性和探索性分析能力，适应了现代企业对多样数据处理和快速决策的需求。相比之下，传统的数据仓库以其稳定的数据模型和标准化报表服务，仍然在特定场景中发挥重要作用。随着数据量和类型的不断增加，以及企

overfit同步小助手 2024-07-21 20:03:36 0 收藏

RabbitMQ 开发指南

每个Channel都拥有自己独立的线程，最常用的做法是一个Channel对应一个消费者，也就意味着消费者彼此之间没有关联，也可以在Channel中维持多个消费者，但是，如果Channel中一个消费者一直在运行，那其他消费者的callback会被耽搁。getReason可以获取Cause相关的信息。上

overfit同步小助手 2024-07-21 19:03:55 0 收藏

【微服务】第37节：微服务的注册中心Eureka

分布式事务，就是指不是在单个服务或单个数据库架构下，产生的事务，例如：跨数据源的分布式事务；跨服务的分布式事务；综合情况。我们之前解决分布式事务问题是直接使用Seata框架的AT模式，但是解决分布式事务问题的方案远不止这一种。

overfit同步小助手 2024-07-21 18:03:12 0 收藏

Kafka - 生产者

kafka生产者

overfit同步小助手 2024-07-21 17:03:35 0 收藏

[面试题]Zookeeper

这样的设计有效的减轻了服务端的压力，不然对于更新非常频繁的节点，服务端会不断的向客户端发送事件通知，无论对于网络还是服务端的压力都非常大。接收到客户端请求，处理请求判断是否需要注册 Watcher ，需要的话将数据节点的节点路径和 ServerCnxn(ServerCnxn 代表一个客户端和服务端的

overfit同步小助手 2024-07-21 17:03:29 0 收藏

RabbitMQ（六）仲裁队列、流式队列、异地容灾（联邦队列Federation Queue）

仲裁队列、流式队列、异地容灾（联邦队列Federation Queue）

overfit同步小助手 2024-07-21 17:03:21 0 收藏

大数据之Hadoop平台的搭建

三台虚拟机。

overfit同步小助手 2024-07-21 16:03:52 0 收藏

大数据之路读书笔记 Day5 数据同步遇到的问题与解决方案

overfit同步小助手 2024-07-21 16:03:43 0 收藏

IT学习笔记--Flink

Data Sources 就字面意思其实就可以知道：数据来源。Flink做为一款流式计算框架，它可用来做批处理，即处理静态的数据集、历史的数据集；也可以用来做流处理，即实时的处理些实时数据流，实时的产生数据流结果，只要数据源源不断的过来，Flink 就能够一直计算下去，这个 Data Sources

overfit同步小助手 2024-07-21 15:03:47 0 收藏

Spark概念及运行模式

目的：点击yarn（8088）上spark任务的history按钮，进入的是spark历史服务器（18080），而不再是yarn历史服务器（19888）。Spark弊端：过于依赖内存，且因为数据倾斜，当内存资源较少时，容易出错。集群模式下，spark会先向HDFS上传spark库，然后yarn会下载

overfit同步小助手 2024-07-21 15:03:43 0 收藏

Nodejs(Koa)-RabbitMq集成及基础使用

Nodejs框架使用Koa，使用amqplib库连接RabbitMq。本文主要介绍Nodejs如何连接RabbitMq，同时实现其基础功能，例如其简单模式、工作者模式、Fanout广播模式、Direct直连模式、Topic模式…

overfit同步小助手 2024-07-21 14:03:07 0 收藏

追踪微服务脉络：Eureka中实现分布式链路追踪的精妙之道

通过本文的详细步骤和代码示例，你应该能够理解如何在Eureka中实现服务的分布式链路追踪。结合Spring Cloud Sleuth和Zipkin等工具，我们能够清晰地追踪服务间的调用链路，为系统的稳定性和性能优化提供了有力支持。分布式链路追踪是微服务架构中不可或缺的技术之一。Eureka作为服务发

overfit同步小助手 2024-07-21 12:03:53 0 收藏

kafka-高可用设计详解（集群架构、备份机制、消费者组、重平衡）

当消费者组中重新加入消费者 , 或者消费者组中有消费者宕机 , 这个时候Kafka会为消费者组中的消费者从新分配消费分区的过程就是再均衡。再均衡就是指当消费者组中的消费者发生变更的时候(新增消费者, 消费者宕机) , 重新为消费者分配消费分区的过程。同一个分区只能被一个消费者组中的一个消费者消费

overfit同步小助手 2024-07-21 12:03:50 0 收藏

动态地控制kafka的消费速度，从而满足业务要求

如果设置得太小，则消费者可能会频繁地请求数据，这可能会影响消费速度。如果设置得太大，则当Kafka中有数据可用时，消费者可能会等待太长时间。在实际应用中，我们需要动态控制kafka消费速度，以便处理数据流的速率能够满足系统和业务的需求。如果设置得太小，则消费者可能会经常请求数据，这可能会影响消费速

overfit同步小助手 2024-07-21 12:03:45 0 收藏

Kafka学习之：mac 上基础使用 python 来使用 kafka 的生产者和消费者进行数据处理

python 中 kafka 的基础用法，基于 macbook m1 芯片

overfit同步小助手 2024-07-21 11:03:51 0 收藏