大数据 - overfit.cn

Kafka的零拷贝

在使用mmap时，操作系统会自动将文件的某些部分或者整个文件的内容映射到内存中，而这些映射的内存区域可以被当作普通的内存指针来访问，从而实现对文件内容的访问。零拷贝就是把这两次多余的拷贝省略掉，应用程序可以直接把磁盘中的数据从内核中直接传输给Socket,而不再需要经过应用程序所在的用户空间，所以零

overfit同步小助手 2023-08-09 18:04:29 0 收藏

基于 Docker 搭建 Hadoop 分布式及 Docker 基本操作使用

Docker的基础操作

overfit同步小助手 2023-08-09 18:04:20 0 收藏

iceberg对比hive优势

在传统的实时数仓中，由于列式存储相对行式存储有较高的查询性能，我们一般采用parquet，orc等列存储数据格式。传统的流式数据入库的过程中对小文件进行合并会产生很多问题，比如流式数据不断的往hive表进行写入，如果同时有一个合并程序进行小文件的合并，那么这时候对同一份数据进行读写。当有实时指标计算

overfit同步小助手 2023-08-09 16:04:26 0 收藏

python 实时获取kafka消费队列信息

python 使用kafka python使用kafka实时获取消息

overfit同步小助手 2023-08-09 16:04:11 0 收藏

kafka常用命令

LAG： LOG-END-OFFSET减去CURRENT-OFFSET的值，表示积压量。--to-latest：设置到最新处，也就是主题分区HW的位置。--to-earliest：设置到最早位移处，也就是0。--shift-by NUM：基于当前位移向前回退多少。--to-offset NUM

overfit同步小助手 2023-08-09 15:04:47 0 收藏

Zookeeper的数据结构以及常用命令使用

简而言之：Zookeeper的数据结构就是一大堆子节点组成的树形结构，就好比是Unix操作系统，根目录中存在子目录，子目录中包含子文件，数据都在子文件中存储，而Zookeeper是在根节点下包含很多子节点，但是每一个节点都可以存储自己的一些数据和当前节点的信息，允许存储的数据大小为1M。注意：如果要

overfit同步小助手 2023-08-09 14:04:23 0 收藏

kafka原理五之springboot 集成批量消费

由于Kafka的写性能非常高，因此项目经常会碰到Kafka消息队列拥堵的情况。遇到这种情况，我们可以通过并发消费、批量消费的方法进行解决。

overfit同步小助手 2023-08-09 14:04:10 0 收藏

《面试1v1》如何能从Kafka得到准确的信息

🍅 作者简介：王哥，CSDN2022博客总榜Top100🏆、博客专家💪🍅 技术交流：定期更新Java硬核干货，不定期送书活动🍅 王哥多年工作总结：Java学习路线总结，🍅 数十万人的面试选择：Markdown。

overfit同步小助手 2023-08-09 14:04:07 0 收藏

HBase

HBase简介

overfit同步小助手 2023-08-09 13:03:43 0 收藏

flink设置登录密码

在nginx 配置中添加如下配置，ip为访问flink服务器ip，一般flink端口为8081，通过nginx转发以后，调整访问端口，这里调整端口为8090。flink 进行standalone安装候，不需要登录密码，可以知己而直接访问，存在一定安全隐患，可以通过nginx以及httpd实现密码验

overfit同步小助手 2023-08-09 12:04:38 0 收藏

【微服务笔记17】微服务组件之Gateway实现动态路由、配置路由规则、路由过滤器

前一篇文章介绍了Gateway服务网关的基础环境搭建，在基础环境中，我们的路由地址uri是直接在application.yml配置文件中写死的，这种方式不太灵活，因为一旦微服务的IP和端口改变，此时就需要修改Gateway工程中的配置文件，然后重新启动网关工程。为了解决能够让路由不依赖于具体的IP和

overfit同步小助手 2023-08-09 12:04:30 0 收藏

FlinkSQL 时间语义、窗口和聚合

在创建表的 DDL（CREATE TABLE 语句）中，可以增加一个字段，通过 WATERMARK 语句来定义事件时间属性。WATERMARK 语句主要用来定义水位线（watermark）的生成表达式，这个表达式会将带有事件时间戳的字段标记为事件时间属性，并在它基础上给出水位线的延迟时间。) WIT

overfit同步小助手 2023-08-09 12:03:54 0 收藏

HDFS学习笔记

对于每一个数据块，NameNode 节点返回保存数据块的数据节点的地址。当Active NameNode的命名空间发生变化的时候，它会把这个变化通知所有JN，有的JN收到信息，有的JN是没有收到信息的，如果大部分JN进程接到信息，就认为这个事件是可信的，如果少数的JN接到信息，就认为这个信息是错误的

overfit同步小助手 2023-08-09 11:04:32 0 收藏

DevOps系列文章之 docker 制作kafka镜像

以上Dockerfile使用了官方的OpenJDK 8镜像作为基础镜像，并下载并安装了指定版本的Kafka。同时，它还设置了Kafka的环境变量和工作目录，并暴露Kafka的监听端口。在这一步，我们将创建一个Dockerfile，用于制作Kafka镜像。该命令会在后台运行一个名为kafka的容器，并

overfit同步小助手 2023-08-09 09:04:40 0 收藏

Hadoop中常用端口说明和相关配置文件

overfit同步小助手 2023-08-09 08:04:31 0 收藏

在SpringBoot中对RabbitMQ三种使用方式

在SpringBoot三种创建RabbitMQ的队列和消息的方式

overfit同步小助手 2023-08-09 06:04:14 0 收藏

Apache Kafka - 生产者内存优化注意事项

如果生产者出现频繁 full GC 或接近 JVM 最大内存,并且消费端的消费能力仍然跟得上,表明生产者的内存和资源很有可能不足以支撑当前的消息负载。topic 的 partition 数量和分布也会影响每个生产者的负载。对 Kafka 集群进行升级和使用更强劲的硬件也可以提高其整体吞吐能力,間接减

overfit同步小助手 2023-08-09 05:04:22 0 收藏

SpringCloud的五大组件功能

用户的请求将不再直接访问服务，而是通过线程池中的空闲线程来访问服务，如果线程池已满，或者请求超时，则会进行降级处理。同时，服务提供方与Eureka之间通过 “心跳” 机制进行监控，当某个服务提供方出现问题，Eureka自然会把它从服务列表中剔除。服务器支持的线程和并发数有限，请求一直阻塞，会导致服务

overfit同步小助手 2023-08-09 05:03:43 0 收藏

APACHE KAFKA本机Hello World教程

到此为止吧，这里简单弄了一下kafka的hello world方便，为以后我本地开发调试简单准备准备环境。

overfit同步小助手 2023-08-09 04:04:01 0 收藏

Zookeeper和kafka集群搭建步骤(超详细，易理解)

（2）进入zookeeper目录中创建myid文件，添加 ' 1 ';（1）找到#maxClientCnxns=60命令在下面添加。（1）创建zookeeper目录。

overfit同步小助手 2023-08-09 02:04:15 0 收藏