大数据 - overfit.cn

SparkSQL中数据转换的方法

以上代码中，我们按照"department"列对DataFrame进行分组，并计算每个部门的平均工资和总工资。以上是SparkSQL中常见的数据转换方法，可以根据实际需要进行选择和组合，完成复杂的数据处理和分析任务。，并将其应用于DataFrame中的"salary"列，计算每个员工的奖金。以上代码

overfit同步小助手 2023-08-10 09:04:03 0 收藏

学会RabbitMQ的延迟队列，提高消息处理效率

延迟队列指的是当我们将消息发送到RabbitMQ时，可以指定消息的有效期或者消息需要在未来某个时间点才能被消费。这种消息被称为“延迟消息”。

overfit同步小助手 2023-08-10 08:03:56 0 收藏

Flink详解系列之五--水位线（watermark）

在进行窗口处理时，不可能无限期的等待延迟数据到达，当到达特定watermark时,认为在watermark之前的数据已经全部达到(即使后面还有延迟的数据), 可以触发窗口计算，这个机制就是 Watermark(水位线)，具体如下图所示。如果水位线设置的过于宽松，好处是计算时能保证近可能多的数据被收集

overfit同步小助手 2023-08-10 08:03:47 0 收藏

【从0开始离线数仓项目】——数据仓库的环境搭建（1）

Linux的环境变量可在多个文件中配置，如/etc/profile，/etc/profile.d/*.sh，~/.bashrc，~/.bash_profile等，下面说明上述几个文件之间的关系和区别。

overfit同步小助手 2023-08-10 06:04:10 0 收藏

rabbitmq：retry重试机制和延迟消息的实现

rabbitmq重试机制 retry和死信队列实现延迟消息

overfit同步小助手 2023-08-10 05:04:25 0 收藏

【Hive-Partition】Hive添加分区及修改分区location

overfit同步小助手 2023-08-10 05:04:15 0 收藏

大数据基础平台实施及运维

处理框架和处理引擎负责对数据系统中的数据进行计算虽然“引擎”和“框架”之间的区别没有什么权威的定义，但大部分时候可以将前者定义为实际负责处理数据操作的组件，后者则可定义为承担类似作用的一系列组件。（ELK日志监控处理框架）Apache Hadoop项目用于高可用，可扩展的分布式计算的开源软件Apac

overfit同步小助手 2023-08-10 04:04:14 0 收藏

Kafka的常用命令

overfit同步小助手 2023-08-10 03:04:14 0 收藏

Hadoop-YARN介绍

yarn介绍

overfit同步小助手 2023-08-10 02:04:12 0 收藏

基于Filebeat+Kafka+ELK实现Nginx日志收集并采用Elastalert2实现钉钉告警

overfit同步小助手 2023-08-10 01:04:38 0 收藏

Zookeeper学习笔记

Zookeeper是一个开源的分布式的，为分布式框架提供协调服务的Apache项目。

overfit同步小助手 2023-08-10 01:04:23 0 收藏

【数据架构系列-02】从《数据中台能力成熟度模型》的发布，聊聊火了的中台

2023年1月4日，信通院发布了《数据中台能力成熟度模型》框架，不由让我浮想联翩，之后是不是还会出现业务中台、技术中台、AI 中台、算法中台的能力成熟度模型呢。不知道为什么，按理应该同时公开发布的文档截止到1月30日在网上也没有找到，只是查到发布会的部分PPT，大致浏览了一下，依然是熟悉的套路，基于

overfit同步小助手 2023-08-09 23:04:56 0 收藏

Hadoop生态漏洞修复记录

Hadoop、zookeeper、hive漏洞修复

overfit同步小助手 2023-08-09 23:04:45 0 收藏

HDFS介绍

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Cor

overfit同步小助手 2023-08-09 23:04:26 0 收藏

Kafka的零拷贝

在使用mmap时，操作系统会自动将文件的某些部分或者整个文件的内容映射到内存中，而这些映射的内存区域可以被当作普通的内存指针来访问，从而实现对文件内容的访问。零拷贝就是把这两次多余的拷贝省略掉，应用程序可以直接把磁盘中的数据从内核中直接传输给Socket,而不再需要经过应用程序所在的用户空间，所以零

overfit同步小助手 2023-08-09 18:04:29 0 收藏

基于 Docker 搭建 Hadoop 分布式及 Docker 基本操作使用

Docker的基础操作

overfit同步小助手 2023-08-09 18:04:20 0 收藏

iceberg对比hive优势

在传统的实时数仓中，由于列式存储相对行式存储有较高的查询性能，我们一般采用parquet，orc等列存储数据格式。传统的流式数据入库的过程中对小文件进行合并会产生很多问题，比如流式数据不断的往hive表进行写入，如果同时有一个合并程序进行小文件的合并，那么这时候对同一份数据进行读写。当有实时指标计算

overfit同步小助手 2023-08-09 16:04:26 0 收藏

python 实时获取kafka消费队列信息

python 使用kafka python使用kafka实时获取消息

overfit同步小助手 2023-08-09 16:04:11 0 收藏

kafka常用命令

LAG： LOG-END-OFFSET减去CURRENT-OFFSET的值，表示积压量。--to-latest：设置到最新处，也就是主题分区HW的位置。--to-earliest：设置到最早位移处，也就是0。--shift-by NUM：基于当前位移向前回退多少。--to-offset NUM

overfit同步小助手 2023-08-09 15:04:47 0 收藏

Zookeeper的数据结构以及常用命令使用

简而言之：Zookeeper的数据结构就是一大堆子节点组成的树形结构，就好比是Unix操作系统，根目录中存在子目录，子目录中包含子文件，数据都在子文件中存储，而Zookeeper是在根节点下包含很多子节点，但是每一个节点都可以存储自己的一些数据和当前节点的信息，允许存储的数据大小为1M。注意：如果要

overfit同步小助手 2023-08-09 14:04:23 0 收藏