大数据 - overfit.cn

使用 SPL 高效实现 Flink SLS Connector 下推

在Flink消费SLS数据过程中会全量消费Logstore数据，对于分析不关注的行或列数据，同样会有网络和计算开销，基于此，阿里云Flink SLS Connector 进行了升级，支持通过配置SPL实现SLS数据源的行过滤、列裁剪等下推，在过滤场景下可以有效地减少了网络与计算开销。

overfit同步小助手 2024-03-13 01:03:24 0 收藏

Hadoop之HDFS——【模块一】元数据架构

在Hadoop生态系统中，"元数据"（Metadata）指的是描述数据集特征的数据，它提供了关于文件系统中文件和目录的信息。在Hadoop分布式文件系统（HDFS）中，元数据主要由NameNode来管理。INodeMap是Hadoop中用于存储inode信息的数据结构。它是一个内存中的映射表，用于将

overfit同步小助手 2024-03-13 00:03:47 0 收藏

windows搭建pyspark环境详细教程

将hadoop.dll和winutils.exe均拷贝到D:\hadoop-2.7.1\bin下和C:\Windows\System32下（两个文件各拷贝一份）此时bin目录（D:\hadoop-2.7.1\bin）下可能没有hadoop.dll及winutils.exe文件，接下来安装py4j,在

overfit同步小助手 2024-03-13 00:03:11 0 收藏

HBase的数据库与HadoopEcosyste

1.背景介绍HBase是一个分布式、可扩展、高性能、高可用性的列式存储系统，基于Google的Bigtable设计。HBase是Hadoop生态系统的一个重要组成部分，与Hadoop HDFS、MapReduce、ZooKeeper等产品密切相关。本文将从以下几个方面进行深入探讨：背景介绍核心概念与

overfit同步小助手 2024-03-12 22:03:51 0 收藏

iceberg1.4.2 +minio通过spark创建表，插入数据

iceberg 是一种开放的表格式管理，解决大数据数据中结构化，非结构化和半结构化不统一的问题。主要是通过对表的管理实现增删改查，同时支持历史回滚（版本旅行）等操作。下层支持hadoop，s3,对象存储，上层支持hive，spark，flink 等应用。实现在中间把两部分隔离开来，实现一种对接和数据

overfit同步小助手 2024-03-12 22:03:45 0 收藏

数据仓库的数据清洗与转换:处理异常数据

1.背景介绍数据仓库是企业和组织中的核心资产之一，它存储了大量的历史数据，用于支持决策、分析和预测。数据仓库的质量直接影响其价值和可用性。因此，数据仓库的数据清洗与转换是一个至关重要的问题。异常数据是数据仓库中常见的问题，它们可能导致数据质量下降、分析结果错误等问题。因此，处理异常数据是数据仓库数据

overfit同步小助手 2024-03-12 21:03:53 0 收藏

flink消费kafka限制消费速率

overfit同步小助手 2024-03-12 21:03:48 0 收藏

dubbo + ZooKeeper

把ZooKeeper作为一个服务的注册中心，在其中登记每个服务，每台服务器知道自己是属于哪个服务，在服务器启动时，自己向所属服务进行登记，这样，一个树形的服务结构就呈现出来了，根据这样一个树形服务结构，RPC服务的消费者可以很轻松的找到它所需求的服务信息。实时性：Zookeeper保证客户端将在一个

overfit同步小助手 2024-03-12 21:03:44 0 收藏

Spark 基础

Spark在2013年加入Apache孵化器项目，之后获得迅猛的发展，并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎，它是基于内存计算的大数据并行计算框架，适用于各种各样的分布式平台的系统。在Spark生态圈中包含了Sp

overfit同步小助手 2024-03-12 21:03:35 0 收藏

月入五万技巧spark，不够五万我来给你补头都大了

但是Spark是基于内存的，所以在实际的生产环境中，由于内存的限制，可能会由于内存资源不够导致Job执行失败，此时，MapReduce其实是一个更好的选择，所以Spark 并不能完全替代MR。Spark就是在传统的MapReduce计算框架的基础上，利用其计算过程的优化，从而大大加快了数据分析、挖掘

overfit同步小助手 2024-03-12 20:03:45 0 收藏

【Flink集群RPC通讯机制（二）】创建AkkaRpcService、启动RPC服务、实现相互通信

overfit同步小助手 2024-03-12 20:03:28 0 收藏

2023年第三届中国高校大数据挑战赛第二场赛题D题赛题：行业职业技术培训能力评价（成品论文代码与思路视频讲解）

2023年第三届中国高校大数据挑战赛第二场赛题D题赛题：行业职业技术培训能力评价

overfit同步小助手 2024-03-12 20:03:07 0 收藏

linux系统消息中间件rabbitmq普通集群的部署

overfit同步小助手 2024-03-12 19:03:56 0 收藏

Zookeeper(动物园管理员)

zookeeper

overfit同步小助手 2024-03-12 19:03:53 0 收藏

Linux-一篇文章，速通Hadoop集群之伪分布式，完全分布式，高可用搭建（附zookeeper，jdk介绍与安装）。

本片文章会详细介绍hadoop的作用，历史，学习hadoop。以及教会大家如何在Linux搭建hadoop的三种集群，以应对不同场所不同需求的集群环境。除此之外，也可以在本文里一起探讨交流，提升能力。

overfit同步小助手 2024-03-12 19:03:44 0 收藏

Zookeeper 如何保证分布式系统数据一致性

写在前面分布式架构出现后，越来越多的分布式系统会面临数据一致性的问题。目前，ZooKeeper 是在解决分布式数据一致性上最成熟稳定且被大规模应用的工业级解决方案。ZooKeeper 保证分布式系统数据一致性的核心算法就是 ZAB 协议(ZooKeeper Atomic Broadcast，原子消

overfit同步小助手 2024-03-12 18:03:43 0 收藏

RocketMQ与Kafka架构深度对比

RocketMQ的系统设计更偏向于队列模型，提供了丰富的消息队列语义，如顺序消息、事务消息和定时消息等。在扩展性方面，Kafka的Broker是无状态的，可以方便地进行横向扩展，提高系统的吞吐量和可用性。本文将深入对比分析RocketMQ与Kafka在架构设计、组件构成、数据流向、扩展性、容错性和一

overfit同步小助手 2024-03-12 13:03:54 0 收藏

HBase 的安装与部署

在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期，均衡 RegionServer 的负载，如果 HMaster 挂掉了，那么整个 HBase 集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。我们只需删除HBase中的SLF4J，使用Hadoop中的SLF

overfit同步小助手 2024-03-12 13:03:42 0 收藏

【数仓】通过Flume+kafka采集日志数据存储到Hadoop

通过将数据从不同的数据源采集并传输到指定的目的地，Flume可以帮助企业实现数据的集中存储和管理，为后续的数据分析和挖掘提供基础。它主要用于将大量的日志数据从不同的数据源收集起来，然后通过通道（Channel）进行传输，最终将数据传输到指定的目的地，如HDFS、HBase等。上表中的参数是最常用的，

overfit同步小助手 2024-03-12 13:03:16 0 收藏

纯小白cenos7搭建hadoop，zookeeper，到spark集群

自己先装了一遍，然后写篇博客，回顾整个完整过程，帮助自己加深理解。几乎所有命令行都用文字标出，如果跟着安装的可以直接复制哦。

overfit同步小助手 2024-03-12 11:03:49 0 收藏