大数据 - overfit.cn

剖析Spark Shuffle原理（图文详解）

Shuffle 是指数据从一个节点重新分布到其他节点的过程，主要发生在需要重新组织数据以完成某些操作时。

overfit同步小助手 19 天前 0 收藏

Kafka Map 技术文档

Kafka Map 技术文档 kafka-map A beautiful, concise and powerful kafka web management tool. 一个美观简洁且强大的kafka web管理工具。

overfit同步小助手 19 天前 0 收藏

flink与kafka基础知识

Flink是一个分布式实时计算框架。用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。有状态：有状态计算是将当前批次结果加上上一批次计算的结果。无界流有定义流的开始，但没有定义流的结束(没有边界)。它们会无休止地产生数据。流处理。

overfit同步小助手 19 天前 0 收藏

【Linux】Zookeeper 部署

例如，如果我们有5个ZooKeeper服务器的⼀个集合，其中3个在美国西海岸，另外两个在美国东海岸，为了确保客户端只连接到本地服务器上，我们可以使在东海岸客户端的连接串中只出现东海岸的服务器，在西海岸客户端的连接串中只有西海岸的服务器。集群模式下配置一个文件 myid，这个文件在 dataDir

overfit同步小助手 19 天前 0 收藏

大数据新视界 -- 大数据大厂之提升 Impala 查询效率：索引优化的秘籍大揭秘（上）（3/30）

本文围绕 Impala 查询效率展开，详述索引优化，包括索引原理（如 B - 树、位图索引）、优化策略（选列、避过度索引）、企业案例（金融和互联网巨头）、代码优化（通用和错误处理），还展望新版本特性。分享经验并引导读者互动，提及查询困境与优化经验分享。同时自然引出下一篇将探讨的重写查询语句主题。

overfit同步小助手 19 天前 0 收藏

六，Linux基础环境搭建（CentOS7）- 安装HBase

在hbase-site.xml配置zookeeper，当Hbase管理zookeeper的时候，你可以通过修改zoo.cfg来配置zookeeper，对于zookeepr的配置，你至少要在 hbase-site.xml中列出zookeepr的ensemble servers，具体的字段是 hbase

overfit同步小助手 19 天前 0 收藏

Kafka技术详解[3]: 生产与消费数据

一旦消息主题创建完成，就可以通过Kafka客户端向Kafka服务器的主题中发送消息。Kafka生产者客户端是一套API接口，任何能够通过这些接口连接Kafka并发送数据的组件都可以称为Kafka生产者。通常，也可通过Java程序来生产数据。同样地，可以通过Java程序来消费数据。一旦消息通过生产者客

overfit同步小助手 19 天前 0 收藏

深入探究RabbitMQ工作队列模式实现

本文还有配套的精品资源，点击获取简介：消息队列是解耦系统组件、提升可扩展性和容错性的中间件技术。RabbitMQ作为流行的开源消息代理，非常适合实现工作队列模式。本文深入分析RabbitMQ工作队列实现的核心技术，如消息确认机制、持久化存储和公平调度，以及如何通过这些技术构建高效可靠的任务处理

overfit同步小助手 19 天前 0 收藏

hadoop_hdfs详解

一文读懂HDFS，全程干货无废话

overfit同步小助手 19 天前 0 收藏

pyflink 时序异常检测——PEWMA

EWMA:μt=αμt−1+(1−α)Xt\mu_t = \alpha \mu_{t-1} + (1 - \alpha ) X_tμt=αμt−1+(1−α)XtPEWMA:μt=α(1−βPt)μt−1+(1−α(1−βPt))Xt\mu_t = \alpha (1 - \beta P_t)

overfit同步小助手 19 天前 0 收藏

在 Java 中实现 Kafka Producer 的单例模式

在分布式系统中，Apache Kafka 是一个非常受欢迎的消息中间件。它提供了高吞吐量、低延迟的消息传递机制，非常适合处理实时数据流。本文将介绍如何在 Java 中使用 Kafka Producer 并实现单例模式，以确保资源的有效管理。Kafka 是一个分布式流处理平台，它的核心功能包括发布和订

overfit同步小助手 19 天前 0 收藏

ZooKeeper笔记，深入浅出ZooKeeper原理、paxos算法、ZAB协议，涵盖集群搭建和管理

本文围绕 Zookeeper 展开，详细阐述了其核心概念与特性。介绍了 Zookeeper 在分布式系统中的重要作用，如数据一致性保障、分布式协调等。深入探讨了其工作原理，包括 ZAB 协议的运行机制。还涵盖了 Zookeeper 的应用场景，如服务注册与发现、配置管理等。同时，提及了相关的实践要点

overfit同步小助手 19 天前 0 收藏

大数据-203 数据挖掘机器学习理论 - 决策树 sklearn 剪枝参数样本不均匀问题

剪枝参数一定能够提升模型在测试集上的表现吗？调参是没有绝对的答案的，一切都需要看数据的本身。无论如何，剪枝参数的默认值会让树无尽的生长，这些树在某些数据集上可能非常巨大，对内存的消耗也非常巨大。属性是模型训练之后，能够调用查看的模型的各种性质，对决策树来说，最重要的是 feature_importa

overfit同步小助手 20 天前 0 收藏

大数据新视界 -- 大数据大厂之 Impala 性能优化：数据存储分区的艺术与实践（下）（2/30）

本文将 Impala 数据存储分区类比宇宙探索，阐述其在大数据中的应用。包括分区策略（时间序列、地域、多级分区）、分区管理（动态增减、数据迁移更新）、分区对查询性能影响（与 Hive 对比、优化技巧）、跨国电商和大型互联网企业案例、鼓励读者分享经验，还介绍下一篇索引优化内容，为数据处理提供指引。

overfit同步小助手 20 天前 0 收藏

数据仓库: 7- SQL和数据处理

复杂 SQL 查询是数据仓库中不可避免的挑战, 但我们可以通过多种优化策略来提高其性能和可维护性;选择合适的优化策略需要根据具体的业务场景、数据量、性能要求等因素总和考虑;窗口函数是数据仓库中进行数据分析的利器, 它能够帮助我们更轻松地计算各种指标、排名和趋势分析;掌握窗口函数的使用方法和优化技巧,

overfit同步小助手 20 天前 0 收藏

头歌大数据实训（总结）

HDFS,HBase,MapReduce,SparkRDD,SparkSQL

overfit同步小助手 20 天前 0 收藏

Hive环境的搭建【详细教程】

Hive是一个基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为类似于数据库中的表，并提供类似于SQL的查询语言（HiveQL）来进行数据查询、分析和管理。Hive的主要优点是可以处理大量的数据，并且可以通过扩展集群来提高处理能力。

overfit同步小助手 20 天前 0 收藏

【Spark 实战】基于spark3.4.2+iceberg1.6.1搭建本地调试环境

iceberg+spark搭建阅读本地调试环境

overfit同步小助手 20 天前 0 收藏

【Python机器学习】模型评估与改进——二分类指标

二分类可能是实践中最常见的机器学习应用，也是概念最简单的应用。但是即使是评估这个简单的任务也仍有一些注意事项。对于二分类问题，我们通常会说正类和反类，而正类使我们要寻找的类。

overfit同步小助手 20 天前 0 收藏

flinksql-Queries查询相关实战

-例如，ROLLUP(a, b, c) 会生成 (a, b, c), (a, b), (a), 和 ()，而不会像 CUBE() 那样生成所有的可能组--合。--CUBE() 是一种扩展的 GROUP BY 操作，允许你针对多列进行分组聚合，并生成每种可能的维度组合的聚合结果。--如果使用了 CUB

overfit同步小助手 20 天前 0 收藏

剖析Spark Shuffle原理（图文详解）

Kafka Map 技术文档

flink与kafka基础知识

【Linux】Zookeeper 部署

大数据新视界 -- 大数据大厂之提升 Impala 查询效率：索引优化的秘籍大揭秘（上）（3/30）

六，Linux基础环境搭建（CentOS7）- 安装HBase

Kafka技术详解[3]: 生产与消费数据

深入探究RabbitMQ工作队列模式实现

hadoop_hdfs详解

pyflink 时序异常检测——PEWMA

在 Java 中实现 Kafka Producer 的单例模式

ZooKeeper笔记，深入浅出ZooKeeper原理、paxos算法、ZAB协议，涵盖集群搭建和管理

大数据-203 数据挖掘机器学习理论 - 决策树 sklearn 剪枝参数样本不均匀问题

大数据新视界 -- 大数据大厂之 Impala 性能优化：数据存储分区的艺术与实践（下）（2/30）

数据仓库: 7- SQL和数据处理

头歌大数据实训（总结）

Hive环境的搭建【详细教程】

【Spark 实战】基于spark3.4.2+iceberg1.6.1搭建本地调试环境

【Python机器学习】模型评估与改进——二分类指标

flinksql-Queries查询相关实战

作者榜

资讯小助手

内容小助手

Deephub

奕凯