大数据 - overfit.cn

Spark 3.3.x版本中的动态分区裁剪（DPP，Dynamic Partition Pruning）的实现及应用剖析

一种通用的描述是，DPP在分区级别过滤数据，注意它有别于`Partitioin Filter`。DPP是在`execute`阶段生效，对从数据源加载的`InputPartition`（Spark内部计算数据时定义的数据类型）进一步过滤，减少传递到下游算子的数据量；而`Partition Filter

overfit同步小助手 2024-11-02 16:03:34 0 收藏

大数据新视界 -- 大数据大厂都在用的数据目录管理秘籍大揭秘，附海量代码和案例

本文围绕大数据时代的数据目录管理展开，深入阐述其重要性、挑战、策略、多行业经典案例及未来发展趋势，包括智能化、与其他技术融合和跨组织协作，提供丰富代码和可视化示例，具有高参考价值。

overfit同步小助手 2024-11-02 16:03:17 0 收藏

Hive Metastore 查分区大小批量建表语句

concat(‘)’,(case when t.PARAM_VALUE is null then ’ ’ else concat(’ comment ‘,’‘’‘,t.PARAM_VALUE,’‘’ ‘) end),concat(case when t.PARTITIONED is null the

overfit同步小助手 2024-11-02 14:03:49 0 收藏

UnifiedArchive 项目教程

UnifiedArchive 项目教程 UnifiedArchive UnifiedArchive - an archive manager with unified interface for different formats

overfit同步小助手 2024-11-02 13:03:31 0 收藏

kafka

kafka消费模式：主要有2种，分别是一对一的消费和一对多的消费。一对一消费：点对点通信，一个发送，一个接收。消息发送者将消息发送至队列中，通知消费者从队列中拉去数据进行消费，消费完毕后，队列中消息删除。1条消息只能被1个消费者消费一对多消费：也成为发布/订阅模式，利用topic存储消息，消息生产者

overfit同步小助手 2024-11-02 13:03:28 0 收藏

大数据-200 数据挖掘机器学习理论 - 决策树数据集划分决策树生成 ID3 C4.5

而在信息熵指数的指导下，决策树生成过程的局部最优条件也非常好理解：即在选取属性测试条件（attribute test condition）对某节点（数据集）进行切分的时候，尽可能选取使得该节点对应的子节点信息熵最小的特征进行切分。同时我们知道，全局最优树没有办法简单高效的获得，因此此处我们仍然要以局

overfit同步小助手 2024-11-02 12:03:44 0 收藏

Airflow 中文文档：大数据工作流的利器

Airflow 中文文档：大数据工作流的利器 airflow-doc-zh :book: [译] Airflow 中文文档项目地址: https

overfit同步小助手 2024-11-02 12:03:37 0 收藏

ApacheFlink：流处理框架的概述和核心概念

ApacheFlink：流处理框架的概述和核心概念作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming关键词：流处理，Apache Flink，数据流系统，实时计算，事件驱动，复杂事件处理，分布式

overfit同步小助手 2024-11-02 10:03:33 0 收藏

RabbitMQ:如何确保消息不丢失？

1，生产者开启mq事务（channel.txSelect）。如果发送不成功则会报错,此时可以通过事务来回滚（channel.txRollback）,成功收到消息则事务提交（channel.txCommit）。因为生产者事务是同步的机制，当事务提交后会阻塞在那儿，当吞吐量上来后这种方式会影响性能。2，

overfit同步小助手 2024-11-02 09:04:10 0 收藏

Hadoop-002-部署并配置HDFS集群

第一篇前期环境准备后, 本文主要是HDFS的部署完整配置, 直到搭建完成成功访问 http://hadoop-1:9870

overfit同步小助手 2024-11-02 09:03:54 0 收藏

【大数据技术基础 | 实验七】HBase实验：部署HBase

本实验介绍HBase体系架构和部署HBase的相关实验步骤。理解HBase基础简介及体系架构，掌握HBase集群安装部署及HBase Shell的常用命令，了解HBase和HDFS及Zookeeper之间的关系。

overfit同步小助手 2024-11-02 09:03:50 0 收藏

大数据新视界 -- 大数据大厂之大数据环境下的网络安全态势感知

阐述大数据环境下网络安全态势感知，包括其概念、与大数据关系、核心技术（采集、分析、可视化）、多行业案例（金融、互联网、能源、交通）、挑战与应对、与其他安全措施协同，总结成果与展望发展，涉及技术细节、代码示例和操作建议。

overfit同步小助手 2024-11-02 09:03:29 0 收藏

Kafka高可用性原理深度解析

kafka 高可用机制

overfit同步小助手 2024-11-02 08:03:28 0 收藏

Kafka 为什么要抛弃 Zookeeper？

本文，我们分析了为什么 Kafka 要移除 ZooKeeper，主要原因有两个：ZooKeeper不能满足 Kafka的发展以及 Kafka想创建自己的生态。在面临越来越复杂的数据流处理需求时，KRaft 模式为 Kafka 提供了一种更高效、简洁的架构方案。不论结局如何，Kafka 和 ZooKe

overfit同步小助手 2024-11-02 05:04:02 0 收藏

大数据-194 数据挖掘机器学习理论有监督、无监督、半监督、强化学习

从上图我们看出，对于复杂的数据，低阶多项式往往是欠拟合的状态，而高阶多项式则过分捕捉噪声数据的分布规律，而噪声数据之所以称为噪声，是因为其分布毫无规律可言，或者其分布毫无价值，因此就算高阶多项式在当前训练集上拟合度很高，但其捕捉到无用规律无法推广到新的数据集上，因此该模型在测试数据集上执行过程将会有

overfit同步小助手 2024-11-02 02:03:24 0 收藏

Flink时间窗口程序骨架结构

Flink 作业的基本骨架结构包含三部分：创建执行环境、定义数据处理逻辑、提交并执行Flink作业。日常大部分 Flink 作业是基于时间窗口计算模型的，同样的，开发一个Flink时间窗口作业也有一套基本的骨架结构，了解这套结构有助于我们更快地上手时间窗口作业开发。

overfit同步小助手 2024-11-02 01:03:32 0 收藏

Spark when to convert to vectorAssembler

在进行特征选择或特征转换时，可能需要将原始数据转换为一个统一的格式，以便后续的分析或模型训练。在Apache Spark中，将数据转换为向量形式通常是为了使用Spark MLlib库中的机器学习算法，特别是那些需要特征向量作为输入的算法。：在Spark的数据处理管道中，VectorAssembler

overfit同步小助手 2024-11-02 00:03:48 0 收藏

Apache ZooKeeper 3.6.4 分布式协调服务二进制包

Apache ZooKeeper 3.6.4 分布式协调服务二进制包【下载地址】ApacheZooKeeper3.6.4分布式协调服务二进制包 Apache ZooKeeper 是一个高度可靠的、开源的分布式协调服务，设计用于管理

overfit同步小助手 2024-11-02 00:03:45 0 收藏

解决RabbitMQ设置x-max-length队列最大长度后不进入死信队列

overfit同步小助手 2024-11-02 00:03:39 0 收藏

【已解决】【Linux】【Hadoop】cd 命令找不到文件夹的问题

在Linux操作系统中，cd命令是用于改变当前工作目录的常用命令。然而，有时候我们在使用cd命令时会遇到找不到指定文件夹的问题。本文将详细探讨可能的原因以及相应的解决方法。例子：cd /usr/local。

overfit同步小助手 2024-11-01 23:03:48 0 收藏