大数据 - overfit.cn

ZooKeeper和Hadoop高可用（主备切换）

本文主要介绍Zookeeper的概述、集群环境、客户端操作、节点类型、特征、监听机制、集群选举及Hadoop高可用服务的概述。

overfit同步小助手 2024-12-03 07:03:36 0 收藏

数据挖掘与数据仓库：从理论到实践的课件

本文还有配套的精品资源，点击获取简介：数据挖掘是一种利用算法从大量数据中提取有价值信息的技术，为决策提供支持。本课程深入探讨数据挖掘过程，包括数据预处理、建模和评估，以及决策树、OLAP、聚类、关联规则学习等关键概念。同时，课程还会讨论数据仓库的基础知识，即如何将操作数据转化为可供分析的形式。

overfit同步小助手 2024-12-03 06:03:44 0 收藏

Kafka 如何保证数据不丢失？不重复？

当设置成false时，由于是手动提交的，可以处理一条提交一条，也可以处理一批，提交一批，由于consumer在消费数据时是按一个batch来的，当pull了30条数据时，如果我们处理一条，提交一个offset，这样会严重影响消费的能力，那就需要我们来按一批来处理，或者设置一个累加器，处理一条加1，如

overfit同步小助手 2024-12-03 05:03:20 0 收藏

【Spark】【大数据技术基础】课程实验七 Spark基础编程实验

环境配置问题：最初在配置环境变量时，由于路径错误导致无法启动Spark Shell。通过检查并修正.bashrc文件中的SPARK_HOME路径，我解决了这个问题。程序编译错误：在编写数据去重程序时，由于对Scala语法不熟导致编译错误。通过查阅文档和示例代码，我逐步修正了代码中的语法错误。运行时性

overfit同步小助手 2024-12-03 04:03:38 0 收藏

kafka

Kafka和RocketMQ都提供了强大的扩展性，

overfit同步小助手 2024-12-03 03:03:40 0 收藏

大数据-234 离线数仓 - 异构数据源 DataX 将数据从 HDFS 到 MySQL

DataX 是阿里巴巴开源的一款分布式数据同步工具，用于实现各种异构数据源之间高效、稳定的数据同步。其主要功能包括数据的批量导入、导出和实时传输，支持多种主流数据源，例如关系型数据库、NoSQL 数据库、大数据存储系统等。DataX 的核心思想是“插件化架构”，通过灵活的 Reader 和 Writ

overfit同步小助手 2024-12-03 03:03:15 0 收藏

源码解析-Spring Eureka（更新ing）

无。

overfit同步小助手 2024-12-02 23:03:54 0 收藏

springboot 整合 rabbitMQ (延迟队列)

overfit同步小助手 2024-12-02 23:03:38 0 收藏

【计算机毕设-大数据方向】基于大数据的健康美食推荐系统设计与实现

在当今社会，随着人们生活水平的提高以及对生活质量要求的日益提升，健康饮食的概念逐渐深入人心。人们不再满足于食物的基本需求——充饥，而是更加关注食品的营养价值、健康属性以及是否符合个人口味偏好。然而，在快节奏的生活环境下，很多人并没有足够的时间和精力去学习复杂的营养学知识，更不用说去精心挑选和搭配食材

overfit同步小助手 2024-12-02 21:03:47 0 收藏

一文解读数据仓库的分层逻辑和原理

ODS 层的主要功能是对业务数据进行抽取（Extract），实现数据的初步集成，即将不同来源、不同格式的数据进行汇聚，为后续的数据处理提供一个统一的数据基础。它遵循企业的数据标准和规范，对数据进行更深入的清洗和转换，确保数据的准确性和完整性。：存储的是轻度汇总的数据。：包括结构化数据（如订单表、用户

overfit同步小助手 2024-12-02 20:03:47 0 收藏

信息差的销售个性化升级：大数据如何实现销售个性化

信息差的销售个性化升级：大数据如何实现销售个性化1. 背景介绍在激烈的市场竞争中，销售个性化已成为企业提升市场竞争力和客户满意度的重要手段。传统的销售策略基于简单的统计分析，缺乏对个体客户行为和偏好的深度洞察。而随着大数据和人工智能技术的发展，销售个性化正逐步从“粗放”

overfit同步小助手 2024-12-02 19:03:44 0 收藏

大数据新视界 -- 大数据大厂之 Hive 数据压缩：优化存储与传输的关键（上）（19/ 30）

本文承前启后，聚焦 Hive 数据压缩，深挖压缩算法（原理、Hive 支持算法及选策），详呈表与分区压缩实战、细究查询性能平衡，佐以多行业案例，具实操价值，设互动引下篇，助优化存储传输。

overfit同步小助手 2024-12-02 18:03:41 0 收藏

大数据新视界 -- Hive 函数应用：复杂数据转换的实战案例（下）（12/ 30）

本文承前启后，深挖 Hive 函数复杂数据转换实战，析基础、展案例、克挑战优效能，附代码、量化成效，具实操与参考价值，设互动预告下篇。

overfit同步小助手 2024-12-02 18:03:34 0 收藏

大数据062_python-flask重庆旅游景点数据分析系统爬虫可视化

Python具有强大的优势，通过简洁的语法和类库进行操作。而且Python提供了许多的控制语句，比如if语句、for语句，while语句。在数据插入时也可以通过for语句来进行数据的逐条插入。Flask框架的主要特征是核心构成比较简单，但具有很强的扩展性和兼容性，程序员可以使用Python语言快速实

overfit同步小助手 2024-12-02 16:03:41 0 收藏

docker 部署微服务+rabbitmq+resdis

网上都有，这一点不必赘述问题：配置完成后，进行拉取软件，有时会遇到。

overfit同步小助手 2024-12-02 15:03:49 0 收藏

深入Flink StreamGraph：构建流处理拓扑的奥秘

表示流式处理拓扑的类，它包含构建执行任务图所需的所有信息。说白了就是我们写的代码直接生成的图，表示程序的拓扑结构StreamGraph类图，可以看到这个类里面包含了执行任务所需的所有信息，比如状态后端，JobType(流or批)、checkpoint配置等等，我们今天从宏观层面看，不深入每个细节，先

overfit同步小助手 2024-12-02 15:03:42 0 收藏

【pyspark学习从入门到精通20】机器学习库_3

在这一部分，我们将使用前一章中的数据集的一部分来介绍 PySpark ML 的概念。在这一部分，我们将再次尝试预测婴儿的生存几率。

overfit同步小助手 2024-12-02 14:03:35 0 收藏

大数据-237 离线数仓 - 广告业务需求分析 ODS DWD UDF JSON 串解析

UDF 是用户根据具体需求编写的自定义函数，用于处理 SQL 语言无法直接完成的复杂逻辑。数据仓库系统（如 Hive、Spark SQL、ClickHouse 等）内置了一些通用的函数，但当内置函数无法满足需求时，可以通过 UDF 实现自定义扩展。UDF 的作用，实现复杂逻辑，通过 UDF，可以将复

overfit同步小助手 2024-12-02 14:03:29 0 收藏

Kafka+RabbitMQ+ActiveMQ看看消息队列设计精要2

消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能，成为异步RPC的主要手段之一。当今市面上有很多主流的消息中间件，如老牌的ActiveMQ、RabbitMQ，炙手可热的Kafka，阿里巴巴自主开发的Notify、MetaQ、Rocke

overfit同步小助手 2024-12-02 12:03:37 0 收藏

RabbitMQ3：Java客户端快速入门

AMQP：Advanced Message Queuing Protocol（高级消息队列协议）。解读：首先AMQP是一种协议，类似于http这种，规定了应用程序之间传递消息的标准。该协议与语言、平台无关，因此可实现跨语言、跨平台。Spring AMQP：是基于AMQP协议，定义的一套API规范。提

overfit同步小助手 2024-12-02 11:03:55 0 收藏