大数据 - overfit.cn

RabbitMQ基础操作入门与实践

本文还有配套的精品资源，点击获取简介：RabbitMQ是一个广泛使用的开源消息队列系统，它通过AMQP协议提供了高度可用、可扩展和可靠的通信机制。本文将引导读者通过实例学习RabbitMQ的基本操作，包括安装配置、连接服务器、创建队列、发送和接收消息。通过实际编码演示了如何在Java项目中使用

overfit同步小助手 2024-10-25 19:03:51 0 收藏

项目第一弹：RabbitMQ介绍

RabbitMQ介绍

overfit同步小助手 2024-10-25 19:03:34 0 收藏

Kafka 的重平衡问题详解及解决方案

重平衡（Rebalance）是 Kafka 在消费者组内部重新分配分区（Partition）的过程。Kafka 的消费者组是一个逻辑概念，它允许多个消费者实例（Consumer）共同消费一个或多个主题（Topic）的分区。每个分区只能被一个消费者组中的一个消费者消费。因此，重平衡的目的是确保分区在消

overfit同步小助手 2024-10-25 16:03:50 0 收藏

Hadoop三大组件的工作原理

HDFS是Hadoop的核心存储组件，它被设计用于在大规模集群上存储和管理海量数据，具有高容错性、高可靠性和高可扩展性等特点。MapReduce是一种用于大规模数据集并行处理的编程模型和计算框架。它将复杂的数据分析任务分解为两个阶段：Map阶段和Reduce阶段，通过分布式计算的方式在集群上高效处理

overfit同步小助手 2024-10-25 16:03:23 0 收藏

毕设 python大数据旅游数据分析可视化系统(源码分享)

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩 **基于python的旅游数据分析可视

overfit同步小助手 2024-10-25 15:04:34 0 收藏

java高并发场景RabbitMQ的使用

日常业务开发中，开发人员都知道，RabbitMQ常用于并发，流量大的场景，因为RabbitMQ属于中间件需要维护，所以一般小项目几乎不会使用。而在大型并发环境下，大量的流量积压到接口中，使mysql或者oracle连接分配出现不够使用的情况，此时就可以使用RabbitMQ来解决。采用异步通知的方式，

overfit同步小助手 2024-10-25 15:04:20 0 收藏

大数据-181 Elasticsearch - 原理剖析索引文档存储段合并、存储文件详解

Elasticsearch通过在后台进行段合并来解决这个问题，小的段合并到大的段，然后这些大的段被合并到更大的段，段合并的时候会将那些旧的已删除文档从文件系统中清除，被删除的文档（或被更新文档的旧版本）不会拷贝到新的大段中。合并大的段需要消耗大量的 I/O和CPU资源，如果任其发展会影响搜索性能，E

overfit同步小助手 2024-10-25 15:03:47 0 收藏

说一说Zookeeper的应用场景及其原理

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

overfit同步小助手 2024-10-25 14:03:41 0 收藏

CentOS环境下Zookeeper与Kafka的快速部署与实践

本文提供了一个快速指南，用于在CentOS 7操作系统的虚拟机hadoop01上启动Zookeeper和Kafka。首先介绍了环境准备，包括虚拟机的基本信息和使用的软件版本。然后，通过Xshell连接到虚拟机，并提供了详细的命令步骤来启动Zookeeper和Kafka服务。在启动Zookeeper后

overfit同步小助手 2024-10-25 14:03:15 0 收藏

大数据毕业设计选题推荐-音乐数据分析系统-音乐推荐系统-Python数据可视化-Hive-Hadoop-Spark

在数字化时代，音乐产业正经历着前所未有的变革。随着互联网技术的普及和数字音乐平台的兴起，人们可以轻松地访问数以百万计的音乐作品。根据相关数据，中国数字音乐产业规模已近2000亿，从业人员规模超500万，年度作品生产规模超5000万。这些平台不仅改变了我们发现和聆听音乐的方式，也产生了海量的数据，包括

overfit同步小助手 2024-10-25 13:03:25 0 收藏

大数据毕业设计选题推荐-B站短视频数据分析系统-Python数据可视化-Hive-Hadoop-Spark

近年来，短视频的迅猛发展已经成为互联网内容生态的重要组成部分。根据《2023年中国短视频行业研究报告》显示，截至2023年，中国短视频用户规模已经突破9亿，占据网民总数的90%以上。尤其是像B站这样以二次元文化起家的平台，逐渐成为年轻人喜爱的视频内容消费平台。B站的用户主要集中在18-35岁的年轻群

overfit同步小助手 2024-10-25 11:03:31 0 收藏

Flink的反压机制：底层原理、产生原因、排查思路与解决方案

在解决反压时，应该首先通过 Flink 的监控工具排查具体原因，然后根据实际情况采取针对性的解决方案，如增加并行度、优化算子逻辑、调整分区策略、优化外部系统等。通过合理的反压处理，可以显著提高 Flink 作业的稳定性和处理效率。在 keyBy 操作后，不同的并行子任务（subtask）可能收到的数

overfit同步小助手 2024-10-25 10:03:58 0 收藏

hive如何删除分区

在Hive中，删除分区是一个常见的操作。你可以使用ALTER TABLE DROP PARTITION语句来删除一个或多个分区。

overfit同步小助手 2024-10-25 10:03:47 0 收藏

毕业设计 python大数据旅游数据分析可视化系统(源码分享)

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩 **基于python的旅游数据分析可视

overfit同步小助手 2024-10-25 09:03:27 0 收藏

记录一下，Vcenter清理/storage/archive空间

storage/archive 目录通常用于存储归档的日志文件和其他历史数据。这些文件通常是由 vCenter Server 自动生成的，用于记录系统。**图中可以看到 /storage/archive 使用占比很高。1、SSH登陆到Vcenter.**清理后空间正常，Vcenter运行正常。操作、

overfit同步小助手 2024-10-25 08:05:08 0 收藏

RabbitMQ 实际运用

RabbitMQ 是一款广泛使用的消息中间件，它基于 AMQP（高级消息队列协议）构建，支持多种消息协议和开发语言。在实际应用中，RabbitMQ 可以解决多种复杂的业务场景，包括但不限于异步处理、应用解耦、流量削峰、分布式事务和消息分发等。

overfit同步小助手 2024-10-25 07:03:41 0 收藏

Flume与Hadoop集成原理与实例

Flume与Hadoop集成原理与实例作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着大数据时代的到来，企业和组织面

overfit同步小助手 2024-10-25 04:03:39 0 收藏

并发系统的 CSP+PAT 形式化建模与验证方法（以Kafka系统为例）

基于 CSP 的 Kafka 消息传输机制形式化建模与验证

overfit同步小助手 2024-10-25 04:03:29 0 收藏

Kube-CC：基于K8S的轻量化大数据课程实验教学平台

Kube-CC：基于K8S的轻量化大数据课程实验教学平台 Kube-CC 自动部署集群，云计算平台搭建项目地址: https://gitcode

overfit同步小助手 2024-10-25 03:03:52 0 收藏

大数据新视界 --大数据大厂之数据质量评估指标与方法：提升数据可信度

本文围绕大数据的数据质量评估指标（准确性、完整性、一致性、时效性、唯一性、有效性、精确性）和方法（数据剖析、质量监控、审计）展开，结合多行业案例深入阐述提升数据可信度的重要性与具体操作，考虑了不同行业、不同规模企业的差异，还提供了代码示例并对相关概念进行详细解释，同时更多地引用了行业标准增强专业性，

overfit同步小助手 2024-10-25 03:03:18 0 收藏