大数据 - overfit.cn

毕业设计项目 python大数据旅游数据分析可视化系统(源码分享)

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩 **基于python的旅游数据分析可视

overfit同步小助手 2024-11-06 23:03:19 0 收藏

rabbitmq

什么是消息队列MQ 全称为Message Queue, 消息队列。是一种应用程序对应用程序的通信方法。应用程序通过读写出入队列的消息（针对应用程序的数据）来通信，而无需专用连接来链接它们。消息传递指的是程序之间通过在消息中发送数据进行通信。当下主流的消息中间件有RabbitMQ、Kafka、Acti

overfit同步小助手 2024-11-06 22:03:51 0 收藏

Hadoop/HBase/HDFS 常用默认端口总结列举,以及作用

必须要吐槽一句, 光看这些端口, 就能发现Hadoop设计的复杂性在2020s的今天显得有点格格不入, 如今, 如果没有历史包袱,如果非必要, 还是选择同类替换的应用对需求进行专项专用吧。节点管理器本地化端口（默认为8040）：用于节点管理器与本地化服务进行通信，获取应用程序所需的资源。应用程序

overfit同步小助手 2024-11-06 21:03:53 0 收藏

Zookeeper 和 Eureka 做注册中心有什么区别？

总结来说，Zookeeper和Eureka在CAP原则的倾向、集群模式、服务发现机制、使用场景以及客户端缓存等方面都有所不同，选择合适的工具需要根据具体的业务需求和架构设计来决定。

overfit同步小助手 2024-11-06 21:03:40 0 收藏

Python爬虫基于Hadoop的NBA球员大数据分析与可视化系统

在对大数据的深入研究后，根据其前景，包括数据方面的发展与价值，本套系统从用户痛点需求进行分析入手，对系统架构进行了设计，随后完成了系统方面的具体设计，最后为数据入库对DB进行配置和设计，最后到系统搭建和编码实现，分别为后台数据处理，在数据转换方面包括数据的clean、临时存储落地，数据经过完全处理后

overfit同步小助手 2024-11-06 20:03:48 0 收藏

cppkafka 项目下载及安装教程

cppkafka 项目下载及安装教程 cppkafka Modern C++ Apache Kafka client library (wrapper for librdkafka)

overfit同步小助手 2024-11-06 19:03:48 0 收藏

Hbase集群模式搭建

6. 修改 hbase/conf/hbase-site.xml vi /home/briup/software/hbase/conf/hbase-site.xml 内容如下。1. 把所有的hbase-2.1.7.tart.gz复制到所有briup⽤户下，解压HBase安装包到briup家⽬录soft

overfit同步小助手 2024-11-06 18:04:02 0 收藏

国内能用的Docker镜像源【2024最新持续更新】

在国内使用 Docker 的朋友们，可能都遇到过配置镜像源来加速镜像拉取的操作。然而，最近几个月发现许多曾经常用的国内镜像站（包括各种云服务商和高校镜像站）已经无法使用。因此，本人开始搜索并汇总了目前可用的镜像站和镜像加速地址，并计划定期测试它们的可用性，并更新这个列表。如果您知道新的可用站点，也欢

overfit同步小助手 2024-11-06 18:03:55 0 收藏

大数据Spark面试题汇总

大数据Spark面试题汇总【下载地址】大数据Spark面试题汇总分享本资源文件包含了79道关于大数据Spark的面试题及其详细解答。这些题目涵盖了Spark的核心概念、部署模式、性能优化、数据本地性、RDD特性、Shuffle过

overfit同步小助手 2024-11-06 17:03:32 0 收藏

Flink On Yarn运行模式：会话模式部署、单作业模式部署、应用模式部署

YARN上部署的过程是：客户端把Flink应用提交给Yarn的ResourceManager，Yarn的ResourceManager会向Yarn的NodeManager申请容器。在这些容器上，Flink会部署JobManager和TaskManager的实例，从而启动集群。Flink会根据运行在J

overfit同步小助手 2024-11-06 14:03:49 0 收藏

RabbitMQ 的配置与管理

RabbitMQ 是一个流行的开源消息队列系统，广泛应用于分布式系统中，用于实现异步通信、事件驱动架构、负载均衡和消息传递等功能。为了有效地使用 RabbitMQ，需要了解其配置与管理方法。

overfit同步小助手 2024-11-06 14:03:44 0 收藏

大数据-201 数据挖掘机器学习理论 - 决策树局部最优剪枝分裂二叉分裂

而训练集、测试集和验证集的划分通常遵照 6:2:2 的比例进行划分，当然也可以根据实际需求适当调整划分比例，但无论如何，测试集和验证集数据量都不宜过多也不宜过少，该二者数据集数据均不参与建模，若占比太多，则会对模型的构建过程造成较大的影响（欠拟合），而若划分数据过少，训练集数据量较大，则又可能造成过

overfit同步小助手 2024-11-06 14:03:38 0 收藏

【Hadoop-HA 搭建】hadoop-ha 高可用集群配置

搭建hadoop高可用集群，首先确保搭建了hadoop集群，zookeeper集群。hadoop 三个集群节点分别为主节点 master，两个副节点node01、node02。

overfit同步小助手 2024-11-06 14:03:27 0 收藏

Flink Checkpoint容错机制原理与代码实例讲解

随着大数据处理技术的快速发展，流处理引擎在实时数据处理领域扮演着越来越重要的角色。Apache Flink 作为一款高性能、可伸缩的流处理引擎，在金融、物流、推荐系统等领域得到广泛应用。然而，流处理具有数据流的不可持久性，一旦发生故障，未完成的数据处理任务将面临数据丢失的风险。为了保障流处理任务的可

overfit同步小助手 2024-11-06 13:03:32 0 收藏

单机安装kafka（含账号密码认证）

Kafka 的 Scala 版本指的是 Apache Kafka 的代码库使用 Scala 编程语言编写的部分。Kafka 是用 Java 和 Scala 混合开发的，主要的服务和功能是用 Java 实现的，但一些组件和库，特别是在流处理方面，使用了 Scala。

overfit同步小助手 2024-11-06 13:03:21 0 收藏

大数据新视界 -- 大数据大厂之提升 Impala 查询效率：重写查询语句的黄金法则（下）（4/30）

本文聚焦提升 Impala 查询效率的重写查询语句法则。阐述其重要性及与索引、分区关联，讲解明确目标、条件过滤和连接操作优化法则，含丰富代码示例。通过电商、金融案例展示优化前后效果，含性能对比与资源分析。文末互动并引出下一篇 Impala 内存管理避免瓶颈内容。

overfit同步小助手 2024-11-06 11:04:33 0 收藏

RabbitMQ与Prometheus集成：实现高效RabbitMQ监控

本文还有配套的精品资源，点击获取简介：RabbitMQ是一种基于Erlang的开源消息代理系统，提供了高可用性、可靠性和可扩展性。本文介绍了 rabbitmq-prometheus 插件，它将RabbitMQ的关键性能指标转换为Prometheus可读格式，便于监控RabbitMQ集群。

overfit同步小助手 2024-11-06 09:03:40 0 收藏

Hive的存储格式

Hive支持的存储数的格式主要有：TEXTFILE(默认格式) 、SEQUENCEFILE、RCFILE、ORCFILE、PARQUET。textfile为默认格式，建表时没有指定文件格式，则使用TEXTFILE，导入数据时会直接把数据文件拷贝到hdfs上不进行处理;sequencefile，rcf

overfit同步小助手 2024-11-06 08:03:45 0 收藏

大数据-查询引擎(trino)-云原生化设计思路

大数据场景里面，针对Trino/Presto的云原生化方案的设计思路。利用容器化技术，解决解决了查询引擎扩展性不足的问题。

overfit同步小助手 2024-11-06 08:03:19 0 收藏

Flink ResourceManager原理与代码实例讲解

Flink ResourceManager原理与代码实例讲解作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来

overfit同步小助手 2024-11-06 07:03:40 0 收藏