大数据 - overfit.cn

初探Flink的序列化

Flink未直接使用Java序列化，而是自研了一套高效的序列化机制。

overfit同步小助手 2024-11-22 13:03:50 0 收藏

毕设开源 python大数据旅游数据分析可视化系统(源码分享)

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩 **基于python的旅游数据分析可视

overfit同步小助手 2024-11-22 12:03:58 0 收藏

Kafka 快速入门（一）

kafka详细的安装、集群部署及关于生产者和消费者的命令

overfit同步小助手 2024-11-22 12:03:55 0 收藏

基于大数据的电信诈骗行为可视化系统含预测研究【lightGBM，XGBoost，随机森林】

本项目旨在开发一个综合性的电信诈骗预测与分析系统,通过对海量电信诈骗数据的深入分析和机器学习模型的应用,实现对潜在诈骗行为的有效识别和预防。该系统不仅提供了多维度的数据可视化分析,还集成了先进的机器学习算法,为电信运营商、监管机构以及普通用户提供了一个强大的反诈骗工具。

overfit同步小助手 2024-11-22 12:03:51 0 收藏

zookeeper 都有哪些使用场景？思考15

那么此时就可以使用 zookeeper 分布式锁，一个机器接收到了请求之后先获取 zookeeper 上的一把分布式锁，就是可以去创建一个 znode，接着执行操作；这个其实是 zookeeper 很经典的一个用法，简单来说，就好比，你 A 系统发送个请求到 mq，然后 B 系统消息消费之后处理了。

overfit同步小助手 2024-11-22 12:03:21 0 收藏

大数据新视界 -- 大数据大厂之 Impala 性能优化：融合人工智能预测的资源预分配秘籍（上）（29 / 30）

本文聚焦于 Impala 性能优化，深入探讨人工智能预测技术在其资源预分配中的应用。剖析大数据下 Impala 面临的挑战，阐述数据收集（含查询日志、系统性能指标、业务数据特征）、预处理（缺失值、异常值处理与标准化）、模型构建（如神经网络）及资源预分配策略。以社交媒体和电商巨头案例展示优化成效，显著

overfit同步小助手 2024-11-22 11:03:47 0 收藏

Kafka 原理

Kafka 的核心设计基于分布式日志系统，通过主题、分区、副本等机制，实现了高吞吐量、低延迟的数据流处理。其可靠性通过数据持久化、副本机制、消息确认以及事务支持来保证。Kafka 的水平扩展和自动故障恢复能力使其在大规模数据处理场景中具备极高的可用性。

overfit同步小助手 2024-11-22 10:06:21 0 收藏

Flink Memory Management原理与代码实例讲解

Flink Memory Management 原理与代码实例讲解关键词Flink Memory Management内存模型内存分配内存回收内存监控

overfit同步小助手 2024-11-22 10:05:49 0 收藏

hadoop期末复习重点知识点总结集锦

overfit同步小助手 2024-11-22 09:05:35 0 收藏

CentOS系统下Hadoop单节点集群安装与配置详细教程（小白版）

经过以上详细的步骤，我们已经在CentOS系统下成功安装并配置了Hadoop单节点集群。从安装必要的JDK软件包，到配置环境变量、IP地址映射、无密码登录，再到Hadoop的具体安装与配置，每一步都进行了详细的说明和图解。在操作过程中，我们强调了拍快照的重要性，以便在系统出现问题时能够快速恢复。同时

overfit同步小助手 2024-11-22 08:03:31 0 收藏

RabbitMQ 学习

最终，发布一条消息后，只有 5 条消息存储到集群中，每个节点存储 1 条。使用“共享”存储模型，对于一条要投递到多个队列的消息，只会存储一次，其他队列只会保存这条消息的引用。也就是说，在发布-订阅模型下，一条将要投递到多个队列的消息，它的存储大小不会随着投递到的队列变多而线性增长。使用在内存中“共享

overfit同步小助手 2024-11-22 06:03:53 0 收藏

RabbitMQ最新版本4.0.2在Windows下的安装及使用

RabbitMQ 是用 Erlang 语言开发的 AMQP（高级消息队列协议）的开源实现，广泛应用于消息队列、消息中间件等领域。它支持多种消息传递协议和多种客户端库，能够有效处理高并发的消息传递需求。RabbitMQ 主要实现了 AMQP（高级消息队列协议）1.0 和 0-9-1 版本。然而，Rab

overfit同步小助手 2024-11-22 06:03:42 0 收藏

kafka

HTTP 413 错误通常意味着你需要在服务器或中间件上调整允许的请求体大小。如果你无法调整服务器的配置，则可能需要在客户端侧优化请求的大小。

overfit同步小助手 2024-11-22 05:03:27 0 收藏

【大数据】基于Spark WebUI定位数据倾斜与Spark调优

【大数据】基于Spark WebUI定位数据倾斜与Spark调优文章脉络数据倾斜现象数据倾斜出现原因数据倾斜问题排查与定位初步认知问题定位查看key的数据分布情况解决数据倾斜(Spark调优) 基本思路 (首选尝试)解决方案一：提高Shuffle操作的并行度 (其次

overfit同步小助手 2024-11-22 04:03:49 0 收藏

flink1.19.0起步maven依赖设置

overfit同步小助手 2024-11-22 00:03:50 0 收藏

springboot毕设基于hive线上问诊系统数据仓库源码+论文+部署

Hive作为一种建立在Hadoop之上的数据仓库基础架构，它提供了类似SQL的查询语言（HiveQL），能够处理大规模的结构化和半结构化数据，非常适合用于线上问诊系统这种产生大量数据的场景。利用Hive构建线上问诊系统的数据仓库，可以整合来自不同功能模块（如患者、医生、科室、在线问诊、预约医生等）的

overfit同步小助手 2024-11-22 00:03:41 0 收藏

341java ssm springboot基于大数据的模拟证券股票交易软件平台系统（源码+文档+运行视频+讲解视频）

在金融领域，基于 Java SSM 和 Spring Boot 的大数据模拟证券股票交易软件平台系统具有重要意义。该系统利用大数据技术，对海量的证券市场数据进行收集、分析和处理。通过对股票价格走势、成交量、财务数据等多维度信息的挖掘，为用户提供更准确的市场分析和投资决策参考。在模拟交易功能方面，用户

overfit同步小助手 2024-11-21 23:03:55 0 收藏

Kafka 下载安装及使用总结

overfit同步小助手 2024-11-21 23:03:32 0 收藏

基于Spark的大数据分析平台：高效、灵活的数据处理解决方案

基于Spark的大数据分析平台：高效、灵活的数据处理解决方案【下载地址】基于Spark的大数据分析平台设计与实现分享基于Spark的大数据分析平台设计与实现

overfit同步小助手 2024-11-21 22:03:54 0 收藏

数仓建设实践——用户留存分析专题模型设计

overfit同步小助手 2024-11-21 22:03:43 0 收藏