大数据 - overfit.cn

Flume、Kafka与HDFS数据采集方案详解

Flume、Kafka与HDFS数据采集方案详解【下载地址】FlumeKafka与HDFS数据采集方案详解分享 Flume、Kafka与HDFS数据采集方案详解本资源文件详细介绍了如何使用Flume采集数据并将其传输到Kafka，

overfit同步小助手 2024-12-03 18:04:01 0 收藏

Hadoop分布式文件系统(一)

HDFS简介

overfit同步小助手 2024-12-03 18:03:53 0 收藏

Flink Python作业快速入门

本文带您快速体验Flink Python流作业和批作业的创建、部署和启动，以了解实时计算Flink版Python作业的操作流程。

overfit同步小助手 2024-12-03 18:03:40 0 收藏

全球氮循环领域最新《Nature》正刊！

但所有其他氮化合物（科学上称为活性氮）都会对全球气候产生直接或间接的影响，并引发增暖或冷却效应：例如，一氧化二氮，俗称笑气，主要由富氮土壤和化石燃料燃烧排放，其温室效应几乎是二氧化碳的 300 倍。同时，大气中的活性氮沉降到陆地上，使植物生长得更茂盛，从而从大气中吸收更多的二氧化碳，这也具有冷却效果

overfit同步小助手 2024-12-03 18:03:33 0 收藏

【问题解决】Flink在linux上运行成功但是无法访问webUI界面

在搭建Flink的时候，已经在linux服务器上运行了./start-cluster.sh，而且日志显示已经成功了。正常来说应该能通过ip:8081来访问(8081是Flink WebUI的默认端口)，但是访问的时候，显示访问拒绝。然后就可以通过ip:8081端口（可以在上面修改rest.port

overfit同步小助手 2024-12-03 16:03:49 0 收藏

hadoop集成hive的部署方式

在已经安装完hadoop，mysql的基础上可以进行hive的安装之前部署的hadoop版本为3.2.4，mysql版本为8.0.39，详细部署流程。

overfit同步小助手 2024-12-03 15:03:41 0 收藏

Kafka数据重复和乱序的原因和跨会话幂等性问题

overfit同步小助手 2024-12-03 15:03:38 0 收藏

大数据必知必会系列_开源组件总结（2）：数据存储层

采集数据之后，一般先存储再计算。对于离线系统通常先存于消息队列中，再存入文件系统，而对于实时系统，一般存放在消息中间件（如kafka)直接计算（减小时延）消息中间件是用于在分布式系统中传递消息的中间件，它们在不同的应用程序或服务之间提供可靠的消息传递机制。总之，消息队列提供高效、可靠的数据暂存功能。

overfit同步小助手 2024-12-03 14:03:44 0 收藏

大数据新视界 -- 大数据大厂之 Hive 窗口函数：强大的数据分析利器（上）（21 / 30）

本文深挖 Hive 窗口函数 “富矿”，以生动实例、详实代码全方位解锁其概念、分类、语法 “密码”，横跨电商、金融、互联网多领域，展现从基础理论到实战应用 “全景图”，为数据从业者递上 “金钥匙”，开启高效分析新征途。

overfit同步小助手 2024-12-03 13:03:18 0 收藏

大数据新视界 -- 大数据大厂之 Hive 数据质量监控：实时监测异常数据（下）（18/ 30）

本文承前启后，深挖 Hive 数据质量监控之实时监测异常数据，从监测基础（阈值、统计模型、完整性校验）详述原理方法，佐以电商、金融、电信多行业实战，析进阶挑战（大规模、实时性、误报漏报）及应对，含丰富代码案例，具实操价值，设互动预告下篇，助保数据质量。

overfit同步小助手 2024-12-03 12:03:38 0 收藏

大数据新视界 -- 大数据大厂之 Hive 数据压缩算法对比与选择（下）（20 / 30）

本文承前启后，深度剖析 Hive 数据压缩算法（原理、实操代码），详析选择因素（含数据、业务、资源、兼容），分享多案例实践及进阶考量（分布式协同、机器学习融合、动态调整），助选优算法，邀探窗口函数。

overfit同步小助手 2024-12-03 12:03:27 0 收藏

通过物流分拣系统来理解RabbitMQ的消息机制

想象一个物流分拣系统，包裹穿梭于不同的分拣中心和配送站，最后精准地送达客户手中。RabbitMQ的消息传递机制就像这样的物流系统！

overfit同步小助手 2024-12-03 11:03:35 0 收藏

【面试】rabbitmq的主要组件有哪些？

3.通过信道，客户端可以与Broker进行交互，如发送消息、接收消息、声明交换机和队列等。2.交换机有多种类型，如Direct、Fanout、Topic、Headers等。1.提供了逻辑上的隔离，每个虚拟主机都有自己独立的交换机、队列、绑定和权限机制。1.RabbitMQ支持通过插件扩展其功能，如管

overfit同步小助手 2024-12-03 11:03:22 0 收藏

Flink本地模式安装详解

本文开头对flink的几种安装模式都做了介绍，并且详细的介绍了我们开发的时候会使用到的本地模式的安装启动停止过程，并且用了一个demo验证集群是否可用，本地模式是比较方便轻量的安装模式，便于我们开发调试使用。

overfit同步小助手 2024-12-03 10:03:59 0 收藏

毕设成品大数据B站数据分析可视化系统

🔥这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩毕业设计大数据B站数据分析可视化系统🥇学

overfit同步小助手 2024-12-03 10:03:54 0 收藏

Flink CDC（SQL Client）连接 MySQL 数据库教程

这篇文章将指导如何使用 Flink CDC 连接到 MySQL 数据库，并捕获数据变更。

overfit同步小助手 2024-12-03 10:03:23 0 收藏

【大数据技术基础 | 实验十四】Kafka实验：订阅推送示例

本实验介绍Kafka的安装部署，Kafka的topic创建及如何生成消息和消费消息，Kafka和Zookeeper之间的关系，了解Kafka如何保存数据及加深对Kafka相关概念的理解。

overfit同步小助手 2024-12-03 08:03:30 0 收藏

大数据技术Kafka详解 ② | Kafka基础与架构介绍

本文详细介绍开源高吞吐量分布式消息中间件kafka的架构与组件构成。

overfit同步小助手 2024-12-03 08:03:23 0 收藏

SpringBoot 整合 Avro 与 Kafka

优质博文：IT-BLOG-CN【需求】：生产者发送数据至 kafka 序列化使用 Avro，消费者通过 Avro 进行反序列化，并将数据通过 MyBatisPlus 存入数据库。【1】Apache Avro 1.8；【2】Spring Kafka 1.2；【3】Spring Boot 1.5；【4】

overfit同步小助手 2024-12-03 08:03:16 0 收藏

ZooKeeper 入门教程

ZooKeeper（动物园管理者）简称 ZK，一个分布式的，开放源码的分布式应用程序协调服务，是 Google 的 Chubby 一个开源的实现，是 Hadoop 和 Hbase 的重要组件。

overfit同步小助手 2024-12-03 07:03:51 0 收藏