大数据 - overfit.cn

Hive数据仓库涵盖的主要方面及一些拓展内容

Hive最初由Facebook开发，后贡献给Apache软件基金会，迅速成为处理和查询PB级数据集的首选工具。它引入了HiveQL，一种类SQL的查询语言，极大地降低了大数据分析的门槛，使非程序员的数据分析师也能轻松操作大数据。假设我们想计算每个用户的全名长度，但Hive原生不支持字符串拼接后的长度

overfit同步小助手 2024-07-10 01:03:38 0 收藏

jdk21本地执行flink出现不兼容问题

flink在jdk高版本下执行出现module不能访问

overfit同步小助手 2024-07-09 23:03:52 0 收藏

Kafka 技术总结

Kafka 是由 LinkedIn 创建并于 2011 年开源的一款分布式流处理平台，通过高吞吐量、低延迟、高可靠性和可扩展性特性，广泛应用于实时数据处理、数据集成与传输、日志和监控、消息队列等场景。创建主题：kafka-topics.sh --create --topic example-topi

overfit同步小助手 2024-07-09 22:03:42 0 收藏

Python操作Kafka基础教程

下载UI工具：https://kafkatool.com/download2/offsetexplorer_64bit.exe。外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传。点击是，然后就成功的使用客户端连接上Kafka了。下载好以后按照默认进行安装。安装Python3.8。

overfit同步小助手 2024-07-09 21:03:42 0 收藏

Flink ProcessFunction不同流异同及应用场景

状态管理与事件时间：所有函数均支持事件时间和水位线处理，状态管理（除了），但Keyed系列额外支持键控状态。流处理处理多个流，而和支持广播状态传播。窗口处理和专用于窗口处理，前者基于键控窗口，后者处理全窗口数据。灵活性和最为灵活，适用于广泛的复杂逻辑处理；在窗口上下文中提供了额外的处理能力。

overfit同步小助手 2024-07-09 21:03:22 0 收藏

分布式数据处理：Hadoop与Spark的全面比较

1.背景介绍分布式数据处理是大数据时代的必经之路，随着数据规模的不断扩大，单机处理的能力已经不能满足需求。因此，分布式计算技术逐渐成为了主流。Hadoop和Spark是目前最为流行的分布式计算框架之一，它们各自具有不同的优势和应用场景。在本文中，我们将对Hadoop和Spark进行全面的比较，以帮助

overfit同步小助手 2024-07-09 21:03:18 0 收藏

【Flink metric（3）】chunjun是如何实现脏数据管理的

chunjun metric（二）之脏数据管理模块

overfit同步小助手 2024-07-09 19:03:51 0 收藏

MySQL到Doris的StreamingETL实现（Flink CDC 3.0）

将flink-cdc-pipeline-connector-doris-3.0.0.jar以及flink-cdc-pipeline-connector-mysql-3.0.0.jar防止在FlinkCDC的lib目录下。4）在MySQL的test_route数据中对应的几张表进行新增、修改数据操作，

overfit同步小助手 2024-07-09 19:03:41 0 收藏

RabbitMQ知识总结一

本文总结RabbitMQ的基础部分

overfit同步小助手 2024-07-09 18:03:35 0 收藏

数字化运维大数据管控中心驾驶舱建设方案

最后，加强备份数据的安全管理也是必不可少的。首先，我们要根据管控中心驾驶舱的功能和特点，编制专业的培训材料，这些材料不仅包括详细的操作手册，还有生动的视频教程和实际的案例分析，让学员能够全方位地了解驾驶舱的使用方法和应用场景。当然，不同用户群体的需求也是不同的，所以我们要设计不同难度的培训课程，包括

overfit同步小助手 2024-07-09 17:03:50 0 收藏

Hive 实战：位图 Bitmap 系列-位图计算函数

ClickHouse 提供了一系列用于位图索引和计算的函数，这些功能特别适用于处理大量的分布式聚合，可以高效地进行复杂的位运算。而在 Hive 中没有内置的等效函数，我们可以通过创建用户自定义函数来实现。在这我们基于 RoaringBitmap 实现了一系列的位图函数。

overfit同步小助手 2024-07-09 17:03:27 0 收藏

Flume与Kafka对接

Flume组件： agent source channel sinkkafka组件：节点集群服务器 **consumer **

overfit同步小助手 2024-07-09 16:03:43 0 收藏

【spark】新浪新闻网数据采集实时分析项目

该项目是一个基于Spark的综合实训项目，旨在实现对新浪新闻网数据的实时采集和分析。项目包括数据采集（使用Python和Scrapy框架将新浪新闻数据存入MongoDB）、数据转存（使用Scala将数据从MongoDB实时导入HDFS）、数据分析与存储（使用Spark Streaming对HDFS上

overfit同步小助手 2024-07-09 14:03:15 0 收藏

基于RabbitMQ原理的自定义消息队列实现

本项目实现了一个消息队列系统，支持跨域/跨主机消息转发与通信，管理虚拟机、交换机、队列、绑定和消息，实现Direct、Fanout、Topic三种交换机转发方式。系统具有数据持久化、异常恢复、垃圾回收优化存储等功能，基于TCP自定义应用层协议进行网络通信，统一管理硬盘和内存操作，设计虚拟主机功能，实

overfit同步小助手 2024-07-09 13:03:27 0 收藏

基于spark的医疗大数据可视化大屏项目

本文将介绍如何利用Apache Spark进行大规模心力衰竭临床数据的分析，并结合机器学习模型，构建一个交互式的可视化大屏，以直观展示数据分析结果。使用PySpark库，我们首先读取CSV文件中的心力衰竭临床记录数据，并进行必要的数据清洗工作，包括处理缺失值和异常值。血小板计数与死亡事件：通过堆叠条

overfit同步小助手 2024-07-09 12:03:45 0 收藏

zookeeper+kafka

zookeeper是一个开源的分布式的，为分布式框架提供协调服务的Apache项目Kafka 是一个分布式的基于发布/订阅模式的消息队列（MQ，Message Queue），主要应用于大数据实时处理领域。

overfit同步小助手 2024-07-09 12:03:27 0 收藏

Kafka 3.6.1 Kraft模式集群安装

1）缓存/消峰有助于控制和优化数据流经过系统的速度，解决和生产消息和消费者消息的处理速度不一致的情况2）解耦允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束3）异步通信允许用户把一个消息放入队列，但并不立即处理它，然后再需要的时候再去处理它们。

overfit同步小助手 2024-07-09 11:03:52 0 收藏

spark基础详解：案例解析(第1天)

* 1- Spark基本介绍（了解）* 2- Spark入门案例（掌握）* 3- 常见面试题（掌握）

overfit同步小助手 2024-07-09 10:05:06 0 收藏

kafka底层原理性能优化详解：大案例解析(第29天)

Kafka的底层原理涉及多个方面，包括其架构设计、消息传递机制、数据存储结构以及集群管理等。本文是对Kafka底层原理和性能优化的详细解析，并结合实例进行说明。提示：以下是本篇文章正文内容，下面案例可供参考Kafka的底层原理涉及多个方面，包括其架构设计、消息传递机制、数据存储结构以及集群管理等。

overfit同步小助手 2024-07-09 08:03:36 0 收藏

大数据爬虫

构建请求URL：将更新后的请求字典转换为JSON字符串，并去除其中的空格，然后对该字符串进行URL编码，最后将其附加到API基础URL上，形成完整的请求URL。处理响应文本并保存数据为CSV文件：如果JSON字典中的msg字段值为'OK'，则认为请求成功，并将结果添加到current_stock_r

overfit同步小助手 2024-07-09 07:03:39 0 收藏