大数据 - overfit.cn

基于spark的大数据分析预测地震受灾情况的系统设计

在本篇博客中，我们将介绍如何使用Apache Spark框架进行地震受灾情况的预测。我们将结合数据分析、特征工程、模型训练和评估等步骤，最终建立一个预测模型来预测地震造成的破坏程度，同时使用可视化大屏的方式展示数据的分布。我们使用了合并后的地震数据作为我们的数据集。

overfit同步小助手 2024-06-09 15:03:29 0 收藏

Zookeeper复习

zookeeper=文件系统+通知机制。

overfit同步小助手 2024-06-09 12:03:33 0 收藏

flink-core核心功能及功能对应的技术实现

胡弦，视频号2023年度优秀创作者，互联网大厂P8技术专家，Spring Cloud Alibaba微服务架构实战派(上下册)和RocketMQ消息中间件实战派(上下册)的作者，资深架构师，技术负责人，极客时间训练营讲师，四维口袋KVP最具价值技术专家，技术领域专家团成员，2021电子工业出版社年度

overfit同步小助手 2024-06-09 12:03:30 0 收藏

Flink中的双流Join

在本例中，我们使用大小为2毫秒的滑动窗口，并将其滑动1毫秒，从而产生滑动窗口[-1，0]，[0,1]，[1,2]，[2,3]…在这里，您还可以看到，例如，在窗口[2,3]中，橙色②与绿色③连接，但在窗口[1,2]中没有与任何对象连接。在当前滑动窗口中，一个流的元素没有来自另一个流的元素，则不会发射！

overfit同步小助手 2024-06-09 12:03:11 0 收藏

Flink-cdc更好的流式数据集成工具

Flink CDC 是基于Apache Flink的一种数据变更捕获技术，用于从数据源（如数据库）中捕获和处理数据的变更事件。CDC技术允许实时地捕获数据库中的增、删、改操作，将这些变更事件转化为流式数据，并能够对这些事件进行实时处理和分析。Flink CDC提供了与各种数据源集成的功能，包括常见的

overfit同步小助手 2024-06-09 11:03:53 0 收藏

常见Rabbitmq面试题及答案总结

RabbitMQ是釆用AMQP高级消息队列协议的一种消息队列技术，最大的特点就是消费并不需要确保提供方存在,实现了服务之间的高度解耦

overfit同步小助手 2024-06-09 11:03:36 0 收藏

Zookeeper实现分布式锁（Zk分布式锁）

基于zookeeper临时有序节点可以实现的分布式锁。1、zookeeper天生设计定位就是分布式协调，强一致性。锁的模型健壮、简单易用、适合做分布式锁。2、如果获取不到锁，只需要添加一个监听器就可以了，不用一直轮询，性能消耗较小。3、如果有较多的客户端频繁的申请加锁、释放锁，对于zk集群的压力会比

overfit同步小助手 2024-06-09 11:03:31 0 收藏

Java实战：Spring Boot整合Canal与RabbitMQ实时监听数据库变更并高效处理

本文将详细介绍如何在Spring Boot项目中整合Canal和RabbitMQ，构建一套完整的数据库变更监听及消息发布机制。

overfit同步小助手 2024-06-09 09:03:35 0 收藏

Flink状态State | 大数据技术

在 Flink 中，状态是流处理程序中非常重要的一部分，它允许你保存和访问数据，以实现复杂的计算逻辑。可以简单理解为：历史计算结果

overfit同步小助手 2024-06-09 06:03:57 0 收藏

ZooKeeper 搭建详细步骤之一（单机模式）

ZooKeeper 的搭建模式包括单机模式、集群模式和伪集群模式，分别适用于不同的场景和需求，从简单的单节点测试环境到复杂的多节点高可用生产环境。在实际部署时，应根据系统的可用性要求、数据量、并发负载等因素选择合适的部署模式。

overfit同步小助手 2024-06-09 05:03:48 0 收藏

只需三步，使用 KRaft 建立多节点 Kafka 集群

在本教程中，你将创建一个 Kafka 集群，使用 KRaft共识协议的 Kafka 集群。你将学习如何配置节点成为集群的一部分，并观察主题分区是如何分配给不同节点的。你还将学习如何将主题分配给集群中的特定代理。

overfit同步小助手 2024-06-09 04:03:54 0 收藏

EFAK(Kafka Eagle)安装带有Kafka\Zookeeper认证

Kafka监控程序Kafka Eagle，结合MySQL对Kafka进行监控，配置SASL_PLAINTEXT认证

overfit同步小助手 2024-06-09 04:03:48 0 收藏

spark安装和编程实践（Spark2.1.0）

overfit同步小助手 2024-06-09 04:03:43 0 收藏

大数据—数据可视化—Pyecharts配置项

基础图表。

overfit同步小助手 2024-06-09 04:03:32 0 收藏

Kafka下载安装及基本使用

Apache Kafka是一个分布式流处理平台，最初由LinkedIn开发并于2011年开源。它主要用于解决大规模数据的实时流式处理和数据管道问题。Kafka是一个分布式的发布-订阅消息系统，可以快速地处理高吞吐量的数据流，并将数据实时地分发到多个消费者中。Kafka消息系统由多个broker（服务

overfit同步小助手 2024-06-09 04:03:28 0 收藏

Flink系列二：DataStream API中的Source，Transformation，Sink详解（^_^）

举例：使用自定义source读取mysql中的数据/*实现方式：* 1、实现SourceFunction或ParallelSourceFunction接口来创建自定义的数据源。* 2、然后使用env.addSource(new CustomSourceFunction())或DataStreamSo

overfit同步小助手 2024-06-09 03:03:17 0 收藏

RabbitMQ是如何保证高可用的？

这种集群模式下，每个实例中的元数据是一样的，大家都是完整的数据。在这种模式下，我们创建的Queue，它的元数据（配置信息）会在集群中的所有实例中进行同步，但是队列中的消息只会存在于一个RabbitMQ实例上，而不会同步到其他队列中。当我们消费消息的时候，如果消费者连接到了未保存消息的实例，那么那个

overfit同步小助手 2024-06-09 02:03:36 0 收藏

入门指南：理解Hadoop中的MapReduce

1.MapReduce是一种编程模型，用于处理大规模数据集的并行计算。它将任务分解成两个关键阶段：Map阶段和Reduce阶段。在Map阶段，数据被切分成独立的数据块，并由多个Map任务并行处理；在Reduce阶段，Map任务的输出被汇总和整合，最终生成最终结果。定义：MapReduce是一个分布式

overfit同步小助手 2024-06-09 01:03:47 0 收藏

基于Hadoop的XXXX数据分析与可视化【毕设答辩常见问题汇总】

使用Pandas进行数据处理是由于它在数据科学社区中广泛的应用和支持，它可以让我快速地进行数据清洗、转换和分析，而且能够轻松处理内存中的大型数据集。我的系统采取了多层次的安全措施，包括网络层的加密、应用层的安全令牌和数据层的访问控制列表（ACLs）。为了解决这个问题，我实施了基于时间戳的数据版本控制

overfit同步小助手 2024-06-09 00:03:31 0 收藏

Flink应用介绍

Flink本身的特性是非常灵活的，基于它的性能和特性，大胆想象，利用Flink去实现、优化需求，可能会有意想不到的好效果。

overfit同步小助手 2024-06-08 22:03:54 0 收藏