大数据 - overfit.cn

springboot对接rabbitmq并且实现动态创建队列和消费

/ 死信：队列交换机绑定consumer 绑定队列。//设置延迟队列的 TTL 消息存活时间。// 延迟: 队列交换机绑定队列。// 绑定consumer 绑定队列。//设置延迟队列绑定的死信交换机。//设置延迟队列绑定的死信路由键。

overfit同步小助手 2023-12-03 09:03:41 0 收藏

【Kafka】Java整合Kafka

【代码】【Kafka】Java整合Kafka。

overfit同步小助手 2023-12-03 08:03:51 0 收藏

大数据linux基本环境准备（新手入门笔记）

桥接模式（虚拟机中的网卡地址需要和物理机网卡地址保持同一个网段，并且桥接网卡要设置好）tar -zxvf 压缩文件名 -C /usr/local/src 解压文件到指定目录。4、配置集群机器，将配置好网络的机器克隆2个出来，分别为slave1、slave2。1> vmware中右键虚拟机–》设置–

overfit同步小助手 2023-12-03 08:03:36 0 收藏

RabbitMQ避免消息积压和消费者阻塞

通过生产者限流、消费者多线程、异步处理消息和超时处理等方法，我们可以避免RabbitMQ中消息的积压和消费者的阻塞。生产者限流可以控制消息的发送速度；消费者多线程可以提高消息处理的并发性能；异步处理消息可以避免消费者在处理消息时发生阻塞；超时处理可以避免消费者因为某个消息的处理时间过长而导致阻塞。本

overfit同步小助手 2023-12-03 08:03:33 0 收藏

hive sql，年月日时分秒格式的数据，以15分钟为时间段，找出每一条数据所在时间段的上下界限时间值（15分钟分区）

使用时，将’2023-10-17 10:32:45’ 替换为你的时间字段，比如data_time即可，上面的sql语句可以直接执行查看结果，用作测试。date_format(时间字段, ‘yyyy-MM-dd HH:mm:ss’) 将时间字段转为 2023-10-18 18:14:16 这种格式。我

overfit同步小助手 2023-12-03 05:03:45 0 收藏

Linux中安装Kafka(单机版)

Kafka和zookeeper有对应关系，可以根据自己zookeeper版本自行选择。此时在product窗口发送的消息，都可以在consume窗口接收到。第三步：修改运行时占用的内存，默认为1G(内存足够的话可以无视)log.dirs = 日志地址 (可以修改一个自己想要的)创建一个名为test

overfit同步小助手 2023-12-03 04:03:50 0 收藏

Flink webui 断点续传

为了数据的准确性，我希望其是新的端口，但是如果我在上述代码修改端口号的话，会浪费很多时间（当然你不嫌麻烦也可以，打开创建好的端口命令是：nc -lp -9999），所以我开始找寻删掉端口的方法，如下。然后我们结束这个项目，通过checkpoint保存的最后的快照点，实现故障恢复。然后找到自己的项目位

overfit同步小助手 2023-12-03 04:03:42 0 收藏

IDEA2022 配置spark开发环境

在本文中，我们讨论了如何在Windows上配置Spark开发环境，并介绍了如何使用Pyspark或进行开发和测试。此外，我们还讨论了如何使用集成开发环境（IDE）和扩展你的Spark开发环境。最后，我们提醒你时刻注意更新你的环境和依赖库，以保持最新的功能和性能优化。如果你正在学习Spark开发，希望

overfit同步小助手 2023-12-03 04:03:29 0 收藏

Spark SQL 时间格式处理

理解是先用unix_timestamp将指点格式转换为时间戳，再用from_unixtime将时间戳转换为你想要的时间格式！所以这两个一般是配合使用的。函数通常用于将Unix时间戳转换为日期和时间格式。它接受一个Unix时间戳作为输入，并返回一个表示特定日期和时间的字符串。函数通常用于将日期和时间转

overfit同步小助手 2023-12-03 03:03:41 0 收藏

hive和presto的求数组长度函数区别及注意事项

overfit同步小助手 2023-12-03 02:03:45 0 收藏

一篇文章带你从入门都入土 Kafka 消息中间件（原理+代码）

Kafka传统定义：Kafka是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。Kafka最新定义Kafka是一个开源的分布式事件流平台（Event Streaming Platform），被数千家公司用于高性能数据管道、流分析、数据集成和关

overfit同步小助手 2023-12-02 23:03:30 0 收藏

一文看懂Spark中Cache和CheckPoint的区别

缓存是将数据保存在主机磁盘/内存中,如果服务器宕机数据丢失,需要重新根据依赖关系计算得到数据,需要花费大量时间,所以需要将数据保存在可靠的存储介质HDFS中,避免后续数据丢失重新计算。看下面代码会打印多少条-------------------------(RDD2) 使用了CheckPoint。看

overfit同步小助手 2023-12-02 22:03:30 0 收藏

HBase Java API使用IDEA开发

双击打开pom.xml文件这里把springboot 版本更换为2.3.5.RELEASE。三、编写Hbase操作工具类（创建表空间，表，添加数据，查询数据，修改数据，删除数据）加入hbase client 的支持包，这里版本需要跟服务器上安装的版本号一致。1.从windows本地读取文件写入H

overfit同步小助手 2023-12-02 21:03:49 0 收藏

Zookeeper

第一个目录是linux的目录，第二个目录是docker的目录。--name 给容器命名。

overfit同步小助手 2023-12-02 20:03:51 0 收藏

RabbitMQ的LazyQueue

rabbitMQ中的lazyQueue

overfit同步小助手 2023-12-02 20:03:29 0 收藏

Flink CEP（三）pattern动态更新（附源码）

线上运行的CEP中肯定经常遇到规则变更的情况，如果每次变更时都将任务重启、重新发布是非常不优雅的。本文将介绍CEP Pattern动态注入的原理和实现，文末附上源码地址。

overfit同步小助手 2023-12-02 19:03:35 0 收藏

大数据与云计算——MPI集群配置（全网最详细讲解）

MPI（消息传递接口）是一种用于编写并行程序的标准，它允许在多个计算节点上进行通信和协作。MPI集群配置是指在一个或多个计算节点上设置MPI环境以实现并行计算。

overfit同步小助手 2023-12-02 18:03:48 0 收藏

Kafka磁盘写满日志清理操作

最近项目组的kafka集群，老是由于应用端写入kafka topic的消息太多，导致所在的broker节点占满，导致其他的组件接连宕机。这里和应用端沟通可以删除1天之前的消息来清理磁盘，并且可以调整topic的消息存活时间。

overfit同步小助手 2023-12-02 18:03:41 0 收藏

【数据仓库】数仓分层方法详解与层次调用规范

【数据仓库】数仓分层方法

overfit同步小助手 2023-12-02 18:03:30 0 收藏

[flink]一Flink部署|配置文件|提交作业|部署模式|独立模式部署|yarn模式部署

同样由客户端运行应用程序(需要客户端先跑一遍代码，把应用拆分成作业，比如并行度为2，会拆成两个作业，需要启动两个集群)，然后启动集群，作业提交给JobManager，进而分发给TaskManager执行。我们需要先启动一个集群，保持一个会话，在这个会话中通过客户端提交作业(需要客户端先跑一遍代码，把

overfit同步小助手 2023-12-02 16:03:51 0 收藏