大数据 - overfit.cn

Hadoop手把手教你生态搭建及项目实战系列（三）Hadoop伪分布式集群模式整体实现

伪分布式集群模式是一种在单台机器上模拟分布式环境的模式，适合学习和开发。它介于完全分布式和单节点模式之间，通过在一台计算机上配置多个 Hadoop 节点（如 NameNode、DataNode、ResourceManager、NodeManager 等），实现 Hadoop 集群的基础操作。伪分布式

overfit同步小助手 2024-12-10 03:04:22 0 收藏

Flink双流Join

需要注意的是，在滚动窗口 [6,7] 中，由于绿色流中不存在要与橘色流中元素 6、7 相关联的元素，因此该窗口不会输出任何内容。需要注意的是，一个元素可能会落在不同的窗口中，因此会在不同窗口中发生关联，例如，绿色流中的0元素。当在滑动窗口上进行 Join 时，所有有相同 Key 并且位于同一滑动窗口

overfit同步小助手 2024-12-10 03:04:04 0 收藏

Flink 常见问题汇总：反压积压，checkpoint报错，窗口计算，作业报错，无产出，流批不一致，调优等。

这可能是由于数据源的数据本身就不均衡，如Talos/Kafka的Topic中某些partition的数据量较大，某些partition的数据量较小，此时除了可以从业务上和数据源上解决该问题，如果不需要维护数据的有序性(同partition的数据是有序的，如果下游继续使用forward、hash等流分

overfit同步小助手 2024-12-10 02:03:54 0 收藏

【大数据学习 | HBASE】hbase的读数据流程与hbase读取数据

一句话：查询数据的时候将对其进行哈希处理，然后与哈希地图进行比对，如果哈希表取到的值为空，说明storeFile没有该要查询的数据，如果哈希表找到的值不为空，也不一定存在要查询的数据。存储在hdfs中的hbase文件，这个文件中会存在hbase中的数据以kv类型显示，同时还会存在hbase的。，会以

overfit同步小助手 2024-12-10 01:04:14 0 收藏

一次Kafka调优总结

一般来说，一个kafka集群中，总的partitions数不应该超过3000，针对大流量的topic，建议一个消费组对应一个topic，而partition至少保证一个磁盘上放一个partition，比如12块盘，那就创建12个partition的topic，kafka会自动将parition目录均

overfit同步小助手 2024-12-10 01:04:11 0 收藏

RabbitMQ系列学习笔记（十）--通配符模式

本文介绍了RabbitMQ的通配符工作模式，为作者在学习RabbitMQ时的笔记，特此比记录，以便后续学习中能够查漏补缺。

overfit同步小助手 2024-12-10 01:04:05 0 收藏

Cenots上Flink Standalone 集群部署

环境说明Centos7.5flink-1.20.0-bin-scala_2.12.tgzjdk1.8Flink运行依赖Java环境，如果没有Java环境，可自行下载Java后，再进行下面操作一，Flink下载~解压~运行去Flink官网进行下载，Downloads | Apache Flink，点击

overfit同步小助手 2024-12-10 01:03:58 0 收藏

ZooKeeper最全详解 (万字图文总结！！！)

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

overfit同步小助手 2024-12-10 00:03:40 0 收藏

Omid：为HBase打造的事务处理解决方案

Omid：为HBase打造的事务处理解决方案 omid YahooArchive/omid: 是一个用于在线事务处理的轻量级分布式 ID 生成器。适合对分布式系统和 ID 生成有兴趣的人，特别是想为自己的应用实现高可用、高性能的分布

overfit同步小助手 2024-12-10 00:03:11 0 收藏

【MQTT】代理服务比较RabbitMQ、Mosquitto 和 EMQX

目前要处理大量设备同时频繁发送数据的情况，MQTT协议确实是一个更优的选择，因为它特别适合需要低带宽和高效能的物联网应用，下面是对目前主流协议的对比。

overfit同步小助手 2024-12-09 21:03:42 0 收藏

【Spark源码分析】基于Spark3.4.2源码分析SparkSQL执行过程

** 为sql字符串创建逻辑计划 */// 获取构造器AstBuilder，将ParseTree转换为AST（visit模式）case _ =>command")// 将sql内容转换成字符流，并且转换成大写形式。词法解析器// 清空识别错误的监听器// ParseErrorListener将解析错

overfit同步小助手 2024-12-09 20:03:51 0 收藏

RabbitMQ的简单使用

在很多业务中都可以使用到消息队列，例如存在订单秒杀活动，我们可以通过异步的方式，先判断库存和是否是一人一单，校验成功后生成订单id放入消息队列中，直接返回，由消息消费者监听队列获取订单信息来进行对数据库的修改库存和生成订单操作，还有微服务的多个服务之中，可以使用消息队列来进行通信，而RabbitMQ

overfit同步小助手 2024-12-09 20:03:39 0 收藏

windows下配置hadoop3.1.4环境

winutils 是 Hadoop 在 Windows 操作系统上运行时所需的一个工具集。它主要用于提供一些 Unix/Linux 系统上默认存在的功能和命令的替代实现，因为 Hadoop 大部分是在这些系统上开发和运行的。[在这里插入图片描述](https://i-blog.csdnimg.cn/

overfit同步小助手 2024-12-09 15:03:16 0 收藏

手把手教你SpringBoot集成消息服务中间件RabbitMQ

1，大多应用中，可通过消息服务中间件来提升系统异步通信、扩展解耦能力。2，消息服务中有两个概念：消息代理和目的地当消息发送者发送消息以后，将由消息代理接管，消息代理保证消息传递到指定目的地。3，消息队列主要由两种形式的目的地。（1）队列：点对点消息通信（一对一）（2）主题：发布/订阅消息通信

overfit同步小助手 2024-12-09 13:03:36 0 收藏

核心社群营销和覆盖区域选型

社群营销是一种通过精细化运营和长期用户关系维护，实现企业营销目标的新型营销模式。通过选择合适的平台，建立并管理高价值的社群，企业可以实现拉新、促活和转化等多个目标，为产品的推广和用户关系的维护提供有力支持。在这个过程中，企业微信因其强大的功能和完善的生态系统，成为企业进行社群营销的理想平台。

overfit同步小助手 2024-12-09 13:03:29 0 收藏

Python毕业设计选题：基于Hadoop 的国产电影数据分析与可视化_django+spider

国产电影数据分析与可视化是对我国电影产业进行深入研究的过程。通过收集和分析电影的票房、评分、观众评价等数据，可以揭示电影市场的发展趋势、观众喜好以及影响电影成功的关键因素。利用数据可视化技术，将这些复杂数字信息转化为直观的图表和图形，有助于电影制作方、发行方和政策制定者更好地理解市场动态，优化决策，

overfit同步小助手 2024-12-09 13:03:15 0 收藏

使用可视化工具kafkatool连接docker的kafka集群，查看消息内容和offset

选择想查看的topic，点击Properties，设置为String格式，点击Update即可。Bootstrap servers可以输入单个节点，也可以输入一个集群，点击ping。下载完，傻瓜安装即可（建议放D盘），在开始菜单输入offset找到该应用打开。点击其中一个消费者->Offsets，可

overfit同步小助手 2024-12-09 12:04:40 0 收藏

Kafka知识体系

消息系统：kafka不仅具备传统的系统解耦、流量削峰、缓冲、异步通信、可扩展性、可恢复性等功能，还有其他消息系统难以实现的消息顺序消费及消息回溯功能。存储系统：kafka把消息持久化到磁盘上，以及多副本机制，极大的降低的数据丢失风险，可以把kafka当做长期的数据存储系统使用。流式处理平台：kafk

overfit同步小助手 2024-12-09 12:04:25 0 收藏

zookeeper 都有哪些使用场景？思考15

那么此时就可以使用 zookeeper 分布式锁，一个机器接收到了请求之后先获取 zookeeper 上的一把分布式锁，就是可以去创建一个 znode，接着执行操作；这个其实是 zookeeper 很经典的一个用法，简单来说，就好比，你 A 系统发送个请求到 mq，然后 B 系统消息消费之后处理了。

overfit同步小助手 2024-12-09 11:03:31 0 收藏

Kafka如何实现失败重试？

生产者：通过配置重试参数和异步发送回调来实现失败重试。消费者：通过手动提交偏移量和使用Spring Kafka的错误处理机制来实现失败重试。幂等性：确保生产者和消费者处理消息的逻辑是幂等的，以避免重复处理消息导致的问题。死信队列：对于无法处理的消息，发送到死信队列进行监控和分析。通过上述方法，可以优

overfit同步小助手 2024-12-09 10:03:45 0 收藏