大数据 - overfit.cn

基于华为MRS3.2.0实时Flink消费Kafka落盘至HDFS的Hive外部表的调度方案

该需求为实时接收对手Topic，并进行消费落盘至Hive。在具体的实施中，基于华为MRS 3.2.0安全模式带kerberos认证的Kafka2.4、Flink1.15、Hadoop3.3.1、Hive3.1，调度平台为开源dolphinscheduler。本需求的完成全部参考华为官方MRS3.2.

overfit同步小助手 2024-02-07 11:03:29 0 收藏

[AIGC 大数据基础] 大数据流处理 Kafka

Kafka是一种开源的分布式流处理平台，由Apache软件基金会开发和维护。它最初是由LinkedIn开发的，并在2011年成为开源项目。Kafka提供了高吞吐量、可持久化的数据流处理能力，可以处理大规模的实时数据流。它的设计目标是提供一个快速、可扩展、持久化的消息队列系统，使流数据可以在多个系统之

overfit同步小助手 2024-02-07 11:03:16 0 收藏

Hadoop高可靠集群搭建步骤（手把手教学）【超级详细】

overfit同步小助手 2024-02-07 10:03:53 0 收藏

Spark高级特性 (难)

Spark高级特性

overfit同步小助手 2024-02-07 10:03:27 0 收藏

大数据平台/大数据技术与原理-实验报告--部署全分布模式HBase集群和实战HBase

关闭HBase集群照本实验设置，关闭HBase集群后HBase主节点master上的主进程HMaster、HBase从节点slave1、slave2上的从进程HRegionServer消失，同时HBase主从节点上所有与HBase相关的ZooKeeper节点文件*.znode和进程号文件*.pid也

overfit同步小助手 2024-02-07 09:03:53 0 收藏

活动回顾 | 矩阵起源 CEO 王龙：与大数据结合，是大模型成熟的必经之路

矩阵起源的一个思路是使用 RAG 模式或者使用大模型给出直接答案的时候，对输入和输出进行评估，如果需要精确实时信息而大模型自身又无法判断的时候，我们就会重定向到知识图谱或是结构化数据库中寻找精准的答案，即一个能实现大模型诊断的数据管理系统。这需要企业客户以及厂商对大模型的价值边界和局限性，以及自身的

overfit同步小助手 2024-02-07 09:03:46 0 收藏

软件工程毕设分享(算法) 基于大数据的游数据分析可视化系统(源码分享)

今天学长向大家分享一个毕业设计项目毕业设计基于大数据的游数据分析可视化系统(源码分享)演示效果毕业设计大同旅游数据分析可视化系统数据可视化是数据处理中的重要部分Django是一个基于Web的应用框架，由python编写。Web开发的基础是B/S架构，它通过前后端配合，将后台服务器的数据在浏览器上

overfit同步小助手 2024-02-07 08:03:51 0 收藏

Zookeeper+Kafka集群

此次投票结果：服务器1为0票，服务器2为0票，服务器3为3票。如果是非leader节点故障，直接替换新的节点继续做follower，与现存的leader连接并同步数据，如果是leader节点故障，则需要重新选举新的leader，先比较每个存活节点的epoch（参与选举的次数），如果有最大的则直接当选

overfit同步小助手 2024-02-07 08:03:36 0 收藏

es7.17版本之后的查询警告提示解决办法

打开es安装路径,打开config文件夹，编辑。elasticsearch.yml，在里面添加。然后保存退出，重启es,问题解决。

overfit同步小助手 2024-02-07 08:03:22 0 收藏

【Flink精讲】Flink数据延迟处理

面试题：Flink数据延迟怎么处理？将迟到数据直接丢弃【默认方案】将迟到数据收集起来另外处理（旁路输出）重新激活已经关闭的窗口并重新计算以修正结果（回撤流）Flink数据延迟处理方案双流Join中的数据延迟处理

overfit同步小助手 2024-02-07 08:03:15 0 收藏

浅谈Flink架构及拓扑图

Flink架构与拓扑图

overfit同步小助手 2024-02-07 06:03:45 0 收藏

深入理解Apache Hadoop的分布式存储

1.背景介绍分布式存储是大数据处理领域中的一个重要话题。随着数据量的增加，单机存储和计算的能力已经无法满足需求。因此，分布式存储和计算技术变得越来越重要。Apache Hadoop是一个开源的分布式存储和分析框架，它可以处理大量数据并提供高性能的存储和计算能力。Apache Hadoop的核心组件有

overfit同步小助手 2024-02-07 06:03:36 0 收藏

Debezium系列之：Flink SQL消费Debezium数据格式，同步数据到下游存储系统

overfit同步小助手 2024-02-07 05:03:44 0 收藏

Kafka安全认证机制详解之SASL_PLAIN

上面配置是新增了两个用户，admin和tly，这两个用户都是普通用户，KafkaServer中的username、password配置的用户和密码，是用来broker和broker连接认证。在本例中，admin是代理broker间通信的用户。这个时候使用auth.conf已经不能创建topic了，使

overfit同步小助手 2024-02-07 05:03:35 0 收藏

Flink｜《Flink 官方文档 - 部署 - 内存配置 - 配置 Flink 进程的内存》学习笔记

Flink JVM 进程的进程总内存（Total Process Memory）包含了由 Flink 应用使用的内存（Flink 总内存）以及由运行 Flink 的 JVM 使用的内存。如果配置了总内存和其他内存部分的大小，那么 Flink 也有可能会忽略给定的占比。因为进程总内存中所有其他内存部分

overfit同步小助手 2024-02-07 04:03:49 0 收藏

2024.1.5 Hadoop阶段,各组件工作原理,八股文,面试题

leader宕机后启动: 每一个leader当老大的时候,都会产生新纪元epoch,且每次操作完节点数据都会更新事务id(高32位_低32位) ,当leader宕机后,剩下的follower就会综合考虑几个因素选出最新的leader,先比较最后一次更新数据事务id(高32位_低32位),谁的事务id

overfit同步小助手 2024-02-07 02:03:37 0 收藏

【Kafka-3.x-教程】-【一】Kafka 概述、Kafka 快速入门

Kafka 是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。缓冲/消峰：有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况。解耦：允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。异步通信：允

overfit同步小助手 2024-02-07 01:03:55 0 收藏

微服务注册中心之Eureka

最近无意间获得一份阿里大佬写的刷题笔记和面经，一下子打通了我的任督二脉，进大厂原来没那么难。这是大佬写的，

overfit同步小助手 2024-02-07 01:03:48 0 收藏

林浩然与Hadoop的奇幻数据之旅

在一个名为“比特村”的地方，住着一位名叫林浩然的程序员大侠。他并非江湖上常见的武艺高强之人，而是凭借一把键盘、一支鼠标，纵横在大数据的海洋里。一日，林浩然接到了一封神秘邮件，邀请他探索一个名为"Hadoop"的秘密王国。

overfit同步小助手 2024-02-07 01:03:41 0 收藏

RabbitMQ如何保证消息不丢失

当生产者通过 Confirm 模式发送消息时，它会等待 RabbitMQ 的确认，确保消息已经被正确地投递到了指定的 Exchange 中。当消息被消费者成功处理后，消费者发送确认（ACK）给 RabbitMQ，告知消息可以被移除。针对上述三种消息丢失场景，RabbitMQ 提供了相应的解决方案，c

overfit同步小助手 2024-02-07 01:03:31 0 收藏