大数据 - overfit.cn

Dbeaver，Hudi，Hive，Spark，Presto应用问题及解决措施梳理

overfit同步小助手 2024-02-03 09:03:50 0 收藏

SpringCloud-搭建Eureka服务模块

本文深入探讨了使用Spring Cloud构建分布式项目时搭建Eureka的关键步骤。Eureka在分布式系统中起到了连接各个微服务的纽带作用，使得服务之间的交互变得更加灵活、可靠。通过了解和配置Eureka，我们能够更好地搭建和管理分布式项目，提升系统的可维护性和可扩展性。

overfit同步小助手 2024-02-03 08:03:08 0 收藏

Flink 内容分享(七)：Flink 读写 HBase 总结

总结 Flink 读写 HBase本文总结了Flink SQL 读写 HBase 的参数配置，解决了在kerberos环境下因 hudi 包 hbase-site.xml 配置冲突引起的异常，学习总结了 Flink SQL 读写 HBase 时加载 HBase 配置的优先级，但是没有详细的分析源码中

overfit同步小助手 2024-02-03 07:03:48 0 收藏

FlinkCDC系列：数据同步对部分字段的处理，只更新部分字段

一个可选的、以逗号分隔的正则表达式列表，与列的完全限定名称匹配以从更改事件记录值中排除。列的完全限定名称的格式为databaseName。一个可选的、以逗号分隔的正则表达式列表，与列的完全限定名称匹配以包含在更改事件记录值中。列的完全限定名称的格式为databaseName。单表可以只写列名，如果是

overfit同步小助手 2024-02-03 06:03:28 0 收藏

kafka集群和Filebeat+Kafka+ELK

主要原因是由于在高并发环境下，同步请求来不及处理，请求往往会发生阻塞。比如大量的请求并发访问数据库，导致行锁表锁，最后请求线程会堆积过多，从而触发 too many connection 错误，引发雪崩效应。我们使用消息队列，通过异步处理请求，从而缓解系统的压力。消息队列常应用于异步处理，流量削峰，

overfit同步小助手 2024-02-03 05:03:55 0 收藏

【RabbitMQ】死信（延迟队列）的使用

持久化exchange要持久化queue要持久化message要持久化消息确认启动消费返回（@ReturnList注解，生产者就可以知道哪些消息没有发出去）生产者和Server（broker）之间的消息确认消费者和Server（broker）之间的消息确认。

overfit同步小助手 2024-02-03 05:03:52 0 收藏

Hadoop原理之HDFS

hdfs由三部分组成:分别是 namenode,SecondaryNameNode,datanodenamenode: 主节点.1. 管理整个HDFS集群.2. 维护和管理元数据.SecondaryNameNode: 辅助节点.辅助namenode维护和管理元数据的.datanode: 从节点.1.

overfit同步小助手 2024-02-03 05:03:34 0 收藏

Flink SQL 实时数据开发经验总结

Retract流包含两种类型的消息：新增消息（Add Message）和回撤消息（Retract Message）。在动态表被转化为Retract流时，动态表的INSERT操作会被编码为新增消息，DELETE操作会被编码为回撤消息，UPDATE操作会被编码为一条回撤消息以及一条新增消息。那么怎么来理

overfit同步小助手 2024-02-03 04:03:44 0 收藏

Hive-SQL语法大全

]，表示可选，如上[LOCATION]表示可写、可不写，表示或，如上ASC | DESC，表示二选一…，表示序列，即未完结，如上表示在SELECT后可以跟多个，以逗号隔开()，表示必填，如上(A | B | C)表示此处必填，填入内容在A、B、C中三选一。

overfit同步小助手 2024-02-03 04:03:33 0 收藏

大数据和AI-竞赛平台

大数据、数据分析、AI、竞赛

overfit同步小助手 2024-02-03 03:03:53 0 收藏

Flink的错误处理与故障恢复

1.背景介绍Flink是一个流处理框架，用于处理大规模数据流。在实际应用中，Flink可能会遇到各种错误和故障，因此错误处理和故障恢复是Flink的关键功能之一。本文将深入探讨Flink的错误处理与故障恢复，涉及到其核心概念、算法原理、代码实例等方面。2.核心概念与联系Flink的错误处理与故障恢复

overfit同步小助手 2024-02-03 03:03:21 0 收藏

Flink1.17版本安装部署

flink同spark一样也是一种计算引擎，只不过在流式处理、实时计算方面比spark更为优秀，从flink发布至今已经更新到1.18版本，功能也在逐步的迭代完善中，最先开始接触的是flink cdc，由于项目中有实时展示数据的需求，当时在调研了几种cdc方案后，最后决定尝试flink cdc，就使

overfit同步小助手 2024-02-03 02:03:51 0 收藏

【大数据】Flink 详解（十）：SQL 篇 Ⅲ（Flink SQL CDC）

在最新 CDC 调研报告中，Debezium 和 Canal 是目前最流行使用的 CDC 工具，这些 CDC 工具的核心原理是抽取数据库日志获取变更。在经过一系列调研后，目前 Debezium（支持全量、增量同步，同时支持 MySQL、PostgreSQL、Oracle 等数据库），使用较为广泛。

overfit同步小助手 2024-02-03 01:03:41 0 收藏

提炼设计框架，一文搞懂Redis/MySQL/Kafka为什么这样设计

大家好，我是东邪狂想，本文是Redis、MySQL、Kafka系列第一篇。，最终被塑造成这样一个“有血有肉”的系统在学习MySQL、Redis、Kafka的过程中，发现了它们之间其实存在一定的共性，在设计之初，均考虑过相同的问题，在《Designing Data-Intensive Applicat

overfit同步小助手 2024-02-03 00:03:47 0 收藏

向爬虫而生---Redis 拓宽篇6＜redis分布式锁 ---ZooKeeper＞

ZooKeeper是一个开源的分布式协调服务，旨在帮助构建可靠的分布式系统。它通过提供高可用、高性能的分布式协调机制来解决分布式应用中的一致性和协作问题。首先，我们来看ZooKeeper的起源、特点和应用场景。ZooKeeper最初由雅虎研究团队开发，后来成为Apache软件基金会的顶级项目。它被广

overfit同步小助手 2024-02-03 00:03:41 0 收藏

工作实践篇 Flink（一：flink提交jar）

flink 模式 – standalone。

overfit同步小助手 2024-02-03 00:03:32 0 收藏

Hadoop框架——详解

如果当前活跃的机器总数低于的副本数(3)，例如: 默认3副本，但是现在只有2台机器活跃了，就会强制进入到安全模式(safemode)，安全模式下: 只能读，不能写.3.所有的datanode会定时(6个小时),向namenode汇报一次自己完整的块信息,让namenode校验更新。答:描述数据

overfit同步小助手 2024-02-03 00:03:19 0 收藏

Hive初体验

{runjar就是metastore；hadoop要先启动 }进入到Hive Shell 环境中，可以直接执行SQL的语句；首先，确保启动了Metastore服务。

overfit同步小助手 2024-02-02 23:03:52 0 收藏

Hadoop-MapReduce-YarnChild启动篇

1、MRAppMaster启动2、初始化并启动job3、处理各种job状态4、启动Task5、处理各种Task事件6、启动尝试任务7、处理各种尝试任务事件8、在尝试任务的TaskAttemptEventType.TA_SCHEDULE事件处理时申请容器9、调用java命令配置主类YarnChild启

overfit同步小助手 2024-02-02 23:03:30 0 收藏

HBase的数据压缩与存储效率实践

1.背景介绍1. 背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase适用于大规模数据存储和实时数据访问场景，如日志记录、实时数据分析、实时

overfit同步小助手 2024-02-02 22:03:55 0 收藏