大数据 - overfit.cn

Flink 内容分享(七)：Flink 读写 HBase 总结

总结 Flink 读写 HBase本文总结了Flink SQL 读写 HBase 的参数配置，解决了在kerberos环境下因 hudi 包 hbase-site.xml 配置冲突引起的异常，学习总结了 Flink SQL 读写 HBase 时加载 HBase 配置的优先级，但是没有详细的分析源码中

overfit同步小助手 2024-02-03 07:03:48 0 收藏

【Git企业级教学，原来拉代码如此简单？】

一文教你快速上手git企业级开发管理，让你轻松掌握常见的git操作。

overfit同步小助手 2024-02-03 06:04:19 0 收藏

Hadoop原理之HDFS

hdfs由三部分组成:分别是 namenode,SecondaryNameNode,datanodenamenode: 主节点.1. 管理整个HDFS集群.2. 维护和管理元数据.SecondaryNameNode: 辅助节点.辅助namenode维护和管理元数据的.datanode: 从节点.1.

overfit同步小助手 2024-02-03 05:03:34 0 收藏

大数据和AI-竞赛平台

大数据、数据分析、AI、竞赛

overfit同步小助手 2024-02-03 03:03:53 0 收藏

Flink的错误处理与故障恢复

1.背景介绍Flink是一个流处理框架，用于处理大规模数据流。在实际应用中，Flink可能会遇到各种错误和故障，因此错误处理和故障恢复是Flink的关键功能之一。本文将深入探讨Flink的错误处理与故障恢复，涉及到其核心概念、算法原理、代码实例等方面。2.核心概念与联系Flink的错误处理与故障恢复

overfit同步小助手 2024-02-03 03:03:21 0 收藏

Flink1.17版本安装部署

flink同spark一样也是一种计算引擎，只不过在流式处理、实时计算方面比spark更为优秀，从flink发布至今已经更新到1.18版本，功能也在逐步的迭代完善中，最先开始接触的是flink cdc，由于项目中有实时展示数据的需求，当时在调研了几种cdc方案后，最后决定尝试flink cdc，就使

overfit同步小助手 2024-02-03 02:03:51 0 收藏

【大数据】Flink 详解（十）：SQL 篇 Ⅲ（Flink SQL CDC）

在最新 CDC 调研报告中，Debezium 和 Canal 是目前最流行使用的 CDC 工具，这些 CDC 工具的核心原理是抽取数据库日志获取变更。在经过一系列调研后，目前 Debezium（支持全量、增量同步，同时支持 MySQL、PostgreSQL、Oracle 等数据库），使用较为广泛。

overfit同步小助手 2024-02-03 01:03:41 0 收藏

工作实践篇 Flink（一：flink提交jar）

flink 模式 – standalone。

overfit同步小助手 2024-02-03 00:03:32 0 收藏

Hadoop框架——详解

如果当前活跃的机器总数低于的副本数(3)，例如: 默认3副本，但是现在只有2台机器活跃了，就会强制进入到安全模式(safemode)，安全模式下: 只能读，不能写.3.所有的datanode会定时(6个小时),向namenode汇报一次自己完整的块信息,让namenode校验更新。答:描述数据

overfit同步小助手 2024-02-03 00:03:19 0 收藏

Hadoop-MapReduce-YarnChild启动篇

1、MRAppMaster启动2、初始化并启动job3、处理各种job状态4、启动Task5、处理各种Task事件6、启动尝试任务7、处理各种尝试任务事件8、在尝试任务的TaskAttemptEventType.TA_SCHEDULE事件处理时申请容器9、调用java命令配置主类YarnChild启

overfit同步小助手 2024-02-02 23:03:30 0 收藏

HBase的数据压缩与存储效率实践

1.背景介绍1. 背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase适用于大规模数据存储和实时数据访问场景，如日志记录、实时数据分析、实时

overfit同步小助手 2024-02-02 22:03:55 0 收藏

Apache Spark 的基本概念和在大数据分析中的应用

此外，Spark 提供了丰富的编程接口（如 Scala、Java、Python 和 R），可以方便地进行开发和调试。因此，Spark 成为了大数据处理和分析的首选工具之一。Resilient Distributed Datasets (RDDs)：RDD 是 Spark 的核心数据结构，代表了分布式

overfit同步小助手 2024-02-02 22:03:50 0 收藏

Hadoop与Spark横向比较【大数据扫盲】

大数据场景下的数据库有很多种，每种数据库根据其数据模型、查询语言、一致性模型和分布式架构等特性，都有其特定的使用场景。以下是一些常见的大数据数据库：1. **NoSQL 数据库**：这类数据库通常用于处理大规模、非结构化的数据。它们通常提供简单的查询语言，并强调水平扩展和高可用性。例如：- **键值

overfit同步小助手 2024-02-02 22:03:41 0 收藏

【flink番外篇】14、Flink异步I/O访问外部数据示例

系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和S

overfit同步小助手 2024-02-02 19:03:55 0 收藏

HBase的数据安全与访问控制策略

1.背景介绍1. 背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase具有高可靠性、高性能和高可扩展性等优势，适用于大规模数据存储和实时数据

overfit同步小助手 2024-02-02 19:03:16 0 收藏

大数据AI在生物信息学领域的潜力

1.背景介绍生物信息学是一门研究生物科学、计算科学和信息科学如何相互作用以解决生物学问题的学科。生物信息学涉及到生物序列数据的分析、比较和存储，例如基因组、蛋白质序列和微组学数据。随着科学家们对生物数据的需求日益增长，生物信息学的重要性也在不断提高。在过去的几年里，人工智能(AI)和大数据技术在生物

overfit同步小助手 2024-02-02 17:04:00 0 收藏

【大数据】深入浅出 Apache Flink：架构、案例和优势

总的来说，Apache Flink 有几个显著的优点，使其成为当今最流行的分析引擎之一。它的速度快如闪电，是一个分布式系统，能以容错的方式处理批处理和流式数据，还能处理大型数据集，这些优点使它成为各种应用的理想选择。

overfit同步小助手 2024-02-02 17:03:53 0 收藏

大数据基础设施搭建 - Hbase

首先保证Zookeeper和Hadoop正常运行。

overfit同步小助手 2024-02-02 17:03:27 0 收藏

olap/spark-tungsten：codegen

15721这一章没什么好说的，不再贴课程内容了。codegen和simd在工业界一般只会选一种实现。比如phothon之前用codegen，然后改成了向量化引擎。一般gen的都是weld IR/LLVM IR/当前语言，gen成C++的也要检查是不是有本地预编译版本，要不没法用。因为clickhou

overfit同步小助手 2024-02-02 16:03:39 0 收藏

【大数据进阶第三阶段之DolphinScheduler学习笔记】DolphinScheduler(海豚调度)的部署指南

只需要更改 dolphinscheduler-worker 服务的镜像.创建一个新的Dockerfile，用于安装 pip:这个命令会安装默认的pip 18.1. 如果你想升级 pip, 只需添加一行构建一个包含 pip 的新镜像:推送 docker 镜像到一个 docker registry 中修

overfit同步小助手 2024-02-02 10:03:47 0 收藏