大数据 - overfit.cn

Flink回撤流

Flink 的回撤流是指在 Flink 的流处理算法中，撤回已经发送到下游节点的数据。这是因为在实际应用场景中，有些错误数据可能会发送到下游节点，因此需要回撤流以保证数据的准确性。回撤流可以理解为流式场景下对数据进行更新，这里的更新数据并不是将发往下游的历史数据进行更改，要知道，已经发往下游的消息是

overfit同步小助手 2023-09-09 04:03:45 0 收藏

大数据之使用Spark增量抽取MySQL的数据到Hive数据库（1）

本题来源于全国职业技能大赛之大数据技术赛项电商赛题-离线数据处理-抽取什么是全量数据、增量数据？1.全量数据：当前需要迁移的数据库系统的全部数据。2.增量数据：在数据库系统迁移过程中，对比原数据，新产生的数据即为增量数据。用于将MySQL数据库中的数据增量导入到Hive数据仓库中的指定表格中。首先，

overfit同步小助手 2023-09-09 03:03:21 0 收藏

大数据Flink（七十）：SQL 动态表 & 连续查询

可以理解为虽然 group by user, tumble(xxx) 上游也是一个源源不断的数据，但是这个查询本质上是对时间上的划分，而时间都是越变越大的，当前这个滚动窗口结束之后，后面来的数据的时间都会比这个滚动窗口的结束时间大，都归属于之后的窗口了，当前这个滚动窗口的结果数据就不会再改变了，因此

overfit同步小助手 2023-09-08 21:04:30 0 收藏

Flink On k8s

flink-1.15.1 on k8s

overfit同步小助手 2023-09-08 18:03:31 0 收藏

git 常用命令

注意，不管是根目录下的 /fd1/ 目录，还是某个子目录 /child/fd1/ 目录，都会被忽略；此外，git 对于 .ignore 配置文件是按行从上到下进行规则匹配的，意味着如果前面的规则匹配的范围更大，则后面的规则将不会生效；说明：忽略全部内容，但是不忽略 .gitignore 文件、根目录

overfit同步小助手 2023-09-08 10:04:12 0 收藏

大数据之Kafka————java来实现kafka相关操作

生产者多线程是一种常见的技术实践，可以提高消息生产的并发性和吞吐量。通过将消息生产任务分配给多个线程来并行地发送消息，可以有效地利用系统资源，加快消息的发送速度。Java中写在生产者输入内容在kafka中可以让消费者提取。（2）、Producer进行多线程操作。一、在java中配置pom。通过jav

overfit同步小助手 2023-09-08 10:03:27 0 收藏

Elasticsearch：为日志分析设置安全的 Elasticsearch 管道

在我之前的许多文章中，我已经详细地描述了如何配置如下的管道：在实际的使用中，Elastic Stack 中的各个组件极有可能不在同样的一个机器上。我们该如何保证数据在传输过程中的安全呢？我们需要确保在上图所示的每一个连接都是安全的。在今天的教程中，我将详述如何在考虑安全的情况下设置 Filebeat

overfit同步小助手 2023-09-08 08:07:42 0 收藏

03.DolphinScheduler资源中心

当获取到任务组资源的任务结束运行后，会释放任务组资源，释放后会检查当前任务组是否有任务等待，如果有则标记优先级最好的任务可以运行，并新建一个可以执行的event。您可在新建任务定义时，可配置对应的任务组，并配置任务在任务组内运行的优先级。【任务组名称】：任务组配置页面显示的任务组名称，这里只能看到该

overfit同步小助手 2023-09-08 07:03:26 0 收藏

hive查询区分大小写

hive查询如何区分大小写

overfit同步小助手 2023-09-08 05:03:50 0 收藏

启动Flink显示初始化状态怎么解决？

启动flink任务胡一直出现初始化状态

overfit同步小助手 2023-09-07 18:04:04 0 收藏

Hive表统计信息采集及应用

Hive提供了分析表和分区的功能，可以将分析后的统计信息存入元数据中，该功能可以自动执行分析表或手动执行分析表。自动执行分析主要针对新创建的表，可以通过配置启用，配置说明详见。Hive默认启用表级别的统计信息收集，在DML（除了LOAD DATA语句）操作期间，自动收集并更新统计信息。默认不启用列级

overfit同步小助手 2023-09-07 17:03:46 0 收藏

大数据竞赛MR培训与题型

JavaHadoopMapReduce 自己定义的需要序列化和反序列化可以通过实现 Writable接口来使用。在重写map方法时，如果中间处理数据时将类型转化为Java的数据类

overfit同步小助手 2023-09-07 16:04:20 0 收藏

使用nginx-lua配置统一url自动跳转到hadoop-ha集群的active节点

配置nginx-conf，其中/root/run_shell/hadoop-status为脚本执行的路径，/tmp/hadoop-status.tmp是随便的一个文件，避免文件名冲突，注意是>不是追加>>，access_by_lua_block是lua脚本，需要要安装上面的带有lua脚本的nginx

overfit同步小助手 2023-09-07 11:04:18 0 收藏

Hudi（23）：Hudi集成Hive之同步

Flink hive sync 现在支持两种 hive sync mode, 分别是 hms 和 jdbc 模式。其中 hms 只需要配置 metastore uris；注意：核心点为上述hive_sync系列的配置。

overfit同步小助手 2023-09-07 10:04:18 0 收藏

Flink源码之State创建流程

Flink内置状态管理是相比其他分布式流式处理系统最大的优势之一，不用借助外部存储组件，就可实现高效可靠的分布式状态管理，极大降低了学习和使用成本。

overfit同步小助手 2023-09-07 08:04:23 0 收藏

【flink】Chunk splitting has encountered exception

【代码】【flink】Chunk splitting has encountered exception。

overfit同步小助手 2023-09-07 03:04:07 0 收藏

解决Hadoop审计日志hdfs-audit.log过大的问题

新搭建的Hadoop环境没怎么用，就一个环境天天空跑，结果今天运维告诉我说有一台服务器磁盘超过80%了，真是太奇怪了，平台上就跑了几个spark测试程序，哪来的数据呢？终于发现在Hadoop的日志目录下，有一堆hdfs-audit.log日志，并且每个都有好几百M，删除之后，跟目录瞬间从81%减低到

overfit同步小助手 2023-09-07 02:04:06 0 收藏

数据仓库建设-数仓分层

数据仓库能够帮助企业做出更好的决策，提高业务效率和效益；在数据仓库建设时，绕不开的话题就是数仓分层。

overfit同步小助手 2023-09-06 19:04:27 0 收藏

大数据bug-sqoop（二：sqoop同步mysql数据到hive进行字段限制。）

query “${sql}” \ 这个参数添加对应表的sql语句。注意结尾必须添加 $CONDITIONS ，必须添加where 条件，如果没有where条件，写成where 1=1。–split-by ${split} \ 这个参数是切分数据的分割字段，一般来讲是mysql的主键。–t

overfit同步小助手 2023-09-06 16:04:32 0 收藏

Spark-Core核心算子

Spark-Core中1、数据源获取。2、转换算子。3、行动算子

overfit同步小助手 2023-09-06 12:04:04 0 收藏