大数据 - overfit.cn

Flink 的时间属性及原理解析

Flink的API大体上可以划分为三个层次：处于，这三层中的每一层都非常依赖于时间属性。时间在FlinkAPI。在这一层中因为封装方面的原因，我们能够接触到时间的地方不是很多，所以我们将重点放在底层的和最上层的。

overfit同步小助手 2024-01-05 08:03:25 0 收藏

Python操作Hive数据仓库

sasl模块是Python中用于实现SASL（Simple Authentication and Security Layer）认证的第三方库，提供了对各种SASL机制的支持，例如与Kafka、Hadoop等进行安全通信。Thrift是一个轻量级、跨语言的RPC框架，主要用于服务间的RPC通信。由于

overfit同步小助手 2024-01-05 07:03:39 0 收藏

springcloud微服务篇--3.注册中心Eureka

overfit同步小助手 2024-01-05 06:03:48 0 收藏

HIVE窗口函数

开窗函数笔记

overfit同步小助手 2024-01-05 06:03:45 0 收藏

用户行为分析遇到的问题-ubantu16,hadoop3.1.3

ubantu16，hadoop3.1.3做用户行为分析时候遇到的问题

overfit同步小助手 2024-01-05 06:03:42 0 收藏

Flink系列之：Checkpoints 与 Savepoints

从概念上讲，Flink 的 savepoints 与 checkpoints 的不同之处类似于传统数据库系统中的备份与恢复日志之间的差异。Checkpoints 的主要目的是为意外失败的作业提供恢复机制。Checkpoint 的生命周期由 Flink 管理，即 Flink 创建，管理和删除 ch

overfit同步小助手 2024-01-05 04:03:50 0 收藏

最全大数据专业python毕业设计选题合集

大家好！大四的同学们，毕业设计的时间即将到来，你们准备好了吗？为了帮助大家更好地开始毕设，我作为学长给大家整理了最新的计算机大数据专业的毕设选题。如果在开题选题的过程中有任何疑问，都可以随时向我提问，我会根据你们的情况提供帮助。对于大数据专业的毕设选题，重要的是选择与该领域紧密相关且具有实际意义的课

overfit同步小助手 2024-01-05 04:03:45 0 收藏

查看hive表储存在hdfs的哪个目录下

查看hive表储存在hdfs的哪个目录下, 查看一个HDFS目录占用了多少磁盘空间

overfit同步小助手 2024-01-05 04:03:42 0 收藏

Flink 内容分享(十八)：基于Flink＋Iceberg构建企业数据湖实战

Flink还支持通过指定catalog-impl属性来加载自定义的Iceberg Catalog实现。

overfit同步小助手 2024-01-05 04:03:23 0 收藏

基于 Flink SQL 和 Paimon 构建流式湖仓新方案

Paimon 结合了湖存储和 LSM（Log Structured MergeTree）技术，提供了低延时、低成本的流式数据湖解决方案。 Paimon 与 Flink 有深度集成，支持 CDC

overfit同步小助手 2024-01-05 03:03:46 0 收藏

大数据毕业设计选题推荐-旅游景点游客数据分析-Hadoop-Spark-Hive

随着现代科技的发展和互联网的普及，大数据技术正在逐渐渗透到各行各业，包括旅游业。传统的旅游业数据分析主要依赖于抽样调查和实地考察，这种方法不仅需要大量的人力和物力，而且往往存在数据不准确的问题。然而，大数据技术的出现，使得我们可以更准确、更快速地分析游客数据，从而更好地规划旅游资源和服务。因此，基于

overfit同步小助手 2024-01-05 03:03:09 0 收藏

信息管理毕设分享(含算法) 基于大数据人才岗位数据分析

这里是毕设分享系列，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据人才岗位数据分析毕业设计基于大数据人才岗位数据分析。

overfit同步小助手 2024-01-05 01:03:51 0 收藏

记录一次云服务器使用docker搭建kafka的过程

外网+内外docker使用zookeeper作为注册中心的kafka服务启动过程记录，以及基本使用和springboot集成demo示例。

overfit同步小助手 2024-01-05 01:03:46 0 收藏

【Hadoop_04】HDFS的API操作与读写流程

此策略减少了机架间的写入流量，从而总体上提高了写入性能。机架故障的几率远小于节点故障的几率；该策略不影响数据可靠性和可用性保证。但是，它确实减少了读取数据时使用的聚合网络带宽，因为一个数据块只放在两个不同的机架中，而不是三个。使用此策略，文件的副本不会均匀分布在机架上。三分之一的副本位于一个节点上，

overfit同步小助手 2024-01-05 01:03:13 0 收藏

KafkaLog4jAppender

为你需要的 Log4j 版本。同样，你可能需要调整 Kafka 的版本以匹配你的需求。概念，它负责将日志信息输出到各种目的地，例如控制台、文件、数据库等。的一个扩展，它可以将日志信息发送到 Apache Kafka。2. 接下来，你需要配置 Log4j。的文件，并将其放在项目的类路径下（例如。

overfit同步小助手 2024-01-05 00:03:41 0 收藏

Zookeeper之快速入门

合适想要快速上手zookeeper的读者。

overfit同步小助手 2024-01-04 23:03:55 0 收藏

大数据存储架构学习摘要：数据仓库、数据集市、数据湖、数据网格、湖仓一体

1、数据库（Database）是一个存储相关数据的地方，用于捕获特定情况的数据。它可以是结构化、关系型、非结构化或NoSQL数据库。数据库主要用于在线事务处理（OLTP），处理实时的事务数据，并具有特定的目的和应用。2、数据仓库（Data Warehouse）是组织的核心分析系统，用于存储历史数据和

overfit同步小助手 2024-01-04 23:03:52 0 收藏

关于flink重新提交任务，重复消费kafka的坑

1、savepoint的数据要比checkpoint更加稳定，比如你可以通过移动（拷贝）savepoint 目录到任意地方，然后再进行恢复。checkpoint就不可以，因为他有很多相对路径配置。2、savepoint和checkpoint一般都能作为恢复点使用，例外情况是使用 RocksDB 状态

overfit同步小助手 2024-01-04 23:03:49 0 收藏

超详细手把手教你部署全分布模式Hadoop集群

由于之前步骤已将 core-site.xml 中 Hadoop 的临时目录设置为“/usr/local/hadoop-2.9.2/hdfsdata”，故本书中未修改配置项“yarn.nodemanager.local-dirs”，中间结果的存放位置为“/usr/local/hadoop-2.9.2/

overfit同步小助手 2024-01-04 23:03:38 0 收藏

HBase的安装与简单操作 - 头歌

HBase的安装与简单操作

overfit同步小助手 2024-01-04 20:03:49 0 收藏