大数据 - overfit.cn

【Hadoop-HDFS分布式文件系统】

本篇详细介绍了HDFS的工作原理，看完这篇文章对HDFS能够有非常深刻的理解与应用。随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一

overfit同步小助手 2024-01-11 12:03:50 0 收藏

数据仓库系列：StarRocks 入门培训教程

StarRocks 是一款MPP DB, 对标ClickHouse、Vertica、Teradata、Greenplum，在查询性能上远超当代最快的开源数据库 clickhouse，目前已经被一众互联网企业在生产环境中采用。提供千亿级大数据的在线多维分析和分布式存储。新一代极速全场景 MPP (Ma

overfit同步小助手 2024-01-11 12:03:12 0 收藏

【HIVE】数据的定义与操作

Hive作为数据仓库，用来存放企业的海量数据，Hive提供了丰富的数据类型，如关系型数据库，且提供了关系型数据库不支持的数据类型。

overfit同步小助手 2024-01-11 11:03:34 0 收藏

Hive-concat_ws 详解

该函数将使用指定的分隔符将所有提供的字符串或字符串数组连接在一起。它接受任意数量的参数，并且可以用于连接单个字符串或字符串数组。是 Hive 中的一个函数，用于在给定分隔符的情况下连接字符串数组或字符串。的参数中有 NULL 值，那么连接的结果中将会忽略这些 NULL 值。在上面的示例中，我们使用逗

overfit同步小助手 2024-01-11 10:03:36 0 收藏

Flink系列之：深入理解ttl和checkpoint，Flink SQL应用ttl案例

通过保存作业状态的快照，Flink能够保证作业的一致性，并提供了高可用性和高效率的保存和恢复机制。冷启动和部署：可以使用检查点来实现作业的冷启动，即在作业启动时，从最近的检查点恢复状态和数据，并从上一次检查点的位置继续处理。当窗口中的数据过期时，Flink会自动丢弃这些数据，从而保持窗口中的数据只包

overfit同步小助手 2024-01-11 10:03:30 0 收藏

带你了解RabbitMQ：消息丢失、重复、积压的原因及其解决方案

首先说一点，企业中最常用的实际上既不是RocketMQ，也不是Kafka，而是RabbitMQ。RocketMQ很强大，但主要是阿里推广自己的云产品而开源出来的一款消息队列，其实中小企业用RocketMQ的没有想象中那么多。深层次的原因在于兔宝在中小企业普及更早，经受的考验也更久，很容易产生「回头客

overfit同步小助手 2024-01-11 09:03:33 0 收藏

大数据深度学习长短时记忆网络（LSTM）：从理论到PyTorch实战演示

LSTM的逻辑结构通过其独特的门控机制为处理具有复杂依赖关系的序列数据提供了强大的手段。其对信息流的精细控制和长期记忆的能力使其成为许多序列建模任务的理想选择。了解LSTM的这些逻辑概念有助于更好地理解其工作原理，并有效地将其应用于实际问题。我们首先定义一个LSTM类，该类使用PyTorch的nn.

overfit同步小助手 2024-01-11 08:03:54 0 收藏

50、Flink的单元测试介绍及示例

一、Flink 专栏Flink 专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。

overfit同步小助手 2024-01-11 08:03:38 0 收藏

Python 与 PySpark数据分析实战指南：解锁数据洞见

数据分析是当今信息时代中至关重要的技能之一。Python和PySpark作为强大的工具，提供了丰富的库和功能，使得数据分析变得更加高效和灵活。

overfit同步小助手 2024-01-11 08:03:27 0 收藏

Flink DataStream API CDC同步MySQL数据到StarRocks

一、版本信息Flink：1.16.1二代码实现pom文件如下<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="htt

overfit同步小助手 2024-01-11 07:03:34 0 收藏

【源码解析】flink sql执行源码概述：flink sql执行过程中有哪些阶段，这些阶段的源码大概位置在哪里

本文大致分析了flink sql执行过程中的各个阶段的源码逻辑，这样可以在flink sql执行过程中，能够定位到任务执行的某个阶段的代码大概分布在哪里，为更针对性的分析此阶段的细节逻辑打下基础，比如create 的逻辑是怎么执行的，select的逻辑是怎么生成的，优化逻辑都做了哪些，而这些是接下

overfit同步小助手 2024-01-11 05:03:46 0 收藏

CDH 6.3.2集成flink 1.18 zookeeper版本不匹配Flink-yarn启动失败

CDH 6.3.2集成flink 1.18.0 zookeeper版本不匹配

overfit同步小助手 2024-01-11 04:03:27 0 收藏

大数据求职心得

SQL要精通能随便写个百行以上的，这些都会能应付多数面试，如果你要成为大数据全栈建议etl开发，风控开发，cdh集群搭建，数仓开发和搭建全栈都要，数据可视化开发，数据服务数据可视化等等，对于刷题时间如果你选择进入大数据方向那么你就可以按照我的开始学习和刷题了，没有啥思路的可以按照我上面的来做就好。最

overfit同步小助手 2024-01-11 03:03:49 0 收藏

01、Kafka ------ 下载、安装 ZooKeeper 和 Kafka

overfit同步小助手 2024-01-11 03:03:44 0 收藏

flume实验:kafka生产者端通过flume发送信息到HDFS

WARN [SinkRunner-PollingRunner-DefaultSinkProcessor] (org.apache.flume.sink.hdfs.HDFSEventSink.process:452) - HDFS IO error：这是一个警告信息，表示Flume在进行HDFS输出时

overfit同步小助手 2024-01-11 03:03:17 0 收藏

Sqoop 操作 HBase 头歌实践

overfit同步小助手 2024-01-10 20:03:48 0 收藏

通过docker-compose安装hadoop

docker-compose的Compose配置文件语法版本有3个版本,分别为1, 2.x 和 3.x。如果不关闭V2版本的话，运行docker-compose命令时会报错：unexpected character “-” in variable name near，执行docker-compose

overfit同步小助手 2024-01-10 18:03:38 0 收藏

微服务注册与发现——Eureka

微服务注册与发现

overfit同步小助手 2024-01-10 18:03:31 0 收藏

【大数据】基于 Flink CDC 构建 MySQL 和 Postgres 的 Streaming ETL

这篇教程将展示如何基于 Flink CDC 快速构建 MySQL 和 Postgres 的流式 ETL。本教程的演示都将在 Flink SQL CLI 中进行，只涉及 SQL，无需一行 Java / Scala 代码，也无需安装 IDE。

overfit同步小助手 2024-01-10 16:03:49 0 收藏

数据架构的实时分析：Apache Flink 和 Apache Storm 的比较

1.背景介绍实时数据处理在大数据领域具有重要意义，它可以帮助企业更快地获取和分析数据，从而更快地做出决策。随着数据量的增加，传统的批处理方法已经不能满足企业的需求，因此需要使用实时数据处理技术。Apache Flink 和 Apache Storm 是两个流行的实时数据处理框架，它们都可以处理大量数

overfit同步小助手 2024-01-10 16:03:34 0 收藏