大数据 - overfit.cn

大数据深度学习长短时记忆网络（LSTM）：从理论到PyTorch实战演示

LSTM的逻辑结构通过其独特的门控机制为处理具有复杂依赖关系的序列数据提供了强大的手段。其对信息流的精细控制和长期记忆的能力使其成为许多序列建模任务的理想选择。了解LSTM的这些逻辑概念有助于更好地理解其工作原理，并有效地将其应用于实际问题。我们首先定义一个LSTM类，该类使用PyTorch的nn.

overfit同步小助手 2024-01-11 08:03:54 0 收藏

50、Flink的单元测试介绍及示例

一、Flink 专栏Flink 专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。

overfit同步小助手 2024-01-11 08:03:38 0 收藏

Python 与 PySpark数据分析实战指南：解锁数据洞见

数据分析是当今信息时代中至关重要的技能之一。Python和PySpark作为强大的工具，提供了丰富的库和功能，使得数据分析变得更加高效和灵活。

overfit同步小助手 2024-01-11 08:03:27 0 收藏

Flink DataStream API CDC同步MySQL数据到StarRocks

一、版本信息Flink：1.16.1二代码实现pom文件如下<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="htt

overfit同步小助手 2024-01-11 07:03:34 0 收藏

【源码解析】flink sql执行源码概述：flink sql执行过程中有哪些阶段，这些阶段的源码大概位置在哪里

本文大致分析了flink sql执行过程中的各个阶段的源码逻辑，这样可以在flink sql执行过程中，能够定位到任务执行的某个阶段的代码大概分布在哪里，为更针对性的分析此阶段的细节逻辑打下基础，比如create 的逻辑是怎么执行的，select的逻辑是怎么生成的，优化逻辑都做了哪些，而这些是接下

overfit同步小助手 2024-01-11 05:03:46 0 收藏

CDH 6.3.2集成flink 1.18 zookeeper版本不匹配Flink-yarn启动失败

CDH 6.3.2集成flink 1.18.0 zookeeper版本不匹配

overfit同步小助手 2024-01-11 04:03:27 0 收藏

大数据求职心得

SQL要精通能随便写个百行以上的，这些都会能应付多数面试，如果你要成为大数据全栈建议etl开发，风控开发，cdh集群搭建，数仓开发和搭建全栈都要，数据可视化开发，数据服务数据可视化等等，对于刷题时间如果你选择进入大数据方向那么你就可以按照我的开始学习和刷题了，没有啥思路的可以按照我上面的来做就好。最

overfit同步小助手 2024-01-11 03:03:49 0 收藏

01、Kafka ------ 下载、安装 ZooKeeper 和 Kafka

overfit同步小助手 2024-01-11 03:03:44 0 收藏

flume实验:kafka生产者端通过flume发送信息到HDFS

WARN [SinkRunner-PollingRunner-DefaultSinkProcessor] (org.apache.flume.sink.hdfs.HDFSEventSink.process:452) - HDFS IO error：这是一个警告信息，表示Flume在进行HDFS输出时

overfit同步小助手 2024-01-11 03:03:17 0 收藏

Sqoop 操作 HBase 头歌实践

overfit同步小助手 2024-01-10 20:03:48 0 收藏

通过docker-compose安装hadoop

docker-compose的Compose配置文件语法版本有3个版本,分别为1, 2.x 和 3.x。如果不关闭V2版本的话，运行docker-compose命令时会报错：unexpected character “-” in variable name near，执行docker-compose

overfit同步小助手 2024-01-10 18:03:38 0 收藏

微服务注册与发现——Eureka

微服务注册与发现

overfit同步小助手 2024-01-10 18:03:31 0 收藏

【大数据】基于 Flink CDC 构建 MySQL 和 Postgres 的 Streaming ETL

这篇教程将展示如何基于 Flink CDC 快速构建 MySQL 和 Postgres 的流式 ETL。本教程的演示都将在 Flink SQL CLI 中进行，只涉及 SQL，无需一行 Java / Scala 代码，也无需安装 IDE。

overfit同步小助手 2024-01-10 16:03:49 0 收藏

数据架构的实时分析：Apache Flink 和 Apache Storm 的比较

1.背景介绍实时数据处理在大数据领域具有重要意义，它可以帮助企业更快地获取和分析数据，从而更快地做出决策。随着数据量的增加，传统的批处理方法已经不能满足企业的需求，因此需要使用实时数据处理技术。Apache Flink 和 Apache Storm 是两个流行的实时数据处理框架，它们都可以处理大量数

overfit同步小助手 2024-01-10 16:03:34 0 收藏

Spark基础知识

Apache Spark是用于大数据处理的统一分析引擎;

overfit同步小助手 2024-01-10 15:03:32 0 收藏

Hadoop HA部署过程中出现主备namenode或datanode挂掉的问题

在部署Hadoop HA的过程时，当进行到hdfs namenode -format格式化这一步骤时显示查阅多篇文章分析可知其原因是节点之间无法通信，所以无法建立连接。

overfit同步小助手 2024-01-10 15:03:19 0 收藏

Flink 维表关联方案

overfit同步小助手 2024-01-10 15:03:12 0 收藏

Hive内核调优（一）

注：CPU时间：表示运行程序所占用服务器CPU资源的时间。用户等待耗时：记录的是用户从提交作业到返回结果期间用户等待的所有时间。

overfit同步小助手 2024-01-10 14:03:46 0 收藏

Structured Streaming: Apache Spark的流处理引擎

Structured Streaming简介

overfit同步小助手 2024-01-10 14:03:09 0 收藏

消息队列zookeeper集群+kafka

可恢复性：系统当中的有一部分组件小时，不影响整个系统，也就是消息队列当中，即使一个处理消息的进程失败，一旦恢复还可以重新加入到队列当中继续处理消息。经纪人：broker每个kafka节点都有一个 borker，每个负责一台kafka，id唯一，存储主题分区当中数据，处理生产和消费者的请求，B启动，在

overfit同步小助手 2024-01-10 13:03:35 0 收藏