大数据 - overfit.cn

【Hadoop-HDFS分布式文件系统】

本篇详细介绍了HDFS的工作原理，看完这篇文章对HDFS能够有非常深刻的理解与应用。随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一

overfit同步小助手 2024-01-11 12:03:50 0 收藏

大数据深度学习长短时记忆网络（LSTM）：从理论到PyTorch实战演示

LSTM的逻辑结构通过其独特的门控机制为处理具有复杂依赖关系的序列数据提供了强大的手段。其对信息流的精细控制和长期记忆的能力使其成为许多序列建模任务的理想选择。了解LSTM的这些逻辑概念有助于更好地理解其工作原理，并有效地将其应用于实际问题。我们首先定义一个LSTM类，该类使用PyTorch的nn.

overfit同步小助手 2024-01-11 08:03:54 0 收藏

Flink DataStream API CDC同步MySQL数据到StarRocks

一、版本信息Flink：1.16.1二代码实现pom文件如下<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="htt

overfit同步小助手 2024-01-11 07:03:34 0 收藏

【源码解析】flink sql执行源码概述：flink sql执行过程中有哪些阶段，这些阶段的源码大概位置在哪里

本文大致分析了flink sql执行过程中的各个阶段的源码逻辑，这样可以在flink sql执行过程中，能够定位到任务执行的某个阶段的代码大概分布在哪里，为更针对性的分析此阶段的细节逻辑打下基础，比如create 的逻辑是怎么执行的，select的逻辑是怎么生成的，优化逻辑都做了哪些，而这些是接下

overfit同步小助手 2024-01-11 05:03:46 0 收藏

CDH 6.3.2集成flink 1.18 zookeeper版本不匹配Flink-yarn启动失败

CDH 6.3.2集成flink 1.18.0 zookeeper版本不匹配

overfit同步小助手 2024-01-11 04:03:27 0 收藏

大数据求职心得

SQL要精通能随便写个百行以上的，这些都会能应付多数面试，如果你要成为大数据全栈建议etl开发，风控开发，cdh集群搭建，数仓开发和搭建全栈都要，数据可视化开发，数据服务数据可视化等等，对于刷题时间如果你选择进入大数据方向那么你就可以按照我的开始学习和刷题了，没有啥思路的可以按照我上面的来做就好。最

overfit同步小助手 2024-01-11 03:03:49 0 收藏

工作汇报如何体现安全工作的价值

上述成熟度等级中对于项目的描述，即是将企业内部的行为从项目角度划分后，安全工作对于相关项目的管控能力，包括系统的研发、资产的采购、人员的变更、网络的变动、资产的变化等等。成本效益的含义正指的是，安全工作的成果一方面能够降低企业潜在的损失，一方面能够降低企业业务的成本损耗，甚至是直接的节约业务成本，比

overfit同步小助手 2024-01-10 19:06:41 0 收藏

【大数据】基于 Flink CDC 构建 MySQL 和 Postgres 的 Streaming ETL

这篇教程将展示如何基于 Flink CDC 快速构建 MySQL 和 Postgres 的流式 ETL。本教程的演示都将在 Flink SQL CLI 中进行，只涉及 SQL，无需一行 Java / Scala 代码，也无需安装 IDE。

overfit同步小助手 2024-01-10 16:03:49 0 收藏

数据架构的实时分析：Apache Flink 和 Apache Storm 的比较

1.背景介绍实时数据处理在大数据领域具有重要意义，它可以帮助企业更快地获取和分析数据，从而更快地做出决策。随着数据量的增加，传统的批处理方法已经不能满足企业的需求，因此需要使用实时数据处理技术。Apache Flink 和 Apache Storm 是两个流行的实时数据处理框架，它们都可以处理大量数

overfit同步小助手 2024-01-10 16:03:34 0 收藏

Spark基础知识

Apache Spark是用于大数据处理的统一分析引擎;

overfit同步小助手 2024-01-10 15:03:32 0 收藏

Hadoop HA部署过程中出现主备namenode或datanode挂掉的问题

在部署Hadoop HA的过程时，当进行到hdfs namenode -format格式化这一步骤时显示查阅多篇文章分析可知其原因是节点之间无法通信，所以无法建立连接。

overfit同步小助手 2024-01-10 15:03:19 0 收藏

Flink 维表关联方案

overfit同步小助手 2024-01-10 15:03:12 0 收藏

Git（三）.git 文件夹详解

overfit同步小助手 2024-01-10 11:04:15 0 收藏

Flink-SQL join 优化 -- MiniBatch + local-global

Flink-SQL 在多流join时，若数据过多，既会增加内存开销，也会导致container超时，checkpoint失败，因此要尽量减少参与计算数据量，优化聚合算子

overfit同步小助手 2024-01-10 11:03:17 0 收藏

2024 .1.7 Day05_Spark_HomeWork； Spark_SQL

需要手动指定schema信息.如果手动指定的时候,名称字段与json中的key名称不一致,会解析不成功, 以null值填充。csv/json中schema的结构,如果是字符串类型,那么字段名称和字段数据类型间,只能以空格分隔。1. Sparksql是基于内存计算 , Hivesql底层是运行在Mr上

overfit同步小助手 2024-01-10 09:03:45 0 收藏

大数据OLAP引擎发展原因及特性分析

大数据OLAP分析能力，纯计算的有：MapReduce、SparkSql、FlinkSql，这些都是可以灵活构建在存储系统之上，拥有数据处理和分析能力；存算嵌合的组件有：Hive、Impala、Druid、kylin、ES、ClickHouse、Doris，这些都具备OLAP分析能力，实时分析还拥有

overfit同步小助手 2024-01-10 07:03:41 0 收藏

智能算法实现PID智能车控制系统

本文选择了内模控制方法进行主要研究根据等效反馈结构，将内模控制方法引入 PID控制器的设计，得到PID参数的明确解析结果。针对典型的工业过程控制对象(一阶和二阶纯滞后过程)根据内模控制原理提出了一种 PID控制器参数整定的新方法针对一类不稳定时滞过程，采用双环控制结构，首先选取P控制器参数，使得广义

overfit同步小助手 2024-01-10 06:03:53 0 收藏

分布式消息队列：Kafka vs RabbitMQ vs ActiveMQ

1.背景介绍在现代分布式系统中，消息队列是一种常见的异步通信模式，它可以帮助系统处理高并发、高可用性以及容错等问题。在这篇文章中，我们将深入探讨三种流行的分布式消息队列：Apache Kafka、RabbitMQ和ActiveMQ。我们将讨论它们的核心概念、算法原理、特点以及使用场景。1.1 背景

overfit同步小助手 2024-01-09 23:03:47 0 收藏

毕业设计：python全国天气气象数据爬取分析可视化系统+大屏+大数据（源码+文档）

overfit同步小助手 2024-01-09 20:03:42 0 收藏

【Flink 从入门到成神系列一】算子

鲁迅先生曾说：独行难，众行易，和志同道合的人一起进步。彼此毫无保留的分享经验，才是对抗互联网寒冬的最佳选择。其实很多时候，并不是我们不够努力，很可能就是自己努力的方向不对，如果有一个人能稍微指点你一下，你真的可能会少走几年弯路。如果你也对后端架构和中间件源码，一起学习，一起成长我是爱敲代码的小黄，阿

overfit同步小助手 2024-01-09 18:03:35 0 收藏