大数据 - overfit.cn

MySQL创建表完全指南-从零开始学习数据库设计

探索MySQL表格创建的终极指南！从基础语法到高级优化，本系列文章全面覆盖数据类型选择、约束条件、索引策略、分区表等核心概念。针对大规模数据处理，深入讲解分片技术、非规范化设计和查询优化。无论你是初学者还是经验丰富的DBA，都能从中获益。掌握这些技巧，让你的数据库设计更高效、更具扩展性。提升查询性能

overfit同步小助手 2024-08-17 10:03:19 0 收藏

协整检验及 Stata 具体操作步骤

协整检验用于分析两个或多个非平稳时间序列之间是否存在长期稳定的均衡关系。

overfit同步小助手 2024-08-17 09:04:04 0 收藏

全国青少年软件编程Scratch（图形化）考级真题下载-202312

全国青少年软件编程（图形化）等级考试202012真题全国青少年软件编程(图形化)等级考试202103真题全国青少年软件编程（图形化）等级考试试202212真题全国青少年软件编程（图形化、C语言、Python）等级考试202009真题全国青少年软件编程（图形化）等级考试202303真题全国青少年软件编

overfit同步小助手 2024-08-17 09:03:57 0 收藏

flink车联网项目前篇：数据开发（第66天）

本文为flink车联网项目前期准备：数据仓库开发。由于篇幅过长，后续章节：业务实现。

overfit同步小助手 2024-08-17 09:03:36 0 收藏

Eureka服务实例的健康检查机制：确保微服务架构的稳定性

Eureka中的服务实例健康检查机制是确保微服务架构稳定性的关键。通过心跳和续约机制，Eureka能够有效地识别和剔除不健康的服务实例。同时，Eureka的自我保护机制能够在异常情况下保护Eureka集群，避免错误的服务下线。当Eureka服务器检测到续约数量突然下降时，会延长服务实例的续约时间，避

overfit同步小助手 2024-08-17 08:04:02 0 收藏

flink车联网项目前篇：建模设计（第65天）

本文主要详解了维度建模和flink车联网项目的建模设计。由于篇幅过长，后续章节：数据开发。

overfit同步小助手 2024-08-17 08:03:59 0 收藏

Nifi 与 Kettle

Kettle是一个开源的ETL（Extract-Transform-Load）工具，可以用于数据集成、数据转换和数据处理等任务。它提供了一组可视化的设计工具，使得用户可以通过简单的拖拽和连接来构建数据流程，并且还支持多种数据源和数据目标，如数据库、文件、Web服务等。Kettle还提供了强大的转换和

overfit同步小助手 2024-08-17 08:03:48 0 收藏

Paimon数据湖详解（第49天）

本文主要详解了Paimon数据湖的使用。

overfit同步小助手 2024-08-17 07:03:57 0 收藏

（二）Kafka 安全之使用 SSL 的加密和身份验证

接上一篇《（一）Kafka 安全之使用 SSL 的加密和身份验证》，本文从 2.2 小节开始。

overfit同步小助手 2024-08-17 07:03:54 0 收藏

大数据系列之：Flink Doris Connector，实时同步数据到Doris数据库

可以通过Flink操作（读取、插入、修改、删除）支持存储在Doris中的数据。本文介绍了如何通过Datastream和Flink操作Doris。

overfit同步小助手 2024-08-17 06:03:54 0 收藏

Hadoop、HDFS 相关面试题

Hadoop 是一个开源的分布式存储和计算框架，最初由 Apache 软件基金会开发。它允许大规模数据处理和存储，具有高度可靠性和可扩展性。分布式文件系统HDFS—— 用于数据存储计算框架YARN—— 用于资源管理和作业调度HDFS 是 Hadoop 生态系统的核心组件之一，用于存储大规模数据，并提

overfit同步小助手 2024-08-17 06:03:44 0 收藏

Hadoop+Flink研发环境部署+开发

修改Flink目录下conf/flink-conf.yaml,在末尾添加classloader.check-leaked-classloader: false，然后保存。-- 配置HDFS网页登录使用的静态用户为root-->-- 指定ResourceManager的地址-->-- 指定MapRed

overfit同步小助手 2024-08-17 06:03:35 0 收藏

Hadoop3：MR程序处理小文件的优化办法(uber模式)

Hadoop

overfit同步小助手 2024-08-17 05:04:01 0 收藏

带你认识一个大数据伙伴--Kylin

Apache Kylin 是由eBay公司开发并开源的一个分布式分析引擎，旨在提供Hadoop之上的超大规模数据集的快速查询能力。Kylin 通过预计算OLAP（在线分析处理）立方体，并存储预计算结果，从而实现对海量数据的亚秒级查询响应。只做简单了解，如果你对大数据 Kylin或其他技术话题有任何想

overfit同步小助手 2024-08-17 05:03:47 0 收藏

中东市场开发最全攻略，看这一篇就够了

是世界上最富裕的国家之一，依靠石油暴富，国土面积在中东数一数二，经济更是遥遥领先，军事上更加配备了十分先进的武器，尤其在中东事务中有着一定的影响力。

overfit同步小助手 2024-08-17 05:03:28 0 收藏

【系统架构设计师】二十五、大数据架构设计理论与实践①

Lambda 架构设计目的在于提供一个能满足大数据系统关键特性的架构，包括高容错、低延迟、可扩展等。其整合离线计算与实时计算，融合不可变性、读写分离和复杂性隔离等原则，可集成 Hadoop、Kafka、Spark、Storm 等各类大数据组件。Lambda 是用于同时处理离线和实时数据的，可容错的，

overfit同步小助手 2024-08-17 04:03:53 0 收藏

Hadoop的读写流程

HDFS是一个高度容错的分布式文件系统，它设计用于运行在通用硬件上。HDFS将数据分割成固定大小的块，并将这些块存储在多个节点上，以实现数据的高可用性和可扩展性。每个数据块都会被复制到多个节点上，形成一个副本集，从而确保数据的可靠性。

overfit同步小助手 2024-08-17 04:03:50 0 收藏

Spark内存模型

Spark 内存管理分为静态内存管理和统一内存管理，在 Spark 1.6 之前是采用的静态内存，之后的版本都是采用统一内存管理，与静态内存管理的区别在于 Storeage 内存和 Execution 内存共享统一块空间，可以动态占用对方的空闲区域。

overfit同步小助手 2024-08-17 03:03:42 0 收藏

虚拟机配置RabbitMQ集群教程

RabbitMQ是常用的一款消息中间件，那么如何在我们虚拟机中创建其集群呢？跟着博主这篇文章让你一步到位本篇搭建的是三台机器为一个集群！假设大家虚拟机都为初始化状态，从0开始（注意集群搭建需要CentOS8以上环境！可以点击下载）

overfit同步小助手 2024-08-17 03:03:29 0 收藏

离线数据开发流程小案例-图书馆业务数据

hive 终端当前所处的数据库就是这个函数的默认存放数据库，例如：default，如果是在 default 数据库中创建的 udf，在 default 数据库中使用 udf 就可以不携带数据库前缀，如果是在其他数据库中使用这个函数，就需要使用指定这个函数所在的数据库前缀来使用这个函数，比如：sele

overfit同步小助手 2024-08-17 02:03:57 0 收藏