大数据 - overfit.cn

深入解析数据仓库ADS层-从理论到实践的全面指南

探索ADS层的核心概念、设计原则和实现方法。学习如何构建高性能、安全可靠的数据应用层，包括星型模型设计、查询优化、增量更新等关键技术。掌握性能调优、数据生命周期管理和持续优化的最佳实践。洞察ADS层未来趋势：实时数据集市、机器学习集成、图数据模型和自然语言查询接口。无论您是数据工程师、分析师还是架构

overfit同步小助手 2024-08-08 08:03:47 0 收藏

Flink-DataWorks第二部分：数据集成（第58天）

本文主要详解了DataWorks的数据集成，为第二部分：由于篇幅过长，分章节进行发布。后续： 数据集成的使用 数据开发流程及操作 运维中心的使用。

overfit同步小助手 2024-08-08 08:03:34 0 收藏

hadoop学习笔记

Hadoop 是一个开源的分布式存储和计算框架，旨在处理大规模数据集并提供高可靠性、高性能的数据处理能力。它主要包括以下几个核心组件：Hadoop 分布式文件系统（HDFS）：HDFS 是 Hadoop 的分布式文件存储系统，用于存储大规模数据，并通过数据的副本和自动故障恢复机制来提供高可靠性和容错

overfit同步小助手 2024-08-08 06:03:53 0 收藏

写一个spark的java程序

通过本篇博客，我们介绍了如何编写一个简单的Spark的Java程序。在实际开发中，您可以根据需求和数据处理逻辑编写更复杂的Spark作业，运用Spark强大的计算能力来处理大规模数据集。希望这篇博客能帮助您快速入门Spark的Java编程，享受Spark带来的高效和便利！

overfit同步小助手 2024-08-08 05:03:44 0 收藏

深入理解大数据之数据采集

大数据之数据采集是整个数据处理和分析过程的重要环节，需要采取合适的方法和工具，遵循相关的步骤和注意事项。只有确保数据的准确性和可靠性，才能为后续的数据处理和分析提供坚实的基础，从而为企业或个人带来更大的商业价值和社会效益。在进行基于大数据平台的数据采集时，需要使用到一些工具。本文将深入探讨数据采集的

overfit同步小助手 2024-08-08 05:03:39 0 收藏

hive 之 UDTF 之 explode 函数和 lateral view 侧视图（原理）

overfit同步小助手 2024-08-08 05:03:22 0 收藏

ZooKeeper概述

在分布式系统中，你可能有成千上万个服务节点，如果想要对所有服务的某项配置进行更改，由于数据节点过多，你不可逐台进行修改，而应该在设计时采用统一的配置中心。如果分布式系统的某个服务节点宕机了，则其持有的会话会超时，此时该临时节点会被删除，相应的监听事件就会被触发。集群，集群中每台机器都会单独在内存中维

overfit同步小助手 2024-08-08 03:03:48 0 收藏

2024 中国大数据交易平台发展现状调研简报

从地区上看，大数据交易平台主要分布在华东、华北和华南沿海地区；从时间上看，每一次大政策的发布，都迎接一次大数据交易平台的爆发式增长；数据交易涉及到数据安全与隐私保护，所以大部分交易平台都是国有企业。当前，中国的数据交易市场发展正处在一个关键的成长阶段，未来大数据交易仍有较大的发展空间。相信有关部门能

overfit同步小助手 2024-08-08 02:03:30 0 收藏

基于Spark的实时计算服务的流程架构

基于Spark的实时计算服务的流程架构包括数据源、数据接收、实时计算框架（Spark Streaming或Structured Streaming）、数据处理、数据存储、数据输出以及监控和管理多个组件。每个组件在整个流程中都扮演着关键的角色，确保数据从采集到处理再到输出的高效和可靠。

overfit同步小助手 2024-08-08 01:03:46 0 收藏

旅游大数据的数据采集模型和数据分析系统

旅游大数据的数据采集模型和数据分析系统，以六安市旅游景点为例，采集携程网站上游客对景点的评价。对数据进行情感分类后，得到情感分析机器学习的数据集，进而训练情感分析模型。用训练好的模型制作简单的问答系统，实现对用户输入的文本进行情感预测。不仅如此，将六安市景点的数据进行简单的数据分析，包括热门景点分析

overfit同步小助手 2024-08-08 00:03:52 0 收藏

Spark SQL原理与代码实例讲解

Spark SQL原理与代码实例讲解1. 背景介绍在大数据时代,数据处理和分析成为了一个重要的课题。Apache Spark作为一种快速、通用的大规模数据处理引擎,凭借其优秀的性能和易用性,在企业和学术界获得了广泛的应用。Spark SQL作为Spark的一个重要模块,为结构化数据

overfit同步小助手 2024-08-07 23:03:38 0 收藏

Flink1.19高可用及选举机制

12.我们可以看见这是leaderContender接口的一个方法，我们之前说过凡是要实现高可用的组件都必须实现leaderContender接口，从图中可以看到leaderContender有四种实现，分别是我之前所说的JM，RM，WbE，DP，我们这里只看RM的。到这里我们看到了选举机制是如何帮

overfit同步小助手 2024-08-07 22:03:50 0 收藏

智慧之巅：大数据与算力中心的融合演进

在数字化的征途上，大数据与算力中心的融合演进如同一部史诗般的技术交响曲，奏响了智慧时代的最强音。我们见证了数据量的爆炸性增长，从TB到ZB的跃迁，不仅是对存储和处理能力的挑战，更是对创新思维的呼唤。数据处理技术的革新，从批处理到流处理的华丽转身，实时分析技术的崛起，如同夜空中最亮的星，指引着我们探索

overfit同步小助手 2024-08-07 21:04:01 0 收藏

hadoop3.3.6集群搭建

hadoop3.3.6搭建1主两从集群

overfit同步小助手 2024-08-07 20:03:47 0 收藏

MAC-安装zookeeper

mac搭建zookeeper，并解决permission denied: ./ zookeeper_server.pid: No such file or directoryFAILED TO WRITE PID8080端口占用等问题

overfit同步小助手 2024-08-07 19:03:53 0 收藏

《基于 CDC、Spark Streaming、Kafka 实现患者指标采集》

本篇文章分享一下博主所在公司的患者指标采集的解决方案。主要是基于实现，由于涉及公司隐私，内容主要以方案介绍为主，有需要探讨的可以留言。好，让我们开始。上文介绍了博主所在公司的《基于 CDC、Spark Streaming、Kafka 实现患者指标采集》方案。💗 后续会逐步分享企业实际开发中的实战经

overfit同步小助手 2024-08-07 19:03:50 0 收藏

Linux 下 zookeeper 集群部署

本文将以三台服务器为例，介绍在 linux 系统下zookeeper的部署方式。

overfit同步小助手 2024-08-07 19:03:30 0 收藏

数据仓库SQL编码规范

业务域中文名业务域命名业务域命名（缩写）命名示例浙二浙江省第二人民医院zher余杭余杭区卫健委yhwjw桐庐桐庐卫健委tlwjw余杭区第一人民医院余杭区第一人民医院yh1数据域中文名数据域命名数据域命名（缩写）命名示例门诊outpatientoutp住院inpatientInp检验LisLis检查r

overfit同步小助手 2024-08-07 17:03:53 0 收藏

k8s学习--k8s群集部署zookeeper应用及详细解释

ZooKeeper 是一个开源的分布式协调服务，主要用于分布式应用程序中，管理数据、同步服务以及维护配置信息。它是由 Apache Software Foundation 管理和维护的。

overfit同步小助手 2024-08-07 17:03:41 0 收藏

Hive 分区

加载数据：Linux 中写：hadoop fs -put ‘linux文件路径’ ’文件要上传的路径，一般为要映射的表所在的路径’DataGrip中写：Load data local inpath ‘Linux的文件路径’ into table 表名;Load data inpath ‘HDFS中

overfit同步小助手 2024-08-07 16:03:26 0 收藏