大数据 - overfit.cn

大数据之VIP（Virtual IP，虚拟IP）负载均衡

VIP（Virtual IP，虚拟IP）负载均衡是一种在计算机网络中常用的技术，用于将网络请求流量均匀地分散到多个服务器上，以提高系统的可扩展性、可靠性和性能。

overfit同步小助手 2024-12-01 19:03:38 0 收藏

Spark资源调度和任务调度

Spark client模式下任务成功运行时会在node1、node2两个节点，随机一个节点上启动两个进程 :1) ApplicationMaster : 所有任务在yarn上运行都会启动的进程2) Executor : 执行器在master节点启动一个进程 :1) SparkSubmit

overfit同步小助手 2024-12-01 18:03:55 0 收藏

Kafka-kraft模式部署与使用

overfit同步小助手 2024-12-01 17:04:30 0 收藏

一文上手Kafka【中】

Kafka当中消息的发送、接收及消息确认机制.

overfit同步小助手 2024-12-01 17:04:16 0 收藏

20241102-Windows 10上安装虚拟机VMware10.0.2、Hadoop3.3.6与jdk1.8.0

Windows 10 专业版上安装虚拟机 VMware10.0.2、Xshell8.0、Hadoop3.3.6 与 jdk1.8.0【命令式】笔记、笔记、笔记、笔记1. 写在前面好片： Hadoop 保姆级超详细安装教程_哔哩哔哩_bilibili ——文章的从虚拟机到 Hadoop 安装【主】好文

overfit同步小助手 2024-12-01 16:03:44 0 收藏

Hive2Hive开源项目FAQ

Hive2Hive开源项目FAQ Hive2Hive Java library for secure, distributed, P2P-based file synchronization and sharing.

overfit同步小助手 2024-12-01 16:03:23 0 收藏

RabbitMQ介绍和快速上手案例

这个其实也没有什么好介绍的，这个就是我们的消息队列的一种，因为这个兔子的繁殖速度快嘛，所以使用这个rabbit进行表示，没有其他的意思；这个rabbitMQ也仅仅是我们的这个众多的产品里面的一种罢了，我们主要学习这个消息队列；这个工作流程图里面的这个connection表示的就是我们的这个链接，这个

overfit同步小助手 2024-12-01 15:03:16 0 收藏

头歌实践教学平台大数据编程实训答案（三）

MapReduce是一种可用于数据处理的编程模型，我们现在设想一个场景，你接到一个任务，任务是：挖掘分析我国气象中心近年来的数据日志，该数据日志大小有3T,让你分析计算出每一年的最高气温，如果你现在只有一台计算机，如何处理呢？我想你应该会读取这些数据，并且将读取到的数据与目前的最大气温值进行比较。比

overfit同步小助手 2024-12-01 14:03:39 0 收藏

hive修改表名、修改列名、修改分区

overfit同步小助手 2024-12-01 11:04:03 0 收藏

数据管理的四大支柱：揭秘数据中台、数据仓库、数据治理和主数据

数据管理的四大支柱

overfit同步小助手 2024-12-01 10:03:57 0 收藏

从零开始：手摸手教你入门搭建Hadoop

通过引入Hadoop，业务团队能够有效地应对大规模数据的存储和处理挑战，提升了数据处理效率，降低存储成本，增强系统的稳定性和可靠性搭建Hadoop的过程可能涉及到不同的坑，但通过本文的详细指导，同学们可以顺利地进行搭建希望本篇实践能帮助你在项目中成功应搭建Hadoop，带来显著的业务价值。

overfit同步小助手 2024-12-01 10:03:50 0 收藏

大数据-235 离线数仓 - 会员活跃度数据测试完整加载 ODS DWD 层

ODS 是操作型数据存储层，主要用于存放从业务系统中抽取的原始数据。数据通常以业务系统的原始格式或经过少量标准化处理的形式存储。是数仓的“数据输入口”，负责承接来自业务系统的数据。DWD 是明细数据层，存储的是经过清洗和轻度处理的宽表数据。DWD 数据是细粒度的、面向分析的明细数据，数据通常已经

overfit同步小助手 2024-12-01 10:03:25 0 收藏

【Spark】架构与核心组件：大数据时代的必备技能（上）

本文旨在深入探讨Apache Spark这一开源大数据处理框架的基础与架构。Spark凭借其高效的内存计算能力、易于使用的API以及丰富的生态系统，已成为大数据处理和分析领域的首选工具。文章首先介绍了Spark的基本概念，包括其起源、发展、应用场景以及与其他大数据处理框架（如Hadoop）的对比。通

overfit同步小助手 2024-12-01 08:03:37 0 收藏

mac2019环境 Airflow+hive+spark+hadoop本地环境安装

本地安装可分为两个部分，mac软件环境， python开发环境ps: 安装过程参考chatgpt、csdn文章。

overfit同步小助手 2024-12-01 08:03:33 0 收藏

大数据新视界 -- 大数据大厂之 Hive 数据质量保障：数据清洗与验证的策略（上）（17/ 30）

本文承前启后，深挖 Hive 数据清洗验证策略，涵盖处理噪声、重复、缺失数据及类型、范围、一致性验证，融合前沿技术与经典方法，附详实行业案例与多样代码，具实操价值，设互动预告下篇，助保数据质量。

overfit同步小助手 2024-12-01 08:03:27 0 收藏

【PostgreSQL使用】最新功能逻辑复制槽的failover,大数据下高可用再添利器

使用数据库除了存取数据快捷以外，还有一个非常重要的目的，就是它有一整套的机制来保障数据访问的高可用，持续性。当然逻辑复制也不例外，当我们正在订阅的主库故障发生主备切换时，仍然希望数据库对象的变更订阅不会丢失，能持续收到发布者的消息。这在以往的PostgreSQL版本中是没有的，最新的PostgreS

overfit同步小助手 2024-12-01 08:03:20 0 收藏

基于Spark Streaming的实时数据处理教程

Spark Streaming提供了一个强大的实时数据处理框架，适用于各种流处理场景，如实时日志分析、实时监控、趋势预测等。它的核心特性包括高容错、支持多数据源、简单易用的API，适合各类数据处理任务。通过本篇内容，希望您能够掌握Spark Streaming的基础操作，并能构建基本的实时数据处理应

overfit同步小助手 2024-12-01 07:03:40 0 收藏

Flink时间语义和时间窗口

在实际的流计算业务场景中，我们会发现，数据和数据的计算往往都和时间具有相关性。归纳总结可以发现，这些和时间相关的数据计算可以统一用一个计算模型来描述：每隔一段时间，计算过去一段时间内的数据，并输出结果。这个计算模型，就是时间窗口。

overfit同步小助手 2024-12-01 07:03:37 0 收藏

大数据之Hive组建安装配置(敲详细哟~)

按如下顺序依次按照 MySQL 数据库的 mysql common、mysql libs、mysql client。若默认false，则不用修改。1）查看 Linux 系统中 MariaDB 的安装情况。将MySQL数据库驱动拷贝到Hive安装目录的lib下。7)在Hive安装目录中创建临时文件夹t

overfit同步小助手 2024-12-01 06:04:04 0 收藏

TikTok Spark Ads火花广告创建及相关要点

1.概念2.优势·自然融入用户体验，更能吸引用户点击并参与互动。源于真实用户和内容，信任度更高。·与非Spark Ads相比，Spark Ads可设置的维度更多，投放精准度更高。·在转化率(CVR)方面，Spark Ads投放效果更好，因为它可以减少意外点击量。·营销效果持久，有利于提升投资回报率

overfit同步小助手 2024-12-01 05:03:45 0 收藏