大数据 Spark - overfit.cn

大数据-84 Spark 集群 RDD创建 RDD-Transformation操作算子详解

上节Spark的RDD介绍、RDD特点、Spark编程模型。本节研究SparkRDD的创建，RDD-Transformation操作算子，并附带测试案例，详细过程。转换得到RDD是惰性求值，也就是说，整个转换过程只有记录了转换的轨迹，并不会发生真正的计算，只有遇到Action操作时，才会发生真正的计

overfit同步小助手 2024-08-17 00:03:20 0 收藏

数据仓库-离线集市概述

数据集市（Datamart）是数据仓库的一个逻辑子集，专注于满足特定业务部门或领域的数据需求。与全面覆盖整个企业数据需求的数据仓库相比，数据集市更加聚焦和简洁，通常用于解决特定部门的业务问题或支持特定的分析需求。它可以看作是一个小型的数据仓库，具有独立的数据模型和存储方案，以便于更快速和高效地处理特

overfit同步小助手 2024-08-16 13:03:32 0 收藏

大数据-82 Spark 集群模式启动 Hadoop HDFS Spark 与 HelloWorld！

上节完成了Spark的环境配置，集群配置，并且通过分发把服务分发到了别的服务器上等内容。本节我们对集群进行启动和测试，需要HDFS和Spark的环境。这里Spark提供了一个官方的HelloWorld（前提你配置好环境变量，不然你需要到指定目录执行）我们通过查看 h121 的日志，可以看到是 808

overfit同步小助手 2024-08-16 11:04:02 0 收藏

Kyuubi1.6.0+Spark3.0.0部署

Kyuubi1.6.0是支持Spark3.0.0的最后一个版本，再往上需要更高的Spark版本，我这里就没再测试。

overfit同步小助手 2024-08-16 03:03:17 0 收藏

Spark Structured Streaming窗口聚合和非窗口聚合

两者都用于对数据进行聚合操作，支持类似的聚合函数（如求和、平均值等）窗口聚合基于时间窗口进行计算，适用于流处理；非窗口聚合对整个数据集进行计算，适用于批处理，你可以这样理解，离线计算本身就是一个非常大的窗口计算，窗口大到容纳下所有的数据，而事实计算的窗口是比较小的窗口，也就是计算结果只是数据集上的一

overfit同步小助手 2024-08-15 11:03:43 0 收藏

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

上节我们终于到了Kafka最后一个内容，集群的可视化方案，JConsole、Kafka Eagle等内容，同时用JavaAPI获得监控指标。本节研究Spark的简要概述，系统架构、部署模式、与MapReduce进行对比。MapReduce 昨天Spark 今天Flink 未来MapReduce和Sp

overfit同步小助手 2024-08-15 10:03:17 0 收藏

Spark内核的设计原理

同时Spark有任务级别的内存管理，任务的计算属于执行内存的一部分。包括检查点支持，易于使用（支持Java，Scala，Python等编程语言），交互式（Spark Shell）和SQL分析（借鉴了ANSI SQL等标准的实用语法和功能），批流一体，丰富的数据支持，高可用，丰富的文件格式支持。DAG

overfit同步小助手 2024-08-15 03:03:48 0 收藏

搭建hadoop+spark完全分布式集群环境

tar -zxvf jdk-8u181-linux-x64.tar.gz -C /home/hadoop/apps #解压到apps下。进入/home/hadoop/apps/hadoop-2.7.6/etc/Hadoop。sudo vi /etc/profile #修改配置文件。start-s

overfit同步小助手 2024-08-14 02:03:49 0 收藏

详解 Spark 各种运行环境的搭建

Mesos 是 Apache 下的开源分布式资源管理框架Kubernetes（k8s）是目前最为流行的容器管理工具Windows 模式：将解压缩到无中文无空格的路径中执行解压缩文件路径下bin目录中的文件，启动 Spark 本地环境编写 Scala 程序执行或在 DOS 命令行窗口中执行提交指令。

overfit同步小助手 2024-08-14 02:03:46 0 收藏

Linux环境安装Spark及Jupyter配置记录

Apache Spark（简称Spark）是一个开源的统一分析引擎，专为大规模数据处理设计。它最初由加利福尼亚大学伯克利分校的AMPLab开发，旨在克服Hadoop MapReduce的局限性。Spark能够进行内存中的数据处理，这使得它在处理迭代算法和交互式数据分析时，比传统的MapReduce要

overfit同步小助手 2024-08-12 18:03:40 0 收藏

Spark-第一周

Spark 应用程序作为集群上独立的进程集运行，由SparkContext 主程序（称为驱动程序）中的对象进行协调。具体来说，为了在集群上运行，SparkContext 可以连接到多种类型的集群管理器（Spark 自己的独立集群管理器、Mesos、YARN 或 Kubernetes），这些集群管理

overfit同步小助手 2024-08-12 18:03:25 0 收藏

dolphinScheduler跑spark任务调度问题汇总

分发spark安装包到各个节点，因为ds的worker涉及到hadoop11-13，都需要有spark-submit提交作业的能力。如果在windows压缩，可能有问题。推荐在linux上压缩。在服务器上运行，需要将他们放到HDFS上。：python3找不到。

overfit同步小助手 2024-08-12 10:03:12 0 收藏

什么是数据湖？一文详解数据湖与数据仓库的区别

本文主要探讨了什么是数据仓库和数据湖，辨析了数据仓库和数据湖的区别以及如何快速搭建数据仓库。

overfit同步小助手 2024-08-12 06:03:54 0 收藏

Spark-RDD和共享变量

每个Spark应用程序都由一个组成，该驱动程序运行我们编写的main函数，并在集群上执行各种操作。Spark提供的主要抽象是一个弹性分布式数据集，它是一个跨集群节点分区的元素集合，可以并行操作。RDD是通过从Hadoop文件系统（或任何其他Hadoop支持的文件系统）中的文件或中现有的Scala集合

overfit同步小助手 2024-08-11 10:03:51 0 收藏

数据仓库面试题（二）

1. 简述星型模型和雪花模型的区别？应用场景？2. 简述数仓建模有哪些方式？3. 简述数仓建模的流程？4. 简述维度建模的步骤，如何确定这些维度的？5. 简述维度建模和范式建模区别？6. 简述维度表和事实表的区别？

overfit同步小助手 2024-08-11 04:03:27 0 收藏

Spark实时（一）：StructuredStreaming 介绍

SparkStreaming与Structured Streaming相比较，SparkStreaming是Spark最初的流处理框架，只能使用DStream算子编程，底层是RDD操作，而Structured Streaming是Spark2.0后退出的流式处理框架，处理支持Spark，底层操作是基

overfit同步小助手 2024-08-11 02:03:32 0 收藏

Spark实时（四）：Strctured Streaming简单应用

Continuous不再是周期性启动task的批量执行数，而是启动长期运行的task，而是不断一个一个数据进行处理，周期性的通过指定checkpoint来记录状态（如果不指定checkpoint目录，会将状态记录在Temp目录下），保证exactly-once语义，这样就可以实现低延迟。注意：以上代

overfit同步小助手 2024-08-11 00:03:42 0 收藏

Spark SQL 血缘解析方案

瞬间是不是感觉清晰了，可以完美的拿到表和表以及字段和字段的关系，甚至在加工点场景，可以吧字段的加工表达式可以给生成出来.这里需要注意原生的json文件太大，在发送到kafka中对存储和带宽都有压力，最后注意：血缘的解析处理，放在该agent端，否则kafka的压力会很大，因为单条消息生产环境下会很

overfit同步小助手 2024-08-10 18:03:38 0 收藏

Spark和Flink的介绍、区别以及各自的应用场景

介绍Apache Spark是一个快速、通用的大规模数据处理引擎，由加州大学伯克利分校AMPLab开发，并于2010年开源。Spark基于内存计算，提供了比传统Hadoop MapReduce框架快数十倍的速度，并简化了大规模数据处理的复杂性。它支持多种编程语言（如Scala、Java、Python

overfit同步小助手 2024-08-10 00:03:44 0 收藏

数仓: 1- 数据仓库基础

数据仓库 ( Data Warehouse, 简称DW或DWH ) , 也称为企业数据仓库 ( EDW ) , 是一个用于报告和数据分析的系统, 被认为是商业智能的核心组成部分 ; 数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合, 用于支持管理决策 ; 它可以帮助企业整合来自不同数据源

overfit同步小助手 2024-08-09 14:03:50 0 收藏