数据开发/数仓工程师上手指南(三)数仓构建流程
定义关键绩效指标与业务用户和管理层讨论,确定需要在数据仓库中跟踪的KPI。常见KPI招标项目数:总数、按月分布等。投标公司数:总数、每项目投标公司数等。中标率:按项目、按公司等。平均投标时间:从公告发布到投标截止的时间。评标时间:从投标截止到评标完成的时间。定义维度和构建总线矩阵(Bus Matri
大数据-85 Spark 集群 RDD创建 RDD-Action Key-Value RDD详解 RDD的文件输入输出
上节完成了SparkRDD的创建,从集合、文件、RDD创建 RDD的方式,并且详细介绍了 Transformation的操作内容。本节研究Spar的RDD的Action、Key-Value RDD。都需要先把文件当做普通文件来读取数据,然后通过将每一行进行解析实现对CSV的提取。通过 objectF
基于Spark的商品推荐系统设计与实现
在数字化时代的浪潮下,大数据已经渗透到社会的各个领域,特别是在电子商务领域,商品信息的丰富性和用户需求的个性化使得传统的推荐方法难以满足现代商业的需求。它通过计算用户之间的相似度或商品之间的相似度,找到与目标用户兴趣相似的其他用户或与目标商品相似的其他商品,然后根据这些相似用户或商品的评分和偏好,为
spark 读操作
Shuffle read的入口是ShuffleRDD的compute方法。它获取shuffleReader,执行对应的read方法。创建reader的时候首先获取要读的shuffle block对应的信息,创建shuffle reader。read创建wrappedStreams:Iterator[
大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器
上节完成了Spark的介绍、Spark特点、Spark部署模式、系统架构。本节我们在三台云服务器上实机部署配置Spark的集群环境,包含环境变量与配置等内容。使用我们之前编写的 rsync-script 工具。当然你也可以每台都配置一次也行,只要保证环境一致即可。(之前Hadoop等都使用过,如果你
【Spark集群部署系列二】Spark StandAlone模式介绍和搭建以及使用
【Spark集群部署系列一】Spark local模式介绍和搭建以及使用(内含Linux安装Anaconda)http://t.csdnimg.cn/0xmky 在部署spark集群前,请部署好Hadoop集群,jdk8【当然Hadoop集群需要运行在jdk上】,需要注意hadoop,spark的版
Spark内存模型
Spark 内存管理分为静态内存管理和统一内存管理,在 Spark 1.6 之前是采用的静态内存,之后的版本都是采用统一内存管理,与静态内存管理的区别在于 Storeage 内存和 Execution 内存共享统一块空间,可以动态占用对方的空闲区域。
大数据-84 Spark 集群 RDD创建 RDD-Transformation操作算子 详解
上节Spark的RDD介绍、RDD特点、Spark编程模型。本节研究SparkRDD的创建,RDD-Transformation操作算子,并附带测试案例,详细过程。转换得到RDD是惰性求值,也就是说,整个转换过程只有记录了转换的轨迹,并不会发生真正的计算,只有遇到Action操作时,才会发生真正的计
数据仓库-离线集市概述
数据集市(Datamart)是数据仓库的一个逻辑子集,专注于满足特定业务部门或领域的数据需求。与全面覆盖整个企业数据需求的数据仓库相比,数据集市更加聚焦和简洁,通常用于解决特定部门的业务问题或支持特定的分析需求。它可以看作是一个小型的数据仓库,具有独立的数据模型和存储方案,以便于更快速和高效地处理特
大数据-82 Spark 集群模式启动 Hadoop HDFS Spark 与 HelloWorld!
上节完成了Spark的环境配置,集群配置,并且通过分发把服务分发到了别的服务器上等内容。本节我们对集群进行启动和测试,需要HDFS和Spark的环境。这里Spark提供了一个官方的HelloWorld(前提你配置好环境变量,不然你需要到指定目录执行)我们通过查看 h121 的日志,可以看到是 808
Kyuubi1.6.0+Spark3.0.0部署
Kyuubi1.6.0是支持Spark3.0.0的最后一个版本,再往上需要更高的Spark版本,我这里就没再测试。
Spark Structured Streaming窗口聚合和非窗口聚合
两者都用于对数据进行聚合操作,支持类似的聚合函数(如求和、平均值等)窗口聚合基于时间窗口进行计算,适用于流处理;非窗口聚合对整个数据集进行计算,适用于批处理,你可以这样理解,离线计算本身就是一个非常大的窗口计算,窗口大到容纳下所有的数据,而事实计算的窗口是比较小的窗口,也就是计算结果只是数据集上的一
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
上节我们终于到了Kafka最后一个内容,集群的可视化方案,JConsole、Kafka Eagle等内容,同时用JavaAPI获得监控指标。本节研究Spark的简要概述,系统架构、部署模式、与MapReduce进行对比。MapReduce 昨天Spark 今天Flink 未来MapReduce和Sp
Spark内核的设计原理
同时Spark有任务级别的内存管理,任务的计算属于执行内存的一部分。包括检查点支持,易于使用(支持Java,Scala,Python等编程语言),交互式(Spark Shell)和SQL分析(借鉴了ANSI SQL等标准的实用语法和功能),批流一体,丰富的数据支持,高可用,丰富的文件格式支持。DAG
搭建hadoop+spark完全分布式集群环境
tar -zxvf jdk-8u181-linux-x64.tar.gz -C /home/hadoop/apps #解压到apps下。进入/home/hadoop/apps/hadoop-2.7.6/etc/Hadoop。sudo vi /etc/profile #修改配置文件。start-s
详解 Spark 各种运行环境的搭建
Mesos 是 Apache 下的开源分布式资源管理框架Kubernetes(k8s)是目前最为流行的容器管理工具Windows 模式:将解压缩到无中文无空格的路径中执行解压缩文件路径下bin目录中的文件,启动 Spark 本地环境编写 Scala 程序执行或在 DOS 命令行窗口中执行提交指令。
Linux环境安装Spark及Jupyter配置记录
Apache Spark(简称Spark)是一个开源的统一分析引擎,专为大规模数据处理设计。它最初由加利福尼亚大学伯克利分校的AMPLab开发,旨在克服Hadoop MapReduce的局限性。Spark能够进行内存中的数据处理,这使得它在处理迭代算法和交互式数据分析时,比传统的MapReduce要
Spark-第一周
Spark 应用程序作为集群上独立的进程集运行,由SparkContext 主程序(称为驱动程序)中的对象进行协调。具体来说,为了在集群上运行,SparkContext 可以连接到多种类型的集群管理器 (Spark 自己的独立集群管理器、Mesos、YARN 或 Kubernetes),这些集群管理
dolphinScheduler跑spark任务调度问题汇总
分发spark安装包到各个节点,因为ds的worker涉及到hadoop11-13,都需要有spark-submit提交作业的能力。如果在windows压缩,可能有问题。推荐在linux上压缩。在服务器上运行,需要将他们放到HDFS上。:python3找不到。
什么是数据湖?一文详解数据湖与数据仓库的区别
本文主要探讨了什么是数据仓库和数据湖,辨析了数据仓库和数据湖的区别以及如何快速搭建数据仓库。