大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
上节研究Spark Streaming Kafka的Offsets管理,通过Redis进行管理操作。本节研究Spark GraphX 是 Spark 一个组件,专门用来表示图以及进行图的并行计算。GraphX通过重新定义了图的抽象概念来拓展了RDD:定向多图,其属性附加到每个顶点和边。为了支持图计算
Spark调优(一)Spark的特性与瓶颈
Spark作为一种高效的大数据处理框架,已经成为业界标准。其火爆程度源自其高速的数据处理能力和易用性。对Spark的调优尤为重要,可提高作业执行效率、降低资源消耗、优化内存利用和提高系统稳定性。调优涉及参数设置、数据倾斜处理、任务调度等多方面,直接影响作业性能。。
数据仓库实战:详解维度建模事实表
数据仓库实战:详解维度建模事实表
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
上节研究了Spark Streaming 与Kafka的关系,研究了08、10版本的不同的,研究了Producer、KafkaDStream,并且附带实例代码。在 DStream 初始化的时候,需要指定每个分区的Offsets用于从指定位置读取数据读取并处理消息处理完之后存储结果数据用虚线存储和提交
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
上节研究了SparkGraphX基本概念、基础架构等内容,本节研究Spark GraphX的案例,放了3个案例,图的基本计算、连通图算法、寻找相同的用户。图本身是递归数据结构,顶点的属性依赖于它们的邻居的属性,这些邻居的属性又依赖于自己的邻居的属性。所以需要重要的算法都是迭代的重新计算每个顶点的属性
Apache Spark详解
请注意,这只是一个高层次的示例,实际银行业务的数据处理流程会更加复杂,包括更多的数据清洗步骤、特征工程、模型选择和调优。通常是为了处理大规模数据集,执行复杂的数据分析和机器学习任务,然后将结果存储回数据库,并通过Django的Web界面或API展示这些结果。这可能需要在你的Django设置文件中配置
实验3-Spark基础-Spark的安装
PYTHONPATH环境变量主要是为了在Python3中引入Pyspark库,对于不同版本的Spark , 其py4j-0.10.7-src.zip文件名是不同的,要进入相应目录 $SPARK_HOME/python/lib/ 下具体查看确定具体名称,再对PYTHONPATH环境变量的相应值加以修改
【精选】基于Spark的国漫推荐系统(精选设计产品)
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(larg
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
上节研究了SparkStreaming Kafka的Offset管理,同时使用Scala实现了自定义的Offset管理。本节继续研究,使用Redis对Kafka的Offset进行管理。Redis 作为一个高效的内存数据库,常用于存储 Spark Streaming 中的 Kafka 偏移量。通过手动
Spark RPC框架详解
SparkContext构造过程的重要一步,就是Driver、ApplicationMaster以及Executor之间的协调和通信过程,这是基于RPC进行的。这里的Spark RPC是基于Netty的通信过程,而Netty的通信其实是基于Reactor架构进行的,Reactor架构其实是基于Jav
spark Standalone ha 集群部署
准备三台服务器,配置好对应主机的网络IP、主机名称、关闭防火墙、主机名masterslavescdh101√√cdh102√cdh103√用于Worker的Web UI用于Worker的Web UI应用程序(Driver和Executor)使用的端口5050、4040用于Executor的启动和Dr
Spark机器学习基础
不纯度 = P(X=0)(1-P(X=0)) + P(X=1)(1-P(X=1)) = 0.25 + 0.25 = 0.5。用来防止模型过拟合的参数,虽然线性模型本身是欠拟合的但是还是需要正则化系数来帮助我们调整模型。PCA使用的信息量衡量指标,就是样本方差,又称可解释性方 差,方差越大,特征所带的
【2024.7.18】 数据中台知识体系
来数据仓库的主要场景是支持管理决策和业务分析,而数据中台则是将数据服务化之后提供给业务系统,目标是将数据能力渗透到各个业务环节,不限于决策分析类场景。数据中台持续不断地将数据进行资产化、价值化并应用到业务,而且关注数据价值的运营。数据中台建设包含数据体系建设,也就是数据中台包含数据仓库的完整内容,数
Spark 2 迁移 Spark 3 参考手册
Apache Spark是一个广泛应用于大规模数据处理的开源统一分析引擎。自发布以来,它已经成为大数据处理的事实标准。2020年发布的Spark 3.0带来了许多新特性和改进,极大地提升了性能和易用性。如果你习惯使用Spark 2,那么了解新版本的变化将非常有帮助。本文将重点介绍Spark 2和Sp
spark查看日志
当 Spark 任务已经提交到集群运行后,可以通过以下几种方式查看/tmp/logs/
spark 广播变量broadcast
broadcast使用如下图,可以看到创建broadcast是val barr1 = sc.broadcast(arr1),使用broadcast是barr1.value创建broadcast是使用的broadcastManager。
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程
上节研究SparkSQL的编码、测试、结果,输入输出,数据源包含Parquet、JSON、CSV、Avro、ORC、Hive、JDBC。本节研究SparkSQL的原理,包含Boradcost、Shuffle、SQL解析和执行的原理。在Spark的物理计划阶段,Spark的Join Selection
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式
上节研究了Spark Streaming 基础数据源,文件流、Socket流、RDD队列流等内容,基础概念、代码实例等等。本节研究DStream的转换,同时附带一个 黑名单过滤业务的实现案例,包含三种实现的方式。一个功能强大的函数,它可以允许开发者直接操作其内部的RDD,也就是说开发者,可以任意提供
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
上节研究了SparkStreaming基础概述、架构概念、编程模型、优缺点概括等内容。本节研究Spark Streaming DStream 文件数据数据流、Socket、RDD队列流等内容。每秒创建一个RDD(RDD存放1-100的整数),Streaming每隔1秒就对数据进行处理,计算RDD中数