Spark学习笔记(三):使用Java调用Spark集群
基于Java连接Spark集群
Spark高频面试题
Spark高频面试题1.Spark Streaming和Flink的区别?下面我们就分几个方面介绍两个框架的主要区别:1)架构模型Spark Streaming 在运行时的主要角色包括:Master、Worker、Driver、Executor,Flink 在运行时主要包含:Jobmanager、T
spark实训题 -- Scala基础编程【1】
目录实训目的实训1:编写函数过滤文本中的回文单词1. 训练要点2.需求说明3.思路及步骤实训2:使用Scala编程输出杨辉三角1. 训练要点2.需求说明3.思路及步骤实训3:用Scala编程求出100~999之间的所有水仙花数。实训目的( 1)掌握Scala的REPL使用。(2)掌握Scala的Ar
IDEA新建一个spark项目
大数据spark项目创建小练习
【Flink 实战系列】Flink CDC 实时同步 Mysql 全量加增量数据到 Hudi
Flink CDC 是基于 Flink 开发的变化数据获取组件(Change data capture),简单的说就是来捕获变更的数据,Apache Hudi 是一个数据湖平台,又支持对数据做增删改查操作,所以 Flink CDC 可以很好的和 Hudi 结合起来,打造实时数仓,实时湖仓一体的架构,
Spark常见报错与解决方案【三】
原因:数据量太大,内存不够解决方案:(1)增大spark.executor.memory的值,减小spark.executor.cores(2)减少输入数据量,将原来的数据量分几次任务完成,每次读取其中一部分原因:(1)节点上运行的container多,每个任务shuffle write到磁盘的量大
idea关联scala与spark开发(全)
idea关联scala与spark开发(全)
Spark内存资源分配——spark.executor.memory等参数的设置方法
Spark内存资源分配——spark.executor.memory等参数的设置方法
Spark读取Hive数据的两种方式与保存数据到HDFS
Spark读取Hive数据的两种方式与保存数据到HDFS
【大数据监控】Grafana、Spark、HDFS、YARN、Hbase指标性能监控安装部署详细文档
Grafana 是一款开源的数据可视化工具,使用 Grafana 可以非常轻松的将数据转成图表(如下图)的展现形式来做到数据监控以及数据统计。
js:spark-md5分片计算文件的md5值
分片读取文件,计算最终md5值。分片读取文件,并计算md5值。* 计算文件md5值。// 默认分片大小 2MB。
RDD常用算子总结
RDD常用算子
大数据开发是做什么的?怎样入门?
我们现在正处于“互联网+”的时代,将互联网和传统行业融合,往往可以创造出1+1>2的效果。这种1+1的模式,在编程语言的使用上也通用,比如Python+大数据开发,就可以在数字化经济中发挥巨大作用。目前,数字经济成为全球经济增长新动能,而我国的数字经济规模在世界上排行第二!从以量级计算的数据中找到背
基于容器云提交spark job任务
spark提交Kind=Job类型的任务,首先需要申请具有Job任务提交权限的rbac,然后编写对应的yaml文件,通过spark-submit命令提交任务到集群执行。
spark sql解析过程详解
spark sql解析过程详解
idea配置scala-sdk
社区版idea配置scala-sdk
pyspark基础学习——数据处理
使用pyspark进行csv文件导入、零值填充、求和、求平均等数据统计,同时还使用SQL语法进行处理,并将最终的结果导出成csv文件
大数据测试
什么是大数据测试 大数据测试通常是指对采用大数据技术的系统或应用的测试。大数据测试可以分为两个维度,一个维度是数据测试,另一个维度是大数据系统测试和大数据应用产品测试。数据测试: 主要关注数据的完整性、准确性和一致性等。大数据系统测试和大数据应用产品测试: 这里的大数据系统一般是指使用hado
spark数据清洗练习
通过编写Spark程序清洗酒店数据里的缺失数据、非法数据、重复数据。
clickhouse常见异常以及错误码解决
解决:合理设置max_concurrent_queries,max_bytes_before_external_sort,background_pool_size,max_memory_usage,max_memory_usage_for_all_queries,max_bytes_before_e