Spark - overfit.cn

Spark学习笔记(三)：使用Java调用Spark集群

基于Java连接Spark集群

overfit同步小助手 2023-03-29 11:04:59 0 收藏

Spark高频面试题

Spark高频面试题1.Spark Streaming和Flink的区别？下面我们就分几个方面介绍两个框架的主要区别：1）架构模型Spark Streaming 在运行时的主要角色包括：Master、Worker、Driver、Executor，Flink 在运行时主要包含：Jobmanager、T

overfit同步小助手 2023-03-29 09:05:37 0 收藏

spark实训题 -- Scala基础编程【1】

目录实训目的实训1：编写函数过滤文本中的回文单词1. 训练要点2.需求说明3.思路及步骤实训2：使用Scala编程输出杨辉三角1. 训练要点2.需求说明3.思路及步骤实训3：用Scala编程求出100~999之间的所有水仙花数。实训目的( 1)掌握Scala的REPL使用。(2)掌握Scala的Ar

overfit同步小助手 2023-03-29 09:05:19 0 收藏

IDEA新建一个spark项目

大数据spark项目创建小练习

overfit同步小助手 2023-03-29 09:05:05 0 收藏

【Flink 实战系列】Flink CDC 实时同步 Mysql 全量加增量数据到 Hudi

Flink CDC 是基于 Flink 开发的变化数据获取组件（Change data capture），简单的说就是来捕获变更的数据，Apache Hudi 是一个数据湖平台，又支持对数据做增删改查操作，所以 Flink CDC 可以很好的和 Hudi 结合起来，打造实时数仓，实时湖仓一体的架构，

overfit同步小助手 2023-03-29 08:05:08 0 收藏

Spark常见报错与解决方案【三】

原因：数据量太大，内存不够解决方案：(1)增大spark.executor.memory的值，减小spark.executor.cores(2)减少输入数据量，将原来的数据量分几次任务完成，每次读取其中一部分原因：(1)节点上运行的container多，每个任务shuffle write到磁盘的量大

overfit同步小助手 2023-03-29 08:04:41 0 收藏

idea关联scala与spark开发（全）

overfit同步小助手 2023-03-29 07:05:19 0 收藏

Spark内存资源分配——spark.executor.memory等参数的设置方法

overfit同步小助手 2023-03-29 05:05:11 0 收藏

Spark读取Hive数据的两种方式与保存数据到HDFS

overfit同步小助手 2023-03-29 04:05:09 0 收藏

【大数据监控】Grafana、Spark、HDFS、YARN、Hbase指标性能监控安装部署详细文档

Grafana 是一款开源的数据可视化工具，使用 Grafana 可以非常轻松的将数据转成图表(如下图)的展现形式来做到数据监控以及数据统计。

overfit同步小助手 2023-03-29 03:05:18 0 收藏

js：spark-md5分片计算文件的md5值

分片读取文件，计算最终md5值。分片读取文件，并计算md5值。* 计算文件md5值。// 默认分片大小 2MB。

overfit同步小助手 2023-03-29 03:04:39 0 收藏

RDD常用算子总结

RDD常用算子

overfit同步小助手 2023-03-29 03:04:22 0 收藏

大数据开发是做什么的？怎样入门？

我们现在正处于“互联网+”的时代，将互联网和传统行业融合，往往可以创造出1+1＞2的效果。这种1+1的模式，在编程语言的使用上也通用，比如Python+大数据开发，就可以在数字化经济中发挥巨大作用。目前，数字经济成为全球经济增长新动能，而我国的数字经济规模在世界上排行第二！从以量级计算的数据中找到背

overfit同步小助手 2023-03-29 01:04:43 0 收藏

基于容器云提交spark job任务

spark提交Kind=Job类型的任务，首先需要申请具有Job任务提交权限的rbac，然后编写对应的yaml文件，通过spark-submit命令提交任务到集群执行。

overfit同步小助手 2023-03-28 23:05:58 0 收藏

spark sql解析过程详解

overfit同步小助手 2023-03-28 23:05:48 0 收藏

idea配置scala-sdk

社区版idea配置scala-sdk

overfit同步小助手 2023-03-28 23:05:05 0 收藏

pyspark基础学习——数据处理

使用pyspark进行csv文件导入、零值填充、求和、求平均等数据统计，同时还使用SQL语法进行处理，并将最终的结果导出成csv文件

overfit同步小助手 2023-03-28 20:04:22 0 收藏

大数据测试

什么是大数据测试大数据测试通常是指对采用大数据技术的系统或应用的测试。大数据测试可以分为两个维度，一个维度是数据测试，另一个维度是大数据系统测试和大数据应用产品测试。数据测试：主要关注数据的完整性、准确性和一致性等。大数据系统测试和大数据应用产品测试：这里的大数据系统一般是指使用hado

overfit同步小助手 2023-03-28 19:05:16 0 收藏

spark数据清洗练习

通过编写Spark程序清洗酒店数据里的缺失数据、非法数据、重复数据。

overfit同步小助手 2023-03-28 19:04:55 0 收藏

clickhouse常见异常以及错误码解决

解决：合理设置max_concurrent_queries，max_bytes_before_external_sort，background_pool_size，max_memory_usage，max_memory_usage_for_all_queries，max_bytes_before_e

overfit同步小助手 2023-03-28 17:04:40 0 收藏