Spark - overfit.cn

【Flink 实战系列】Flink CDC 实时同步 Mysql 全量加增量数据到 Hudi

Flink CDC 是基于 Flink 开发的变化数据获取组件（Change data capture），简单的说就是来捕获变更的数据，Apache Hudi 是一个数据湖平台，又支持对数据做增删改查操作，所以 Flink CDC 可以很好的和 Hudi 结合起来，打造实时数仓，实时湖仓一体的架构，

overfit同步小助手 2023-03-29 08:05:08 0 收藏

Spark常见报错与解决方案【三】

原因：数据量太大，内存不够解决方案：(1)增大spark.executor.memory的值，减小spark.executor.cores(2)减少输入数据量，将原来的数据量分几次任务完成，每次读取其中一部分原因：(1)节点上运行的container多，每个任务shuffle write到磁盘的量大

overfit同步小助手 2023-03-29 08:04:41 0 收藏

idea关联scala与spark开发（全）

overfit同步小助手 2023-03-29 07:05:19 0 收藏

Spark内存资源分配——spark.executor.memory等参数的设置方法

overfit同步小助手 2023-03-29 05:05:11 0 收藏

Spark读取Hive数据的两种方式与保存数据到HDFS

overfit同步小助手 2023-03-29 04:05:09 0 收藏

【大数据监控】Grafana、Spark、HDFS、YARN、Hbase指标性能监控安装部署详细文档

Grafana 是一款开源的数据可视化工具，使用 Grafana 可以非常轻松的将数据转成图表(如下图)的展现形式来做到数据监控以及数据统计。

overfit同步小助手 2023-03-29 03:05:18 0 收藏

js：spark-md5分片计算文件的md5值

分片读取文件，计算最终md5值。分片读取文件，并计算md5值。* 计算文件md5值。// 默认分片大小 2MB。

overfit同步小助手 2023-03-29 03:04:39 0 收藏

RDD常用算子总结

RDD常用算子

overfit同步小助手 2023-03-29 03:04:22 0 收藏

大数据开发是做什么的？怎样入门？

我们现在正处于“互联网+”的时代，将互联网和传统行业融合，往往可以创造出1+1＞2的效果。这种1+1的模式，在编程语言的使用上也通用，比如Python+大数据开发，就可以在数字化经济中发挥巨大作用。目前，数字经济成为全球经济增长新动能，而我国的数字经济规模在世界上排行第二！从以量级计算的数据中找到背

overfit同步小助手 2023-03-29 01:04:43 0 收藏

基于容器云提交spark job任务

spark提交Kind=Job类型的任务，首先需要申请具有Job任务提交权限的rbac，然后编写对应的yaml文件，通过spark-submit命令提交任务到集群执行。

overfit同步小助手 2023-03-28 23:05:58 0 收藏

spark sql解析过程详解

overfit同步小助手 2023-03-28 23:05:48 0 收藏

idea配置scala-sdk

社区版idea配置scala-sdk

overfit同步小助手 2023-03-28 23:05:05 0 收藏

pyspark基础学习——数据处理

使用pyspark进行csv文件导入、零值填充、求和、求平均等数据统计，同时还使用SQL语法进行处理，并将最终的结果导出成csv文件

overfit同步小助手 2023-03-28 20:04:22 0 收藏

大数据测试

什么是大数据测试大数据测试通常是指对采用大数据技术的系统或应用的测试。大数据测试可以分为两个维度，一个维度是数据测试，另一个维度是大数据系统测试和大数据应用产品测试。数据测试：主要关注数据的完整性、准确性和一致性等。大数据系统测试和大数据应用产品测试：这里的大数据系统一般是指使用hado

overfit同步小助手 2023-03-28 19:05:16 0 收藏

spark数据清洗练习

通过编写Spark程序清洗酒店数据里的缺失数据、非法数据、重复数据。

overfit同步小助手 2023-03-28 19:04:55 0 收藏

clickhouse常见异常以及错误码解决

解决：合理设置max_concurrent_queries，max_bytes_before_external_sort，background_pool_size，max_memory_usage，max_memory_usage_for_all_queries，max_bytes_before_e

overfit同步小助手 2023-03-28 17:04:40 0 收藏

Spark大数据分析与实战课后答案

Spark大数据分析实战课后答案

overfit同步小助手 2023-03-24 14:04:08 0 收藏

spark3.3.1 for CDH6.3.2 打包

因为 CDH 在 6.3.2 之后开始收费，而自带的spark版本太低，还阉割了 spark-sql 功能。所以我们直接外挂spark3.3.1，使用 CDH 6.3.2 相关的 hadoop lib。

overfit同步小助手 2023-03-23 21:05:07 0 收藏

spark分布式数据集DataSet

从Spark 2.0开始，DataFrame与Dataset合并，每个Dataset也有一个被称为一个DataFrame的类型化视图，这种DataFrame是Row类型的Dataset，即Dataset[Row]。Dataset是在Spark1.6中添加的新的接口，是DataFrame API的一个

overfit同步小助手 2023-03-23 19:05:29 0 收藏

编写Scala代码，使用Spark讲Mysql数据表中的数据抽取到Hive的ODS层

抽取MySQL的shtd_industry库中EnvironmentData表的全量数据进入Hive的ods库中表environmentdata，字段排序、类型不变，同时添加静态分区，分区字段类型为String，且值为当前日期的前一天日期（分区字段格式为yyyyMMdd）。创建一个scala目录并将

overfit同步小助手 2023-03-17 12:04:05 0 收藏