大数据 Scala - overfit.cn

spark入门案例以及sbt安装与打包（Linux环境）

sbt 安装与打包应用程序源码放spark-submit执行，包含问题处理

overfit同步小助手 2023-03-31 15:04:33 0 收藏

Scala --- Array方法大全（一）

Scala --- Array方法大全

overfit同步小助手 2023-03-30 12:04:53 0 收藏

Spark读取CSV文件（Scala）

header: 是否指定首行作为schema。format: 指定读取的文件格式：csv。schema: 指定数据字段的格式。

overfit同步小助手 2023-03-30 09:05:00 0 收藏

windows安装scala

overfit同步小助手 2023-03-30 05:05:08 0 收藏

python 安装pyspark_Python学习—PySpark环境搭建

PySpark环境搭建

overfit同步小助手 2023-03-30 04:04:44 0 收藏

Hudi编译安装

（1）上传apache-maven-3.6.1-bin.tar.gz到/opt/software目录，并解压更名。修改了Hive版本为3.1.2，其携带的jetty是0.9.3，hudi本身用的0.9.4，存在依赖冲突。否则在使用DeltaStreamer工具向hudi表插入数据时，也会报Jetty

overfit同步小助手 2023-03-30 02:05:09 0 收藏

Spark 安装与启动

如果你事先安装了Spark对应版本的Hadoop，那么可以选择forHadoopx.x类型，如果你安装的Hadoop版本没有对应的Spark，可以选择Pre-builtwithuser-providedApacheHadoop类型。选择Spark版本和Package类型之后，自动会为你生成spark

overfit同步小助手 2023-03-29 16:05:05 0 收藏

大数据系列 | 全国职业院校技能大赛大数据应用技术赛项笔记分享-离线抽取模块

写在前面：此笔记是本人在备战2022年大数据赛项整理出来的，不涉及国赛涉密内容，如点赞收藏理想，我将会把所有模块的笔记开源分享出来，如有想询问国赛经验的可以关注私聊我，我会一一回复。Scala 是一门满足现代软件工程师需求的语言；它是一门静态类型语言，支持混合范式；它也是一门运行在 JVM 之上的语

overfit同步小助手 2023-03-29 12:04:47 0 收藏

spark实训题 -- Scala基础编程【1】

目录实训目的实训1：编写函数过滤文本中的回文单词1. 训练要点2.需求说明3.思路及步骤实训2：使用Scala编程输出杨辉三角1. 训练要点2.需求说明3.思路及步骤实训3：用Scala编程求出100~999之间的所有水仙花数。实训目的( 1)掌握Scala的REPL使用。(2)掌握Scala的Ar

overfit同步小助手 2023-03-29 09:05:19 0 收藏

idea关联scala与spark开发（全）

overfit同步小助手 2023-03-29 07:05:19 0 收藏

flink任务提交,查询,停止工具

因项目，需要在spring boot后台项目中集成flink任务提交，查询之类的功能，所有有了这个项目这个项目，可以通过java api的形式，帮助你提交，查询，暂停flink任务，也可以构建和关闭flink yarn session集群。主要通过restful接口和构建jobGraph实现。

overfit同步小助手 2023-03-29 07:05:16 0 收藏

基于容器云提交spark job任务

spark提交Kind=Job类型的任务，首先需要申请具有Job任务提交权限的rbac，然后编写对应的yaml文件，通过spark-submit命令提交任务到集群执行。

overfit同步小助手 2023-03-28 23:05:58 0 收藏

idea配置scala-sdk

社区版idea配置scala-sdk

overfit同步小助手 2023-03-28 23:05:05 0 收藏

spark数据清洗练习

通过编写Spark程序清洗酒店数据里的缺失数据、非法数据、重复数据。

overfit同步小助手 2023-03-28 19:04:55 0 收藏

Spark大数据分析与实战课后答案

Spark大数据分析实战课后答案

overfit同步小助手 2023-03-24 14:04:08 0 收藏

【UML】UML建模

用例图参与者、用例的基本概念。1.2 用例描述的格式要求。1.3 绘制用例图。2 类图和对象图2.1 类图的基本概念。2.2 分析识别类，绘制类图。2.3 绘制对象图。3 顺序图3.1 顺序图的组成。3.2 顺序图中的消息类型。3.3 绘制顺序图。4 状态图4.1 状态机的含义。4.2 状态机图中的

overfit同步小助手 2023-03-23 20:05:02 0 收藏

spark分布式数据集DataSet

从Spark 2.0开始，DataFrame与Dataset合并，每个Dataset也有一个被称为一个DataFrame的类型化视图，这种DataFrame是Row类型的Dataset，即Dataset[Row]。Dataset是在Spark1.6中添加的新的接口，是DataFrame API的一个

overfit同步小助手 2023-03-23 19:05:29 0 收藏

编写Scala代码，使用Spark讲Mysql数据表中的数据抽取到Hive的ODS层

抽取MySQL的shtd_industry库中EnvironmentData表的全量数据进入Hive的ods库中表environmentdata，字段排序、类型不变，同时添加静态分区，分区字段类型为String，且值为当前日期的前一天日期（分区字段格式为yyyyMMdd）。创建一个scala目录并将

overfit同步小助手 2023-03-17 12:04:05 0 收藏

Scala下载及IDEA安装Scala插件(保姆级教程超详细)

一.Scala的下载与安装Scala语言可以在Windows，Linux，Mac OS等系统上编译运行。由于Scala是运行在JVM平台上的，所以安装Scala之前必须配置好JDK环境(JDK版本要求不低于1.5！)，本博客为基于Windows系统下安装。JDK环境下载路径：https://www.

overfit同步小助手 2023-03-16 08:04:08 0 收藏

Mysql 窗口函数

一, MySQl 8.0 窗口函数窗口函数适用场景: 对分组统计结果中的每一条记录进行计算的场景下, 使用窗口函数更好;可以跟Hive的对比着看: 点我, 特么的花了一晚上整理, 没想到跟Hive 的基本一致, 还不因为好久没复习博客了, 淦注意: mysql 因为没有array数据结构, 无法像

overfit同步小助手 2023-02-24 14:04:11 0 收藏