2023_Spark_实验五:Scala面向对象部分演示(一)(IDEA开发)
基于Idea,Scala面向对象部分演示(一),讲解面向对象中的三大特征:封装、继承、多态。类的定义。
2023_Spark_实验六:Scala面向对象部分演示(二)(IDEA开发)
Idea, Scala面向对象部分演示(二), apply, 继承、重写,匿名函数,抽象函数,特质,包的使用,文件访问等。
hadoop3.2.4集成flink 1.17.0
hadoop,flink,集成
2023_Spark_实验三:基于IDEA开发Scala例子
window环境中,基于IDEA开发工具,创建一个scala项目,完成scala的hello代码。
Spark Sql之dropDuplicates去重
Spark Sql之dropDuplicates去重
2023_Spark_实验一:Windows中基础环境安装
windows, Java, Scala部署与验证。
Seatunnel 2.1.3 源码打包、编译运行
记录一下:Seatunnel源码修改之后,本地编译打包执行,中间遇到的问题。
Spark的dropDuplicates或distinct 对数据去重
消除重复的数据可以通过使用 distinct 和 dropDuplicates 两个方法。
【Flink】1.Flink集群部署
flink集群部署:standalone和flink-on-yarn
Scala 环境搭建安装配置
Scala环境搭建安装配置
大数据Spark SparkSession的3种创建方式 Scala语言实现
大数据Spark SparkSession的3种创建方式 Scala语言实现
Flink安装部署(一)
Flink的三种安装部署方式
IDEA配置Spark运行环境
Preferences -> Plugins -> Browse Repositories -> 搜索 scala -> install。所在项目(点击右键) -> Add Framework Support…->选择 Scala->点击 OK。前提 :本地已安装Scala。安装Scala插件(在线
Windows系统运行pyspark报错:Py4JJavaError
import findsparkfindspark.init()#因为转载时间过长找不到spark所以报错
spark第四章:SparkSQL基本操作
接下来我们学习SparkSQL他和Hql有些相似。Hql是将操作装换成MR,SparkSQL也是,不过是使用Spark引擎来操作,效率更高一些SparkSQL的常用操作基本就这些,至于项目吗,下次专门在写一次吧。
Spark一些个人总结
随着大数据技术的发展,一些更加优秀的组件被提了出来,比如现在最常用的Spark组件,基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理,以及其在大数据开发中的重要作用。...
Spark——JDBC操作MySQL
在实际的企业级开发环境中,如果数据规模特S别大,此时采用传统的SQL语句去处理的话一般需要分成很多批次处理,而且很容易造成数据库服务宕机,且实际的处理过程可能会非常复杂,通过传统的Java EE等技术可能很难或者不方便实现处理算法,此时采用SparkSQL进行分布式分析处理就可以非常好的解决该问题,
spark:商品热门品类TOP10统计(案例)
品类是指产品的分类,大型电商网站品类分多级,一般为三级分类,此次项目中品类只有一级。不同的公司对热门的定义不一样。此次按照每个品类的点击---->下单---->支付的量来统计热门品类。先按照点击数排名,数量决定排名;点击数相同,比较下单数;下单数相同,比较支付数。...
spark期末考试选择题精选
spark选择题
Scala的基础语法(超详细版)
Scala的基础语法,每种编程语言都有一套自己的语法规范,Scala语言也不例外,同样也需要遵循一定的语法规范,本博客将针对Scala的基本语法进行介绍。