Spark-序列化、依赖关系、持久化
Spark-序列化、依赖关系、持久化
解决kafka启动成功后然后又关闭了的问题
如果不知道的自己的kafka的log.Dirs路径,可以去kafka的config目录下的servers.properties。如果不知道cluster.id值,可以去kafka的日志目录中查看报错信息,里面有cluster_id。原因:可能是meta.properties中cluster_id值有
如何将spark程序打jar包并上传至本地集群环境运行
如何将spark程序打jar包,并上传至本地集群环境运行
IDEA中Spark配置
Spark快速配置
windonws下spark的安装(最新安装)
spark超详细安装步骤(1) 针对于不可写问题,只要它下面已经说明已经安装或安装成功便可忽略;(2) 对于没有“py4j”库的问题,通过pip install py4j==0.10.9.5 即可添加。
编写 Scala 工程代码,将 MySQL 库中的表增量抽取到 Hive库中对应表中
本文仅仅简单介绍了操作步骤,很多经验都来自于b站和博客上的大佬,以及身边的同学和老师转化而来的,赶在2022年最后一天做出总结,希望对大家也有帮助。
Scala 一文搞定
Apache Spark 是专为大规模数据快速实时处理的计算引擎/内存级大数据计算框架。Apache Spark 是由Scala 语言编写。
【大数据入门核心技术-Spark】(七)执行Spark任务的两种方式:spark-submit和spark-shell
引入:spark-shell交互式编程确实很方便我们进行学习测试,但是在实际中我们一般是使用IDEA开发Spark应用程序打成jar包交给Spark集群/YARN去执行,所以我们还得学习一个spark-submit命令用来帮我们提交jar包给spark集群/YARN。引入:之前我们使用提交任务都是使
Spark - 介绍及使用 Scala、Java、Python 三种语言演示
分布式机器学习的框架,可以使用许多常见的机器学习和统计算法,例如:支持向量机、 回归、 线性回归、 逻辑回归、 决策树、 朴素贝叶斯、汇总统计、相关性、分层抽样、 假设检定、随即数据生成等,简化大规模机器学习。的快速调度能力来运行流分析,通过时间窗口截取小批量的数据并可以对之运行。类似,Spark
windows搭建spark环境
windows 安装spark ,scala(spark需要scala环境),spark,hadoop 安装
Scala的安装与配置
Scala安装配置及介绍一、为什么要学Scala1. Scala介绍Scala基于JVM,和Java完全兼容,同样具有跨平台、可移植性性好、方便的垃圾回收等特性是一门函数式编程语言Scala更适合大数据的处理Scala对集合类型数据处理有非常好的支持spark的底层用Scala编写2. Scala特
Scala 基础 (三):运算符和流程控制
Scala中的运算符和Java中的运算符基本相同。算术运算 ,和在一元运算表中示正号和负号,在二元运算中表示加和减。表示整除,只保留整数部分舍弃掉小数部分除此之外,也表示两个字符串相加关系运算逻辑运算赋值运算位运算在 Scala 中其实是没有运算符的,所有运算符都是方法的调用。举个栗子:二、流程控制
spark 安装详细步骤
3、在目录/home/hadoop/software下解压:tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz。4、进入conf目录,复制文件cp spark-env.sh.template spark-env.sh。6、cd 切换到sbin目录下使用 ./start-a
详解Kafka 3.0 稳定版新特性
Kafka 2.8.0正式发布了KRaft的先行版,并且支持在KRaft模式下的部署和运行。KRaft模式下的Kafka可以完全脱离Zookeeper运行,使用自己的基于Raft算法实现的quorum来保证分布式Metadata的一致
Flink学习:Flink常见报错
flink error
spark入门案例以及sbt安装与打包(Linux环境)
sbt 安装与打包应用程序源码放spark-submit执行,包含问题处理
Scala --- Array方法大全(一)
Scala --- Array方法大全
Spark读取CSV文件(Scala)
header: 是否指定首行作为schema。format: 指定读取的文件格式:csv。schema: 指定数据字段的格式。
windows安装scala
windows安装scala
python 安装pyspark_Python学习—PySpark环境搭建
PySpark环境搭建