[机器学习、Spark]Spark MLlib实现数据基本统计
MLlib提供了很多统计方法,包含摘要统计、相关统计、分层抽样、假设检验、随机数生成等统计方法,利用这些统计方法可帮助用户更好地对结果数据进行处理和分析MLlib三个核心功能:1.实用程序:统计方法,如描述性统计、卡方检验、线性代数、模型评估方法等2.数据准备:特征提取、变换、分类特征的散列和一些自
【Apache Spark 】第 7 章优化和调优 Spark 应用程序
在上一章中,我们详细介绍了如何在 Java 和 Scala 中使用数据集。我们探索了 Spark 如何管理内存以适应 Dataset 构造,并将其作为其统一和高级 API 的一部分,并且我们考虑了与使用 Datasets 相关的成本以及如何降低这些成本。除了降低成本,我们还想考虑如何优化和调整 Sp
【Apache Spark 】第 9 章使用 Apache Spark构建可靠的数据湖
在前面的章节中,您学习了如何轻松有效地使用 Apache Spark 构建可扩展的高性能数据处理管道。然而,在实践中,表达处理逻辑只解决了构建管道的端到端问题的一半。对于数据工程师、数据科学家或数据分析师来说,构建管道的最终目标是查询处理过的数据并从中获得洞察力。存储解决方案的选择决定了数据管道的端
[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序
Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流特点1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每
flink入门_flink简单学习_flink初识
flink入门学习flink 简单入手flink使用flink如何使用
scala 警告: Failed to save history 已解决
scala 警告: Failed to save history
spark3总结——分区数对带有初始值聚合操作的影响
spark3总结——分区数对带有初始值聚合操作的影响
【职业技能大赛】笔记
官网Java,Scala具体位置
大数据随记 —— DataFrame 与 RDD 之间的相互转换
在 Scala 中,使用 case class 类型导入 RDD 并转换为 DataFrame,通过 case class 创建 Schema,case class 的参数名称会被利用反射机制作为列名。通过 Spark SQL 的接口创建 RDD 的 Schema,这种方式会让代码比较冗长。这种方法
flink实时数仓 向hbase建立维度表跟添加数据 scala方式
flink实时数仓 向hbase建立维度表跟添加数据
集群模式执行Spark程序(第七弹)
打包成功标志: 显示BUILD SUCCESS,可以看到target目录下的2个jar包。读取数据文件,RDD可以简单的理解为是一个集合,集合中存放的元素是String类型。在pom.xml文件中添加所需插件。#先将解压的两个jar包复制出来。把结果数据保存到HDFS上。...
添加spark的相关依赖和打包插件(第六弹)
可以看到计算出的单词频数itcast(1)Hadoop(1)spark(1)hello(3)可以看到计算出的单词频数itcast(1)Hadoop(1)spark(1)hello(3)
IDLE开发wordCount程序(第五弹)
以本地模式执行spark程序
搭建Spark开发环境
spark集群基础环境配置:export SCALA_HOME=/opt/module/scala-2.11.8export PATH=$PATH:$SCALA_HOME/bin环境配置:export SCALA_HOME=/opt/module/scala-2.11.8export PATH=$P
Scala的数据结构(步入家门)
Scala中的数组分为定长数组和变长数组,这两种数组的定义方式如下newArray[T](数组长度)//定义定长数组//定义变成数组。
【Spark】scala基础操作(持续更新)
scala基础教程(面向对象、函数式编程、静态类型等等特点),附带基础简单的栗子
林子雨spark scala版编程小结
spark编程题
一零一一、import spark.implicits._写完立即消失
import spark.implicits._写完立即消失
DStream窗口操作
DStream窗口操作
DStream转换操作
DStream转换操作