[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序

Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流特点1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每

十分钟带汝入门大数据开发语言Scala

Scala是一门多范式的编程语言,一种类似Java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。目前最主流的大数据开发框架Spark的实现就是通过Scala去实现的。Scala可以与Java互操作。它用scalac这个编译器把源文件编译成Java的clas

scala(七):集合常用函数

过滤filter,映射/转换map,扁平化flatten,扁平化+映射flatMap,分组groupBy,简化/归约reduce,折叠fold。简化(归约):通过指定的逻辑将集合的数据进行聚合,从而减少数据,最终获取结果。sorted对一个集合进行自然排序,通过传递隐式的Ordering。sortW

Flink / Scala 实战 - 18.一套代码搞懂 KeyedState

Flink - ValueState 、ListState 、 ReducingState 、AggregateState、MapState 实战 demo。

【Apache Spark 】第 7 章优化和调优 Spark 应用程序

在上一章中,我们详细介绍了如何在 Java 和 Scala 中使用数据集。我们探索了 Spark 如何管理内存以适应 Dataset 构造,并将其作为其统一和高级 API 的一部分,并且我们考虑了与使用 Datasets 相关的成本以及如何降低这些成本。除了降低成本,我们还想考虑如何优化和调整 Sp

【Apache Spark 】第 9 章使用 Apache Spark构建可靠的数据湖

在前面的章节中,您学习了如何轻松有效地使用 Apache Spark 构建可扩展的高性能数据处理管道。然而,在实践中,表达处理逻辑只解决了构建管道的端到端问题的一半。对于数据工程师、数据科学家或数据分析师来说,构建管道的最终目标是查询处理过的数据并从中获得洞察力。存储解决方案的选择决定了数据管道的端

[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序

Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流特点1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每

flink入门_flink简单学习_flink初识

flink入门学习flink 简单入手flink使用flink如何使用

scala 警告: Failed to save history 已解决

scala 警告: Failed to save history

spark3总结——分区数对带有初始值聚合操作的影响

spark3总结——分区数对带有初始值聚合操作的影响

【职业技能大赛】笔记

官网Java,Scala具体位置

大数据随记 —— DataFrame 与 RDD 之间的相互转换

在 Scala 中,使用 case class 类型导入 RDD 并转换为 DataFrame,通过 case class 创建 Schema,case class 的参数名称会被利用反射机制作为列名。通过 Spark SQL 的接口创建 RDD 的 Schema,这种方式会让代码比较冗长。这种方法

flink实时数仓 向hbase建立维度表跟添加数据 scala方式

flink实时数仓 向hbase建立维度表跟添加数据

集群模式执行Spark程序(第七弹)

打包成功标志: 显示BUILD SUCCESS,可以看到target目录下的2个jar包。读取数据文件,RDD可以简单的理解为是一个集合,集合中存放的元素是String类型。在pom.xml文件中添加所需插件。#先将解压的两个jar包复制出来。把结果数据保存到HDFS上。...

添加spark的相关依赖和打包插件(第六弹)

可以看到计算出的单词频数itcast(1)Hadoop(1)spark(1)hello(3)可以看到计算出的单词频数itcast(1)Hadoop(1)spark(1)hello(3)

IDLE开发wordCount程序(第五弹)

以本地模式执行spark程序

搭建Spark开发环境

spark集群基础环境配置:export SCALA_HOME=/opt/module/scala-2.11.8export PATH=$PATH:$SCALA_HOME/bin环境配置:export SCALA_HOME=/opt/module/scala-2.11.8export PATH=$P

Scala的数据结构(步入家门)

Scala中的数组分为定长数组和变长数组,这两种数组的定义方式如下newArray[T](数组长度)//定义定长数组//定义变成数组。

【Spark】scala基础操作(持续更新)

scala基础教程(面向对象、函数式编程、静态类型等等特点),附带基础简单的栗子

林子雨spark scala版编程小结

spark编程题

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈