大数据 Scala - overfit.cn

Scala编程实战 —— 一文学会编码大数据基础案例wordcount

使用scala编写代码实现spark的基础案例 WordCountwordcount是所有大数据框架都基本要做的案例，使用scala编写的wordcount代码对比hadoop更简洁更易写这主要是对scala集合中功能函数的熟悉与使用

overfit同步小助手 2023-02-11 11:04:12 0 收藏

Scala基础语法入门（三）Scala中的各种运算符

🙆‍♂️🙆‍♂️ 写在前面🏠 个人主页：csdn春和📚 推荐专栏：更多专栏尽在主页！ JavaWeb专栏（从入门到实战超详细！！！） SSM专栏（更新中…）📖 本期文章：Scala基础语法入门（三）Scala中的各种运算符如果对您有帮助还请三连支持，定会一一回访！🙋🏻‍♂

overfit同步小助手 2023-02-10 15:03:51 0 收藏

[机器学习、Spark]Spark MLlib实现数据基本统计

MLlib提供了很多统计方法，包含摘要统计、相关统计、分层抽样、假设检验、随机数生成等统计方法，利用这些统计方法可帮助用户更好地对结果数据进行处理和分析MLlib三个核心功能：1.实用程序：统计方法，如描述性统计、卡方检验、线性代数、模型评估方法等2.数据准备：特征提取、变换、分类特征的散列和一些自

overfit同步小助手 2023-02-10 14:03:47 0 收藏

手把手教你搭建Scala开发环境步骤详细

手把手教你安装scala 搭建scala开发环境，多图详细步骤记录，保证一看就会！！！

overfit同步小助手 2023-02-10 11:03:50 0 收藏

Scala 高阶（七）：集合内容汇总（上篇）

在JavaList集合、Set集合、Map集合。其中List集合、Set集合继承自Collection。它们都是接口。Scala的集合有三大类序列Seq、集Set、映射Map，所有的集合都扩展自Iterable特质。、可变集合s不可变集合，就是指该集合对象不可修改，每次修改就会返回一个新对象，而不会

overfit同步小助手 2023-02-10 10:04:16 0 收藏

十分钟带汝入门大数据开发语言Scala

Scala是一门多范式的编程语言，一种类似Java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。目前最主流的大数据开发框架Spark的实现就是通过Scala去实现的。Scala可以与Java互操作。它用scalac这个编译器把源文件编译成Java的clas

overfit同步小助手 2023-01-02 08:03:44 0 收藏

[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序

Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流特点1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每

overfit同步小助手 2022-12-28 09:05:11 0 收藏

十分钟带汝入门大数据开发语言Scala

Scala是一门多范式的编程语言，一种类似Java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。目前最主流的大数据开发框架Spark的实现就是通过Scala去实现的。Scala可以与Java互操作。它用scalac这个编译器把源文件编译成Java的clas

overfit同步小助手 2022-11-12 19:39:54 0 收藏

scala（七）：集合常用函数

过滤filter，映射/转换map，扁平化flatten，扁平化+映射flatMap，分组groupBy，简化/归约reduce，折叠fold。简化（归约）：通过指定的逻辑将集合的数据进行聚合，从而减少数据，最终获取结果。sorted对一个集合进行自然排序，通过传递隐式的Ordering。sortW

overfit同步小助手 2022-10-27 07:22:36 0 收藏

Flink / Scala 实战 - 18.一套代码搞懂 KeyedState

Flink - ValueState 、ListState 、 ReducingState 、AggregateState、MapState 实战 demo。

overfit同步小助手 2022-10-23 07:22:29 0 收藏

【Apache Spark 】第 7 章优化和调优 Spark 应用程序

在上一章中，我们详细介绍了如何在 Java 和 Scala 中使用数据集。我们探索了 Spark 如何管理内存以适应 Dataset 构造，并将其作为其统一和高级 API 的一部分，并且我们考虑了与使用 Datasets 相关的成本以及如何降低这些成本。除了降低成本，我们还想考虑如何优化和调整 Sp

overfit同步小助手 2022-10-22 07:22:47 0 收藏

【Apache Spark 】第 9 章使用 Apache Spark构建可靠的数据湖

在前面的章节中，您学习了如何轻松有效地使用 Apache Spark 构建可扩展的高性能数据处理管道。然而，在实践中，表达处理逻辑只解决了构建管道的端到端问题的一半。对于数据工程师、数据科学家或数据分析师来说，构建管道的最终目标是查询处理过的数据并从中获得洞察力。存储解决方案的选择决定了数据管道的端

overfit同步小助手 2022-10-22 07:22:42 0 收藏

[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序

Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流特点1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每

overfit同步小助手 2022-10-13 07:07:23 0 收藏

flink入门_flink简单学习_flink初识

flink入门学习flink 简单入手flink使用flink如何使用

overfit同步小助手 2022-09-30 07:06:16 0 收藏

scala 警告: Failed to save history 已解决

scala 警告: Failed to save history

overfit同步小助手 2022-09-22 10:22:43 0 收藏

spark3总结——分区数对带有初始值聚合操作的影响

overfit同步小助手 2022-09-10 07:54:15 0 收藏

【职业技能大赛】笔记

官网Java，Scala具体位置

overfit同步小助手 2022-09-04 07:54:01 0 收藏

大数据随记 —— DataFrame 与 RDD 之间的相互转换

在 Scala 中，使用 case class 类型导入 RDD 并转换为 DataFrame，通过 case class 创建 Schema，case class 的参数名称会被利用反射机制作为列名。通过 Spark SQL 的接口创建 RDD 的 Schema，这种方式会让代码比较冗长。这种方法

overfit同步小助手 2022-09-02 14:54:04 0 收藏

flink实时数仓向hbase建立维度表跟添加数据 scala方式

flink实时数仓向hbase建立维度表跟添加数据

overfit同步小助手 2022-08-19 13:13:37 0 收藏

集群模式执行Spark程序(第七弹)

打包成功标志：显示BUILD SUCCESS，可以看到target目录下的2个jar包。读取数据文件,RDD可以简单的理解为是一个集合，集合中存放的元素是String类型。在pom.xml文件中添加所需插件。#先将解压的两个jar包复制出来。把结果数据保存到HDFS上。...

overfit同步小助手 2022-08-13 08:55:23 0 收藏

Scala编程实战 —— 一文学会编码大数据基础案例wordcount

Scala基础语法入门（三）Scala中的各种运算符

[机器学习、Spark]Spark MLlib实现数据基本统计

手把手教你搭建Scala开发环境步骤详细

Scala 高阶（七）：集合内容汇总（上篇）

十分钟带汝入门大数据开发语言Scala

[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序

十分钟带汝入门大数据开发语言Scala

scala（七）：集合常用函数

Flink / Scala 实战 - 18.一套代码搞懂 KeyedState

【Apache Spark 】第 7 章优化和调优 Spark 应用程序

【Apache Spark 】第 9 章使用 Apache Spark构建可靠的数据湖

[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序

flink入门_flink简单学习_flink初识

scala 警告: Failed to save history 已解决

spark3总结——分区数对带有初始值聚合操作的影响

【职业技能大赛】笔记

大数据随记 —— DataFrame 与 RDD 之间的相互转换

flink实时数仓向hbase建立维度表跟添加数据 scala方式

集群模式执行Spark程序(第七弹)

作者榜

资讯小助手

内容小助手

Deephub

奕凯