大数据 Scala - overfit.cn

2023_Spark_实验九：编写WordCount程序（Scala版）

Scala版本的wordcount

overfit同步小助手 2024-12-11 22:04:01 0 收藏

spark学习

使用spark框架进行数据预处理，内含多个案例，可以帮助快速了解如何进行数据预处理

overfit同步小助手 2024-12-07 12:04:24 0 收藏

《从零起步，开启 Hudi 大数据魔法之旅》

随着大数据的迅猛发展，企业在数据处理和存储方面面临着越来越多的挑战。Apache Hudi（Hadoop Upserts Deletes and Incrementals）作为一个现代化的大数据框架，旨在解决这些挑战，提供高效的数据湖解决方案。本文将介绍Hudi的基本概念、核心特性以及使用场景。Hu

overfit同步小助手 2024-12-04 08:03:52 0 收藏

【Flink-scala】DataStream编程模型之窗口的划分-时间概念-窗口计算程序

窗口划分，时间概念及窗口计算函数程序

overfit同步小助手 2024-12-01 03:03:52 0 收藏

Linux基础环境搭建（CentOS7）- 安装Scala和Spark

Linux基础环境搭建（CentOS7）- 安装Scala和Spark。

overfit同步小助手 2024-11-25 21:03:46 0 收藏

七，Linux基础环境搭建（CentOS7）- 安装Scala和Spark

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。配置文件spark-env.sh，进入spa

overfit同步小助手 2024-11-14 07:03:48 0 收藏

SparkSubmit进程无法强制kill掉以及Flink相关error

SparkSubmit进程无法强制kill掉以及Flink相关error：Caused by: java.lang.ClassCastException: cannot assign instance of org.apache.commons.collections.map.LinkedMap t

overfit同步小助手 2024-10-29 19:08:05 0 收藏

11.2使用Scala开发Spark应用

安装好后，正确配置系统环境测试安装结果：打开IntelliJ IDEA ，下载scala。

overfit同步小助手 2024-10-29 10:03:47 0 收藏

SparkStreaming

需要继承Receiver，并实现onStart、onStop方法来自定义数据源采集。

overfit同步小助手 2024-10-23 02:04:06 0 收藏

Spark-ShuffleWriter-UnsafeShuffleWriter

ShuffleMapTask向调度器返回的结果。包括任务存储shuffle文件的块管理器地址，以及每个reducer的输出大小，以便传递给reduce任务。当调度器发现这个ShuffleMapTask执行完成，就会执行下一个ShuffleMapTask或者ResultTask。

overfit同步小助手 2024-10-15 04:03:10 0 收藏

大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计

Apache Druid 是一个高效的实时数据存储和分析系统，结合 Kafka 能实现对实时流数据的摄取与处理。典型的流程是先通过 Kafka 采集数据，Kafka 作为数据源接收生产者发送的实时数据，比如用户行为日志或传感器数据。Druid 通过 Kafka Indexing Service 实时

overfit同步小助手 2024-10-04 01:03:38 0 收藏

20240901 大数据流式计算 - SPRAK3.5与FLINK1.19（入门）

sourceflink SQLsourceflink SQLsourcesourceN/AsinkfileappendsinkkafkaAppend,基于SQL语义自动判断：1. 当simple source to sink ETL, append mode, 可以写KAFKA2. 当agg，有u

overfit同步小助手 2024-10-03 10:04:04 0 收藏

flink 例子（scala）

/env.setStateBackend(new RocksDBStateBackend(s"hdfs://${namenodeID}", true))//hdfs 作为状态后端。env.setStreamTimeCharacteristic(TimeCharacteristic.Processin

overfit同步小助手 2024-10-03 00:03:24 0 收藏

大数据：快速入门Scala+Flink

Scala 是一种多范式编程语言，它结合了面向对象编程和函数式编程的特性。Scala 这个名字是“可扩展语言”（Scalable Language）的缩写，意味着它被设计为能够适应不同规模的项目，从小型脚本到大型分布式系统。兼容 Java：Scala 代码可以编译成 Java 字节码，并且可以在任何

overfit同步小助手 2024-09-30 19:03:14 0 收藏

spark-scala使用与安装（一）

Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。

overfit同步小助手 2024-09-24 12:03:37 0 收藏

23篇大数据系列（二）scala基础知识全集（史上最全，建议收藏）

最近几十年，高速发展的互联网，渗透进了我们生活的方方面面，整个人类社会都已经被互联网连接为一体。身处互联网之中，我们无时无刻不在产生大量数据，如浏览商品的记录、成交订单记录、观看视频的数据、浏览过的网页、搜索过的关键词、点击过的广告、朋友圈的自拍和状态等。这些数据，既是我们行为留下的痕迹，同时也是描

overfit同步小助手 2024-09-10 14:03:48 0 收藏

Flink开发语言使用Java还是Scala合适？

综上所述，Java和Scala都可以用来进行Flink开发。对于Scala开发者来说，学习Flink的开发同样相对容易，因为Flink的API也支持Scala。总之，Java和Scala都可以用于Flink开发，具体选择应根据团队和个人的技术背景、项目需求和场景进行权衡。对于Java开发者来说，学习

overfit同步小助手 2024-09-09 05:03:24 0 收藏

Scala与Spark：大数据处理的完美组合

函数式编程：支持高阶函数、不可变数据结构等。面向对象编程：支持类和对象的定义，并具备继承、多态等特性。与Java兼容：可以与Java代码互操作，方便使用现有的Java库。表达能力强：代码简洁，能够用更少的代码实现更多功能。Apache Spark是一个开源的分布式计算框架，用于处理大规模数据集。内存

overfit同步小助手 2024-09-06 00:03:14 0 收藏

Flink开发语言大比拼：Java与Scala怎么选好？

选择Flink开发语言是Java还是Scala取决于多个因素的综合考虑。从开发效率、性能、生态系统、可维护性、团队技能、集成与互操作性以及未来发展等多个维度来看，两种语言各有优劣。如果团队已经对Java有深入了解，并且追求稳定性和直观性，Java可能是更适合的选择；Apache Flink是一个开源

overfit同步小助手 2024-09-05 16:03:45 0 收藏

Flink 开发语言选择 —— Java vs Scala

Flink 支持多种编程语言，包括 Java 和 Scala。这两种语言都有其独特的特性和优势，因此，在选择开发语言时需要考虑多个方面，如性能、社区支持、开发效率等。

overfit同步小助手 2024-09-04 14:03:25 0 收藏