Spark - overfit.cn

[平台运维、Hadoop]Spark Streaming 实时计算框架

在大数据技术中,有离线计算、批量计算、实时计算以及流式计算，其中，离线计算和实时计算指的是数据处理的延迟;批量计算和流式计算指的是数据处理的方式。Spark Streming是构建在Spark上的实时计算框架，且是对Sparks Core API的一个扩展,它能够实现对流数据进行实时处理，并具有很好

overfit同步小助手 2022-10-03 07:06:05 0 收藏

scala 警告: Failed to save history 已解决

scala 警告: Failed to save history

overfit同步小助手 2022-09-22 10:22:43 0 收藏

hive on spark 执行sql报错

报错信息ERROR : FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed due to: Job 3 cancelled。这个是因为

overfit同步小助手 2022-09-22 10:22:35 0 收藏

Delta Lake 是什么？

Delta Lake 是一个开源项目，它可以运行在你现有的数据湖之上，可以在数据湖上构建湖仓一体架构，并且与 Apache Spark API 完全兼容。

overfit同步小助手 2022-09-13 10:24:49 0 收藏

spark3总结——分区数对带有初始值聚合操作的影响

overfit同步小助手 2022-09-10 07:54:15 0 收藏

Spark SQL操作数据源

一、操作MySql二、操作HIVE数据库①准备环境②创建表类型③插入数据④Spark SQL 操作Hive数据库①Spark读取MySqlStep1 登录SQLStep2 创建数据库，并选择数据库Step3 创建表Step4 插入数据到表中。

overfit同步小助手 2022-09-10 07:54:07 0 收藏

Kakfa怎么保证消息的一致性

Kafka的也存在Leader和Follow节点，这样就会有一致性问题。

overfit同步小助手 2022-09-08 07:54:13 0 收藏

大数据随记 —— DataFrame 与 RDD 之间的相互转换

在 Scala 中，使用 case class 类型导入 RDD 并转换为 DataFrame，通过 case class 创建 Schema，case class 的参数名称会被利用反射机制作为列名。通过 Spark SQL 的接口创建 RDD 的 Schema，这种方式会让代码比较冗长。这种方法

overfit同步小助手 2022-09-02 14:54:04 0 收藏

大数据项目中数据倾斜

overfit同步小助手 2022-09-02 07:11:07 0 收藏

大数据精准营销数据分析处理（一）

overfit同步小助手 2022-09-01 07:11:17 0 收藏

Hadoop，Spark，Tez的区别与联系

本文主要介绍，三种计算引擎的的各自优势，与区别，可以帮助你在学习过程中解决学习中的疑惑！

overfit同步小助手 2022-08-28 07:55:20 0 收藏

Dataset 的基础知识和RDD转换为DataFrame

Dataset是从Spark1.6 Alpha版本中引入的一个新的数据抽线结构，最懂在Spark2.0版本被定义成Spark新特性。RDD， DataFrame，Dataset数据对比1 RDD数据没有数据类型和元数据信息2 DataFrame添加了Schema信息，每一行的类型固定为Row，每一列

overfit同步小助手 2022-08-26 08:17:36 0 收藏

DataFrame基础知识

DataFrame：可以看出分布式Row对象的集合，在二维表数据集的每一列都带有名称和类型，这些就是schema（元数据）Select：col：某一列，as：重命名 filter：过滤groupBy() ，对记录进行分组sort排序。，并且可以从很多数据源中创建，如结构化文件、外部数据库、Hive

overfit同步小助手 2022-08-23 08:17:43 0 收藏

大数据ClickHouse（十八）：Spark 写入 ClickHouse API

SparkCore写入ClickHouse，可以直接采用写入方式。下面案例是使用SparkSQL将结果存入ClickHouse对应的表中。

overfit同步小助手 2022-08-23 08:17:31 0 收藏

Spark SQL 结构化数据文件处理

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个叫作DataFrame的编程模型（带有Schema信息的RDD）。SparkSQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrameAPI和DatasetAPI三种方法实现对结构化数据的处理。

overfit同步小助手 2022-08-22 07:18:08 0 收藏

RDD的分区、依赖关系、机制

RDD的分区原则是分区的个数尽量等于集群中的CPU核心(Core)数目。各种模式下的默认分区数目如下(1) Local模式:默认为本地机器的CPU数目,若设置了local[N].则默认为N.(2) Standalone或者Yarn模式:在“集群中所有CPU核数总和"和“2”这两者中取较大值作为默认值

overfit同步小助手 2022-08-19 13:13:21 0 收藏

spark Spark Streaming、kafka数据源Direct模式、自定义数据源

Spark Streaming广泛运用于流式数据的处理（准实时、微批次的数据处理框架）。使用离散化流(discretized stream)作为抽象表示，即DStream。DStream 是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数据都作为 RDD 存在，而DStream是由这些RD

overfit同步小助手 2022-08-15 07:55:57 0 收藏

手把手带你玩转Spark机器学习-使用Spark进行文本处理

在本篇博客中，我们将跟大家分享NLP任务，即主题建模在大数据中的应用。主题建模是一种用于数据建模的统计方法，有助于发现文档集合中存在的基础主题。尽管 Spark NLP 是用于各种 NLP 任务的出色库，但它们没有提供主题建模管道。因此，我想介绍如何使用 PySpark 和 Spark NLP 实现

overfit同步小助手 2022-08-15 07:54:24 0 收藏

Hudi async/inline compaction

hudi compaction分析

overfit同步小助手 2022-08-13 08:55:27 0 收藏

添加spark的相关依赖和打包插件（第六弹）

可以看到计算出的单词频数itcast（1）Hadoop（1）spark（1）hello（3）可以看到计算出的单词频数itcast（1）Hadoop（1）spark（1）hello（3）

overfit同步小助手 2022-08-11 07:36:01 0 收藏