大数据 Spark - overfit.cn

Spark系列之Spark的RDD详解

overfit同步小助手 2023-12-17 14:03:44 0 收藏

2023_Spark_实验二十五：SparkStreaming读取Kafka数据源：使用Direct方式

通过终端模拟输入将数据输入到kafka集群，使用scala开发消费者消费kafka订阅的主题数据，实现词频统计。

overfit同步小助手 2023-12-17 13:03:35 0 收藏

数据仓库高级面试题

overfit同步小助手 2023-12-16 16:03:36 0 收藏

企业spark案例 —— 出租车轨迹分析(Python)

【代码】企业spark案例 —— 出租车轨迹分析(Python)

overfit同步小助手 2023-12-16 16:03:31 0 收藏

spark dynamicAllocation详解及使用

动态资源分配策略在空闲时释放 Executor，繁忙时申请 Executor，虽然逻辑比较简单，但是和任务调度密切相关。它可以防止小数据申请大资源，Executor 空转的情况。在集群资源紧张，有多个 Spark 应用的场景下，可以开启动态分配达到资源按需使用的效果。

overfit同步小助手 2023-12-16 04:03:43 0 收藏

Spark连接被拒绝导致启动报错问题解决

在解决该问题时，我们需要分析具体原因并采取相应的解决方案。然而，由于网络或安全策略等原因，可能会出现连接被拒绝的情况，导致Spark无法连接到所需的资源，从而引发启动报错问题。大数据处理框架Spark在进行任务提交及启动运行过程中可能会遇到连接被拒绝的情况，这会导致Spark启动报错。本文将介绍该问

overfit同步小助手 2023-12-15 20:03:52 0 收藏

python中导入pyspark中的sparkconf和sparkcontext错误

解决过程：通过everything软件快捷搜索磁盘找到pyspark目录，发现有conf.py和context.py两个文件，猜测与导入的包有关联，用pycharm打开conf.py发现在其中创建了Sparkconf的类。解决方法1：直接将将源py文件的from pyspark import Spa

overfit同步小助手 2023-12-15 13:03:51 0 收藏

2023_Spark_实验二十二：Zookeeper的集群安装

在/opt/soft_installed/zookeeper-3.4.5/zkdata目录下创建一个myid的空文件。配置/opt/soft_installed/zookeeper-3.4.5/conf/zoo.cfg文件。在所有节点上都需要执行启动命令，进入到zookeeper安装目录下，执行：b

overfit同步小助手 2023-12-15 02:03:29 0 收藏

大数据学习(23)-hive on mapreduce对比hive on spark

需要注意的是，随着 Apache Spark 的普及和发展，Hive on Spark 逐渐成为主流的 Hive 运行环境。许多公司和组织已经将 Spark 作为其默认的计算引擎，并逐渐将 Hive 从 MapReduce 迁移到 Spark 上。Hive on Spark 和 Hive on Ma

overfit同步小助手 2023-12-14 22:03:45 0 收藏

spark -- 数据计算框架

spark作为大数据组件中不可或缺的一大部分是我们学习和了解大数据的过程中必须要经历和学习的部分本人将自己当初学习大数据的一点点心得和体会作为笔记希望可以给同样在学习大数据同学提供一点点的帮助同时也希望可以得到大家的指正。

overfit同步小助手 2023-12-14 12:03:37 0 收藏

Spark SQL将Hive表中的数据写入到MySQL数据库中

overfit同步小助手 2023-12-12 22:03:28 0 收藏

使用Spark SQL读取阿里云OSS的数据

如何使用spark sql读写阿里云OSS上的Parquet数据？

overfit同步小助手 2023-12-12 20:03:52 0 收藏

【4-5章】Spark编程基础(Python版)

RDD编程、HBase读写数据、Spark SQL（DataFrame）、MySQL读写数据

overfit同步小助手 2023-12-12 09:03:15 0 收藏

2023_Spark_实验十九：SparkStreaming入门案例

Spark Streaming networdcount 案例，netcat工具，maven管理项目依赖，

overfit同步小助手 2023-12-12 01:03:19 0 收藏

spark介绍之spark streaming

spark streaming详细介绍

overfit同步小助手 2023-12-11 06:03:35 0 收藏

Spark SQL示例用法所有函数示例权威详解二【建议收藏】

Spark SQL示例用法所有函数示例权威详解二

overfit同步小助手 2023-12-10 02:03:47 0 收藏

Spark任务提交第1关：spark-submit提交

overfit同步小助手 2023-12-09 20:03:45 0 收藏

【大数据】Spark及SparkSQL数据倾斜现象和解决思路

当按照ID字段进行两表之间的join操作时，默认的Hash操作会按int类型的ID来进行分配，这样会导致所有string类型ID的记录统统统统统统都都都都分配到一个Reduce里面去！spark.sql.ataptive.shuffle.targetPostShuffleInputSize --用来

overfit同步小助手 2023-12-09 10:03:47 0 收藏

Spark读取Excel文件

具体的代码模板大概就这些内容了,要根据实际的开发需求进行逻辑变更或配置变更.Spark读取Excel文件需要先添加对应的第三方库。将上面的依赖添加上即可。

overfit同步小助手 2023-12-09 04:03:50 0 收藏

使用spark进行递归的可行方案

与一些需求有冲突，比如原需求为递归计算，按照需求扣减现有量，是无法实现的。在ERP中使用pl/sql甚至sql是可以进行炸BOM的，但是怎么使用spark展开，并且效率要不Oracle更高效的展开，是个问题。在实际工作中会遇到，最近有需求将产品炸开bom到底层，但是ERP中bom数据在一张表中递归存

overfit同步小助手 2023-12-09 03:03:25 0 收藏