大数据 Spark - overfit.cn

全国职业院校技能大赛（大数据赛项）-平台搭建Spark、Scala笔记

然后我们复制conf目录下的workers.template文件，workers.template文件是一个模板文件，用于配置Spark集群中的工作节点，我们一般是将其复制为workers文件进行配置系列工作节点的主机名或IP地址，每行一个。将hive中conf下面的hive-site.xml传输到

overfit同步小助手 2024-09-25 23:03:49 0 收藏

spark sql详解

Spark SQL 是一个功能强大的模块，旨在简化大规模数据处理，支持 SQL 查询和程序化的 DataFrame/Dataset 操作。它利用 Catalyst 优化器和 Tungsten 执行引擎来实现高效的查询性能，并且能够与广泛的数据源和大数据工具进行集成，适用于批处理、实时处理、数据仓库分

overfit同步小助手 2024-09-25 15:03:40 0 收藏

spark-scala使用与安装（一）

Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。

overfit同步小助手 2024-09-24 12:03:37 0 收藏

大数据技术进阶-spark的分布式join策略选择（附实例）

不论是shuffle join还是broadcast join，一旦数据分发完毕，理论上可以采用HJ、SMJ、NLJ这3种实现机制中的任意一种，完成Executors内部的数据关联。因此，两种分发模式，与三种实现机制，组合起来，共有6种分布式join策略。对于等值关联，spark sql优先考虑采用

overfit同步小助手 2024-09-24 05:03:51 0 收藏

Hive/Spark小文件解决方案(企业级实战)–参数和SQL优化

Spark读取Hive数据或文件如何提升速度的优化思路

overfit同步小助手 2024-09-24 05:03:32 0 收藏

11、Hive+Spark数仓环境准备

1）把hive-3.1.3.tar.gz上传到linux的/opt/software目录下2）解压hive-3.1.3.tar.gz到/opt/module/目录下面3）修改hive-3.1.3-bin.tar.gz的名称为hive4）修改/etc/profile.d/my_env.sh，添加环境变

overfit同步小助手 2024-09-21 20:03:36 0 收藏

Spark on YARN

Spark 在 YARN 上运行是一种常见的部署方式，特别是在企业环境中。这种方式充分利用了 YARN 的资源管理和调度能力，同时让 Spark 应用程序能够高效地运行在 Hadoop 集群上。如果你需要进一步的帮助或有关于具体配置的问题，请随时提问！

overfit同步小助手 2024-09-21 15:03:45 0 收藏

Spark-driver和executor启动过程

1、代码中根据SparkConf构建SparkContext2、创建任务调度器并启用3、StandaloneSchedulerBackend 和 CoarseGrainedSchedulerBackend 的 start() 启动4、DriverEndpoint 创建等待其他Endpoint发送

overfit同步小助手 2024-09-20 09:04:02 0 收藏

Spark的Web界面

已提交的作业不同阶段RDDs（弹性分布式数据集）Apache Spark UI中的"Executors"页面，该页面提供了关于Spark应用程序中执行器的详细信息。执行器是Spark应用程序中负责执行任务的进程。

overfit同步小助手 2024-09-20 02:03:35 0 收藏

Apache Uniffle 学习 —— ShuffleManagerGrpcService

ShuffleManager service 是启动在计算引擎的 Application Master 中，为这个 Application 处理 RSS 特定的逻辑。// 当 Fetch 数据失败时，汇报 fetch 失败，由 ShuffleManagerGrpcService 决定是否要进行 st

overfit同步小助手 2024-09-19 15:03:57 0 收藏

【大数据分析工具】使用Hadoop、Spark进行大数据分析

Hadoop是一个开源的分布式计算框架，最初由Apache基金会开发。Hadoop分布式文件系统（HDFS）：负责存储大规模数据，提供高吞吐量的数据访问。MapReduce：一种编程模型，用于处理和生成大规模数据集，运行在分布式集群上。YARN：Hadoop的资源管理器，用于调度系统资源，支持多种数

overfit同步小助手 2024-09-19 00:03:49 0 收藏

【大数据】MapReduce的“内存增强版”——Spark

在大数据时代，数据处理和分析成为企业竞争的重要手段。Hadoop作为大数据处理的基石，其核心组件MapReduce在众多场景中发挥了巨大作用。但是随着业务数据变多业务变复杂，MapReduce在处理速度、迭代计算等方面逐渐暴露出局限性

overfit同步小助手 2024-09-18 13:03:39 0 收藏

Hadoop完全分布式+spark（python）

这是因为在根据master主机克隆的同时把主机名也克隆了，这就导致slave1主机和slave2主机的主机名也为master，因此要进行配置，在slave1,slave2上分别执行。做完以上操作后系统的准备工作就做好了，但实际在操作主机时是不会真的在主机上操作，而通常是通过一个远程连接软件来操作主机

overfit同步小助手 2024-09-18 10:03:48 0 收藏

Hadoop实时数据处理框架Spark技术教程

SparkSQL是Apache Spark框架中的一个模块，它提供了用于处理结构化和半结构化数据的编程接口。SparkSQL不仅能够处理传统的SQL查询，还能够处理更复杂的数据类型，如JSON和XML。它通过DataFrame和Dataset API，使得开发者能够以面向对象的方式处理数据，同时保持

overfit同步小助手 2024-09-17 18:03:58 0 收藏

spark之时间序列预测(商品销量预测)

本案例使用前1913天的数据作为训练数据，来预测1914天到1941天的销量。以上数据下载后放入resources/advanced下，并在properties.properties中配置一下文件名和路径，以供程序读取和处理数据。2.模型的训练及预测利用python lightgbm进行操作，见ti

overfit同步小助手 2024-09-17 16:03:45 0 收藏

快手自研Spark向量化引擎正式发布，性能提升200%

通过引入细粒度的FailBack机制，Blaze在翻译过程中遇到暂无Native实现的算子、单个表达式或UDF时，支持算子/单个表达式粒度的回退，能够灵活回退到Spark原生执行。Spark原生执行流程主要依赖于Java虚拟机（JVM）进行任务的执行，尽管JVM在提供跨平台、内存管理等方面有着卓越的

overfit同步小助手 2024-09-17 07:03:39 0 收藏

大数据之Spark RDD 持久化

overfit同步小助手 2024-09-16 21:03:56 0 收藏

《基于 Spark 的平替药品智能推荐方法》

本篇文章将介绍，基于 Kafka + Spark + Redis 等技术，在药品开单的过程中，实现一种智能推荐平替药品的方案。💗 后续会逐步分享企业实际开发中的实战经验，有需要交流的可以联系博主。

overfit同步小助手 2024-09-14 22:03:46 0 收藏

【Hadoop Spark 大数据】豆瓣电子图书推荐系统，4个步骤实现数据驱动的图书推荐

亲爱的同学们，如果你也对大数据技术在电子图书推荐系统中的应用感兴趣，或者对我们的课题有任何想法和建议，欢迎在评论区留言交流。让我们一起探讨，共同进步！期待你的声音，让我们在评论区见！👇🏻 精选专栏推荐 👇🏻 欢迎订阅关注！大数据实战项目PHP|C#.NET|Golang实战项目微信小程序|安

overfit同步小助手 2024-09-13 07:03:57 0 收藏

Hadoop vs Spark

Spark和Hadoop比较

overfit同步小助手 2024-09-12 05:03:32 0 收藏