大数据 Spark - overfit.cn

Spark SQL操作HUDI表实践

从 0.9.0 开始 hudi 已经支持 hudi 内置的 FileIndex：HoodieFileIndex 来查询 hudi 表，支持分区剪枝和 metatable 查询。这将有助于提高查询性能。它还支持非全局查询路径，这意味着用户可以通过基本路径查询表，而无需在查询路径中指定“*”。有关支持的

overfit同步小助手 2023-04-15 22:04:02 0 收藏

Spark算子-Scala版本头歌答案

overfit同步小助手 2023-04-15 12:03:46 0 收藏

Spark-SQL连接Hive 的五种方法

因为 Spark Thrift Server 的接口和协议都和 HiveServer2 完全一致，因此我们部署好 Spark Thrift Server 后，可以直接使用 hive 的 beeline 访问 Spark Thrift Server 执行相关语句。3.运行bin/目录下的spark-s

overfit同步小助手 2023-04-15 11:03:54 0 收藏

Spark 基本架构及运行原理

Spark运行架构包括集群资源管理器（Cluster Manager）、运行作业任务的工作节点（Worker Node）、每个应用的任务控制节点（Driver）和每个工作节点上负责具体任务的执行进程（Executor）。其中，集群资源管理器可以是Spark自带的资源管理器，也可以是YARN或Meso

overfit同步小助手 2023-04-15 09:03:53 0 收藏

大数据技术之SparkSQL（超级详细）

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模

overfit同步小助手 2023-04-15 08:04:32 0 收藏

大数据编程实验一：HDFS常用操作和Spark读取文件系统数据

大数据编程实验，利用本地搭建的伪分布式集群进行HDFS常用操作和Spark读取文件系统数据的操作。

overfit同步小助手 2023-04-13 17:04:00 0 收藏

DolphinScheduler——流程调度工具

一、平台简介Apache DolphinScheduler（目前处在孵化阶段）是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统，其致力于解决数据处理流程中错综复杂的依赖关系，使易于使用，开发人员可以通过非常简单的拖拽操作构建ETL过程。不仅对于ETL开发人员，无法编写代码的人也可以使用

overfit同步小助手 2023-04-13 13:03:46 0 收藏

Spark系列之SparkSubmit提交任务到YARN

overfit同步小助手 2023-04-13 00:03:51 0 收藏

PySpark之Python版本如何选择(详细版)

通过Python爬虫抓取Spark和Python的所有版本清单，然后选择PySpark对应的Python版本时，Python的版本清单中， **按照python版本排序之后** 距离Spark版本的发布时间最近的Python版本，基本就是该Spark版本需要的最新的Python版本了；另外Spar

overfit同步小助手 2023-04-12 11:03:45 0 收藏

SPARK数据分析

重点回顾今天这一讲，我们主要围绕数据的生命周期，学习了 Spark SQL 在不同数据阶段支持的处理算子，如下图所示图中涉及的算子很多，尽管大部分我们都举例讲过了，但要在短时间之内一下子掌握这么多内容，确实强人所难。不过，你不用担心，今天这一讲，最主要的目的，还是想让你对 Spark SQL 支持的

overfit同步小助手 2023-04-12 08:03:45 0 收藏

Spark读取JDBC调优

overfit同步小助手 2023-04-11 20:03:40 0 收藏

Spark了解

Apache Spark是一个快速、通用、可扩展的分布式计算系统，最初由加州大学伯克利分校的AMPLab开发。Spark可以处理大规模数据处理任务，包括批处理、迭代式算法、交互式查询和流处理等。Spark支持多种编程语言，包括Java、Scala、Python和R等。Spark的核心概念是弹性分布式

overfit同步小助手 2023-04-11 11:04:03 0 收藏

转行大数据未来发展怎么样？可行么

近年来越来越多的人选择大数据行业，大数据行业前景不错薪资待遇好，各大名企对于大数据人才需求不断上涨。大数据从业领域很宽广，不管是科技领域还是食品产业，零售业等都是需要大数据人才进行大数据的处理，以提供更好的用户体验，优化库存降低成本预测需求。大数据开发分两类，编写Hadoop、Spark的应用程序和

overfit同步小助手 2023-04-11 07:03:51 0 收藏

SparkSQL知识点总结

零基础学sparksql

overfit同步小助手 2023-04-11 02:03:37 0 收藏

解决集群部署Hadoop 启动后没有ResourceManager问题

解决集群部署Hadoop 启动后没有ResourceManager问题，java.lang.reflect.InaccessibleObjectException异常

overfit同步小助手 2023-04-10 20:03:53 0 收藏

数仓之hive自定义UDTF函数详解

自定义UDTF函数

overfit同步小助手 2023-04-10 19:03:40 0 收藏

【Ubuntu-大数据】spark安装配置

然后按下退出键ESC，然后是shift+冒号健输入一个英文冒号，他就会在最下面生成一个冒号。（4）赋予该文件相关权限（lpp2是你的hadoop名字，可以在设置的【用户】中查看）（8）直接使用它bin下面的这个命令来运行试试：（运行它自带的实例，检查是否安装成功）（1）解压压缩包到之前Hadoop安

overfit同步小助手 2023-04-10 06:03:47 0 收藏

【持续更新】Spark Submit命令配置参数详解

spark submit 参数

overfit同步小助手 2023-04-09 21:04:07 0 收藏

Spark搭建/Hadoop集群

Spaek基础搭建；基于Hadoop集群.

overfit同步小助手 2023-04-09 00:03:54 0 收藏

美食推荐系统的设计与实现

课题设计推荐系统是一款美食推荐系统，该系统是基于C/S+B/S模式来设计，技术上采用Html5+JSP网页技术+个性化推荐技术开发，利用Java技术来实现，通过MySQL数据库来存取美食推荐系统相关的信息，Html5注册用户和商家用户可餐厅美食推荐列表、购物车订单及个人中心等，后台管理端可对菜品信息

overfit同步小助手 2023-04-08 08:04:00 0 收藏