大数据 Spark - overfit.cn

Spark SQL 结构化数据文件处理

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个叫作DataFrame的编程模型（带有Schema信息的RDD）。SparkSQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrameAPI和DatasetAPI三种方法实现对结构化数据的处理。

overfit同步小助手 2022-08-22 07:18:08 0 收藏

RDD的分区、依赖关系、机制

RDD的分区原则是分区的个数尽量等于集群中的CPU核心(Core)数目。各种模式下的默认分区数目如下(1) Local模式:默认为本地机器的CPU数目,若设置了local[N].则默认为N.(2) Standalone或者Yarn模式:在“集群中所有CPU核数总和"和“2”这两者中取较大值作为默认值

overfit同步小助手 2022-08-19 13:13:21 0 收藏

spark Spark Streaming、kafka数据源Direct模式、自定义数据源

Spark Streaming广泛运用于流式数据的处理（准实时、微批次的数据处理框架）。使用离散化流(discretized stream)作为抽象表示，即DStream。DStream 是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数据都作为 RDD 存在，而DStream是由这些RD

overfit同步小助手 2022-08-15 07:55:57 0 收藏

Hudi async/inline compaction

hudi compaction分析

overfit同步小助手 2022-08-13 08:55:27 0 收藏

添加spark的相关依赖和打包插件（第六弹）

可以看到计算出的单词频数itcast（1）Hadoop（1）spark（1）hello（3）可以看到计算出的单词频数itcast（1）Hadoop（1）spark（1）hello（3）

overfit同步小助手 2022-08-11 07:36:01 0 收藏

IDLE开发wordCount程序（第五弹）

以本地模式执行spark程序

overfit同步小助手 2022-08-10 07:36:22 0 收藏

体验第一个spark程序（第四弹）

先启动spark集群或者启动hdfs集群，如果之前有开启，则需要重新关闭再开启spark集群或者启动hdfs集群。以客户端模式连接Yarn集群，集群的位置可以在HADOOP_CONF_DIR环境变量中配置。以集群模式连接Yarn集群，集群的位置可以在HADOOP_CONF_DIR环境变量中配置。在s

overfit同步小助手 2022-08-08 08:35:45 0 收藏

spark集群部署(第三弹)

（1）spark.deploy.recoveryMode=ZOOKEEPER：设置zookeeper去启用备用master模式（2）spark.deploy.zookeeper.url=master：指定zookeeper的server地址（3）spark.deploy.zookeeper.dir：

overfit同步小助手 2022-08-06 07:36:18 0 收藏

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

一文看懂大数据生态圈完整知识体系

overfit同步小助手 2022-08-05 08:16:09 0 收藏

搭建Spark开发环境（第二弹）

😊😊😊欢迎来到本博客😊😊😊本篇介绍的是Spark环境的准备🛠🛠🛠预更新📑：体验第一个Spark程序一.环境准备二·.spark的部署方式三.spark集群安装部署一.环境准备配置环境：Hadoop、spark（本人是2.0.0）、JDK（1.8）、Linux（Centos6.7）

overfit同步小助手 2022-08-03 08:16:03 0 收藏

搭建Spark开发环境

spark集群基础环境配置：export SCALA_HOME=/opt/module/scala-2.11.8export PATH=$PATH:$SCALA_HOME/bin环境配置：export SCALA_HOME=/opt/module/scala-2.11.8export PATH=$P

overfit同步小助手 2022-08-02 07:15:44 0 收藏

【面经】米哈游数据开发面经

面经

overfit同步小助手 2022-07-30 07:56:22 0 收藏

8000字讲透OBSA原理与应用实践

OBSA项目是围绕OBS建立的大数据和AI生态，其在不断的发展和完善中，目前有如下子项目：hadoop-obs项目和flink-obs项目。

overfit同步小助手 2022-07-29 09:42:16 0 收藏

spark：指定日期输出相应日期的日志（入门级-简单实现）

指定日期为2015.05.20，输出这一天的日志。代码如下（日志文件自己找）

overfit同步小助手 2022-07-25 07:50:22 0 收藏

spark：计算不同分区中相同key的平均值（入门级-简单实现）

计算不同分区中相同key的平均值。combineByKey实现、aggregateByKey实现。

overfit同步小助手 2022-07-25 07:50:18 0 收藏

spark学习笔记（三）——sparkcore基础知识

ApplicationMaster用于向资源调度器申请执行任务的资源容器Container，，监控整个任务的执行，跟踪整个任务的状态，处理任务失败等异常情况。sparkstreaming提供了丰富的处理数据流的API。（9）执行main函数，执行Action算子（Action。（9）执行main函数

overfit同步小助手 2022-07-23 07:50:30 0 收藏

漏洞复现：Apache Spark 命令注入（CVE-2022-33891）

ApacheSparkUI可以设置选项spark.acls.enable启用ACL，使用身份验证过滤器。用以检查用户是否具有查看或修改应用程序的访问权限。如果启用了ACL则HttpSecurityFilter中的代码路径可以允许用户通过提供任意用户名来执行命令。该功能最终将根据用户输入构建一个Uni

overfit同步小助手 2022-07-21 07:54:44 0 收藏

Spark高效数据分析04、RDD创建

💝博客【红目香薰的博客_CSDN博客-计算机理论,2022年蓝桥杯,MySQL领域博主】💝✍本文由在下【红目香薰】原创，首发于CSDN✍🤗2022年最大愿望【服务百万技术人次】🤗💝Spark初始环境地址【Spark高效数据分析01、idea开发环境搭建】💝。......

overfit同步小助手 2022-07-21 07:54:38 0 收藏

数据湖（十四）：Spark与Iceberg整合查询操作

文章目录Spark与Iceberg整合查询操作一、DataFrame API加载Iceberg中的数据二、查询表快照三、查询表历史四、查询表data files五、查询Manifests六、查询指定快照数据七、根据

overfit同步小助手 2022-07-06 08:53:25 0 收藏

大数据面试题——spark

讲一下spark 的运行架构????Cluster Manager(Master)：在standalone模式中即为Master主节点，控制整个集群，监控worker。在YARN模式中为资源管理器???? Worker节点：从节点，负责控制计算节点，启动Executor或者Driver。???? D

overfit同步小助手 2022-07-02 07:53:54 0 收藏