scala 警告: Failed to save history 已解决

scala 警告: Failed to save history

hive on spark 执行sql报错

报错信息ERROR : FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed due to: Job 3 cancelled。这个是因为

Delta Lake 是什么?

Delta Lake 是一个开源项目,它可以运行在你现有的数据湖之上,可以在数据湖上构建湖仓一体架构,并且与 Apache Spark API 完全兼容。

spark3总结——分区数对带有初始值聚合操作的影响

spark3总结——分区数对带有初始值聚合操作的影响

Spark SQL操作数据源

一、操作MySql二、操作HIVE数据库①准备环境②创建表类型③插入数据④Spark SQL 操作Hive数据库①Spark读取MySqlStep1 登录SQLStep2 创建数据库,并选择数据库Step3 创建表Step4 插入数据到表中。

Kakfa怎么保证消息的一致性

Kafka的也存在Leader和Follow节点,这样就会有一致性问题。

大数据随记 —— DataFrame 与 RDD 之间的相互转换

在 Scala 中,使用 case class 类型导入 RDD 并转换为 DataFrame,通过 case class 创建 Schema,case class 的参数名称会被利用反射机制作为列名。通过 Spark SQL 的接口创建 RDD 的 Schema,这种方式会让代码比较冗长。这种方法

大数据项目中数据倾斜

大数据项目中数据倾斜

大数据精准营销数据分析处理(一)

大数据精准营销数据分析处理(一)

Hadoop,Spark,Tez的区别与联系

本文主要介绍,三种计算引擎的的各自优势,与区别,可以帮助你在学习过程中解决学习中的疑惑!

Dataset 的基础知识和RDD转换为DataFrame

Dataset是从Spark1.6 Alpha版本中引入的一个新的数据抽线结构,最懂在Spark2.0版本被定义成Spark新特性。RDD, DataFrame,Dataset数据对比1 RDD数据没有数据类型和元数据信息2 DataFrame添加了Schema信息,每一行的类型固定为Row,每一列

DataFrame基础知识

DataFrame:可以看出分布式Row对象的集合,在二维表数据集的每一列都带有名称和类型,这些就是schema(元数据)Select:col:某一列,as:重命名 filter:过滤groupBy() ,对记录进行分组sort排序。,并且可以从很多数据源中创建,如结构化文件、外部数据库、Hive

大数据ClickHouse(十八):Spark 写入 ClickHouse API

SparkCore写入ClickHouse,可以直接采用写入方式。下面案例是使用SparkSQL将结果存入ClickHouse对应的表中。

Spark SQL 结构化数据文件处理

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作DataFrame的编程模型(带有Schema信息的RDD)。SparkSQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrameAPI和DatasetAPI三种方法实现对结构化数据的处理。

RDD的分区、依赖关系、机制

RDD的分区原则是分区的个数尽量等于集群中的CPU核心(Core)数目。各种模式下的默认分区数目如下(1) Local模式:默认为本地机器的CPU数目,若设置了local[N].则默认为N.(2) Standalone或者Yarn模式:在“集群中所有CPU核数总和"和“2”这两者中取较大值作为默认值

spark Spark Streaming、kafka数据源Direct模式、 自定义数据源

Spark Streaming广泛运用于流式数据的处理(准实时、微批次的数据处理框架)。使用离散化流(discretized stream)作为抽象表示,即DStream。DStream 是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为 RDD 存在,而DStream是由这些RD

Hudi async/inline compaction

hudi compaction分析

添加spark的相关依赖和打包插件(第六弹)

可以看到计算出的单词频数itcast(1)Hadoop(1)spark(1)hello(3)可以看到计算出的单词频数itcast(1)Hadoop(1)spark(1)hello(3)

IDLE开发wordCount程序(第五弹)

以本地模式执行spark程序

体验第一个spark程序(第四弹)

先启动spark集群或者启动hdfs集群,如果之前有开启,则需要重新关闭再开启spark集群或者启动hdfs集群。以客户端模式连接Yarn集群,集群的位置可以在HADOOP_CONF_DIR环境变量中配置。以集群模式连接Yarn集群,集群的位置可以在HADOOP_CONF_DIR环境变量中配置。在s

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈