了解hive on spark和spark on hive

大数据刚出来的时候,并不是很完善。发展的不是很快,尤其是在计算服务上,当时使用的是第一代mr计算引擎,相对来说计算并不是那么快。让大数据快速发展的是2009年伯克利大学诞生的spark,并在2013年成为Aparch的顶级开源项目。使大数据发展比较迅速、但是随着spark的快速发展,对于不太会用sp

Hadoop 之 Spark 配置与使用(五)

Spark 单机部署、集群部署Java 访问 Spark 测试

HDFS 分布式存储 spark storm HBase

基于Hadoop 数据保存到HDFS数据仓库工具结构化的数据 映射为一张数据库表01,张三,8902,李四,9103,赵武,92HQL查询功能 (Hive SQL)本质 把HQL翻译成MapReduce 降低使用hadoop计算的门槛离线数据分析开发效率比直接用MapReduce 高hive提供的函

采用seatunnel提交Flink和Spark任务

seatunnel 是一个非常易用,高性能、支持实时流式和离线批处理的海量数据处理产品,架构于Apache Spark 和 Apache Flink之上。seatunnel 让Spark和Flink的使用更简单,更高效。特性。

Presto、Spark 和 Hive 即席查询性能对比

Spark 则是一个基于内存的分布式计算框架,可以快速地处理大规模的数据,并且具有很高的可扩展性。Presto 可以很容易地集成到现有的数据架构中,并且可以在不同的数据源之间进行无缝的查询。它们都具有各自的优缺点,在不同的场景下都有着不同的应用价值。Spark 是一个基于内存的分布式计算框架,它可以

Spark运行架构

Spark运行架构、核心组件、核心概念

腾讯云对象存储联合DataBend云数仓打通数据湖和数据仓库

伴随多场景的成功落地,腾讯云对象存储打造基于云技术的湖仓一体解决方案。将数据仓库构建在数据湖上,打通数据仓库和数据湖两套体系,构建以数据湖为中心,融合数据仓库、大数据、AI等技术的生态体系,既有数据湖的灵活性和可扩展性,又有数据仓库的数据管理功能。

Spark操作HBase的数据,实现列值的计算

本文将介绍如何使用Spark操作HBase的数据,实现列之间的计算,以特征值计算为例。主要内容如下:创建SparkSession和HBaseConfiguration对象。读取HBase表的数据,并转化成RDD。进行列式计算,得到特征值,并转化成RDD。写入HBase表的数据。验证HBase表的数据

SparkSQL中数据转换的方法

以上代码中,我们按照"department"列对DataFrame进行分组,并计算每个部门的平均工资和总工资。以上是SparkSQL中常见的数据转换方法,可以根据实际需要进行选择和组合,完成复杂的数据处理和分析任务。,并将其应用于DataFrame中的"salary"列,计算每个员工的奖金。以上代码

Hudi的7种索引

Hudi的7种索引

CDH-6.3.2从零到一的详细安装教程&hive on Spark性能测试教程

CDH-6.3.2详细安装教程,从零到一的详细教程,包括mysql、Java、CM、hive、Spark、Hadoop、zookeeper、kafka、Hue、flume、oozie的安装教程

Spark Explain:查看执行计划

Spark SQL explain 方法有 simple、extended、codegen、cost、formatted 参数,具体如下

【Spark】concat、concat_ws函数的使用

concat、concat_ws函数的使用

第三部分:Spark调优篇

Spark优化包括:常规性能调优、算子调优、Shuffle调优、JVM调优、数据倾斜方面的调优等知识点

spark学习之maven导入依赖的一些问题

maven版本过高会无法导入部分scala的依赖,但也不必担心我们换一个版本即可,我这里用的maven仓库版本是3.8.6差不多是最新版的了(现在最新版本的是4.0了),刚开始导入依赖会出现很多问题,maven提示下载好了,但是依赖并没有导入进来导致jar还是不可用,所以这时候我们应该改变versi

SparkUI超详细解释(2)——Stages

推测的原因是这个stage对应的是以下面的代码,上下两个shuffle的key相同又有一次union all,所以可以放在一个stage中,虽然task数量是4000,但是上面的shuffle数据是分在2000个task中,下面的是另一个2000task中,并不会两者合在一起hash到4000个ta

Scala 环境搭建安装配置

Scala环境搭建安装配置

关于Java连接Hive,Spark等服务的Kerberos工具类封装

关于Java连接Hive,Spark等服务的Kerberos工具类封装

hive on spark 时,executor和driver的内存设置,yarn的资源设置

hive on spark 时,executor和driver的内存设置,yarn的资源设置。

pyspark 集成指定python版本

pyspark 指定python版本

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈