Hive的Rank排名(rank函数,dense_rank函数,row_numer函数)
rank函数,dense_rank函数,row_numer函数
dolphinscheduler3.0.0部署
dolphinscheduler3.0.0部署
Spark-SQL连接Hive 的五种方法
因为 Spark Thrift Server 的接口和协议都和 HiveServer2 完全一致,因此我们部署好 Spark Thrift Server 后,可以直接使用 hive 的 beeline 访问 Spark Thrift Server 执行相关语句。3.运行bin/目录下的spark-s
Hive中使用sort_array函数解决collet_list列表排序混乱问题
目录0. 相关文章链接1. 数据准备2. 使用collect_list和concat_ws进行行转列3. 使用sort_array函数解决collet_list列表排序混乱问题0. 相关文章链接开发随笔文章汇总1. 数据准备建表语句:create table temp( province st
大数据技术之SparkSQL(超级详细)
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模
Hive简介
ETL:首先从数据源池中提取数据,将数据保存在临时暂存数据库中(ODS),然后执行转换为合适目标数据仓库系统的形式,然后将结构化数据加载到仓库中,已备分析。数据仓库层(DW):数据加工与整合,建立一致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。操作型数据层(ODS):存
HIVE和HBASE的区别和联系
Hive和HBase都是Hadoop集群下的工具,Hive是对MapReduce的优化,而HBase则是HDFS数据存储的大管家。那么,这两者各适用于哪些场景呢?
Kerberos (五) --------- Hive 用户认证配置
Hive 用户认证配置
Hive安装与配置及常见问题解决
Hive安装与配置及常见问题解决
DolphinScheduler——流程调度工具
一、平台简介Apache DolphinScheduler(目前处在孵化阶段)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使易于使用,开发人员可以通过非常简单的拖拽操作构建ETL过程。不仅对于ETL开发人员,无法编写代码的人也可以使用
Hive正则表达式
Hive正则表达式
hive数据仓库课后答案
Hive数据仓库应用课后答案
Hive/Presto中函数grouping sets用法详解(踩坑总结,看到赚到)
本文详细记录了函数grouping sets使用时遇到的坑,基于Hive和Presto实现。
Sqoop 安装配置(超详细)
我没有装 HBase 和 Zookeper,所以只指定了 HADOOP 和 Hive 的路径,注意删掉前面的符号。使用 Sqoop 时的一些警告信息真令人头大,我们可以手动去关闭掉这些警告信息。为了后续方便操作 Hive,我们需要将 Hive 的驱动放入 Sqoop 的。拷贝 MySQL 驱动到 S
【hive】hive的安装配置,beeline使用(1)
hive的安装配置,beeline使用
Hive——详细总结Hive中各大查询语法
1. 基础查询1.1 WHERE、LIMIT、DISTINCT、BETWEEN、IN的使用1.2 LIKE、GROUP BY、HAVING的使用1.3 内连接&外连接【JOIN...ON ...】2. 排序查询2.1 全局排序(Order By)2.2 单个 Reduce 内部排序(Sort By)
sqoop 数据同步方案理解+问题解决
sqoop 数据同步方案理解+问题解决
Hive数据库的存储位置 & DDL
Hive数据库的存储位置 & DDL
Required field ‘client_protocol‘ is unset 原因探究
最新在做基于Thrift协议的hive客户端,但是遇到了问题,具体一点的异常如下...
从Hive源码解读大数据开发为什么可以脱离SQL、Java、Scala
本文将以大数据开发中最常见的数仓组件Hive的drop table为例,抛砖引玉,解读为神马大数据开发可以脱离SQL、Java、Scala。