大数据之 impala教程
Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。
Hive的基本操作之数据导入表
进入所要导数据的表所在的库:hive> select current_database();OKtest2建表hive> create table test_user( > id int, > name string > ) > row f
1/50 hive sql 日期处理函数
hive sql 常用的日期处理函数用法
Hive中的map类型及其操作
在k-v对中,若value有多个值的情况,如 {‘k1’:‘01,02,03’} ,如果要用 ‘k1’ 中 '02’作为过滤条件,则语句如下:(这里用到split来处理)判断map中是否包含某个key值:array_contains(map_keys(k_v),‘A’)或者k_V[“A”] is n
Hive优化总结
一、SQL本身的优化1、只select需要的列,避免select *2、where条件写在子查询中,先过滤再关联3、关联条件写在on中,而不是where中4、数据量大时,用group by代替count distinct5、数据量小时,用in代替join6、避免笛卡尔积7、join时大表放后面,使用
sqllineage解析sql列级血缘并提交到datahub
通过sqllineage获取指定sql文件中HiveSQL的字段级血缘关系,并将结果提交到datahub
Hbase/Hive知识概要
hbase,hive
Hudi数据湖技术之数据中心案例实战
目录1 案例架构2 业务数据2.1 客户信息表2.2 客户意向表2.3 客户线索表2.4 线索申诉表2.5 客户访问咨询记录表3 Flink CDC 实时数据采集3.1 开启MySQL binlog3.2 环境准备3.3 实时采集数据3.3.1 客户信息表3.3.2 客户意向表3.3.3 客户线索表
【头歌】Sqoop数据导入 - 详解
【主要内容】Sqoop数据导入语法学习;Mysql导入数据至HDFS上;Mysql导入数据至Hive中。【实践内容】全过程解析及部分异常处理办法。
Hive本地模式安装(详细)
本地模式安装采用外部数据库存储元数据,该模式不需要单独开启Metastore服务,因为本地模式使用的是和Hive在同一个进程中的Metastore服务。
ODPS 之SQL
SQL语法
beeline连接hive的导出数据格式的参数及设置
beeline连接hive的导出数据格式的参数及设置
Hive实战练习(包含数据集)
(1)要想统计 Music 类别中的视频热度 Top10,需要先找到 Music 类别,那么就需要将category 展开,所以可以创建一张表用于存放 categoryId 展开的数据。所以如果要 group by 类别,需要先将类别进行列转行(展开),然后再进行 count 即可。(2)我们需要按
大数据技术笔试题库
一、单选:1、下列选项中,执行哪一个命令查看Linux系统的IP配置。A、ipconfigB、findC、ifconfigD、arp -a2、在MapReduce程序中,map()函数接收的数据格式是()。A、字符串B、整型C、LongD、键值对3、下列选项中,关于HDFS的架构说法正确的是()。A
sqoop入门简介 | 安装部署 | sqoop案例展示
ETL工具sqoop文章目录ETL工具sqoopsqoop简介sqoop安装sqoop常用命令sqoop案例sqoop简介Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如
HIve安装配置(超详细)
文章目录Hive安装配置一、Hive安装地址二、Hive安装部署1. 把 `apache-hive-3.1.2-bin.tar.gz`上传到Linux的/export/software目录下2. 解压`apache-hive-3.1.2-bin.tar.gz`到/export/servers/目录下
Spark-SQL连接Hive 的五种方法
Spark-SQL连接Hive 的五种方法
Hudi-集成 Hive
一般来说 Hudi 表在用 Spark 或者 Flink 写入数据时会自动同步到 Hive 外部表(同6.2), 此时可以直接通过 beeline 查询同步的外部表,若写入引擎没有开启自动同步,则需要手动利用 hudi 客户端工具 run_hive_sync_tool.sh 进行同步,具体后面介绍。
hive 随机抽样 distribute by rand() sort by rand() limit n
hive表随机抽样 distribute by rand() sort by rand() 以及分层抽样
实验6 熟悉Hive的基本操作
一、实验目的(1)理解Hive作为数据仓库在Hadoop体系结构中的角色。(2)熟练使用常用的HiveQL。二、实验平台操作系统:Ubuntu18.04(或Ubuntu16.04)。Hadoop版本:3.1.3。Hive版本:3.1.2。JDK版本:1.8。三、数据集由《Hive编程指南》(O’Re