DataGrip连接hive教程
虽然hive官方提供了两种的客户端,但是页面不友好、智能程度低,因此我们往往使用能够提供良好图形页面的第三方客户端。
Sqoop ---- Sqoop一些常用命令及参数
记录了 Sqoop job 的元数据信息,如果不启动该服务,那么默认 job 元数据的存储目录为~/.sqoop,可在 sqoop-site.xml 中修改。将关系型数据库中的数据导入到 HDFS(包括 Hive,HBase)中,如果导入的是 Hive,那么当 Hive 中没有对应表时,则自动创建。
【004hive基础】hive的文件存储格式与压缩
hive文件存储格式与压缩
【Spark数仓项目】需求八:MySQL的DataX全量导入和增量导入Hive
本需求将模拟从MySQL中向Hive数仓中导入数据,数据以时间分区。测试两种导入场景,一种是将数据全量导入,即包含所有时间分区;另一种是每天运行调度,仅导入当天时间分区中的用户数据。mysql表建表语句:hive注意字段时间戳,我们将从以上MySQL向Hive导入数据。编写datax的json脚本"
HIVE内表与外表的区别
hive内外表的区别,主要总结六点区别
Hive增强的聚合、多维数据集、分组和汇总
在多维分析场景下,我们可能会用到高阶聚合函数,例如CUBEROLLUP等。Hive、Spark、Presto等引擎都提供类似的高阶聚合函数,以对不同维度组合下的数据进行聚合统计Hive官方将这种分析称为GROUP BY子句增强的聚合、多维数据集、分组和汇总那么什么是增强聚合和多维分析呢?增强聚合是指
【SparkSQL】SparkSQL的运行流程 & Spark On Hive & 分布式SQL执行引擎
本文重点介绍、SparkSQL的运行流程、 SparkSQL的自动优化、Catalyst优化器、SparkSQL的执行流程、Spark On Hive原理配置、分布式SQL执行引擎概念、代码JDBC连接。
Hadoop学习总结(Hive的安装)
hadoop学习总结——安装hive
Hive 查询优化
set hive.exec.mode.local.auto=true;set mapperd.job.tracker=local;set mapreduce.framework.name=local;set hive.vectorized.execution.enabled=true;
【hive 】时间差(天、小时、分、秒)和常用时间格式转
unix_timestamp()是hive系统时间,格式是timestamp,精确到秒。unix_timestamp(ymdhms)是把时间转换成timestamp格式,是2018-05-23 07:15:50格式。unix_timestamp() - unix_timestamp(ymdhms)是
hive文件存储格式orc和parquet详解
hive orc parquet
Hive之建表的三种方式
执行的结果是table1 的表与table2的表结构是一致的,但是table1表中的数据为空;Hive建表方式统计了常见的三种建表,分别为直接命令行建表,like建表和as建表。将查询的table2表中id=1的结果插入到table1;或者使用as建表,但表结构会与原表不一致,具体往下看;#原理:直
mongodb数据同步到hive
通过 datax 从 mongodb 同步数据到 hive
【Hive-小文件合并】Hive外部分区表利用Insert overwrite的暴力方式进行小文件合并
【Hive-小文件合并】Hive外部分区表利用Insert overwrite的暴力方式进行小文件合并
【Sqoop】MySQL表导入Hive
用 Sqoop 将 MySQL 指定数据库指定的表导入Hive 的指定数据库。
hiveSql调优
| 前是map阶段执行,后的reduce阶段执行1、执行 from,进行表的查找与加载,注意要join的表也要加载进来(MapJoin除外);2、执行 where,sql 语句中 left join 写在 where 之前的,但是实际执行先执行 where 操作,因为 Hive 会对语句进行优化,如
启动hive时去掉没有用的日志信息
log4j.rootLogger:这个是设置日志级别的,当设置成不同的日志级别时,展示的日志输出是不一样的。当日志级别为WARN时,打印的还是不少日志信息。
hive 问题解决 Class path contains multiple SLF4J bindings
hive输入命令时出现日志冲突提示(问题不复杂,是个warn,强迫症解决,做项目经常遇到,项目里是处理maven。这里处理方法思路类似。这里选简单的删除日志冲突包,删除hive目录下的包。一种是屏蔽日志冲突包,一种删除多余包。日志冲突提示已消失。
大数据学习(23)-hive on mapreduce对比hive on spark
需要注意的是,随着 Apache Spark 的普及和发展,Hive on Spark 逐渐成为主流的 Hive 运行环境。许多公司和组织已经将 Spark 作为其默认的计算引擎,并逐渐将 Hive 从 MapReduce 迁移到 Spark 上。Hive on Spark 和 Hive on Ma
【Python大数据笔记_day10_Hive调优及Hadoop进阶】
Hive调优及Hadoop进阶