【Hadoop技术篇】hive的优化,经典面试

hive的优化,经典面试

基于antlr-3.5.2+Python实现一般HiveSQL血缘解析(一)

作为一个开发实践项目,实现对HiveSQL语句的解析可以很有效的作为管理用户查询权限的管理。对于这方面的知识本身也不是非常熟悉了解,很多时候也是边学边记。身边也没有人指导这个方案具体该怎么实现怎么做,只有需求是要将复杂查询或者是关联建表的SQL语句能够将其库名和表名全都给提取出来并且能够实现上下游的

大数据Presto(一):Presto介绍

一、​​​​​​​​​​​​​​Presto出现背景Presto是Facebook在2012年开发的,是专为Hadoop打造的一款数据仓库工具。在早期Facebook依赖Hive做数据分析,Hive底层依赖MapReduce,随着数据量越来越大,使用Hive进行数据分析,时间可能需要分钟级到小时级别

数据分析SQL移动平均值

对序列的值,按一定窗口大小并顺序滑动,计算全部算术平均值例:对于序列X1,X2,...XnX1​,X2​,...Xn​计算X1+X2+X33,X2+X3+X43,X3+X4+X53...X3+X4+X533X1​+X2​+X3​​,3X2​+X3​+X4​​,3X3​+X4​+X5​​...

【Hbase】hbase和HIve(类sql)的整合(5)

hbase和HIve(类sql)的整合

大数据ClickHouse进阶(十五):ClickHouse的LIMIT BY和 LIMIT子句

LIMIT BY 子句运行在Order by 之后和LIMIT 之前,能够按照指定分组,最多返回前n行数据,如果数据总行少于n行,则按实际数量返回,常用于TOPN的查询场景,功能类似Hive中的开窗函数。n指的是获取几条数据;express通常是一到多个字段,即按照express分组获取每个分组的前

CDH CDH 13Cloudera Manager Console FreeIPA 用户规划(markdown新版)

freeIPA用户团队权限规划

【大数据】Hadoop在呼唤Hive(附一键部署Hive脚本)

汝之观览,吾之幸也!本文主要讲解Hive部署到Hadoop集群并使用,结尾附一键部署Hive脚本

被CTO推荐的SQL总结

写SQL很多年后,做的小总结

大数据面试之hive重点(四)

大数据面试之hive重点(四)

hive on spark 执行sql报错

报错信息ERROR : FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed due to: Job 3 cancelled。这个是因为

大数据ClickHouse进阶(十):ClickHouse的Array Join子句

Array join 子句允许在数据表的内部,与数组类型的字段进行join操作,从而将一行数组展开为多行。我们可以使用array join针对以上表数组字段一条膨胀成多条数据,类似Hive中的explode函数,在ClickHouse中没有explode函数,可以使用array join 达到同样效

hive shell中有许多日志信息的解决办法

hive shell中出现大量日志信息的解决办法!hive-3.1.2

Hadoop内hive之间,hive与DB、ES等之间数据交互的问题与解决方案

之前做大数据处理,经常遇到各种问题。很多时候是项目作业简单项配置问题,也可能是导入导出参数配置的问题,也可能是公司Hadoop平台的问题。那么如何排查问题,解决问题?这种事情,除了自己要积累一些大数据的知识和技能外,也需要一些获得一些排查问题的技巧、方法。

SparkSQL 总结(未完待续)

Spark SQL 是Spark 用于结构化数据(structured data)处理的 Spark 模块。

Spark SQL操作数据源

一、操作MySql二、操作HIVE数据库①准备环境②创建表类型③插入数据④Spark SQL 操作Hive数据库①Spark读取MySqlStep1 登录SQLStep2 创建数据库,并选择数据库Step3 创建表Step4 插入数据到表中。

折腾一晚上的事情,明白了一个道理

感悟:有时候很简单的笨办法,比那些高大上的技术要实用的多。有一个数据同步,大约4亿条记录,没有分区。现在要按照天,小时分区写入到iceberg的分区表中。源数据中本身就是很多几十k大小的非常多的小文件。于是在读取时,总想着要shuffle,合并小文件,于是是这样的:hive_df = spark.t

数据仓库hive本地模式安装

hive是建立在hadoop文件系统上的数据仓库,提供了一系列的工具,能对存储在HDFS中的数据进行提取,转换,加载等操作;该文主要介绍了hive本地模式的部署。

【Hive】各种join连接用法

hive join连接的各种用法

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈