大数据Presto(一):Presto介绍
一、Presto出现背景Presto是Facebook在2012年开发的,是专为Hadoop打造的一款数据仓库工具。在早期Facebook依赖Hive做数据分析,Hive底层依赖MapReduce,随着数据量越来越大,使用Hive进行数据分析,时间可能需要分钟级到小时级别
数据分析SQL移动平均值
对序列的值,按一定窗口大小并顺序滑动,计算全部算术平均值例:对于序列X1,X2,...XnX1,X2,...Xn计算X1+X2+X33,X2+X3+X43,X3+X4+X53...X3+X4+X533X1+X2+X3,3X2+X3+X4,3X3+X4+X5...
【Hbase】hbase和HIve(类sql)的整合(5)
hbase和HIve(类sql)的整合
大数据ClickHouse进阶(十五):ClickHouse的LIMIT BY和 LIMIT子句
LIMIT BY 子句运行在Order by 之后和LIMIT 之前,能够按照指定分组,最多返回前n行数据,如果数据总行少于n行,则按实际数量返回,常用于TOPN的查询场景,功能类似Hive中的开窗函数。n指的是获取几条数据;express通常是一到多个字段,即按照express分组获取每个分组的前
CDH CDH 13Cloudera Manager Console FreeIPA 用户规划(markdown新版)
freeIPA用户团队权限规划
【大数据】Hadoop在呼唤Hive(附一键部署Hive脚本)
汝之观览,吾之幸也!本文主要讲解Hive部署到Hadoop集群并使用,结尾附一键部署Hive脚本
被CTO推荐的SQL总结
写SQL很多年后,做的小总结
大数据面试之hive重点(四)
大数据面试之hive重点(四)
hive on spark 执行sql报错
报错信息ERROR : FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed due to: Job 3 cancelled。这个是因为
大数据ClickHouse进阶(十):ClickHouse的Array Join子句
Array join 子句允许在数据表的内部,与数组类型的字段进行join操作,从而将一行数组展开为多行。我们可以使用array join针对以上表数组字段一条膨胀成多条数据,类似Hive中的explode函数,在ClickHouse中没有explode函数,可以使用array join 达到同样效
hive shell中有许多日志信息的解决办法
hive shell中出现大量日志信息的解决办法!hive-3.1.2
Hadoop内hive之间,hive与DB、ES等之间数据交互的问题与解决方案
之前做大数据处理,经常遇到各种问题。很多时候是项目作业简单项配置问题,也可能是导入导出参数配置的问题,也可能是公司Hadoop平台的问题。那么如何排查问题,解决问题?这种事情,除了自己要积累一些大数据的知识和技能外,也需要一些获得一些排查问题的技巧、方法。
SparkSQL 总结(未完待续)
Spark SQL 是Spark 用于结构化数据(structured data)处理的 Spark 模块。
Spark SQL操作数据源
一、操作MySql二、操作HIVE数据库①准备环境②创建表类型③插入数据④Spark SQL 操作Hive数据库①Spark读取MySqlStep1 登录SQLStep2 创建数据库,并选择数据库Step3 创建表Step4 插入数据到表中。
折腾一晚上的事情,明白了一个道理
感悟:有时候很简单的笨办法,比那些高大上的技术要实用的多。有一个数据同步,大约4亿条记录,没有分区。现在要按照天,小时分区写入到iceberg的分区表中。源数据中本身就是很多几十k大小的非常多的小文件。于是在读取时,总想着要shuffle,合并小文件,于是是这样的:hive_df = spark.t
数据仓库hive本地模式安装
hive是建立在hadoop文件系统上的数据仓库,提供了一系列的工具,能对存储在HDFS中的数据进行提取,转换,加载等操作;该文主要介绍了hive本地模式的部署。
【Hive】各种join连接用法
hive join连接的各种用法
大数据项目中数据倾斜
大数据项目中数据倾斜
【大数据】HDFS、Hive、FTP的内网间的相互传递(附脚本获取数据)
汝之观览,吾之幸也!本文讲解生产中会遇到的问题,一般集群都部署在外网,如果集群部署在内网,那么怎么同步之前的Hive数据到外网,或者两个内网间怎么同步Hive数据,本文主要以shell脚本演示。...
hive统计每五分钟交易量SQL
1,通过函数 floor()、ceil()、date_format()函数分别获取交易时间字段对应的五分总字段。方法二 通过lateral view函数配合explode及split 实现时间列表初始化。