Hive - overfit.cn

数据分析SQL移动平均值

对序列的值，按一定窗口大小并顺序滑动，计算全部算术平均值例：对于序列X1,X2,...XnX1,X2,...Xn计算X1+X2+X33,X2+X3+X43,X3+X4+X53...X3+X4+X533X1+X2+X3,3X2+X3+X4,3X3+X4+X5...

overfit同步小助手 2022-10-05 13:56:00 0 收藏

【Hbase】hbase和HIve（类sql）的整合（5）

hbase和HIve（类sql）的整合

overfit同步小助手 2022-10-04 07:06:14 0 收藏

大数据ClickHouse进阶（十五）：ClickHouse的LIMIT BY和 LIMIT子句

LIMIT BY 子句运行在Order by 之后和LIMIT 之前，能够按照指定分组，最多返回前n行数据，如果数据总行少于n行，则按实际数量返回，常用于TOPN的查询场景，功能类似Hive中的开窗函数。n指的是获取几条数据；express通常是一到多个字段，即按照express分组获取每个分组的前

overfit同步小助手 2022-10-03 07:06:08 0 收藏

CDH CDH 13Cloudera Manager Console FreeIPA 用户规划(markdown新版)

freeIPA用户团队权限规划

overfit同步小助手 2022-10-02 07:06:08 0 收藏

【大数据】Hadoop在呼唤Hive（附一键部署Hive脚本）

汝之观览，吾之幸也！本文主要讲解Hive部署到Hadoop集群并使用，结尾附一键部署Hive脚本

overfit同步小助手 2022-10-02 07:06:03 0 收藏

被CTO推荐的SQL总结

写SQL很多年后，做的小总结

overfit同步小助手 2022-10-01 07:05:58 0 收藏

大数据面试之hive重点（四）

overfit同步小助手 2022-09-24 14:02:30 0 收藏

hive on spark 执行sql报错

报错信息ERROR : FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed due to: Job 3 cancelled。这个是因为

overfit同步小助手 2022-09-22 10:22:35 0 收藏

大数据ClickHouse进阶（十）：ClickHouse的Array Join子句

Array join 子句允许在数据表的内部，与数组类型的字段进行join操作，从而将一行数组展开为多行。我们可以使用array join针对以上表数组字段一条膨胀成多条数据，类似Hive中的explode函数，在ClickHouse中没有explode函数，可以使用array join 达到同样效

overfit同步小助手 2022-09-19 10:26:31 0 收藏

hive shell中有许多日志信息的解决办法

hive shell中出现大量日志信息的解决办法！hive-3.1.2

overfit同步小助手 2022-09-19 10:26:27 0 收藏

Hadoop内hive之间，hive与DB、ES等之间数据交互的问题与解决方案

之前做大数据处理，经常遇到各种问题。很多时候是项目作业简单项配置问题，也可能是导入导出参数配置的问题，也可能是公司Hadoop平台的问题。那么如何排查问题，解决问题？这种事情，除了自己要积累一些大数据的知识和技能外，也需要一些获得一些排查问题的技巧、方法。

overfit同步小助手 2022-09-11 11:24:53 0 收藏

SparkSQL 总结（未完待续）

Spark SQL 是Spark 用于结构化数据(structured data)处理的 Spark 模块。

overfit同步小助手 2022-09-10 07:54:13 0 收藏

Spark SQL操作数据源

一、操作MySql二、操作HIVE数据库①准备环境②创建表类型③插入数据④Spark SQL 操作Hive数据库①Spark读取MySqlStep1 登录SQLStep2 创建数据库，并选择数据库Step3 创建表Step4 插入数据到表中。

overfit同步小助手 2022-09-10 07:54:07 0 收藏

折腾一晚上的事情，明白了一个道理

感悟：有时候很简单的笨办法，比那些高大上的技术要实用的多。有一个数据同步，大约4亿条记录，没有分区。现在要按照天，小时分区写入到iceberg的分区表中。源数据中本身就是很多几十k大小的非常多的小文件。于是在读取时，总想着要shuffle，合并小文件,于是是这样的：hive_df = spark.t

overfit同步小助手 2022-09-06 07:53:53 0 收藏

数据仓库hive本地模式安装

hive是建立在hadoop文件系统上的数据仓库，提供了一系列的工具，能对存储在HDFS中的数据进行提取，转换，加载等操作；该文主要介绍了hive本地模式的部署。

overfit同步小助手 2022-09-04 07:54:15 0 收藏

【Hive】各种join连接用法

hive join连接的各种用法

overfit同步小助手 2022-09-04 07:53:58 0 收藏

大数据项目中数据倾斜

overfit同步小助手 2022-09-02 07:11:07 0 收藏

【大数据】HDFS、Hive、FTP的内网间的相互传递（附脚本获取数据）

汝之观览，吾之幸也！本文讲解生产中会遇到的问题，一般集群都部署在外网，如果集群部署在内网，那么怎么同步之前的Hive数据到外网，或者两个内网间怎么同步Hive数据，本文主要以shell脚本演示。...

overfit同步小助手 2022-09-01 07:11:03 0 收藏

hive统计每五分钟交易量SQL

1，通过函数 floor()、ceil()、date_format()函数分别获取交易时间字段对应的五分总字段。方法二通过lateral view函数配合explode及split 实现时间列表初始化。

overfit同步小助手 2022-08-30 08:55:25 0 收藏

HiveSQL优化技巧总结

基于Hive的开发过程中主要涉及到的可能是SQL优化这块。减少数据量（例如分区、列剪裁）避免数据倾斜（例如加参数、Key打散）避免全表扫描（例如on添加加上分区等）减少job数（例如相同的on条件的join放在一起作为一个任务）

overfit同步小助手 2022-08-26 07:17:53 0 收藏