hive基于新浪微博的日志数据分析——项目及源码
本系统旨在对新浪微博日志进行大数据分析,探究用户行为、内容传播、移动设备等多个方面的特征和趋势,为企业和个人的营销策略、产品设计、用户服务等提供有益的参考和支持。系统基于Hive平台,能够对大规模的微博数据进行处理和分析,输出有关用户量、微博转发量、用户发布微博数量、带图片微博数据等多个方面的统计信
hive之with as 和 create temporary区别
在写hivesql语句时,通常因为实现一个比较复杂的逻辑时。
Hive中的HASH函数规则及示例
Hive中的哈希函数采用的是MurmurHash算法,这是一种非常高效的哈希算法。该算法将输入数据分为若干个块,每个块都进行哈希计算,最终将所有块的哈希值合并起来得到最终的哈希值。在执行上述查询语句时,Hive会自动调用HASH函数对每个姓名进行哈希计算,并将具有相同哈希值的姓名放入同一个分组中,最
大数据技术之Spark——Spark SQL
我们之前学习过hive,hive是一个基于hadoop的SQL引擎工具,目的是为了简化mapreduce的开发。由于mapreduce开发效率不高,且学习较为困难,为了提高mapreduce的开发效率,出现了hive,用SQL的方式来简化mapreduce:hive提供了一个框架,将SQL转换成ma
hive创建唯一标识列(自增id)
hive创建唯一标识列(自增id)
Oracle 迁移 Hive 过程中遇到的问题总结
最近一个小伙伴在做从Oracle到Hive的业务迁移工作,在迁移过程中属实遇到了一些坑,今天就来汇总一下这些坑,避免以后大家其他业务迁移的时候再出现类似的问题,即使出现了也可以拿过来进行对照解决。在迁移业务的过程中,要了解不同系统中函数的用法,希望我遇到的坑,给大家带来一点借鉴意义!
Hive调优之计算资源配置(一)
hive调优
flink-sql读写hive-1.16
本文为 flink 1.16 官网中读写 hive 部分的翻译整理。
Hive窗口函数-lead/lag函数
Hive窗口函数-lead/lag函数
SQL实现一行数据分组后转多行多列
通过聚合拆分再聚合的方式实现一行数据变分组的多行多列
hive中substring_index()的使用
hive sql substring_index
解决Hive视图View数据乱码的问题
解决Hive视图View数据乱码的问题
Hive(25):Select高级查询之Subqueries子查询
1 from子句中子查询在Hive0.12版本,仅在FROM子句中支持子查询。而且必须要给子查询一个名称,因为FROM子句中的每个表都必须有一个名称。子查询返回结果中的列必须具有唯一的名称。子查询返回结果中的列在外部查询中可用,就像真实表的列一样。子查询也可以是带有UNION的查询表达式。Hive支
sql数据类型映射与数据类型转换
MaxCompute 2.0新增了DECIMAL类型与DATETIME的常量定义方式,100BD是数值为100的DECIMAL,2017-11-11 00:00:00是DATETIME类型的常量。关于CAST的介绍请参见CAST。关系运算符包括=、<>、<、<=、>、>=、IS NULL、IS NO
Flink Direct Reader访问Hive ACID表被ranger授权限制
Flink Direct Reader 绕过了 Hive Thrift 接口,直接读取 Hive ACID 表的数据文件,因此无法受到 Ranger 的授权限制。要在受到 Ranger 鉴权的环境中访问 Hive ACID 表,可以考虑使用 Hive Thrift 接口或配置适当的 Ranger 授
Hive 窗口函数大全
hive的窗口函数使用集合和使用示例
使用hive查看orc文件 orcfiledump命令详解 异常处理(Failed to read ORC file)
hadoop hive查看orc文件 orc文件修复 orcfiledump命令详解
HIVE获取json字段特定值(单个json或者json数组)
说明:解析json的字符串json_string,可指定多个json数据中的key,返回对应的value。代码:SELECT get_json_object(‘{“NAME”:“张三”,“ID”:“1”}’,‘$.NAME’) as name;SELECT get_json_object(‘{“NA
Hive学习(11)hive去除空格或去掉字符串前后或中间的某一字符串
hive去除空格或字符串某一字符时,MySQL及Hive解决方案
hive sql—开窗函数—累积求和和滑动求和
hive sql—开窗函数—累积求和和滑动求和