HIVE中PST, UTC, PRC(CST)时区转换

以上是把PST时间转成PRC时间,其它同理。

Hive 中 sort by 和 order by 的区别

在 Hive 中,SORT BY和ORDER BY都用于对查询结果进行排序,但它们在实现方式和适用场景上有一些区别。

配置开启Hive远程连接

使用IDEA工具远程连接Hive,首先需要配置开启Hive远程连接支持,主要有2种方式来配置开启Hive远程连接。

数据仓库ELT流程是啥?8大好用的ELT工具我找来了,赶紧收藏!

数据清洗是数据转换的一个子集,主要是对原始数据进行清理、过滤、去重、处理异常数据等操作,以消除数据中的问题,如数据重复、二义性、不完整、违反业务或逻辑规则等,保证数据的准确性和稳定性。Logstash:一个开源的ETL工具,主要用于数据采集和转换。FineDataLink:帆软推出的一款可视化ETL

Git 基本操作【本地仓库与远程仓库的推送、克隆和拉取】

Git是分布式版本控制系统(Distributed Version Control System,简称 DVCS),分为两种类型的仓库:本地仓库和远程仓库工作流程如下1.从远程仓库中克隆或拉取代码到本地仓库(clone/pull)2.从本地进行代码修改3.在提交前先将代码提交到暂存区4.提交到本地仓

hive--给表名和字段加注释

增加之后的注释,会在元数据库(一般在MySQL 中的 hive 库)中的 TABLE_PARAMS 表中显示,该表存储 表/视图 的属性信息。注意:comment一定要是小写的,不能是COMMENT,且必须要加单引号!4.字段名修改添加注释。

Hive 处理 13 位时间戳,得到年月日时分秒(北京时间)

Hive 处理 13 位时间戳,得到年月日时分秒(北京时间)使用 Hive 自带函数 将 13位 时间戳: 1682238448915 转成 今天的时间(北京时间),格式样例:'2023-04-23 16:27:28'

数据仓库-核心概念

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量及控制。

Kettle(11):SQL脚本组件

执行SQL脚本组件,可以让Kettle执行一段SQL脚本。我们可以利用它来自动执行某些操作。

Hive 数据仓库介绍

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。

【数据仓库】BI看板DataEase入坑指南

开头夸夸国产开源BI软件DataEase,支持常见各种报表,还支持图表联动和上下级钻取,超赞有木有!!!再来为什么说入坑,源码启动各种不服啊。本地用的maven3.5一直导入不了Java项目backend。后来看了官网bilibili源码启动视频,搞了1个多小时。

数据仓库建设指导说明

元数据可以包括以下内容:数据定义描述数据的结构、格式、模式和约束条件。例如,数据表、字段、数据类型、主键、外键等。数据源和来源:记录数据的来源和数据源的信息,包括数据提供方、数据采集方式、数据传输协议等。数据质量指标:定义和记录数据质量指标和标准,例如数据准确性、完整性、一致性、时效性等。数据变动历

Flink+Paimon多流拼接性能优化实战

Flink+Paimon多流拼接性能优化实战,本文使用Flink+Paimon基于ParmaryKey Table主键表(PartialUpdate)进行多流拼接的时候,跑一段时间有时会遇到周期性背压、checkpoint时间过长等情况,本文通过剖析源码逻辑、修改源码,在一定程度上解决了这个问题。另

大数据数据仓库

数据仓库是为企业制定决策,提供数据支持的。数据采集和存储、对数据进行计算和分析。

Hive的更新和删除

更新数据: Hive中的更新操作实际上是替换记录的过程。删除数据: 在Hive中,您可以使用DELETE语句删除表中的数据。但是,与传统的关系型数据库不同,Hive实际上并不删除数据,而是将其标记为已删除。但是,这些操作的执行方式与传统的关系型数据库不同,因为Hive使用Hadoop的MapRedu

【大数据】美团 DB 数据同步到数据仓库的架构与实践

作为数据仓库生产的基础,美团数据平台提供的基于 Binlog 的 MySQL2Hive 服务,基本覆盖了美团内部的各个业务线,目前已经能够满足绝大部分业务的数据同步需求,实现 DB 数据准确、高效地入仓。在后面的发展中,我们会集中解决 CanalManager 的单点问题,并构建跨机房容灾的架构,从

8月《中国数据库行业分析报告》已发布,聚焦数据仓库、首发【全球数据仓库产业图谱】

本月报告聚焦于数据仓库,一起从技术+案例入手深层次掌握数仓五大关键技术、六大发展趋势,并了解其架构演进、发展历程!本文为报告精彩概览。

Hive导入csv文件示例

关键是要引入org.apache.hadoop.hive.serde2.OpenCSVSerdecsv要保存到hive的parquet,需要先保存成textfile。

访问 Hive 的元数据存储(MetaStore)的API方式

访问 Hive 的元数据存储(MetaStore)是通过 Hive 的 Thrift API 来实现的。导入 thrift 和 Hive Metastore 的相应模块,创建一个 Thrift 的 transport 对象和一个 Hive Metastore 的 client 对象,并连接到 Hiv

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈