「数据密集型系统搭建」原理篇|OLAP、OLTP,竟是两个世界
本篇来聊聊OLAP与OLTP的区别以及它们各自的适用场景,以此话题为导引和大家聊聊技术视野与知识储备对于研发同学的重要性,站在事务处理与在线分析的角度分别论述下两个数据世界的底层构建逻辑。
Hive 的角色和权限控制
的权限模型中,用户可以拥有多个角色,一个角色可以包含多个用户。管理员可以根据需要创建和管理角色,并为这些角色分配相应的权限。中的角色控制是通过角色的概念来实现的,角色可以理解为一组用户的集合,可以对这个集合中的用户进行权限的管理。用户可以根据自己的需求创建和管理角色,并为这些角色分配相应的权限。中的
数据仓库岗面试
求用户连续登录3天,要讲出多种解法;将数据表行转列;求两数之和,除了哈希之外的其他解法;数仓分层具体可分为哪些层;ods到dwd层做了哪些处理?数据倾斜
Hive自定义UDF函数及使用
UDF全称:User-Defined Functions,即用户自定义函数,在Hive SQL编译成MapReduce任务时,执行java方法,类似于像MapReduce执行过程中加入一个插件,方便扩展。
直播电商数据仓库
数据仓库,简称数仓,( Data Warehouse )。从逻辑上理解,数据库和数仓没有区别,都是通过数据库软件实现存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大。数仓主要是为企业制定决策,提供数据支持的。当业务简单,可以用数据库来存储,分析,制表。但当数据量几何式增长,需要跨机器整合
Hive的安装及集成Tez为执行引擎
主要是yarn.nodemanager.vmem-check-enabled以及yarn.nodemanager.pmem-check-enabled这两项配置。切换Tez执行引擎后,hive启动以及HQL执行的日志较多,可参考前面第11步,将日志打印级别设为WARN或者ERROR。Tez介绍:ht
3、如何从0到1去建设数据仓库
如何从0到1去建设数据仓库
2023.11.22 -数据仓库的概念和发展
在关系型数据库中,关于数据表设计的基本原则,规则就称为范式。可以理解为,一张数据表的设计结构需要满足的某种设计标准的级别。想要设计一个结构合理的关系型数据库,必须满足一定的范式(规则)。范式的英文名称是Normal Form,简称NF。它是英国人E.F.codd(埃德加·弗兰克·科德)在上个世纪70
实验五 熟悉 Hive 的基本操作
(8)查询 stocks 表中收盘价(price_close)比开盘价(price_open)高得最多的那条记录的交易所 (exchange)、股票代码(symbol)、日期(ymd)、收盘价、开盘价及二者差价。(9)从 stocks 表中查询苹果公司(symbol=AAPL)年平均调整后收盘价(p
Hive insert插入数据与with子查询
当在hive中同时使用insert into(overwrite) table xx 与with子查询时候,需要将insert放在with as子查询后面(区分:与StarRocks不同,insert放在with as子查询前面)insert into 与 insert overwrite 都可以向
数据仓库扫盲系列(1):数据仓库诞生原因、基本特点、和数据库的区别
随着互联网的普及,信息技术已经深入到各行各业,并逐步融入到企业的日常运营中。然而,当前企业在信息化建设过程中遇到了一些困境与挑战。过去企业的业务系统往往是在较长时间内建设的,很少进行大面积的改造或者升级,历史数据留存在业务系统中。随着业务的不断增长,历史数据使用频率低,业务数据库中的历史数据越来越多
企业数字化过程中数据仓库与商业智能的目标
显然,需要一整套的技能,这些技能既包括数据库管理的技能,也包括商业分析师的技能,才能更好地适应DW/BI的商业盛筵。精心组织不同来源的数据,实现数据清洗,确保质量,只有在数据真正适合用户的需要时发布。对操作型系统来说,用户无法对其加以选择,只能使用新系统,而对DW/BI系统来说,与操作型系统不同的是
Hive double类型强转string类型并解决科学计数法问题
Hive double类型强转string类型并解决科学计数法问题
【数据仓库】数仓分层方法详解与层次调用规范
【数据仓库】数仓分层方法
[hive]中的字段的数据类型有哪些
整数类型(Integers):包括TINYINT(1字节整数)、SMALLINT(2字节整数)、INT或INTEGER(4字节整数)、BIGINT(8字节整数)。浮点数类型(Floating-Point Numbers):包括FLOAT(单精度浮点数)和DOUBLE(双精度浮点数)。除了上述常见的数
数据仓库模式之详解 Inmon 和 Kimball
数据仓库 数据仓库模式 Inmon Kimball
Hive数据加载方式(load、insert;普通表、分区表)
Hive数据加载方式(load、insert;普通表、分区表)
[hive] 窗口函数 ROW_NUMBER()
在 Hive SQL 中,是一个用于生成行号的窗口函数。它可以为。以下是子句可选,用于指定,它将结果集划分为不同的分区。每个分区内的行都会有独立的行号计数,即行号从1开始重新计数。ORDER BY子句用于指定,它决定了如何对分区内的行进行排序。行号将根据指定的排序顺序进行分配。函数可以与其他窗口函数
Hive创建分区表并插入数据
静态分区在插入数据时要指定分区名,支持load、insert两种插入方式,主要用于分区少,分区名可以确定的情况。
[shell,hive] 在shell脚本中将hiveSQL分离出去
将Hive SQL语句写在单独的.hql文件中,然后在shell脚本中调用这些文件来执行Hive查询。这样可以将SQL语句与shell脚本分离,使代码更加清晰和易于维护。