数据仓库概述

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策,它是一种与时间相关的、不可修改的数据集合。

数据治理——滴滴大数据成本治理实践

数据治理——滴滴大数据成本治理实践

【快捷部署】002_Flink(1.17.2)

快捷部署系列,本期带来的是Flink,快速体验、学习

数据仓库学习笔记三

外部表的真实数据不被Hive管理,即当删除一-张内部表时,元数据以及HDFS上的真实数据均被删除,而删除外部表则只会删除元数据而不会删除真实数据。RCFILE遵循“先水平划分,再垂直划分-的设计理念:首先把Hive表水平切分成多个行组,保证同一行的数据位于同一节点, 其次在行组内按照“列”垂直切分,

hive rlike

需要注意的是,在 Hive 中使用正则表达式时,通常需要使用正则表达式的规则语法。它用于判断一个字符串是否匹配指定的正则表达式。,我们想要查找内容中包含数字的行,可以使用。是用来进行正则表达式匹配的操作符。在 Hive SQL 中,列中包含任何数字的行。

软考高级:数据库、数据仓库和数据湖概念和例题

明明如月学长, CSDN 博客专家,大厂高级 Java 工程师,《性能优化方法论》作者、《解锁大厂思维:剖析《阿里巴巴Java开发手册》》、《再学经典:《Effective Java》独家解析》专栏作者。

数据仓库核心:揭秘事实表与维度表的角色与区别

在本篇博文中,我们深入探讨了数据仓库中事实表和维度表的关键角色与它们之间的显著差异。事实表,作为数据仓库的心脏,承载着量化的业务度量,而维度表则为这些度量提供了必要的上下文和解释。这种精心设计的结构不仅使我们能够高效地存储和检索数据,而且还能更加灵活和深入地进行数据分析,为企业的决策提供强有力的支持

Hive_last_value()

函数是一个窗口函数,用于返回窗口内的最后一个值。在同一分区内,窗口函数将独立计算每个分区。表示基于指定的列或表达式对行进行排序,这对于定义“最后”是基于什么顺序很重要。,它可能不会返回期望的结果。为了确保能够得到分区内所有行的最后一个值,可以使用。两列,以下SQL语句将返回每个分区(在本例中为每个日

Hive中的explode函数、posexplode函数与later view函数

在离线数仓处理通过HQL业务数据时,经常会遇到行转列或者列转行之类的操作,就像concat_ws之类的函数被广泛使用,今天这个也是经常要使用的拓展方法。

最详细数据仓库项目实现:从0到1的电商数仓建设(数仓部分)

其中业务总线矩阵,就像是一个分析的笔记.后面还会有各个属性值和度量值的统计等// 见讲义中第四个讲义数仓的第5章。

Hive日期函数应用之月份差值计算

一个常见的方法是首先将日期转换为 Unix 时间戳(如果它们还不是的话),然后通过计算时间戳之间的差值,并将这个差值转换为月份。然而,这种方法并不总是准确的,因为它假设每个月都有相同的天数(30或31天),而实际上不同月份的天数是不同的。或其他适当的函数来将它们转换为日期类型,或者确保它们是以 Hi

数据仓库——维度表特性

例如考虑是否具有自然的亲和性,或者在不同环境中是否有关系,或者那些趋向于共享稳定关系的属性可能被储存在一起,或者那些仅存在事件、事务或条件等情况下相关的属性,可以将他们归入不同的事实表中,存在疑惑不定时,可以考虑不同设计方法的可浏览性。当他们的关系由事务或活动来决定,并且存在于不同的环境中,应该将他

数据仓库相关概述

数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。只有将数据有序的组织和存储起来之后,数据才能得到高性能、低成本、高效率、高质量的使用。高性能:良好的数据模型能够帮助我们快速查询所需要的数据。低成本:良好的数据模型能减少重复计算,实现计算结果的复用,降低计算成本。高效率:

数据仓库概述

数据仓库是一种面向商务智能 (BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。

Hive的时间操作函数

hive 里面的时间函数有很多,今天单讲dayofweek函数,背景:有时候不仅要出日报,还要出周报,需要很多天归为同一周,求sum或者均值;在Hive中,可以使用dayofweek()函数来计算某个日期是一周的第几天。其中,date表示要计算的日期,可以是一个日期字符串或者一个日期类型的列名。da

Hive拉链表设计、实现、总结

拉链表的设计思路,如何制作,实践踩坑......

CloudCanal x Hive 构建高效的实时数仓

CloudCanal 最近对于全周期数据流动进行了初步探索,打通了Hive 目标端的实时同步,为实时数仓的构建提供了支持,这篇文章简要做下分享。

Flink——芒果TV的实时数仓建设实践

Flink——芒果TV的实时数仓建设实践

数据仓库保存历史数据方法之拉链表

在20170101~20170102期间内10003的job为mysql,在20170102~20170103期间内10003的job为mongodb,在20170103~30001231期间内10003的job为hive。个人所接触项目经验,如果极端采用某一种架构,最后数仓项目成功概率都很低,因此

HIVE搭建教程

拷贝master安装包到beeline客户端机器上(任意一个节点即可)

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈