四、数据仓库详细介绍(规范)
发行稿,从大面上应该不会有啥问题,但细节上可能会有考虑不周的情况,在宣讲阶段、执行阶段遇到问题阻碍的时候,应该根据实际情况对规范做出调整,唯有经过实践检验才能愈发完善,相信经过一段时间的持续实践,规范会成为组织文化的一部分,进而降低沟通成本、提高开发效率、保证交付质量,从而实现团队和个人的双赢。本篇
ClickHouse及Greenplum与Doris性能对比
ClickHouse和DorisDB的对比:标准SQL语言支持ClickHouse:不支持标准SQL语言,无法直接对接主流的BI系统。DorisDB:支持标准的SQL语言,兼容MYSQL协议,可以直接对接主流的BI系统。分布式JoinClickHouse:几乎不支持分布式Join,在分析模型上仅支持
数据治理之主题域(一)
主题域是对实体的逻辑分组,我们以上帝视角去看企业的业务系统,梳理企业的业务实体,实体与实体之间的关系,将企业中的数据进行逻辑划分。相同主题域中的数据联系紧密,不同主题域之间的数据相互独立。所以主题域的划分没有任何的技术含义,只是一种概念,能帮助数据使用者快速找到数据的一种分类方法。就像图书馆的图书分
金融行业数据模型
金融行业经典数据模型
山东大学软件学院2022-2023数据仓库数据挖掘期末考试(回忆版)
山东大学软件学院2022-2023数据仓库数据挖掘期末考试(回忆版)
聊聊数据域和主题域的区别
大家好,我是大D。这篇文章跟大家一起聊下数仓中比较容易混淆的两个概念——数据域、主题域。有的公司对二者的界限并不明显,都统一称为数据域或者主题域;也有的公司两者是区分开使用的,那么数据域和主题域有什么区别呢,根据自身工作经验,聊下自己的见解。数据域数据域是指面向业务分析,将业务过程或者维度进行抽象的
ETL工具 - Kettle 介绍及基本使用
在介绍Kettle前先了解下什么是ETLETL是的缩写,即数据抽取、转换、装载的过程,对于企业或行业应用来说,经常会遇到各种异构数据的处理、转换、迁移等操作,这些操作有可能会面对大量的数据和繁琐的步骤,因此就萌生了一些ETL处理工具,市面上常见的ETL工具有很多,比如等,本篇文章就主要来介绍下Ket
Hive实战练习(包含数据集)
(1)要想统计 Music 类别中的视频热度 Top10,需要先找到 Music 类别,那么就需要将category 展开,所以可以创建一张表用于存放 categoryId 展开的数据。所以如果要 group by 类别,需要先将类别进行列转行(展开),然后再进行 count 即可。(2)我们需要按
数据仓库建设——主题和主题域的划分
数仓主题是什么数据仓库主题是指透过“上帝视角”将企业不同业务流程信息进行汇总、分类然后对其进行分析利用的一个抽象化的概念。也是指企业中某一分析领域具体的分析对象,这样一来,每一个数仓分析领域都有一个数仓主题相呼应。分析对象是一个较为主观的选择过程,说它主观是因为不同的企业有不同的业务重心,没有办法统
门店销售数据分析
分析优衣库的店铺销售情况并提出促进销售提升的改进建议和运营策略方案。
达梦数据库入门指南(三)- 模式概念与基本使用
达梦数据库的基本概念与试用。模式概念概述以及达梦数据库基本语法说明
通俗易懂:什么是拉链表
按照度娘的解释:“拉链表是一种针对数据仓库设计中表存储数据的方式而定义的数据模型,它有点类似于快照,用于维护历史状态及最新状态数据。假如有张表如表1-1所示,每天的数据量大概有50w表中有些字段会被 update,如表1-2,且每天更新的数据量很小,大约只有5k有些报表需要查看历史某个日期的数据存储
数据清洗(黑马程序员)课后题答案选择填空判断
数据清洗(黑马程序员版)课后练习题,选择填空判断答案。
hive 随机抽样 distribute by rand() sort by rand() limit n
hive表随机抽样 distribute by rand() sort by rand() 以及分层抽样
Kettle连接人大金仓KingbaseES数据库
Kettle连接Kingbase数据库
OLAP和OLTP的区别
OLAP和OLTP的区别
详细记录拉链表的实现过程
1)直接更新,也就是用业务库中发生变化的数据覆写数仓中的数据,这种实现方式可以保持数仓与业务库数据保持一致,缺点是只能保存当前最新的数据,对这条数据修改之前的历史数据不做维护,一般很少采用这种实现方式,除非历史数据本身就是错误的,没有使用价值。此时这张拉链表就是只包含最新的记录信息,而上面那张拉链表
Hive之grouping sets用法详解
比如(class, course), 二进制为 101,十进制则为5,则grouping__id为5,同理grouping__id为6,则组合为(sex,course),二进制为110;比如 group by class,sex,course,则二进制的顺序为:course sex cl
数据库性能基准测试——TPCC、TPCH及TPCDS的区别
针对数据库不同的使用场景TPC组织发布了多项测试标准。其中被业界广泛接受和使用的有TPC-C 、TPC-H和TPC-DS。 TPC-C 、TPC-H和TPC-DS三者的最大的一个区别是,TPCC是针对OLTP数据库进行性能测试,而TPC-H和TPC-DS是针对OLAP数据库进行测试的。数据库处
某银行数据仓库建模流程和规范
银行数据仓库建模流程以及规范