大数据之数据仓库
数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展的特点并可在一定范围内为多个用户共享。常用的数
数仓理论及建模方法
1. 数仓概述数据仓库: 数据仓库是一个面向主题的、集成的、非易失的、随时间变化的数据集合。重要用于组织积累的历史数据,并且使用分析方法(OLAP、数据分析)进行分析整理,进而辅助决策,为管理者、企业系统提供数据支持,构建商业智能。面向主题:为数据分析提供服务,根据主题将原始数据集合在一起。集成的:
[电商实时数仓] 数据仓库建模过程分析
数据仓库建模过程
安装部署Apache Doris集群
搭建doris
mysql 批量数据插入很慢(kettle 输入输出组件) 性能优化办法
最近在做数仓重构项目,遇到一些性能瓶颈,这里记录一下解决办法。随着业务数据每天都在增加,几年前开发的etl任务开始跑不动了。大表一般是通过增量的方式插入,但是修复bug 或者每月/季度跑一次的情况 需要跑全量,原来的etl任务可能需要跑几个小时,甚至出现超时失败的情况。因此需要优化,下面介绍一些优化
如何轻松做数据治理?开源技术栈告诉你答案
搭建一套数据治理体系耗时耗力,但或许我们没有必要从头开始搞自己的数据血缘项目。本文分享如何用开源、现代的 DataOps、ETL、Dashboard、元数据、数据血缘管理系统构建大数据治理基础设施。
数据仓库相关术语
指一种扩展的星形图。退化维度,就是那些看起来像是事实表的一个维度关键字,但实际上并没有对应的维度表,就是维度属性存储到事实表中,这种存储到事实表中的维度列被称为退化维度。实体表就是一个实际对象的表,实体表放的数据一定是一条条客观存在的事物数据,比如说各种商品,它就是客观存在的,所以可以将其设计一个实
软考中级之数据库系统(重点)
数据库是根据业务的需求,看哪项数据需要记录的一个存储系统,但是当数据存储到一定容量的时候,那数据库的效率就会下降,而这时候需要如何解决呢,最简单的办法就是删掉一部分没有用的历史数据,但是这是在某种层面上是浪费数据的,所以我们需要找个地方把他存起来
数据开发面试问题记录
因作者近期正在投递数据开发岗位,所以会在此记录一些面试过程中的问题,持续更新,直到入职新公司为止
Hive 之中位数
中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作
数仓建模,什么是宽表?如何设计?好处与不足
数仓建模,什么是宽表?如何设计?好处与不足,如何运用宽表
车300面试题
卷一Java基础1、java中的内存泄漏是怎么回事答:在可达性分析法种,不可达的会被清理掉,但有些对象是无用的不会在被调用,这些对像就是java 的内存泄漏长生命周期的对象,持有短生命周期的引用就可能会出现内存泄漏序列已动态分配的堆内存由于某种原因程序未释放或无法释放,造成系统内存的浪费,导致程序运
【Hive】内置函数—字符串函数
hive字符串内置函数大全
高斯数据库gaussDB(DWS),全网首篇对标MySQL命令集合文章
在正式开始前需要提前创建一下 VPC,位置入口如下所示。在打开的页面配置如下信息,然后创建即可。其中首要进行的修改是 基本名称 和 子网名称创建完毕之后的结果如下所示:接下来就可以配置高斯数据库 DWS 了,功能入口地址为 大数据->数据仓库服务 GaussDB(DWS)这里按照华为云提示输入即可,
Clickhouse一级索引优化方案
Clickhouse一级索引优化方案及知识点
一文搞懂什么是“退化维度”
当一个维度没有数据仓库需要的任何数据的时候就可以退化此维度,需要把退化的相关数据迁移到事实表中,然后删除退化的维度。退化维度没有对应的维表,但可以获取与之相关的事实,如上订单号对应的订购者,服务对应的订购金额等。Kimball书中对退化维度的描述为:操作型事务控制号码,例如:订单号码,发票号码,提货
【Hive进阶】-- Hive SQL、Spark SQL和 Hive on Spark SQL
Hive由Facebook开发,用于解决海量结构化日志的数据统计,于2008年贡献给 Apache 基金会。Hive是基于Hadoop的数据仓库工具,可以将结构化数据映射为一张表,提供类似SQL语句查询功能本质:将Hive SQL转化成MapReduce程序。Spark SQL主要用于结构型数据处理
datagrip-2021.3.1:DataGrip使用
DataGrip使用
1、kettle知识点系列之kettle的循环模式
这种模式是在我使用复杂模式后,我连接的资源库常常会因为这个循环导致速度慢、卡等问题,最后发现了这种模式。这种模式是在我解决问题的过程中自己写的,刚开始我使用简单模式处理场景需求,但是我的作业比较复杂,循环需要执行的地方是作业,作业中又有很多作业,作业中的转换又有。这是我个人做的一个循环demo作业,
Hive常用函数介绍(窗口函数)
快看,眼前这片文章居然是一篇文章,它一定对开窗函数有所介绍,让我们点击进去瞧一瞧