数据仓库原理 - 概念、架构、建模方法
数据仓库原理 - 概念、架构、建模方法
Hive 数据倾斜
Hive 数据倾斜
大数据OLAP引擎
OLAP(Online AnalyticalProcessing)是一种数据处理技术,专门设计用于支持复杂的分析操作,本文介绍目前几种主流OLAP引擎的对比,及各自的特点。
数据同步之全量同步与增量同步
一、什么是数据同步业务数据是数据仓库的重要数据来源,我们需要每日定时从业务数据库中抽取数据,传输到数据仓库中,之后再对数据进行分析统计。为保证统计结果的正确性,需要保证数据仓库中的数据与业务数据库是同步的,离线数仓的计算周期通常为天,所以数据同步周期也通常为天,即每天同步一次即可。数据的同步策略有全
数据技术篇之数据同步
数据同步
实时数据仓库
实时仓库知识点
达梦数据库v8忘记sysdba密码,修改办法。
达梦数据库的sysdba密码忘记,修改办法
MySQL数据库综合案例1----创建“教务管理系统“数据库
MySQL数据库综合案例----搭建"教务管理系统"数据库
数据仓库面试题汇总
数据仓库面试题汇总
数据架构设计
数据仓库实施方案
大数据之数据仓库
数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展的特点并可在一定范围内为多个用户共享。常用的数
数仓理论及建模方法
1. 数仓概述数据仓库: 数据仓库是一个面向主题的、集成的、非易失的、随时间变化的数据集合。重要用于组织积累的历史数据,并且使用分析方法(OLAP、数据分析)进行分析整理,进而辅助决策,为管理者、企业系统提供数据支持,构建商业智能。面向主题:为数据分析提供服务,根据主题将原始数据集合在一起。集成的:
[电商实时数仓] 数据仓库建模过程分析
数据仓库建模过程
安装部署Apache Doris集群
搭建doris
mysql 批量数据插入很慢(kettle 输入输出组件) 性能优化办法
最近在做数仓重构项目,遇到一些性能瓶颈,这里记录一下解决办法。随着业务数据每天都在增加,几年前开发的etl任务开始跑不动了。大表一般是通过增量的方式插入,但是修复bug 或者每月/季度跑一次的情况 需要跑全量,原来的etl任务可能需要跑几个小时,甚至出现超时失败的情况。因此需要优化,下面介绍一些优化
如何轻松做数据治理?开源技术栈告诉你答案
搭建一套数据治理体系耗时耗力,但或许我们没有必要从头开始搞自己的数据血缘项目。本文分享如何用开源、现代的 DataOps、ETL、Dashboard、元数据、数据血缘管理系统构建大数据治理基础设施。
数据仓库相关术语
指一种扩展的星形图。退化维度,就是那些看起来像是事实表的一个维度关键字,但实际上并没有对应的维度表,就是维度属性存储到事实表中,这种存储到事实表中的维度列被称为退化维度。实体表就是一个实际对象的表,实体表放的数据一定是一条条客观存在的事物数据,比如说各种商品,它就是客观存在的,所以可以将其设计一个实
软考中级之数据库系统(重点)
数据库是根据业务的需求,看哪项数据需要记录的一个存储系统,但是当数据存储到一定容量的时候,那数据库的效率就会下降,而这时候需要如何解决呢,最简单的办法就是删掉一部分没有用的历史数据,但是这是在某种层面上是浪费数据的,所以我们需要找个地方把他存起来
数据开发面试问题记录
因作者近期正在投递数据开发岗位,所以会在此记录一些面试过程中的问题,持续更新,直到入职新公司为止
Hive 之中位数
中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作