Hive 之中位数
中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作
数仓建模,什么是宽表?如何设计?好处与不足
数仓建模,什么是宽表?如何设计?好处与不足,如何运用宽表
车300面试题
卷一Java基础1、java中的内存泄漏是怎么回事答:在可达性分析法种,不可达的会被清理掉,但有些对象是无用的不会在被调用,这些对像就是java 的内存泄漏长生命周期的对象,持有短生命周期的引用就可能会出现内存泄漏序列已动态分配的堆内存由于某种原因程序未释放或无法释放,造成系统内存的浪费,导致程序运
Linux安装Redis(详细教程)
Linux安装Redis(详细教程)(服务器)
【Hive】内置函数—字符串函数
hive字符串内置函数大全
高斯数据库gaussDB(DWS),全网首篇对标MySQL命令集合文章
在正式开始前需要提前创建一下 VPC,位置入口如下所示。在打开的页面配置如下信息,然后创建即可。其中首要进行的修改是 基本名称 和 子网名称创建完毕之后的结果如下所示:接下来就可以配置高斯数据库 DWS 了,功能入口地址为 大数据->数据仓库服务 GaussDB(DWS)这里按照华为云提示输入即可,
Clickhouse一级索引优化方案
Clickhouse一级索引优化方案及知识点
一文搞懂什么是“退化维度”
当一个维度没有数据仓库需要的任何数据的时候就可以退化此维度,需要把退化的相关数据迁移到事实表中,然后删除退化的维度。退化维度没有对应的维表,但可以获取与之相关的事实,如上订单号对应的订购者,服务对应的订购金额等。Kimball书中对退化维度的描述为:操作型事务控制号码,例如:订单号码,发票号码,提货
【Hive进阶】-- Hive SQL、Spark SQL和 Hive on Spark SQL
Hive由Facebook开发,用于解决海量结构化日志的数据统计,于2008年贡献给 Apache 基金会。Hive是基于Hadoop的数据仓库工具,可以将结构化数据映射为一张表,提供类似SQL语句查询功能本质:将Hive SQL转化成MapReduce程序。Spark SQL主要用于结构型数据处理
datagrip-2021.3.1:DataGrip使用
DataGrip使用
1、kettle知识点系列之kettle的循环模式
这种模式是在我使用复杂模式后,我连接的资源库常常会因为这个循环导致速度慢、卡等问题,最后发现了这种模式。这种模式是在我解决问题的过程中自己写的,刚开始我使用简单模式处理场景需求,但是我的作业比较复杂,循环需要执行的地方是作业,作业中又有很多作业,作业中的转换又有。这是我个人做的一个循环demo作业,
Hive常用函数介绍(窗口函数)
快看,眼前这片文章居然是一篇文章,它一定对开窗函数有所介绍,让我们点击进去瞧一瞧
hive复杂类型数据详解—array,map,struct
hive复杂数据类型有三种,map,array,struct。本文会详细介绍三种类型数据的建表、查询、相关函数以及与其他数据类型的相互转换。目录一、简介二、建表语句三、类型构建四、查询array类型map类型struct类型五、与其他数据类型转换将array和map转化为基本数据类型(行转列)基本数
数仓及其维度(分层)建模(ODS DWD DWS DWT ADS)
一. 数仓及其维度1. 什么是数仓?数据仓库,简称数仓,( Data Warehouse )。从逻辑上理解,数据库和数仓没有区别,都是通过数据库软件实现存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大。数仓主要是为企业制定决策,提供数据支持的。当业务简单,可以用数据库来存储,分析,制表。
CDC工具之Canal
CDC 的全称是 Change Data Capture ,在广义的概念上,只要能捕获数据变更的技术,我们都可以称为 CDC 。我们通常所描述的CDC 技术主要是指面向数据库的变更,是一种用于捕获数据库中数据变更的技术。
Hive Lateral View + explode 详解
hive中的函数分为3类,UDF函数、UDAF函数、UDTF函数UDF:一进一出 UDAF:聚集函数,多进一出,类似于:count/max/min UDTF:一进多出,如explore()、posexplode(),UDTF函数的时候只允许一个字段百度explode()时,经常会出现lateral
hive的开窗函数篇
hive的开窗函数over()
重点| 系统集成项目管理工程师考前50个知识点
4、电子商务是在Internet开放的网络环境下,基于浏览器/服务器应用方式,实现消费者的网上购物,商户之间的网上交易和在线电子支付的一种新型的商业运营模式。(5)UDP支持的应用层协议主要有:NFS(网络文件系统)、SNMP(简单网络管理协议)、DNS(主域名称系统)、TFTP(通用文件传输协议)
ETL工具大全:Kettle、DataCleaner、canal、DataX
Kettle是一款国外开源的ETL工具,使用Java语言编写,可以运行在Windows、Linux、Unix上,数据抽取高效、稳定。Kettle包含Spoon、Pan、Chef、Encr和Kitchen等组件,Spoon是一个图形用户界面,可以方便直观地完成数据转换任务。Spoon可以运行转换和任务
DolphinScheduler 3.1.0 海豚集群部署配置
dolphinscheduler3.1.0 以上