大数据Kylin(四):Kylin创建cube
请注意,如果没有字典编码,cube 的大小可能会非常大。虽然衍生维度具有很大的吸引力,但是并不代表所有维度表上的维度都可以编程衍生维度,如果从维度表主键到某个维度表维度所需要的聚合工作量很大,例如:统计每年E订单金额M,基本上需要365:1的聚合量,那么可以将E设置成为一个基本维度,而不是一个衍生维
数据仓库相关术语
指一种扩展的星形图。退化维度,就是那些看起来像是事实表的一个维度关键字,但实际上并没有对应的维度表,就是维度属性存储到事实表中,这种存储到事实表中的维度列被称为退化维度。实体表就是一个实际对象的表,实体表放的数据一定是一条条客观存在的事物数据,比如说各种商品,它就是客观存在的,所以可以将其设计一个实
phoenix的安装与使用(Hbase的客户端)
一、phoenix的简介与特点1.1 简介2.1 特点phoenix虽然是构建在hbase层之上,但是由于以下特点,不会影响查询性能,反而会提高性能phoenix还提供了一些增强优化性能phoenix不能做的事情二、phoenix安装2.1 环境需求:2.2 搭建步骤1)上传,解压,更名,配置环境变
RabbitMQ如何防止消息丢失及重复消费
RabbitMQ如何防止消息丢失及重复消费
Kafka 数据重复怎么办?(案例)
通常,消息消费时候都会设置一定重试次数来避免网络波动造成的影响,同时带来副作用是可能出现消息重复。整理下消息重复的几个场景:先来了解下消息的三种投递语义:了解了这三种语义,再来看如何解决消息重复,即如何实现精准一次,可分为三种方法:1) 幂等性 幂等性使用示例:在生产端添加对应配置即可 设置幂等,启
Hbase 常用 shell 操作:增删改查(create、put、delete、scan)
Hbase 常用 shell 操作:增删改查(create、scan、put、get)
软考中级之数据库系统(重点)
数据库是根据业务的需求,看哪项数据需要记录的一个存储系统,但是当数据存储到一定容量的时候,那数据库的效率就会下降,而这时候需要如何解决呢,最简单的办法就是删掉一部分没有用的历史数据,但是这是在某种层面上是浪费数据的,所以我们需要找个地方把他存起来
HBase 集群部署与启动
HBase 集群部署与启动
RabbitMQ之交换机
一、RabbitMQ交换机二、RabbitMQ交换机实例讲解
InfluxDB的查询优化
根据官网整理的Influx脚本的查询优化问题
解决Hive启动后报错FAILED:HiveException java.lang.RuntimeException
解决Hive启动后报错FAILED:HiveException java.lang.RuntimeException和MetaException(message:Required table missing : “DBS” in Catalog “” Schema “”. DataNucleus r
Hadoop三大框架之MapReduce工作流程
Hadoop三大框架之MapReduce工作流程
一文了解 HDFS 及其组成框架
介绍了HDFS是什么、HDFS的优缺点,NameNode节点、DataNode节点、SecondaryNameNode节点的 定义 及 功能 介绍。
数据开发面试问题记录
因作者近期正在投递数据开发岗位,所以会在此记录一些面试过程中的问题,持续更新,直到入职新公司为止
elasticsearch——jdk版本问题,非docker版 直接使用安装包。
elasticsearch——jdk版本问题
ElasticSearch7.X和ElasticSearch8.X学习记录
当我们使用sql进行查询时,假如总共有3天数据,但是我们的查询语句只需要返回2条数据,则剩下的这条数据就会进入cursor中,在后续查询中,可以直接使用cursor进行查询,只可以取用一次,多次使用时,结果是返回空,游标是消耗性能的,可以使用close进行关闭。为防止数据节点宕机或者挂掉,影响服务的
RabbitMQ知识点总结
RabbitMQ 概述生活中的案例生产中的问题为什么要使用 MQ学生问问题的例子 2,分布式项目中 RPC 的调用处理时间过长的问题为什么要使用 MQ微服务架构后,链式调用是我们在写程序时候的一般流程,为了这完成一个整体功能会把它拆分成多个函数(或子模块)比如模块 A 调用模块 B,模块 B 调用模
TDengine 压缩性能实际测试(对比 DolphinDB )
目前市面上主流的压缩算法都是公开的,各家产品所采用的压缩算法之间并没有太大差距。压缩算法的选择,更多是根据产品定位不同而作出的取舍。压缩和解压本身是需要消耗资源的,并不存在对所有数据都表现优异的压缩算法。TDengine 为了实现性能的超常发挥,采用了大量的非常规(重复、排序)数据进行 Benchm
一文弄懂 ZooKeeper
1. 集群模式部署一般奇数节点,因为你5台机器可以挂2台,6台机器也是挂2台,不能超过一半的机器挂掉,所以5台和6台效果一致,那奇数节点可以减少机器开销,小集群部署,读多写少2. 主从架构: Leader 、 Follower 、 Observer (一般刚开始没必要用)3. 内存数据模型:Znod
【RocketMQ】RocketMQ快速入门
Metaq1.x是RocketMQ前身的第一个版本,本质上把Kafka做了一次java版本的重写(Kafka是scala语言开发)。Meta2.x,主要是对存储部分进行了优化,因为kafka的数据存储,它的partition是一个全量的复制,在阿里、在淘宝的这种海量交易。Kafka这种机制的横向拓展