大数据 - overfit.cn

大数据Kylin（四）：Kylin创建cube

请注意，如果没有字典编码，cube 的大小可能会非常大。虽然衍生维度具有很大的吸引力，但是并不代表所有维度表上的维度都可以编程衍生维度，如果从维度表主键到某个维度表维度所需要的聚合工作量很大，例如：统计每年E订单金额M，基本上需要365:1的聚合量，那么可以将E设置成为一个基本维度，而不是一个衍生维

overfit同步小助手 2023-03-31 07:05:15 0 收藏

数据仓库相关术语

指一种扩展的星形图。退化维度，就是那些看起来像是事实表的一个维度关键字，但实际上并没有对应的维度表，就是维度属性存储到事实表中，这种存储到事实表中的维度列被称为退化维度。实体表就是一个实际对象的表，实体表放的数据一定是一条条客观存在的事物数据，比如说各种商品，它就是客观存在的，所以可以将其设计一个实

overfit同步小助手 2023-03-31 07:05:12 0 收藏

phoenix的安装与使用（Hbase的客户端）

一、phoenix的简介与特点1.1 简介2.1 特点phoenix虽然是构建在hbase层之上，但是由于以下特点，不会影响查询性能，反而会提高性能phoenix还提供了一些增强优化性能phoenix不能做的事情二、phoenix安装2.1 环境需求：2.2 搭建步骤1）上传，解压，更名，配置环境变

overfit同步小助手 2023-03-31 07:05:08 0 收藏

RabbitMQ如何防止消息丢失及重复消费

overfit同步小助手 2023-03-31 07:05:04 0 收藏

Kafka 数据重复怎么办？（案例）

通常，消息消费时候都会设置一定重试次数来避免网络波动造成的影响，同时带来副作用是可能出现消息重复。整理下消息重复的几个场景：先来了解下消息的三种投递语义：了解了这三种语义，再来看如何解决消息重复，即如何实现精准一次，可分为三种方法：1）幂等性幂等性使用示例：在生产端添加对应配置即可设置幂等，启

overfit同步小助手 2023-03-31 07:04:59 0 收藏

Hbase 常用 shell 操作：增删改查(create、put、delete、scan)

Hbase 常用 shell 操作：增删改查(create、scan、put、get)

overfit同步小助手 2023-03-31 07:04:56 0 收藏

软考中级之数据库系统(重点)

数据库是根据业务的需求,看哪项数据需要记录的一个存储系统,但是当数据存储到一定容量的时候,那数据库的效率就会下降,而这时候需要如何解决呢,最简单的办法就是删掉一部分没有用的历史数据,但是这是在某种层面上是浪费数据的,所以我们需要找个地方把他存起来

overfit同步小助手 2023-03-31 07:04:51 0 收藏

HBase 集群部署与启动

overfit同步小助手 2023-03-31 07:04:47 0 收藏

RabbitMQ之交换机

一、RabbitMQ交换机二、RabbitMQ交换机实例讲解

overfit同步小助手 2023-03-31 07:04:39 0 收藏

InfluxDB的查询优化

根据官网整理的Influx脚本的查询优化问题

overfit同步小助手 2023-03-31 07:04:35 0 收藏

解决Hive启动后报错FAILED:HiveException java.lang.RuntimeException

解决Hive启动后报错FAILED:HiveException java.lang.RuntimeException和MetaException(message:Required table missing : “DBS” in Catalog “” Schema “”. DataNucleus r

overfit同步小助手 2023-03-31 07:04:32 0 收藏

Hadoop三大框架之MapReduce工作流程

overfit同步小助手 2023-03-31 07:04:29 0 收藏

一文了解 HDFS 及其组成框架

介绍了HDFS是什么、HDFS的优缺点，NameNode节点、DataNode节点、SecondaryNameNode节点的定义及功能介绍。

overfit同步小助手 2023-03-31 06:05:16 0 收藏

数据开发面试问题记录

因作者近期正在投递数据开发岗位，所以会在此记录一些面试过程中的问题，持续更新，直到入职新公司为止

overfit同步小助手 2023-03-31 06:05:12 0 收藏

elasticsearch——jdk版本问题，非docker版直接使用安装包。

elasticsearch——jdk版本问题

overfit同步小助手 2023-03-31 06:05:09 0 收藏

ElasticSearch7.X和ElasticSearch8.X学习记录

当我们使用sql进行查询时，假如总共有3天数据，但是我们的查询语句只需要返回2条数据，则剩下的这条数据就会进入cursor中，在后续查询中，可以直接使用cursor进行查询，只可以取用一次，多次使用时，结果是返回空，游标是消耗性能的，可以使用close进行关闭。为防止数据节点宕机或者挂掉，影响服务的

overfit同步小助手 2023-03-31 06:05:04 0 收藏

RabbitMQ知识点总结

RabbitMQ 概述生活中的案例生产中的问题为什么要使用 MQ学生问问题的例子 2，分布式项目中 RPC 的调用处理时间过长的问题为什么要使用 MQ微服务架构后，链式调用是我们在写程序时候的一般流程，为了这完成一个整体功能会把它拆分成多个函数（或子模块）比如模块 A 调用模块 B，模块 B 调用模

overfit同步小助手 2023-03-31 06:05:00 0 收藏

TDengine 压缩性能实际测试（对比 DolphinDB ）

目前市面上主流的压缩算法都是公开的，各家产品所采用的压缩算法之间并没有太大差距。压缩算法的选择，更多是根据产品定位不同而作出的取舍。压缩和解压本身是需要消耗资源的，并不存在对所有数据都表现优异的压缩算法。TDengine 为了实现性能的超常发挥，采用了大量的非常规（重复、排序）数据进行 Benchm

overfit同步小助手 2023-03-31 06:04:56 0 收藏

一文弄懂 ZooKeeper

1. 集群模式部署一般奇数节点，因为你5台机器可以挂2台，6台机器也是挂2台，不能超过一半的机器挂掉，所以5台和6台效果一致，那奇数节点可以减少机器开销，小集群部署，读多写少2. 主从架构： Leader 、 Follower 、 Observer （一般刚开始没必要用）3. 内存数据模型：Znod

overfit同步小助手 2023-03-31 06:04:51 0 收藏

【RocketMQ】RocketMQ快速入门

Metaq1.x是RocketMQ前身的第一个版本，本质上把Kafka做了一次java版本的重写（Kafka是scala语言开发）。Meta2.x，主要是对存储部分进行了优化，因为kafka的数据存储，它的partition是一个全量的复制，在阿里、在淘宝的这种海量交易。Kafka这种机制的横向拓展

overfit同步小助手 2023-03-31 06:04:48 0 收藏