大数据 - overfit.cn

HiveSql一天一个小技巧：利用array_contains()函数进行容器存在性计数问题分析

由于题意要求了不能使用join等关联形式求解，通过题意分析此题本质为存在性计数问题，类似于java中我们构建一个HashSet()我们往里面Put数据的时候，每次检查一次是否有该值，有就记为1，最终统计重复的个数有多少个，这类问题也就是我们经常说的容器变换问题，而对应到Hive中时候我们如何构建容器

overfit同步小助手 2023-03-30 11:05:04 0 收藏

Linux系统（Centos7）实现hadoop安装

overfit同步小助手 2023-03-30 11:05:01 0 收藏

@KafkaListener 详解及消息消费启停控制

如果不想使用默认的"kafkaListenerContainerFactory"容器工厂，则必须手动创建一个"ConcurrentKafkaListenerContainerFactory"类的实例，并且其bean name 不能叫"kafkaListenerContainerFactory"（不然

overfit同步小助手 2023-03-30 11:04:56 0 收藏

【hadoop】在Mac m1下搭建安装hadoop环境（亲测有效版）

在Mac m1环境下安装hadoop教程亲测有效超简单版

overfit同步小助手 2023-03-30 11:04:50 0 收藏

Eureka原理看这一篇就够了

1.服务发现概念首先，要理解服务发现的概念，需要先了解分布式系统，这里引用一个通俗易懂的分布式系统比喻“当一头牛拉不动车的时候，不要试图寻找一头更强壮的牛，而是用两头牛来拉车”因此，从狭义来解释，分布式系统是：由多个应用程序协同来完成任务的一种工作模式系统。这里的任务可以是一个下单操作、可以是一个复

overfit同步小助手 2023-03-30 11:04:47 0 收藏

hive 之with as 和create view 和create temporary table用法

create view 其实和with tmp as 很相似，都是把复杂的可以重用的sql简化，我觉得唯一的区别就是 view是可以创建下次再使用的但是with只是当前sql有效，甚至不是会话有效。可以看到这个join with as 和 view 都是执行了两次，但是temporary ta

overfit同步小助手 2023-03-30 11:04:44 0 收藏

Prometheus+Grafana监控部署以kafka监控为例

Prometheus是由SoundCloud开发的开源监控系统，由GO语言编写而成，采用Pull的方式来获取监控信息，并且提供了多维度的数据模型和灵活的查询接口。Prometheus既支持通过静态文件配置监控对象，还支持自动发现机制，能通过Kubernetes、Consl、DNS等多种方式动态获取监

overfit同步小助手 2023-03-30 11:04:41 0 收藏

TEZ介绍及使用

overfit同步小助手 2023-03-30 11:04:38 0 收藏

Hadoop学习笔记01：学习Linux常用操作命令

1>.ls （横向查看目录） ll（竖排查看目录）2>.mkdir （创建文件夹）3>.cd 文件夹名（进入该文件夹） cd …（返回上一级目录）4>.rm 文件/夹名（删除，可以接-f忽略不存在的文件，-i互动模式，-r递归删除会有危险。这是删除文件）（-rf才是删除文件夹）5>.mv 文件/

overfit同步小助手 2023-03-30 11:04:35 0 收藏

一文搞懂什么是“退化维度”

当一个维度没有数据仓库需要的任何数据的时候就可以退化此维度，需要把退化的相关数据迁移到事实表中，然后删除退化的维度。退化维度没有对应的维表，但可以获取与之相关的事实，如上订单号对应的订购者，服务对应的订购金额等。Kimball书中对退化维度的描述为：操作型事务控制号码，例如：订单号码，发票号码，提货

overfit同步小助手 2023-03-30 11:04:29 0 收藏

【Hive进阶】-- Hive SQL、Spark SQL和 Hive on Spark SQL

Hive由Facebook开发，用于解决海量结构化日志的数据统计，于2008年贡献给 Apache 基金会。Hive是基于Hadoop的数据仓库工具，可以将结构化数据映射为一张表，提供类似SQL语句查询功能本质：将Hive SQL转化成MapReduce程序。Spark SQL主要用于结构型数据处理

overfit同步小助手 2023-03-30 10:05:15 0 收藏

Docker-Compose部署RabbitMQ

单机部署rabbitmq高可用集群模式

overfit同步小助手 2023-03-30 10:05:10 0 收藏

Hadoop详细集群搭建

Hadoop详细安装环境：在虚拟机上，或者租一个服务器（用学生证可以认证白嫖喔，阿里云服务器等）

overfit同步小助手 2023-03-30 10:05:06 0 收藏

datagrip-2021.3.1：DataGrip使用

DataGrip使用

overfit同步小助手 2023-03-30 10:05:03 0 收藏

kibana 启动问题

kibana 启动后 server is not ready yet

overfit同步小助手 2023-03-30 10:05:00 0 收藏

elasticsearch-head浏览器插件安装使用

Elasticsearch 是一个非常强大的搜索引擎。它目前被广泛地使用于各个 IT 行业。Elasticsearch 是由 Elastic 公司创建。它的代码位于 GitHub - elastic/elasticsearch: Free and Open, Distributed, RESTful

overfit同步小助手 2023-03-30 10:04:57 0 收藏

【大数据&AI人工智能】企业级大数据产品体系技术架构白皮书

DT数据技术发展，从电商域数据出发，经历了数据中台化，后续辐射、涵盖了整个企业生态体系下的全域数据资产，围绕数据资产沉淀出了一整套的技术架构，自下而上可以分为四大模块，分别是采集、建设、管理、应用。架构图从下往上看，从数据采集和接入为始，抽取到计算平台，通过OneData体系，以“业务板块+分析维度

overfit同步小助手 2023-03-30 10:04:54 0 收藏

如何在rabbitmq中实现一个生产者，多个消费者，多个消费者都能收到同一条消息

如何在rabbitmq中实现一个生产者，多个消费者，多个消费者都能收到同一条消息场景：用户登录，邀请其它用户进行视频会议，收到邀请的用户进入会议rabbitmq实现思路：选型：发布订阅模式（Publish/Subscribe）一个生产者，多个消费者，每一个消费者都有自己的一个队列，生产者没有将消息直

overfit同步小助手 2023-03-30 10:04:48 0 收藏

启动hive报错no hbase in

bin/hive 报 which: no hbase in

overfit同步小助手 2023-03-30 10:04:45 0 收藏

Eureka 的几种主动下线服务的方式

overfit同步小助手 2023-03-30 10:04:34 0 收藏