大数据 - overfit.cn

Hive调优策略之SQL优化

介绍了hive如何从sql层面进行调优

overfit同步小助手 2023-03-30 00:05:10 0 收藏

Docker安装Hadoop

docker exec -it hadoop bash进入容器。查找hadoop-env.sh的安装路径。配置备份数量，小于等于slave数量。三个容器都要修改如下三个IP映射。

overfit同步小助手 2023-03-30 00:05:07 0 收藏

hive的开窗函数篇

hive的开窗函数over（）

overfit同步小助手 2023-03-30 00:05:01 0 收藏

浅谈Hive SQL的优化

目前团队的数据处理都在Hadoop集群上，一是因为需要处理的数据量都是亿级的，这种规模的数据适合用Hadoop集群并行处理；二是免除了分库分表给查询处理上带来的麻烦。Hive是基于Hadoop的一个数据仓库工具，它将存储在HDFS上的结构化的文件映射成一张关系型数据库表，提供简单的SQL查询功能。本

overfit同步小助手 2023-03-30 00:04:58 0 收藏

虚拟机安装jdk及hadoop单机版

在虚拟机上进行jdk及hadoop单机版安装，对如何配置虚拟机上的环境变量做了详细的描述，以及hadoop安装出现错误如何查找

overfit同步小助手 2023-03-30 00:04:55 1 收藏

二、RabbitMQ的五种工作模式

1.简单（Simple）模式P：生产者，也就是要发送消息的程序。C：消费者：消息的接收者，会一直等待消息到来。queue：消息队列，图中红色部分。类似一个邮箱，可以缓存消息；生产者向其中投递消息，消费者从其中取出消息。简单模式就是单发单收，消息的消费者监听消息队列，如果队列中有消息，就消费掉，消息被

overfit同步小助手 2023-03-30 00:04:51 0 收藏

HBase的数据模型和存储原理

类似于关系型数据库的 DatabBase 概念，每个命名空间下有多个表。HBase有两个自带的命名空间，分别是 hbase 和 default，hbase 中存放的是 HBase 内置的表，default 表是用户默认使用的命名空间。类似于一个表的子表，表中的一部分。HBase中的一个表被拆分成多个

overfit同步小助手 2023-03-30 00:04:48 0 收藏

数仓工具—Hive实战之GenericUDF使用详解(24)

GenericUDF 使用起来相比UDF 更复杂，但是我们也介绍了它支持复杂数据结构，性能更高，需要注意的是GenericUDF是抽象类不是接口，关于GenericUDF的使用的复杂案例可以参考我们的UDAF批量调用外部请求。

overfit同步小助手 2023-03-30 00:04:45 0 收藏

springboot集成kafka，@KafkaListener重复消费问题

overfit同步小助手 2023-03-30 00:04:39 0 收藏

Flink-输出算子(Sink)使用

flink输出到kafka，elasticsearch，redis

overfit同步小助手 2023-03-30 00:04:34 0 收藏

rabbitMq实现延迟队列

业务场景：1.生成订单30分钟未支付，则自动取消，我们该怎么实现呢？2.生成订单60秒后,给用户发短信1 安装rabbitMqwindows安装ubuntu中安装2 添加maven依赖 <!-- https://mvnrepository.com/artifact/org.springf

overfit同步小助手 2023-03-30 00:04:30 0 收藏

Flink JobManager内存管理机制介绍与调优总结

作者：董伟柯，腾讯云大数据高级工程师概要我们知道，旧版本 Flink 的 JobManager 作为管理者，只承担着初始化和协调的任务，内存压力非常小，很少出现 OOM 等问题。但是，随着 Flink CDC [1] 实时数据捕获技术的广泛应用，以及采用 Flink 新版 Source 接口（FLI

overfit同步小助手 2023-03-30 00:04:27 0 收藏

flink程序在消费kafka数据时出现Error sending fetch request问题

在程序已经稳定运行多天、未对代码做任何修改、查看所消费数据源未出现数据增多的情况下，有一个flink程序最近出现了积压问题，很是疑惑，观察几天并查看了日志发现，每当出现加压时便会伴随该日志出现，因此便着手解决该问题。...

overfit同步小助手 2023-03-30 00:04:23 0 收藏

国产各数据库厂商数据库梳理

中国电子云飞晶分布式数据库管理系统（CrystalBase）北京子午星辰数据技术有限公司（）CovenantLabs）基于ClickHouse研发的一款分析型数据库产品。开源的兼容ORACLE的PostgreSQL数据库。海盒数据库，提供了列存储引擎与向量计算引擎。基于量子密钥分发协议的分布式关系型

overfit同步小助手 2023-03-29 23:05:17 0 收藏

大数据下的高级算法：hyperloglog,统计海量数据下不同元素的个数

redis中hyperloglog算法和数据结构的原理

overfit同步小助手 2023-03-29 23:05:13 0 收藏

kafka为什么速度快总结

kafka被广泛运用在各个系统中，被用来充当消息的中间件与数据总线的功能。而且我们都知道，kafka是基于磁盘存储的，但是描述kafka的形容词，最常见的经常有诸如速度快，延时小，吞吐量大这些，吞吐量能达到几十w甚至上百万每秒。而这些形容词，却与磁盘来说是格格不入的。所以kafka为什么快就成了一个

overfit同步小助手 2023-03-29 23:05:10 0 收藏

大数据技术之Hadoop集群配置

作者简介：大家好我是小唐同学(๑>؂

overfit同步小助手 2023-03-29 23:05:04 0 收藏

大数据面试常见问题（七）——面试部分

如果千万的表格有分区，那么直接读取数据全量写入到对应的例如今天的分区中；如果是个普通的表格，那么可以使用insert into table进行数据的追加 select * from 库名.表名1.1 定义源数据抽取到ods层中，同一个业务日期数据中包含前一天或者后一天凌晨附近的数据或者丢失当天的变更

overfit同步小助手 2023-03-29 23:05:01 0 收藏

智慧工厂数字孪生建设方案

数字化转型是我国经济社会未来发展的必由之路，数字孪生技术作为推动实现企业数字化转型、促进数字经济发展的重要抓手，并在产品设计制造、生产监管、工艺优化、仿真验证起到重要作用。

overfit同步小助手 2023-03-29 23:04:57 0 收藏

elasticsearch 7.9.3知识归纳整理（一）之 es，kibana，ik的下载安装

es，kibana，ik的下载安装

overfit同步小助手 2023-03-29 23:04:53 0 收藏