Hive调优策略之SQL优化
介绍了hive如何从sql层面进行调优
Docker安装Hadoop
docker exec -it hadoop bash进入容器。查找hadoop-env.sh的安装路径。配置备份数量,小于等于slave数量。三个容器都要修改如下三个IP映射。
hive的开窗函数篇
hive的开窗函数over()
浅谈Hive SQL的优化
目前团队的数据处理都在Hadoop集群上,一是因为需要处理的数据量都是亿级的,这种规模的数据适合用Hadoop集群并行处理;二是免除了分库分表给查询处理上带来的麻烦。Hive是基于Hadoop的一个数据仓库工具,它将存储在HDFS上的结构化的文件映射成一张关系型数据库表,提供简单的SQL查询功能。本
虚拟机 安装jdk及hadoop单机版
在虚拟机上进行jdk及hadoop单机版安装,对如何配置虚拟机上的环境变量做了详细的描述,以及hadoop安装出现错误如何查找
二、RabbitMQ的五种工作模式
1.简单(Simple)模式P:生产者,也就是要发送消息的程序。C:消费者:消息的接收者,会一直等待消息到来。queue:消息队列,图中红色部分。类似一个邮箱,可以缓存消息;生产者向其中投递消息,消费者从其中取出消息。简单模式就是单发单收,消息的消费者监听消息队列,如果队列中有消息,就消费掉,消息被
HBase的数据模型和存储原理
类似于关系型数据库的 DatabBase 概念,每个命名空间下有多个表。HBase有两个自带的命名空间,分别是 hbase 和 default,hbase 中存放的是 HBase 内置的表,default 表是用户默认使用的命名空间。类似于一个表的子表,表中的一部分。HBase中的一个表被拆分成多个
数仓工具—Hive实战之GenericUDF使用详解(24)
GenericUDF 使用起来相比UDF 更复杂,但是我们也介绍了它支持复杂数据结构,性能更高,需要注意的是GenericUDF是抽象类不是接口,关于GenericUDF的使用的复杂案例可以参考我们的UDAF批量调用外部请求。
springboot集成kafka,@KafkaListener重复消费问题
springboot集成kafka,@KafkaListener重复消费问题
Flink-输出算子(Sink)使用
flink输出到kafka,elasticsearch,redis
rabbitMq实现延迟队列
业务场景:1.生成订单30分钟未支付,则自动取消,我们该怎么实现呢?2.生成订单60秒后,给用户发短信1 安装rabbitMqwindows安装ubuntu中安装2 添加maven依赖 <!-- https://mvnrepository.com/artifact/org.springf
Flink JobManager内存管理机制介绍与调优总结
作者:董伟柯,腾讯云大数据高级工程师概要我们知道,旧版本 Flink 的 JobManager 作为管理者,只承担着初始化和协调的任务,内存压力非常小,很少出现 OOM 等问题。但是,随着 Flink CDC [1] 实时数据捕获技术的广泛应用,以及采用 Flink 新版 Source 接口(FLI
flink程序在消费kafka数据时出现Error sending fetch request问题
在程序已经稳定运行多天、未对代码做任何修改、查看所消费数据源未出现数据增多的情况下,有一个flink程序最近出现了积压问题,很是疑惑,观察几天并查看了日志发现,每当出现加压时便会伴随该日志出现,因此便着手解决该问题。...
国产各数据库厂商数据库梳理
中国电子云飞晶分布式数据库管理系统(CrystalBase)北京子午星辰数据技术有限公司()CovenantLabs)基于ClickHouse研发的一款分析型数据库产品。开源的兼容ORACLE的PostgreSQL数据库。海盒数据库,提供了列存储引擎与向量计算引擎。基于量子密钥分发协议的分布式关系型
大数据下的高级算法:hyperloglog,统计海量数据下不同元素的个数
redis中hyperloglog算法和数据结构的原理
kafka为什么速度快总结
kafka被广泛运用在各个系统中,被用来充当消息的中间件与数据总线的功能。而且我们都知道,kafka是基于磁盘存储的,但是描述kafka的形容词,最常见的经常有诸如速度快,延时小,吞吐量大这些,吞吐量能达到几十w甚至上百万每秒。而这些形容词,却与磁盘来说是格格不入的。所以kafka为什么快就成了一个
大数据技术之Hadoop集群配置
作者简介:大家好我是小唐同学(๑>
大数据面试常见问题(七)——面试部分
如果千万的表格有分区,那么直接读取数据全量写入到对应的例如今天的分区中;如果是个普通的表格,那么可以使用insert into table进行数据的追加 select * from 库名.表名1.1 定义源数据抽取到ods层中,同一个业务日期数据中包含前一天或者后一天凌晨附近的数据或者丢失当天的变更
智慧工厂数字孪生建设方案
数字化转型是我国经济社会未来发展的必由之路,数字孪生技术作为推动实现企业数字化转型、促进数字经济发展的重要抓手,并在产品设计制造、生产监管、工艺优化、仿真验证起到重要作用。
elasticsearch 7.9.3知识归纳整理(一)之 es,kibana,ik的下载安装
es,kibana,ik的下载安装