HBase学习笔记(1)—— 知识点总结
本文介绍了hbase的基础知识,分为:HBase概述、HBase 基本架构、HBase安装部署启动、HBase Shell、HBase数据读写流程、HBase 优化六大部分
kafka微服务学习
消息中间件对比:1、吞吐、可靠性、性能。
hive的工作机制
hive的工作机制
增加并行度后,发现Flink窗口不会计算的问题。
窗口没有关闭计算的问题,一直困扰了很久,经过多次验证,确定了问题的根源。是因为多个topic进行了数据消费,其中有个topic数据会进入窗口进行计算,但有的窗口又永远不会有数据进入计算,这就造成对应的窗口永远没有最低的watermark以致于窗口无法关闭并计算
【头歌】Hive内置函数 - 详解
【主要内容】函数的查询、描述和调用;Hive标准函数;Hive聚合函数;Hive日期函数;表生成函数;分组排序取TopN。【实践内容】编程实现HQL查询。
【WPF系列】- XAML语法规范
定义XAML语法术语是XAML语言规范中进行定义或引用。XAML是基于XML的语言,遵循或扩展XML结构规则。XAML是基于描述XML语言或XML文档对象模型时常用的术语。XAML是一种标记语言。CLR是可实现运行时语言。XAML不是CRL运行一部分。仅是使用于WPF的XAML时实例化运行的一种表达
百战c++(数据库2)
写满了:redo log 里的容量是有限的,如果数据库一直很忙,更新又很频繁,这个时候 redo log 很快就会被写满了,这个时候就没办法等到空闲的时候再把数据同步到磁盘的,只能暂停其他操作,全身心来把数据同步到磁盘中去的,而这个时候,就会导致我们平时正常的SQL语句突然执行的很慢,所以说,数据库
Hive表DDL操作(二) 第2关:Create/Drop/ALTER 索引
Hive表DDL操作(二)第2关:Create/Drop/ALTER 索引
[Hadoop高可用集群]数仓工具之Hive的安装部署(超级详细,适用于初学者)
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。最初,Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开
【Zookeeper专题】Zookeeper特性与节点数据类型详解
对于我们这些JavaCoder来说,市面上有各式各样,功能相似的中间件供我们使用。我想大家应该都清楚,要认识一个中间件,最好的方式应该是从它的创造背景开始说起。PS:Zookeeper主要用来解决分布式集群中应用系统的一致性问题什么是zookeeper?ZooKeeper,动物园管理者。动物园里有什
源码解析FlinkKafkaConsumer支持punctuated水位线发送
Punctuated水位线生成源码解析
Spark任务优化分析
如果是sql 任务进入到 SQL 页面看到 对应的执行卡在哪里,然后分析,如下图是hash id、actor_name,可以看到是group by 数据有倾斜。group by 数据倾斜问题,可以参考hive group by 数据倾斜问题同样处理思路。首先需要掌握 Spark DAG、stage、
常用的RabbitMQ命令以及安装RabbitMQ(ARM架构的CentOS虚拟机和X86架构的CentOS虚拟机)
Erlang(['ə:læŋ])是⼀种通⽤的⾯向并发的编程语⾔,它由瑞典电信设备制造商爱⽴信所辖的CS-Lab开发,⽬的 是创造⼀种可以应对⼤规模并发活动的编程语⾔和运⾏环境。最初是由爱⽴信专⻔为通信应⽤设计的,⽐如控制交换机或者变换协议等,因此⾮常适合构建分布式、实时软并⾏ 计算系统。Erlang
Kafka中的group_id:实现消息分组消费的关键
同一个消费组内的消费者会共享消息的处理负载,即每个分区的消息只会被消费组内的一个消费者处理。如果消费者在同一个消费组内,则它们将共享消费组的负载,并且每个分区只会被消费组内的一个消费者消费。Kafka会自动将分区分配给消费者组中的消费者,并确保每个分区只会被消费组内的一个消费者处理。Kafka消息分
Java实现Hive UDF详细步骤 (Hive 3.x版本,IDEA开发)
Java实现Hive UDF的详细步骤,用IDEA开发,Hive3.x版本实现方案
大数据智能决策系统架构:决策系统与市场营销
作者:禅与计算机程序设计艺术 1.背景介绍大数据时代已经到来了,在这个信息化时代,智能决策与市场营销变得尤其重要,基于大数据的智能决策系统对我们的生活、工作、社会、经济产生深远影响。那么如何设计一个真正具有竞争力的大数据智能决策系统架构呢?决策系统与市场营销是一
flink-cdc之读取mysql变化数据
由于打印的日志太多 我们可以用fastjson稍微封装下 然后传给sink去处理,根据update delete insert实时更新下游数据。修改一条数据 age=1 ->age=2。
Hadoop、Spark、Storm、Flink区别及选择
上述四个组件的实时性高低顺序如下:hadoop < spark < storm < flinkhdfs是hadoop的文件存储系统,存储csv/txt等各种格式的文件,但是对于hive和hbases就比较陌生,今天顺便一起看了一下这二者的区别和适用场景。1. 数据时效性不同:流式计算具有实时、低延迟
RabbitMq(七) -- 常见问题:幂等性问题(消息重复消费)、消息丢失
/依赖注入 rabbitTemplate 之后再设置它的回调对象 // 此注解会在其他注解执行完成后再执行,所以rabbitTemplate先注入,再执行此初始化方法 @PostConstruct public void init() {// 设置rabbitTemplate的ConfirmCall
Spark运行模式介绍
Spark三种运行模式,本地运行模式,StandAlone运行模式,Spark on Yarn运行模式介绍