配置Hive使用Spark执行引擎
在Hive中,可以通过配置来指定使用不同的执行引擎。Hive执行引擎包括:默认MR、tez、spark。
Flink--7、窗口(窗口的概念、分类、API、分配器、窗口函数)、触发器、移除器
窗口(窗口的概念、分类、API、分配器、窗口函数)、触发器、移除器
确定kafka对应的zookeeper版本
kafka寻找zookeeper版本
鲸鱼优化算法与大数据:高效网站分析优化技术
作者:禅与计算机程序设计艺术 "鲸鱼优化算法与大数据:高效网站分析优化技术"引言1.1. 背景介绍随着互联网的发展,网站
消息队列 Kafka
消息队列 Kafka
RabbitMQ原理(一):基础知识
微服务一旦拆分,必然涉及到服务之间的相互调用,目前我们服务之间调用采用的都是基于OpenFeign的调用。这种调用中,调用者发起请求后需要服务提供者执行业务返回结果后,才能继续执行后面的业务。也就是说调用者在调用过程中处于阻塞状态,因此我们成这种调用方式为,也可以叫。但在很多场景下,我们可能需要采用
Kafka的ACK配置含义详解
Kafka的ACK配置含义详解
深入理解Kafka—如何保证Exactly Once语义
Kafka 是一种高吞吐量、分布式、可分区、多副本的消息系统。它在使用上非常灵活,可以作为 Pulsar、RabbitMQ 的替代品。但同时也带来了一些复杂性和问题,比如Exactly Once 语义。从本质上说,Exactly Once 就是对消费者读取的数据只要不丢失,就一定能得到一次完整的处理
【Hadoop】创建Hadoop集群(3个节点)—— 安装部署一个3个节点构成的hbase集群
互联网的快速发展带来了数据快速增加,海量数据的存储已经不是一台机器所能处理的问题了。Hadoop的技术应运而生,对于伪分布式存储,Hadoop有自己的一套系统Hadoop distribution file system来处理,为什么分布式存储需要一个额外的系统来处理,而不是就把1TB以上的文件分开
架构必备能力——kafka的选型对比及应用场景
经过上述的讲解,我们不难知道Kafka的应用场景非常广泛,你可以只把他当MQ组件,也可以使用它进行日志传输或流处理。它的特点也非常鲜明,就是强大的吞吐量、扩展性和可靠性。当然它与传统MQ组件对比,它在复杂场景下的使用会比较麻烦。但其在大数据领域应用广泛,比如经常作为 Hadoop 的数据源,将数据传
RabbitMQ客户端清空所有消息
清理RabbitMq队列中的消息
Spark Streaming实时数据处理
作者:禅与计算机程序设计艺术 1.简介Apache Spark™Streaming是一个构建在Apache Spark™之上的快速、微批次、容错的流式数据处理系统,它可以对实时数据进行高吞吐量、低延迟地处理。Spark Streaming既可用于流计算场景也可用
RabbitMq消息丢失原因及其解决方案
RabbitMQ 回传给生产者的确认消息中的 deliveryTag 包含了确认消息的序号,此外 RabbitMQ 也可以设置 channel.basicAck 方法中的 multiple 参数,表示到这个序号之前的所有消息都已经得到了处理,注意辨别这里的确认和消费时候的确认之间的异同。而且持久化可
docker-compose部署rabbitmq集群
计划部署3节点的mq集群,,三个节点在不同机器上,为了方便主机名称分别为mq1、mq2、mq3,节点也进行相应的映射;在标准集群模式下,一旦创建队列的主机宕机,队列就会不可用。仲裁队列: 是3.8版本以后才有的新功能,用来替代镜像集群,也是一种主从集群,主从同步基于Raft协议,强一致。镜像模式下,
【Kafka】记录一次基于connect-mirror-maker做的Kafka集群迁移完整过程
一个测试环境的kafka集群,Topic有360+,Partition有2000+,部署在虚拟机上,由于多方面原因,要求迁移至k8s容器内(全量迁移),正好可以拿来练一下手。本文主要记录对MM1和MM2的实际操作过程,以及使用过程中遇到的问题及解决方案。
实时数据分析实践之Kafka Connect
Kafka Connect是一个开源项目,它可以让你连接到Kafka集群,并从外部系统导入或导出数据到Kafka集群中的主题。它支持很多种不同的源(如关系数据库、文件系统、IoT设备等)和目标(如Kafka主题、Elasticsearch集群、Hive表等),而且内置了许多有用的连接器。在本文中,我
架构师必读:RabbitMQ常见问题与解决办法
作者:禅与计算机程序设计艺术 1.简介Apache RabbitMQ是一个开源的消息代理中间件,它可以实现在分布式系统中应用间、跨平台和服务间通讯。本文通过常见问题解答的方式,讲述了RabbitMQ的架构、基本概念、术语、核心算法、具体操作步骤、代码实例以及未来
【大数据之Hive】十六、Hive-HQL函数之窗口函数(开窗函数)
先定义了窗口的大小(按行来算),然后对窗口内的行的数据进行计算,再将计算结果返回给改行。 窗口函数包括窗口和函数两部分,窗口用于定义计算范围,函数用于定义计算逻辑,窗口函数只会在原来的表上增加一列结果列,不改变原来的数据。函数: 绝大多数聚合函数都可以配合窗口使用,如max(),min(),
flume环境配置-传输Hadoop日志(namenode或datanode日志)
flume环境配置-传输Hadoop日志(namenode或datanode日志)
2 hadoop的目录
(1)bin目录:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本。(2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件。(3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)(5)share目录:存放Hadoop的依赖jar包、文档、