大数据 - overfit.cn

配置Hive使用Spark执行引擎

在Hive中，可以通过配置来指定使用不同的执行引擎。Hive执行引擎包括：默认MR、tez、spark。

overfit同步小助手 2023-10-14 20:03:39 0 收藏

Flink--7、窗口（窗口的概念、分类、API、分配器、窗口函数）、触发器、移除器

窗口（窗口的概念、分类、API、分配器、窗口函数）、触发器、移除器

overfit同步小助手 2023-10-14 18:03:28 0 收藏

确定kafka对应的zookeeper版本

kafka寻找zookeeper版本

overfit同步小助手 2023-10-14 17:03:41 0 收藏

鲸鱼优化算法与大数据：高效网站分析优化技术

作者：禅与计算机程序设计艺术 "鲸鱼优化算法与大数据：高效网站分析优化技术"引言1.1. 背景介绍随着互联网的发展，网站

overfit同步小助手 2023-10-14 17:03:10 0 收藏

消息队列 Kafka

overfit同步小助手 2023-10-14 15:03:31 0 收藏

RabbitMQ原理(一)：基础知识

微服务一旦拆分，必然涉及到服务之间的相互调用，目前我们服务之间调用采用的都是基于OpenFeign的调用。这种调用中，调用者发起请求后需要服务提供者执行业务返回结果后，才能继续执行后面的业务。也就是说调用者在调用过程中处于阻塞状态，因此我们成这种调用方式为，也可以叫。但在很多场景下，我们可能需要采用

overfit同步小助手 2023-10-14 12:03:37 0 收藏

Kafka的ACK配置含义详解

overfit同步小助手 2023-10-14 10:03:47 0 收藏

深入理解Kafka—如何保证Exactly Once语义

Kafka 是一种高吞吐量、分布式、可分区、多副本的消息系统。它在使用上非常灵活，可以作为 Pulsar、RabbitMQ 的替代品。但同时也带来了一些复杂性和问题，比如Exactly Once 语义。从本质上说，Exactly Once 就是对消费者读取的数据只要不丢失，就一定能得到一次完整的处理

overfit同步小助手 2023-10-14 09:03:53 0 收藏

【Hadoop】创建Hadoop集群（3个节点）—— 安装部署一个3个节点构成的hbase集群

互联网的快速发展带来了数据快速增加，海量数据的存储已经不是一台机器所能处理的问题了。Hadoop的技术应运而生，对于伪分布式存储，Hadoop有自己的一套系统Hadoop distribution file system来处理，为什么分布式存储需要一个额外的系统来处理，而不是就把1TB以上的文件分开

overfit同步小助手 2023-10-14 09:03:36 0 收藏

架构必备能力——kafka的选型对比及应用场景

经过上述的讲解，我们不难知道Kafka的应用场景非常广泛，你可以只把他当MQ组件，也可以使用它进行日志传输或流处理。它的特点也非常鲜明，就是强大的吞吐量、扩展性和可靠性。当然它与传统MQ组件对比，它在复杂场景下的使用会比较麻烦。但其在大数据领域应用广泛，比如经常作为 Hadoop 的数据源，将数据传

overfit同步小助手 2023-10-14 08:03:20 0 收藏

RabbitMQ客户端清空所有消息

清理RabbitMq队列中的消息

overfit同步小助手 2023-10-14 08:03:12 0 收藏

Spark Streaming实时数据处理

作者：禅与计算机程序设计艺术 1.简介Apache Spark™Streaming是一个构建在Apache Spark™之上的快速、微批次、容错的流式数据处理系统，它可以对实时数据进行高吞吐量、低延迟地处理。Spark Streaming既可用于流计算场景也可用

overfit同步小助手 2023-10-14 07:03:42 0 收藏

RabbitMq消息丢失原因及其解决方案

RabbitMQ 回传给生产者的确认消息中的 deliveryTag 包含了确认消息的序号，此外 RabbitMQ 也可以设置 channel.basicAck 方法中的 multiple 参数，表示到这个序号之前的所有消息都已经得到了处理，注意辨别这里的确认和消费时候的确认之间的异同。而且持久化可

overfit同步小助手 2023-10-14 07:03:39 0 收藏

docker-compose部署rabbitmq集群

计划部署3节点的mq集群，，三个节点在不同机器上，为了方便主机名称分别为mq1、mq2、mq3，节点也进行相应的映射；在标准集群模式下，一旦创建队列的主机宕机，队列就会不可用。仲裁队列：是3.8版本以后才有的新功能，用来替代镜像集群，也是一种主从集群，主从同步基于Raft协议，强一致。镜像模式下，

overfit同步小助手 2023-10-14 06:03:48 0 收藏

【Kafka】记录一次基于connect-mirror-maker做的Kafka集群迁移完整过程

一个测试环境的kafka集群，Topic有360+，Partition有2000+，部署在虚拟机上，由于多方面原因，要求迁移至k8s容器内（全量迁移），正好可以拿来练一下手。本文主要记录对MM1和MM2的实际操作过程，以及使用过程中遇到的问题及解决方案。

overfit同步小助手 2023-10-14 05:03:33 0 收藏

实时数据分析实践之Kafka Connect

Kafka Connect是一个开源项目，它可以让你连接到Kafka集群，并从外部系统导入或导出数据到Kafka集群中的主题。它支持很多种不同的源（如关系数据库、文件系统、IoT设备等）和目标(如Kafka主题、Elasticsearch集群、Hive表等)，而且内置了许多有用的连接器。在本文中，我

overfit同步小助手 2023-10-14 04:03:23 0 收藏

架构师必读：RabbitMQ常见问题与解决办法

作者：禅与计算机程序设计艺术 1.简介Apache RabbitMQ是一个开源的消息代理中间件，它可以实现在分布式系统中应用间、跨平台和服务间通讯。本文通过常见问题解答的方式，讲述了RabbitMQ的架构、基本概念、术语、核心算法、具体操作步骤、代码实例以及未来

overfit同步小助手 2023-10-14 01:03:47 0 收藏

【大数据之Hive】十六、Hive-HQL函数之窗口函数（开窗函数）

先定义了窗口的大小（按行来算），然后对窗口内的行的数据进行计算，再将计算结果返回给改行。窗口函数包括窗口和函数两部分，窗口用于定义计算范围，函数用于定义计算逻辑，窗口函数只会在原来的表上增加一列结果列，不改变原来的数据。函数：绝大多数聚合函数都可以配合窗口使用，如max()，min()，

overfit同步小助手 2023-10-14 00:03:27 0 收藏

flume环境配置-传输Hadoop日志（namenode或datanode日志）

overfit同步小助手 2023-10-13 22:03:42 0 收藏

2 hadoop的目录

（1）bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本。（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件。（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）（5）share目录：存放Hadoop的依赖jar包、文档、

overfit同步小助手 2023-10-13 19:03:45 0 收藏