kafka发送大消息

此为 Kafka 中端到端的块压缩功能。如果启用,数据将由 producer 压缩,以压缩格式写入服务器,并由 consumer 解压缩。压缩将提高 consumer 的吞吐量,但需付出一定的解压成本。压缩就是用时间换空间,其基本理念是基于重复,将重复的片段编码为字典,字典的 key 为重复片段,v

Flink CEP完全指南:捕获数据的灵魂,构建智慧监控与实时分析大师级工具

掌握Flink CEP,即时捕捉关键事件,助力企业智慧监控与实时数据分析;深入数据流心脏,创造无限可能。

Ubuntu/Linux安装JDK、Mysql、Redis、Rabbitmq、Nginx 并设置开机自启动

Ubuntu/Linux安装JDK、Mysql、Redis、Rabbitmq、Nginx 并设置开机自启动

Spark在Windows下的环境搭建及pyspark的使用

1、将Spark目录下的pyspark文件夹(D:\Spark\spark-2.2.0-bin-hadoop2.7\python\pyspark)复制到要使用的python环境的安装目录(E:\APP\python3.7.0\Lib\site-packages)里。最好解压到一个盘的根目录下,并重命

保姆级连接FusionInsight MRS kerberos Hive

本文将介绍在华为云 FusionInsight MRS(Managed Relational Service)的Kerberos环境中,如何使用Java和DBeaver实现远程连接Hive的方法。

【大数据】Spark学习笔记

Spark学习笔记; 包含了Spark的基本概念/调度器/优化/RDD算子及SparkSQL的相关概念

Spark GraphX:图计算框架初探

GraphX基于Spark的RDD(弹性分布式数据集)实现,能够自动地进行数据的分区和并行化,从而在大规模图数据上实现高效的计算。GraphX作为Apache Spark中的图计算框架,为大规模图数据的处理和分析提供了高效、可扩展的解决方案。未来随着图数据规模的不断增长和图计算技术的不断发展,Gra

HiveSql语法优化二 :join算法

SMB Map Join同Bucket Map Join一样,同样是利用两表各分桶之间的关联关系,在分桶之间进行join操作,不同的是,分桶之间的join操作的实现原理。SMB Map Join要求,参与join的表均为分桶表,且需保证分桶内的数据是有序的,且分桶字段、排序字段和关联字段为相同字段,

kafka下载安装部署

Apache kafka 是一个分布式的基于push-subscribe的消息系统,它具备快速、可扩展、可持久化的特点。它现在是Apache旗下的一个开源系统,作为hadoop生态系统的一部分,被各种商业公司广泛应用。它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的

Eureka注册中心

注意:一个微服务,既可以是服务提供者,又可以是服务消费者,因此eureka将服务注册、服务发现等功能统一封装到了eureka-client端。下面,我们将order-service的逻辑修改:向eureka-server拉取user-service的信息,实现服务发现。- user-service服

RabbitMQ基础知识

RabbitMQ是一个,用于在应用程序之间实现。它实现了AMQP(Advanced Message Queuing Protocol)协议,可以在分布式系统中传递和存储消息。消息队列是一种将消息发送者和接收者解耦的机制。发送者将消息发送到队列中,然后接收者从队列中获取消息并进行处理。这种方式可以提高

ubuntu22.04下hadoop3.3.6+hbase2.5.6+phoenix5.1.3开发环境搭建

然后把这个合成的jar包复制到想用的机器上的DBeaver的安装目录下的plugins目录下(纯个人喜好,实际放哪儿都行),然后启动dbeaver添加phoenix连接,在出来的配置界面中选择驱动,把这个包添加进去,就可以正常使用了。这里会出现的问题是,执行sqlline.py后长时间卡住不动的现象

ClickHouse Kafka 引擎教程

ClickHouse 可以使用 Kafka 表引擎和物化视图直接从 Kafka 主题读取消息,该视图获取消息并将其推送到 ClickHouse 目标表。在此示例中,“kafka”是服务器的 DNS 名称。正如这篇博客文章所展示的,Kafka 表引擎提供了一种简单而强大的方法来集成 Kafka 主题和

Hive之set参数大全-1

是 Apache Hive 中的一个配置属性,用于控制是否允许在需要时按需加载用户定义函数(UDF)。在 Hive 中,UDFs是用户编写的自定义函数,可以在 Hive SQL 查询中使用。这个配置属性的目的是在查询执行期间动态加载UDFs,而不是在Hive服务器启动时就加载所有UDFs,从而减小启

五分钟,Docker安装kafka 3.5,kafka-map图形化管理工具

在开启一个新的终端,一个作为生产者,一个作为消费者。在消费者页面查看,可见内容。

Hive实战:学生信息排序

本次实战利用Hive处理HDFS中学生信息数据,通过创建外部表、执行SQL查询及排序操作,展示了Hive对结构化大数据的高效处理能力,包括按年龄降序和性别升序复合排序。该过程旨在深入教学Hive在数据建模、查询与分析中的应用价值。

【数据采集与预处理】数据接入工具Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。本文主要介绍Kafka以及安装配置。

RabbitMQ 教程

自学的教程,留存一份。

深度解析:Kafka、ActiveMQ、RabbitMQ、RocketMQ的区别与比较

适用于大规模数据流处理,日志收集等场景。适用于JMS标准,中小规模系统,要求易用性和灵活性的场景。适用于灵活的路由机制,对消息传递有较高要求的场景。适用于对事务性和有序性要求较高的场景,如电商支付等。Kafka、ActiveMQ、RabbitMQ、RocketMQ都有各自的特点和优势,选择合适的消息

Hadoop-MapReduce使用说明

MapReduce是一个开源的分布式软件框架,可以让你很容易的编写程序(继承Mapper和Reducer,重写map和reduce方法)去处理大数据。你只需要简单设置下参数提交下,框架会为你的程序安排任务,监视它们并重新执行失败的任务。下面让我们跟着官网来学习下吧。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈