大数据 - overfit.cn

kafka发送大消息

此为 Kafka 中端到端的块压缩功能。如果启用，数据将由 producer 压缩，以压缩格式写入服务器，并由 consumer 解压缩。压缩将提高 consumer 的吞吐量，但需付出一定的解压成本。压缩就是用时间换空间，其基本理念是基于重复，将重复的片段编码为字典，字典的 key 为重复片段，v

overfit同步小助手 2024-01-13 08:03:58 0 收藏

Flink CEP完全指南：捕获数据的灵魂，构建智慧监控与实时分析大师级工具

掌握Flink CEP，即时捕捉关键事件，助力企业智慧监控与实时数据分析；深入数据流心脏，创造无限可能。

overfit同步小助手 2024-01-13 08:03:30 0 收藏

Ubuntu/Linux安装JDK、Mysql、Redis、Rabbitmq、Nginx 并设置开机自启动

overfit同步小助手 2024-01-13 08:03:21 0 收藏

Spark在Windows下的环境搭建及pyspark的使用

1、将Spark目录下的pyspark文件夹（D:\Spark\spark-2.2.0-bin-hadoop2.7\python\pyspark）复制到要使用的python环境的安装目录（E:\APP\python3.7.0\Lib\site-packages）里。最好解压到一个盘的根目录下，并重命

overfit同步小助手 2024-01-13 07:03:52 0 收藏

保姆级连接FusionInsight MRS kerberos Hive

本文将介绍在华为云 FusionInsight MRS（Managed Relational Service）的Kerberos环境中，如何使用Java和DBeaver实现远程连接Hive的方法。

overfit同步小助手 2024-01-13 06:03:19 0 收藏

【大数据】Spark学习笔记

Spark学习笔记; 包含了Spark的基本概念/调度器/优化/RDD算子及SparkSQL的相关概念

overfit同步小助手 2024-01-13 05:03:43 0 收藏

Spark GraphX：图计算框架初探

GraphX基于Spark的RDD（弹性分布式数据集）实现，能够自动地进行数据的分区和并行化，从而在大规模图数据上实现高效的计算。GraphX作为Apache Spark中的图计算框架，为大规模图数据的处理和分析提供了高效、可扩展的解决方案。未来随着图数据规模的不断增长和图计算技术的不断发展，Gra

overfit同步小助手 2024-01-13 05:03:18 0 收藏

HiveSql语法优化二：join算法

SMB Map Join同Bucket Map Join一样，同样是利用两表各分桶之间的关联关系，在分桶之间进行join操作，不同的是，分桶之间的join操作的实现原理。SMB Map Join要求，参与join的表均为分桶表，且需保证分桶内的数据是有序的，且分桶字段、排序字段和关联字段为相同字段，

overfit同步小助手 2024-01-13 03:03:52 0 收藏

kafka下载安装部署

Apache kafka 是一个分布式的基于push-subscribe的消息系统，它具备快速、可扩展、可持久化的特点。它现在是Apache旗下的一个开源系统，作为hadoop生态系统的一部分，被各种商业公司广泛应用。它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的

overfit同步小助手 2024-01-13 03:03:41 0 收藏

Eureka注册中心

注意：一个微服务，既可以是服务提供者，又可以是服务消费者，因此eureka将服务注册、服务发现等功能统一封装到了eureka-client端。下面，我们将order-service的逻辑修改：向eureka-server拉取user-service的信息，实现服务发现。- user-service服

overfit同步小助手 2024-01-13 03:03:30 0 收藏

RabbitMQ基础知识

RabbitMQ是一个，用于在应用程序之间实现。它实现了AMQP（Advanced Message Queuing Protocol）协议，可以在分布式系统中传递和存储消息。消息队列是一种将消息发送者和接收者解耦的机制。发送者将消息发送到队列中，然后接收者从队列中获取消息并进行处理。这种方式可以提高

overfit同步小助手 2024-01-13 02:03:52 0 收藏

ubuntu22.04下hadoop3.3.6+hbase2.5.6+phoenix5.1.3开发环境搭建

然后把这个合成的jar包复制到想用的机器上的DBeaver的安装目录下的plugins目录下（纯个人喜好，实际放哪儿都行），然后启动dbeaver添加phoenix连接，在出来的配置界面中选择驱动，把这个包添加进去，就可以正常使用了。这里会出现的问题是，执行sqlline.py后长时间卡住不动的现象

overfit同步小助手 2024-01-13 01:03:45 0 收藏

ClickHouse Kafka 引擎教程

ClickHouse 可以使用 Kafka 表引擎和物化视图直接从 Kafka 主题读取消息，该视图获取消息并将其推送到 ClickHouse 目标表。在此示例中，“kafka”是服务器的 DNS 名称。正如这篇博客文章所展示的，Kafka 表引擎提供了一种简单而强大的方法来集成 Kafka 主题和

overfit同步小助手 2024-01-13 01:03:19 0 收藏

Hive之set参数大全-1

是 Apache Hive 中的一个配置属性，用于控制是否允许在需要时按需加载用户定义函数（UDF）。在 Hive 中，UDFs是用户编写的自定义函数，可以在 Hive SQL 查询中使用。这个配置属性的目的是在查询执行期间动态加载UDFs，而不是在Hive服务器启动时就加载所有UDFs，从而减小启

overfit同步小助手 2024-01-13 00:03:13 0 收藏

五分钟，Docker安装kafka 3.5，kafka-map图形化管理工具

在开启一个新的终端，一个作为生产者，一个作为消费者。在消费者页面查看，可见内容。

overfit同步小助手 2024-01-13 00:03:10 0 收藏

Hive实战：学生信息排序

本次实战利用Hive处理HDFS中学生信息数据，通过创建外部表、执行SQL查询及排序操作，展示了Hive对结构化大数据的高效处理能力，包括按年龄降序和性别升序复合排序。该过程旨在深入教学Hive在数据建模、查询与分析中的应用价值。

overfit同步小助手 2024-01-12 23:03:31 0 收藏

【数据采集与预处理】数据接入工具Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。本文主要介绍Kafka以及安装配置。

overfit同步小助手 2024-01-12 23:03:11 0 收藏

RabbitMQ 教程

自学的教程，留存一份。

overfit同步小助手 2024-01-12 21:03:29 0 收藏

深度解析：Kafka、ActiveMQ、RabbitMQ、RocketMQ的区别与比较

适用于大规模数据流处理，日志收集等场景。适用于JMS标准，中小规模系统，要求易用性和灵活性的场景。适用于灵活的路由机制，对消息传递有较高要求的场景。适用于对事务性和有序性要求较高的场景，如电商支付等。Kafka、ActiveMQ、RabbitMQ、RocketMQ都有各自的特点和优势，选择合适的消息

overfit同步小助手 2024-01-12 20:03:44 0 收藏

Hadoop-MapReduce使用说明

MapReduce是一个开源的分布式软件框架，可以让你很容易的编写程序（继承Mapper和Reducer，重写map和reduce方法）去处理大数据。你只需要简单设置下参数提交下，框架会为你的程序安排任务，监视它们并重新执行失败的任务。下面让我们跟着官网来学习下吧。

overfit同步小助手 2024-01-12 19:03:50 0 收藏