大数据 - overfit.cn

Hadoop云上大数据技术

结构化数据类型是一种用户定义的数据类型，它包含一些非原子的元素，更确切地说，这些数据类型是可以分割的，它们既可以单独使用，又可以在适当情况下作为一个独立的单元使用。属性是专门用来帮助描述类型实例的特性。非结构化数据库是指其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库

overfit同步小助手 2024-03-10 12:03:39 0 收藏

面试必备：Kafka高频面试题及答案解析

在Kafka中，Leader选举是关键的机制，用于在分区的多个副本（Replicas）之间选举出一个领导者（Leader）。Kafka的Broker是Kafka架构中的一个核心组件，是一个独立的服务器节点，负责存储数据和处理客户端请求。生产者可以为消息指定一个键，Kafka根据键的哈希将消息路由到特

overfit同步小助手 2024-03-10 12:03:30 0 收藏

【Flink集群RPC通讯机制（三）】AkkaRpcActor设计与实现：接收RPC消息以及处理逻辑

overfit同步小助手 2024-03-10 12:03:19 0 收藏

自定义kafka客户端消费topic

使用自定义的KafkaConsumer给spring进行管理，之后在注入topic的set方法中，开单线程主动订阅和读取该topic的消息。

overfit同步小助手 2024-03-10 11:03:56 0 收藏

RabbitMQ（二）

可以看到，在订阅模型中，多了一个exchange角色，而且过程略有变化：Publisher：生产者，也就是要发送消息的程序，但是不再发送到队列中，而是发给X（交换机）Exchange：交换机，图中的X。一方面，接收生产者发送的消息。另一方面，知道如何处理消息，例如递交给某个特别队列、递交给所有队列、

overfit同步小助手 2024-03-10 11:03:51 0 收藏

大数据分布式计算工具Spark数据计算实战讲解（map方法，flatmap方法，reducebykey方法）

map算子，是将rdd的数据一条条处理（处理的逻辑基于map算子中接收的处理函数），返回新的rdd。功能：针对kv型rdd，自动按照key分组，然后根据你提供的聚合逻辑，完成组内数据的聚合操作。PySpark的数据计算，都是基于RDD对象来进行的，那么如何进行呢？对于返回值是新RDD的算子，可以通过

overfit同步小助手 2024-03-10 11:03:47 0 收藏

Flink 学习 | 运行时的架构（包括一些核心概念和提交流程）

Flink 中，并行度相同的 ont to one 算子操作，可以直接连接起来形成一个大的 task 任务，这样，每个 task 会被一个线程执行，这种技术叫算子链。这种模式下，数据流维护着分区及元素的顺序。实际上，每个任务槽就表示了 Task Manager 拥有计算资源的一个固定大小的子集，用来

overfit同步小助手 2024-03-10 10:03:57 0 收藏

rabbitmq源码分析队列结构，详细解说

DI？**看完你能回答上几道？据我所知，如果能回答的出其中的一半，就算是勉强及格了。**如果都答对你都能全部回答出来，那你应该是妥妥的技术大牛了！可以放心去投大厂简历了！这不止是一份面试清单，更是一种”被期望的责任“，因为有无数个待面试者，希望从这篇文章中，找出通往期望公司的”钥匙“，所以上面每道选

overfit同步小助手 2024-03-10 10:03:54 0 收藏

SpringCloud-实现基于RabbitMQ的消息队列

本文详细介绍了在Spring Cloud框架中集成RabbitMQ消息队列的步骤。首先，通过添加必要的依赖，配置RabbitMQ连接信息。接着，创建消息生产者和消费者，利用Spring Cloud Stream简化消息绑定过程。生产者负责发送消息到RabbitMQ队列，而消费者通过监听队列接收并处理

overfit同步小助手 2024-03-10 10:03:32 0 收藏

Spring Boot整合Kafka

Kafka作为一款分布式流处理平台，具有高吞吐量、持久性、容错性等特点，适用于构建大规模的实时数据管道。Spring Boot作为快速开发框架，提供了简化开发和部署的能力，使得与Kafka的整合变得更加容易。通过将Spring Boot与Kafka进行整合，具有以下优势异步消息处理：Kafka可以作

overfit同步小助手 2024-03-10 09:03:47 0 收藏

RabbitMQ 笔记一

2007年，Rabbit技术公司基于AMQP标准开发 Rabbit MQ1.0使用Erlang语言（一种专门为高并发、分布式系统开发的语言|电信领域使用广泛）P：生产者，也就是要发送消息的程序。C: 消费者，消息的接收者，监听队列等待消息到来。Queue: 消息队列，类似邮箱，可以缓存消息，生

overfit同步小助手 2024-03-10 09:03:43 0 收藏

跟着罗某人认识spark和scala带你上大分

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Clo

overfit同步小助手 2024-03-10 09:03:29 0 收藏

【Flink网络数据传输】OperatorChain的设计与实现

overfit同步小助手 2024-03-10 08:03:35 0 收藏

RabbitMQ的Windows版安装教程

曾经写过一篇关于RabbitMQ的Ubuntu安装教程（），当时使用的是Docker将RabbitMQ安装到虚拟机上，但是有很多小伙伴问Windows上如何进行安装RabbitMQ，以及如何简单使用RabbitMQ，所以这期就来简单讲解一下RabbitMQ的Windows安装教程。以上就是Rabbi

overfit同步小助手 2024-03-10 08:03:22 0 收藏

Flink 的高可用性与故障转移策略

1.背景介绍Flink 是一种流处理框架，用于实时数据处理。它具有高吞吐量、低延迟和强大的状态管理功能，使其成为处理大规模流数据的理想选择。然而，在分布式系统中，高可用性和故障转移策略是关键因素。这篇文章将深入探讨 Flink 的高可用性和故障转移策略，以及如何确保 Flink 集群的可靠性和高性能

overfit同步小助手 2024-03-10 06:03:38 0 收藏

HBase总结

overfit同步小助手 2024-03-10 06:03:31 0 收藏

24 | Kafka的协调服务ZooKeeper：实现分布式系统的“瑞士军刀”

上节一起学习了 RocketMQ NameServer 的源代码，RocketMQ 的 NameServer 虽然设计非常简洁，但很好地解决了路由寻址的问题。而 Kafka 却采用了完全不同的设计思路，它选择使用 ZooKeeper 这样一个分布式协调服务来实现和 RocketMQ 的 NameSe

overfit同步小助手 2024-03-10 05:03:53 0 收藏

RabbitMQ之延迟队列（手把手教你学习延迟队列）

延时队列在需要延时处理的场景下非常有用，使用 RabbitMQ 来实现延时队列可以很好的利用RabbitMQ 的特性，如：消息可靠发送、消息可靠投递、死信队列来保障消息至少被消费一次以及未被正确处理的消息不会被丢弃。另外，通过 RabbitMQ 集群的特性，可以很好的解决单点故障问题，不会因为单个节

overfit同步小助手 2024-03-10 05:03:30 0 收藏

springcloud架构图及讲解，kafka常见的面试问题

现在正是金三银四的春招高潮，前阵子小编一直在搭建自己的网站，并整理了全套的**【一线互联网大厂Java核心面试题库+解析】：包括Java基础、异常、集合、并发编程、JVM、Spring全家桶、MyBatis、Redis、数据库、中间件MQ、Dubbo、Linux、Tomcat、ZooKeeper、N

overfit同步小助手 2024-03-10 04:03:51 0 收藏

五分钟带你了解spark | 从入门到入土

公主，王子请看spark基础总结spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

overfit同步小助手 2024-03-10 03:03:37 0 收藏