大数据 - overfit.cn

Spark-RPC框架解析之组件介绍及流程再探

在Message接口中可以看到对于body方法的返回是 ManagedBuffer，ManagedBuffer 提供了由字节构成数据的不可变视图，类似关系型数据库的视图，不存储数据，也不是数据的实际来源，ManagedBuffer 抽象类的定义如下。TransportServerBootstrap

overfit同步小助手 2024-07-11 21:03:48 0 收藏

大数据毕业设计：python医疗数据分析可视化系统医疗大数据 Flask框架用户画像（源码）✅

overfit同步小助手 2024-07-11 20:03:51 0 收藏

自动发现的艺术：Eureka服务注册与发现深度解析

Eureka作为微服务架构中服务发现的利器，通过服务注册与发现机制，为服务间的通信提供了强大的支持。本文详细介绍了如何在Eureka中实现服务的自动发现，包括服务注册、心跳机制、服务查找与消费、负载均衡以及服务治理等关键技术点。

overfit同步小助手 2024-07-11 20:03:46 0 收藏

好文！12个策略解决 Kafka 数据丢失问题

：生产者可以使用 Kafka 的确认机制来确保消息成功发送到 Kafka 集群。生产者可以选择等待 Kafka 的确认响应（acks）或使用同步发送方式，以确保消息不会丢失。：通过增加 Kafka 主题的副本因子，可以提高消息的可靠性。副本因子决定了每个分区的副本数量，增加副本数量可以提高消息的冗余

overfit同步小助手 2024-07-11 19:03:46 0 收藏

Kafka

消息队列——用于存放消息的组件程序员可以将消息放入到队列中，也可以从消息队列中获取消息很多时候消息队列不是一个永久性的存储，是作为临时存储存在的（设定一个期限：设置消息在MQ中保存10天）消息队列中间件：消息队列的组件，例如：Kafka、Active MQ、RabbitMQ、RocketMQ、Zer

overfit同步小助手 2024-07-11 18:03:41 0 收藏

数说CS | 夏令营为主！复旦大学大数据学院保研形势如何？

通过国家级和省级人才计划的引进，学院还为学生提供了与优秀导师和团队合作的机会，促使学生在毕业后能够更好地融入社会和行业。，21年到23年拟录取人数分别为67人、62人、71人，22年相较于21年拟录取减少，而23年相较于22年拟录取增多，按趋势。，3位省级人才计划入选者，5位国家级青年人才计划入选者

overfit同步小助手 2024-07-11 18:03:10 0 收藏

【大数据-算法】资源调度算法：动态资源分配策略的深入探讨

资源调度算法是操作系统管理和优化资源使用的核心机制，旨在根据系统当前状态和应用需求，高效、公平地分配计算资源。常见的资源调度算法可以分为两大类：抢占式调度和非抢占式调度。抢占式调度允许系统在任务运行过程中，根据优先级或负载情况重新分配资源；而非抢占式调度则一旦资源分配给某任务，除非该任务完成或主动释

overfit同步小助手 2024-07-11 17:03:36 0 收藏

【分布式系统】注册中心Zookeeper

你若将过去抱得太紧，怎么能腾出手来拥抱现在？

overfit同步小助手 2024-07-11 16:03:49 0 收藏

RabbitMQ的工作模式

Pub / Sub模式（分列模式）：一个提供者（Produce），一个交换机（Exchange），多个队列，多个消费者（Consumer），消费者监听队列。4.事务处理模式：指的是在一个事务中，要么消息全部发送成功，要么不发送消息，这个模式要确保确认模式和回退模式是关闭的，不能同时开启事务模式

overfit同步小助手 2024-07-11 13:03:27 0 收藏

Kafka重平衡导致无限循环消费问题

通过消费组管理消费者时，该配置指定拉取消息线程最长空闲时间，若超过这个时间间隔没有发起poll操作，则消费组认为该消费者已离开了消费组，将进行再均衡操作（将分区分配给组内其他消费者成员）kafka默认的消息消费超时时间max.poll.interval.ms = 300000, 也就是5分钟，超过5

overfit同步小助手 2024-07-11 11:03:45 0 收藏

大数据—数据采集DataX

DataX 是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCom

overfit同步小助手 2024-07-11 10:03:44 0 收藏

【2024】Kafka Streams详细介绍与具体使用（1）

Kafka Streams是构建在Apache Kafka之上的客户端库，用于构建高效、实时的流处理应用。它允许你以高吞吐量和低延迟的方式处理记录流，并且可以容易地扩展和复制数据处理流程。这种流处理方式适用于从简单的数据转换到复杂的事件驱动的应用程序。

overfit同步小助手 2024-07-11 09:03:56 0 收藏

RabbitMq出现Not management user问题解决

overfit同步小助手 2024-07-11 09:03:45 0 收藏

Facebook数据仓库的变迁与启示

Facebook的数据仓库变迁历程为我们提供了宝贵的经验和启示。随着技术的不断进步，我们有理由相信，未来的数据仓库将更加智能、高效和稳定。同时，企业应根据自身业务需求，借鉴Facebook的策略，构建适合自己的数据仓库架构。本文内容基于徐文浩在《大数据经典论文解读》的讲解，结合Facebook在不同

overfit同步小助手 2024-07-11 09:03:40 0 收藏

项目实践---Windows11中安装Zookeeper/Hadoop/Hive的部分问题解决

Windows11中安装Zookeeper/Hadoop/Hive的部分问题解决

overfit同步小助手 2024-07-11 07:03:36 0 收藏

hive面试题

overfit同步小助手 2024-07-11 07:03:32 0 收藏

Hive与HBase集成

在大数据生态系统中，Apache Hive 和 Apache HBase 是两种广泛使用的工具，各自擅长不同类型的任务。Hive 是一个数据仓库工具，适用于批处理和查询，而 HBase 是一个 NoSQL 数据库，适用于快速读写和随机访问。通过将 Hive 和 HBase 集成，可以充分利用两者的优

overfit同步小助手 2024-07-11 06:03:57 0 收藏

深入解析Hive：定义、架构、原理、应用场景及常用命令

本文将详细介绍Hive的定义、架构、工作原理、应用场景以及常见的命令体系，旨在帮助读者全面了解和掌握Hive的相关知识。Hive作为一个强大的数据仓库工具，凭借其类SQL的查询语言、与Hadoop生态系统的无缝集成以及强大的扩展性，广泛应用于各种数据仓库、数据分析和日志处理场景。通过本文的介绍，相信

overfit同步小助手 2024-07-11 06:03:50 0 收藏

微服务和kafka

ZooKeeper 是一个开源的分布式协调服务，ZooKeeper框架最初是在“Yahoo!"上构建的，用于以简单而稳健的方式访问他们的应用程序。后来，Apache ZooKeeper成为Hadoop，HBase和其他分布式框架使用的有组织服务的标准。例如，Apache HBase使用ZooKeep

overfit同步小助手 2024-07-11 06:03:43 0 收藏

Eureka与Spring Cloud Bus的协同：打造智能服务发现新篇章

Eureka：提供服务注册与发现的功能，允许微服务相互之间进行通信。：用于在集群中传播状态变化的消息总线，支持与外部消息代理（如RabbitMQ、Kafka等）集成。

overfit同步小助手 2024-07-11 03:03:39 0 收藏