分布式 - overfit.cn

大数据 - Spark系列《九》- 广播变量

广播变量是Spark中一种重要的分布式数据共享机制。本文首先介绍了广播变量的简介和特点，然后探讨了其使用场景，并详细讲解了创建、访问和销毁广播变量的方法。此外，还分析了不适用广播变量的问题。最后，文章深入解释了广播变量的分发和读取机制，包括创建原理和读取原理。通过本文的学习，读者将全面了解广播变量在

overfit同步小助手 2024-07-09 01:03:47 0 收藏

分布式数据库HBase:从零开始了解列式存储

在接触过大量的传统关系型数据库后你可能会有一些新的问题: **无法整理成表格的海量数据该如何储存? 在数据非常稀疏的情况下也必须将数据存储成关系型数据库吗? 除了关系型数据库我们是否还有别的选择以应对Web2.0时代的海量数据?** 如果你也曾经想到过这些问题, 那么HBase将是其中的一个答案,

overfit同步小助手 2024-07-09 01:03:36 0 收藏

生产实习Day8 ---- Zookeeper&Hbase介绍

ZooKeeper对于HBase来说是一个关键组件，它提供了分布式环境中的协调服务，确保了HBase集群的稳定性和一致性。两者共同工作，使得HBase成为一个可靠、可扩展的分布式数据库系统。

overfit同步小助手 2024-07-09 00:03:33 0 收藏

Kafka案例2-kafka命令行的使用

(5)修改分区数（注意：分区数只能增加，不能减少）(3)创建名为firstkafka的topic。(6)再次查看firstkafka主题的详情。(4)查看firstkafka主题的详情。(2)查看当前服务器中所有的topic。(1)查看topic的命令参数。(7)删除topic。

overfit同步小助手 2024-07-08 23:03:44 0 收藏

Hadoop 2.0 大家族（三）

本文讲解Hadoop2.0大家族，介绍Hive和Oozie。

overfit同步小助手 2024-07-08 21:03:16 0 收藏

Kafka 实战 - Kafka-Kraft模式

总之，Kafka-Kraft 模式为 Kafka 集群提供了一种更为简洁、高效的元数据管理方案，简化了架构、提升了性能，并增强了容错性。在实战中，应充分考虑其部署、配置、迁移、监控与运维的特点，结合业务需求制定合适的策略，确保 Kafka 集群在 KRaft 模式下的稳定、高效运行。KRaft 模式

overfit同步小助手 2024-07-08 14:03:43 0 收藏

分布式锁和消息队列：Redis和RabbitMQ的实现

1.背景介绍在现代互联网应用中，分布式系统已经成为主流。分布式系统具有高性能、高可用性和高扩展性等优点，但同时也带来了一系列复杂性，如数据一致性、分布式锁、消息队列等。在这篇文章中，我们将深入探讨分布式锁和消息队列的实现，以及如何使用Redis和RabbitMQ来解决这些问题。2.核心概念与联系2.

overfit同步小助手 2024-07-08 11:03:35 0 收藏

Hadoop 请求数据长度 Requested Data length 超过配置的最大值

Spark 任务速度变慢，也不失败。DataNode 内存足够 CPU 负载不高 GC 时间也不长。查看 DataNode 日志，发现有些日志出现很多 Netty RPC 超时。

overfit同步小助手 2024-07-08 08:03:52 0 收藏

不同策略下的Kafka主题创建

创建主题时，Topic的Partition自动划分时，默认根据节点及磁盘上已有的Partition数进行均衡划分，如果期望根据磁盘容量进行Partition划分，那么需要修改Kafka服务配置“log.partition.strategy”为“capacity”。Kafka创建Topic时，支持基于

overfit同步小助手 2024-07-08 08:03:47 0 收藏

Kafka 工具

以上列举了一些常用的Kafka工具，根据实际需求，用户可以选择合适工具进行Kafka集群的管理和监控、数据集成、流处理等工作。同时，Kafka生态中还有许多其他工具和插件，不断丰富着Kafka的功能和应用场景。Apache Kafka生态系统中提供了许多实用的工具，帮助用户更好地管理、监控、测试和集

overfit同步小助手 2024-07-08 02:03:14 0 收藏

Hadoop：全面深入解析

本文从定义、架构、原理、应用场景、常见命令、安装与配置、性能优化、安全性、未来发展和社区支持等多个方面对Hadoop进行了全面深入的解析。希望通过本文，读者能够对Hadoop有一个清晰和全面的认识，并能够在实际工作中灵活运用这一强大的工具，解决大规模数据处理和分析的挑战。未来，随着大数据技术的发展，

overfit同步小助手 2024-07-08 01:03:53 0 收藏

【Kafka系列 04】Kafka 性能调优，怎么做？

通常来说，调优是为了满足系统常见的非功能性需求。在众多的非功能性需求中，性能绝对是我们最关心的那一个。不同的系统对性能有不同的诉求，比如对于数据库用户而言，性能意味着请求的响应时间，用户总是希望查询或更新请求能够被更快地处理完并返回。对 Kafka 而言，性能一般是指和。吞吐量，即TPS，是指 Br

overfit同步小助手 2024-07-07 20:03:48 0 收藏

Kafka搭建(集群版)

Kafka集群版本搭建(一键启动)

overfit同步小助手 2024-07-07 17:03:46 0 收藏

RabbitMQ如何保证消息不丢失

本文将从三个方面详细介绍在使用RabbitMQ时如何确保消息不丢失的方法：1. 持久化机制2. Confirm机制3. 消费者ack

overfit同步小助手 2024-07-07 15:03:40 0 收藏

kafka单机安装及性能测试

Apache Kafka是一个分布式流处理平台，最初由LinkedIn开发，并于2011年开源，随后成为Apache项目。Kafka的核心概念包括发布-订阅消息系统、持久化日志和流处理平台。它主要用于构建实时数据管道和流处理应用，广泛应用于日志聚合、数据传输、实时监控和分析等场景。Kafka具有高吞

overfit同步小助手 2024-07-07 10:03:30 0 收藏

Hadoop 部署

Hadoop部署，一键开启大数据之旅！在几台廉价服务器上，轻松构建高效、可靠、可扩展的分布式计算平台。HDFS存储海量数据，MapReduce加速处理，为数据分析和挖掘提供强大动力。无需深究底层细节，轻松驾驭大数据时代！

overfit同步小助手 2024-07-07 06:03:51 0 收藏

46道ZooKeeper高频题整理(附答案背诵版)

Zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。Zookeeper的目标就是封装好复杂易出错的关键

overfit同步小助手 2024-07-06 20:03:54 0 收藏

RabbitMQ-消费者确认机制

消息失败之后会重新入队，然后再次异常，再次入队，无限循环，这会导致mq消息处理飙升，带来不必要的压力。为了缓解这种压力，利用Spring的retry机制，在消费者出现异常的情况下，利用本地重试，重试次数用完之后，再进行消息的投递或者消息的拒绝。

overfit同步小助手 2024-07-06 13:03:45 0 收藏

基于Spark的智能餐饮推荐系统报告（只含部分代码）

推荐算法功能是基于python机器学习库实现的，旨在通过分析用户的历史行为和偏好，以及餐饮商户的菜品、评价等信息，为用户提供个性化的餐饮推荐。推荐算法功能是基于python机器学习库实现的，旨在通过分析用户的历史行为和偏好，以及餐饮商户的菜品、评价等信息，为用户提供个性化的餐饮推荐。通过分析用户的饮

overfit同步小助手 2024-07-06 11:03:47 0 收藏

未授权访问：Hadoop 未授权访问漏洞

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，由于服务器直接在开放了 Hadoop 机器 HDFS 的 50070 web 端口及部分默认服务端口，黑客可以通过命令行操作多个目录下的数据，如进行删除，下载，目录浏览甚至命令执行等操作，产生极大的危害。

overfit同步小助手 2024-07-06 09:03:26 0 收藏