分布式 - overfit.cn

Spark搭建 Standalone模式详细步骤

overfit同步小助手 2024-06-26 05:03:50 0 收藏

EMQX物联网MQTT消息服务器集群搭建

EMQX 是一款大规模可弹性伸缩的云原生分布式物联网 MQTT 消息服务器。作为全球最具扩展性的 MQTT 消息服务器，EMQX 提供了高效可靠海量物联网设备连接，能够高性能实时移动与处理消息和事件流数据，帮助您快速构建关键业务的物联网平台与应用

overfit同步小助手 2024-06-26 04:06:33 0 收藏

spark综测

/读取文件：使用 sc.textFile("file:///C:/Users/用户名/Desktop/text02.txt")读取本地文件系统中的"text02.txt"文件，将内容加载为一个RDD（弹性分布式数据集）。//读取文件：使用 sc.textFile("file:///C:/Use

overfit同步小助手 2024-06-26 00:03:33 0 收藏

Hadoop的核心组件是什么？请简要描述它们的作用。

在上述示例中，我们定义了一个名为WordCount的Java类。Mapper类负责将输入的文本数据拆分成单词，并将每个单词作为键，将值设置为1。通过适当的输入数据和自定义的Mapper和Reducer类，我们可以处理各种类型的大规模数据，并进行相应的分析和计算。使用Hadoop的分布式文件系统HDF

overfit同步小助手 2024-06-25 20:03:49 0 收藏

2024年【史上最全】Hadoop精选18道面试题(附回答思路)_hadoop面试题(1)

同时，DN 扫描自己节点块信息列表的时间，检查DN中的块是否完好，如果某块磁盘损坏，就将该块磁盘上存储的所有 BlockID报告给NameNode。1)HDFS client创建DFS对象，该对象向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。1

overfit同步小助手 2024-06-25 20:03:43 0 收藏

RabbitMQ 模拟实现【四】：虚拟主机设计

咱们实现的方法是,使用一个阻塞队列,当生产者发布消息到交换机时,交换机转发消息到对应的队列后,就把队列名当作令牌添加到这个阻塞队列中,再配置一个扫描线程,去时刻扫描这个阻塞队列中是否有新的令牌了,有了新令牌,则根据令牌去对应的队列中,去把新消息安装轮询策略转发给消费者.关于消费者,咱们并不打算持久化

overfit同步小助手 2024-06-25 20:03:16 0 收藏

RabbitMQ（七）ACK 消息确认机制

overfit同步小助手 2024-06-25 17:03:49 0 收藏

HBase分布式数据库（一）

（类似Hive中defualt数据库，默认创建表都是在此namespace中，）和。HBase 快速入门之数据模型（与MySQL对比），表的数据划分不同部分，分布式存储在不同的机器上；，主要应用于海量数据存储和实时查询业务场景中。，可以不加namespace名称来进行访问；（属于HBase数据库元数

overfit同步小助手 2024-06-25 16:03:42 0 收藏

(萌新必看)Hadoop的基础知识

认识Hadoop，详细版知识，萌新瞧一瞧哦！

overfit同步小助手 2024-06-25 15:03:27 0 收藏

RabbitMQ用户管理（角色管理及权限设置)

RabbitMQ安装完成后，会有一个默认用户(guest guest)，那么我们如何查看用户列表呢？有2种方式，第1种是登录管理后台http://localhost:15672/，在界面中查看：第1种方式是通过管理后台新建用户guest的tags是[administrator]，而新建的用户deve

overfit同步小助手 2024-06-25 15:03:20 0 收藏

Offset Explorer SASL/PLAIN和SASL/SCRAM方式连接kafka

SASL/PLAIN SASL/SCRAM

overfit同步小助手 2024-06-25 13:03:53 0 收藏

Spark向量化计算在美团生产环境的实践

Apache Spark是一个优秀的计算引擎，广泛应用于数据工程、机器学习等领域。向量化执行技术在不升级硬件的情况下，既可获得资源节省和加速作业执行。Gluten+Velox解决方案为Spark换上了向量化执行引擎，本文将阐述美团在这一方向的实践和思考，希望对大家有所帮助或启发。

overfit同步小助手 2024-06-25 08:03:39 0 收藏

Kafka消费者

消费者组内的消费者负责消费不同的分区，一个分区只能由组内一个消费者消费。手动提交offset：每次消费完数据之后由消费者自己提交offset信息，分为同步提交（阻塞当前线程，提交offset成功后才消费下一波数据，并且会有失败重试）和异步提交（发送了提交请求之后不管成功，直接消费下一波数据）。自动提

overfit同步小助手 2024-06-25 05:03:45 0 收藏

Zookeeper 集群的应用场景

Zookeeper 是一个分布式协调服务，主要用于管理分布式应用中的配置、同步和命名等任务。由于其高可用性、一致性和可靠性，Zookeeper 被广泛应用于各种分布式系统中。

overfit同步小助手 2024-06-25 05:03:26 0 收藏

不想搭集群，直接用spark

需要用到spark的本地模式，根本用不到集群，就不想搭建虚拟机，hadoop集群啥的，很繁琐，最后写作业还用不到集群（感觉搭建集群对于我完成作业来说没有什么意义），所以才想办法在windows环境下，直接安装jdk、scala、spark等，使用spark的本地模式来写作业。

overfit同步小助手 2024-06-25 04:03:38 0 收藏

深入了解Apache Kafka：分布式流处理平台的详细介绍

Apache Kafka 是一个功能强大的分布式流处理平台，具有高吞吐量、低延迟、高可扩展性、持久性、容错性和多种消费模式等优点。它可以用于构建各种数据密集型应用程序，例如实时数据管道、网站活动跟踪、日志聚合、流处理等。随着大数据和实时分析需求的不断增长，Kafka 的应用将会越来越广泛

overfit同步小助手 2024-06-24 20:03:48 0 收藏

Hadoop 2.0 大家族（一）

本文讲解Hadoop2.0大家族，介绍Hadoop2.0大家族概述和ZooKeeper。

overfit同步小助手 2024-06-24 18:03:47 0 收藏

Hadoop学习心得

自从我开始接触Hadoop，这个大数据处理的开源框架，我的学习之路就充满了挑战与收获。Hadoop以其强大的数据处理能力和高度的可扩展性，成为了大数据领域的一颗璀璨明星。以下是我对Hadoop学习的一些心得和体会。在开始学习Hadoop之前，我对大数据和分布式计算的概念还相对模糊。但随着对Hadoo

overfit同步小助手 2024-06-24 12:03:34 0 收藏

Kafka高频面试题整理

Kafka 是一个分布式流处理平台，最初由Linkedln开发并开源，后来成为Apache软件基金会的一个顶级项目。它被设计用于高吞吐量、持久性、分布式的数据流处理。

overfit同步小助手 2024-06-24 10:03:52 0 收藏

Hadoop伪分布式安装配置图文保姆级教程—保姆级配置教程—全网最全[官方手册版]

Hadoop伪分布式安装配置图文保姆级教程—全网最全一、安装前需要1.VMware安装配置：2.相关Hadoop软件包下载3.Ubuntu镜像下载二、Ubuntu系统安装前提声明：已安装可忽略此步（但要有远程传输VMwareTools，和英文版的Ubuntu）三、Hadoop单机+伪分布式配置1.

overfit同步小助手 2024-06-24 08:03:56 0 收藏