大数据 - overfit.cn

2024年【史上最全】Hadoop精选18道面试题(附回答思路)_hadoop面试题(1)

同时，DN 扫描自己节点块信息列表的时间，检查DN中的块是否完好，如果某块磁盘损坏，就将该块磁盘上存储的所有 BlockID报告给NameNode。1)HDFS client创建DFS对象，该对象向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。1

overfit同步小助手 2024-06-25 20:03:43 0 收藏

RabbitMQ 模拟实现【四】：虚拟主机设计

咱们实现的方法是,使用一个阻塞队列,当生产者发布消息到交换机时,交换机转发消息到对应的队列后,就把队列名当作令牌添加到这个阻塞队列中,再配置一个扫描线程,去时刻扫描这个阻塞队列中是否有新的令牌了,有了新令牌,则根据令牌去对应的队列中,去把新消息安装轮询策略转发给消费者.关于消费者,咱们并不打算持久化

overfit同步小助手 2024-06-25 20:03:16 0 收藏

ubuntu配置hadoop，HDFS和YARN（单机）

vim workers后，里面默认只有一个localhost，可以按照需求填写节点主机的ip，这里不做修改。创建软连接hadoop后cd进去，进入hadoop/etc/hadoop下，修改文件配置。vim打开hadoop-env.sh后添加以下内容，这里JAVA_HOME注意别填错了。执行start

overfit同步小助手 2024-06-25 19:03:36 0 收藏

Spark GraphX图计算引擎原理与代码实例讲解

Spark GraphX图计算引擎原理与代码实例讲解1.背景介绍在当今大数据时代，图计算已成为一种非常重要的数据处理范式。图数据结构可以用来表示复杂的关系型数据,如社交网络、Web链接、交通网络等。传统的关系型数据库和NoSQL数据库在处理这类数据时往往效率低下。为了

overfit同步小助手 2024-06-25 19:03:30 0 收藏

人工智能与地理大数据实验--出租车GPS数据—时空大数据Python处理基础（二）

Python处理地理大数据基础

overfit同步小助手 2024-06-25 18:03:51 0 收藏

B站内核隔离技术的应用与实践之大数据混部篇

为了解决大数据业务资源竞争问题，通过数据监控观察了从CPU、磁盘IO、网络、内存四个维度分析业务资源瓶颈。

overfit同步小助手 2024-06-25 18:03:30 0 收藏

RabbitMQ（七）ACK 消息确认机制

overfit同步小助手 2024-06-25 17:03:49 0 收藏

HBase分布式数据库（一）

（类似Hive中defualt数据库，默认创建表都是在此namespace中，）和。HBase 快速入门之数据模型（与MySQL对比），表的数据划分不同部分，分布式存储在不同的机器上；，主要应用于海量数据存储和实时查询业务场景中。，可以不加namespace名称来进行访问；（属于HBase数据库元数

overfit同步小助手 2024-06-25 16:03:42 0 收藏

剖析 Kafka 消息丢失的原因

Kafka消息丢失的原因通常涉及多个方面，包括生产者、消费者和Kafka服务端（Broker）的配置和行为。下面将围绕这三个关键点，详细探讨Kafka消息丢失的常见原因，并提供相应的解决方案和最佳实践。总的来说，Kafka消息丢失是一个涉及多个环节的问题，需要从生产者、Broker和消费者三个层面综

overfit同步小助手 2024-06-25 15:03:47 0 收藏

(萌新必看)Hadoop的基础知识

认识Hadoop，详细版知识，萌新瞧一瞧哦！

overfit同步小助手 2024-06-25 15:03:27 0 收藏

RabbitMQ用户管理（角色管理及权限设置)

RabbitMQ安装完成后，会有一个默认用户(guest guest)，那么我们如何查看用户列表呢？有2种方式，第1种是登录管理后台http://localhost:15672/，在界面中查看：第1种方式是通过管理后台新建用户guest的tags是[administrator]，而新建的用户deve

overfit同步小助手 2024-06-25 15:03:20 0 收藏

HBase命令行操作

更改Student表的列族baseInfo的存储版本的限制为3（默认情况下，列族只存储一个版本的数据，如果需要存储多个版本的数据，则需要修改列族的属性。HBase数据库的命令行操作也就是通过HBase的命令行终端并通过命令的形式来操作HBase数据库，即HBase数据库的表、数据等的增删改查等操作。

overfit同步小助手 2024-06-25 14:03:28 0 收藏

Offset Explorer SASL/PLAIN和SASL/SCRAM方式连接kafka

SASL/PLAIN SASL/SCRAM

overfit同步小助手 2024-06-25 13:03:53 0 收藏

apache-tomcat、apache-maven、apache-zookeeper等的本地环境配置

apache-zookeeper是一个开源的分布式协调服务，它主要用于在分布式环境中实现同步和协调。apache-tomcat充当了一个Web服务器和一个Java应用程序服务器的角色，可以用来部署和运行Java Web应用程序，使开发者能够轻松地部署和管理Java Web应用程序。再输入startu

overfit同步小助手 2024-06-25 13:03:44 0 收藏

apache大数据各组件部署搭建（超级详细）

准备3台服务器用于集群部署，系统建议CentOS7+，2核8G内存172.19.195.228 hadoop101172.19.195.229 hadoop102172.19.195.230 hadoop1032. 安装包下载准备数仓部署组件安装包：链接：https://pan.baidu.com/

overfit同步小助手 2024-06-25 13:03:39 0 收藏

RabbitMQ详解-06RabbitMQ高级

1. 过期时间TTL可以对消息设置预期的时间，在这个时间内都可以被消费者接收获取；过了之后消息自动被删除。RabbitMQ可以对消息和队列设置TTL。有以下两种设置方法：通过队列属性设置，队列中所有消息都有相同的过期时间。对消息进行单独设置，每条消息TTL可以不同。若两种方法同时使用，则消息的过期时

overfit同步小助手 2024-06-25 12:03:42 0 收藏

Spring Boot 项目中集成 Kafka 和 Flink：构建实时数据流处理系统

通过本文的介绍，您应该已经了解了如何在 Spring Boot 项目中集成 Kafka 和 Flink 流处理框架，实现实时数据处理和分析。在实际应用中，根据您的需求选择合适的 Kafka 和 Flink 配置，并正确使用它们，可以确保您的数据处理任务能够高效地完成。

overfit同步小助手 2024-06-25 11:03:44 0 收藏

详解 Flink 的常见部署方式

Yarn 模式是指客户端把 Flink 应用提交给 Yarn 的 ResourceManager, Yarn 的 ResourceManager 会在 Yarn 的 NodeManager 上创建容器。YARN 的高可用是只启动一个 Jobmanager, 当这个 Jobmanager 挂了之后,

overfit同步小助手 2024-06-25 11:03:39 0 收藏

FlinkTaskManager的性能指标与故障诊断

FlinkTaskManager的性能指标与故障诊断1.背景介绍1.1 Flink简介Apache Flink是一个开源的分布式流处理和批处理框架,由Apache软件基金会开发。Flink以数据并行和流水线方式执行任

overfit同步小助手 2024-06-25 10:04:37 0 收藏

ubuntu官方存档库目录结构说明(archive)

http://archive.ubuntu.com/是Ubuntu操作系统的官方软件存档库，用户可以通过该网站下载与更新Ubuntu操作系统及其相关软件。它存储了各种 Ubuntu 软件包和更新，用户可以从这个网站获取最新版本的软件包以及安全性更新。

overfit同步小助手 2024-06-25 10:04:26 0 收藏