JDK21+HADOOP3.2.2+Windows安装步骤

哈哈哈 最近转战大数据这块了,分享一下hadoop3.2.2的安装步骤借鉴了不少大佬的文章,如有雷同,都是大佬们的。

Flink定制化功能开发,demo代码

本文将通过flink的DataStream模块API,以kafka为数据源,构建一个基础测试环境;包含一个kafka生产者线程工具,一个自定义FilterFunction算子,一个自定义MapFunction算子,用一个flink任务将实时读kafka并多层处理串起来;让读者体会通过Flink构建自

数据仓库与ETL:数据仓库设计和ETL流程

1.背景介绍数据仓库与ETL:数据仓库设计和ETL流程1. 背景介绍数据仓库是一种用于存储、管理和分析大量历史数据的系统。它通常用于企业、组织和政府等机构,以支持决策过程。数据仓库的核心是ETL(Extract、Transform、Load)流程,它包括数据提取、数据转换和数据加载三个阶段。本文将深

大数据开发之Hadoop(MapReduce)

1、什么是序列化序列化就是把内存中的对象,转换成字节序列(或其它数据传输协议)以便于存储到磁盘(持节化)和网络传输。反序列化就是将收到字节序列(或其它数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2、为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只

Spark部署模式

Apache Spark支持多种部署模式,这些模式决定了如何在集群上启动和运行你的Spark应用程序。以下是Spark支持的主要部署模式:

RabbitMQ如何保证消息传输可靠性

如果消息被设置为非持久化,RabbitMQ 将尽力将消息传递给消费者,但不会将其写入磁盘,这意味着如果 RabbitMQ 服务器在消息传递之前崩溃或重启,消息可能会丢失。2(持久化):如果消息被设置为持久化,RabbitMQ 会将消息写入磁盘,以确保即使在 RabbitMQ 服务器重启时,消息也不会

数据分区与负载均衡:HBase数据分区和负载均衡

1.背景介绍在大规模分布式系统中,数据分区和负载均衡是实现高性能和高可用性的关键技术。HBase是一个分布式、可扩展的列式存储系统,它基于Google的Bigtable设计。在HBase中,数据分区和负载均衡是实现高性能和高可用性的关键技术。本文将讨论HBase数据分区和负载均衡的核心概念、算法原理

Kafka入门笔记(一) --kafka概述+kafka集群搭建

kafka概述+kafka 集群搭建

ZooKeeper 实战(四) Curator Watch事件监听

Curator 中提供了三种 Cache(Watcher)来监听不同节点变化类型:+ NodeCache:监听指定的节点。+ PathChildrenCache:监听指定节点的子节点。+ TreeCache:监听指定节点及其子孙节点。

大数据 - Spark系列《三》- 加载各种数据源创建RDD

本篇博客将介绍如何在 Spark 中加载不同类型的数据源,介绍加载本地文件、本地集合以及 MySQL 数据库的过程。

HBase与NoSQL:HBase与其他NoSQL数据库的比较

1.背景介绍1. 背景介绍NoSQL数据库是一种非关系型数据库,它的特点是可以存储非结构化的数据,并且可以处理大量的数据。HBase是一个分布式、可扩展的列式存储系统,它是基于Google的Bigtable设计的。HBase是一个开源的NoSQL数据库,它的核心功能是提供高性能的随机读写访问。在本文

RabbitMQ下载与安装

我们在Centos7虚拟机中使用Docker来安装。

Hive 数仓及数仓设计方案

Hive 数仓及数仓设计方案

DBeaver连接hive

2.编辑驱动,驱动的jar包从安装的hive下的jdbc路径下获取,例如:/usr/local/hive/apache-hive-3.1.3-bin/jdbc/hive-jdbc-3.1.3-standalone.jar,然后添加到驱动处。其中主机填写hive所在节点地址,端口10000为默认,数据

hadoop3.3.4安装及启动

输入vi /etc/sysconfig/network-scripts/ifcfg-ens33(ens33是刚刚用ip addr查到的号码),按i进入编辑模式,给机器分配ip地址,要与在ipv4中设置的ip地址不同,我这里写的是200.编辑完成后按esc退出,按下:wq保存修改。输入cd /home

数据查询与扫描:HBase数据的查询与扫描

1.背景介绍在大数据时代,HBase作为一个高性能、可扩展的列式存储系统,已经成为了许多企业和组织的核心数据存储和管理解决方案。HBase的查询和扫描功能是其核心特性之一,它们为用户提供了快速、高效的数据访问方式。在本文中,我们将深入探讨HBase数据的查询与扫描,揭示其核心概念、算法原理、最佳实践

【RabbitMQ】RabbitMQ面试热点

Server:又称为broker,接受客户端连接,RabbitMQ 节点;Connection:连接,应用程序与brokder建立网络连接;channel:网络通道,几乎所有的操作都是在channel中进行的,是进行消息对象的通道,客户端可以建立 多个通道,每一个channel表示一个会话任务Vir

Zookeeper架构系列——集群模式

Zookeeper架构系列——集群模式

整合RabbitMQ实现消息异步发送

消息队列中间件消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削峰等问题。中间件最标准的用法是生产者生产消息传送到队列,消费者从队列中拿取消息并处理,生产者不用关心是谁来消费,消费者不用关心谁在生产消息,从而达到解耦的目的。在分布式的系统中,消息队列也会被用在很多其它的方面,

Hadoop 原理及架构详解

主要介绍了 Hadoop 的相关操作与组件架构。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈