【大数据】Hadoop学习笔记

Hadoop学习笔记, 包含了HDFS/YARN/MapReduce的学习笔记

【Kafka系列 04】Kafka 性能调优,怎么做?

通常来说,调优是为了满足系统常见的非功能性需求。在众多的非功能性需求中,性能绝对是我们最关心的那一个。不同的系统对性能有不同的诉求,比如对于数据库用户而言,性能意味着请求的响应时间,用户总是希望查询或更新请求能够被更快地处理完并返回。对 Kafka 而言,性能一般是指和。吞吐量,即TPS,是指 Br

Hive SchemaTool 命令详解

Hive schematool 是 hive 自带的管理 schema 的相关工具。

【AI大数据与人工智能】Spark SQL 原理与代码实例讲解

在大数据时代,数据处理和分析成为了一项关键的任务。Apache Spark 作为一个开源的大数据处理框架,凭借其高效的内存计算能力和通用性,已经成为了大数据领域中最受欢迎的技术之一。Spark SQL 作为 Spark 的一个重要模块,为结构化数据处理提供了强大的功能支持。Spark SQL 不仅支

安装zookeeper

1 //与zoo.cfg配置文件中对应,sdw为server.1,所以该处填写为1。-- 前台启动zk并显示具体报错(若启动zk时报错可使用该方式启动排查问题)1、各主机修改/etc/hosts,/etc/hostname文件。开启zk(注意三个机器都要开启,之后再查看zk状态)3、安装zookee

Kafka搭建(集群版)

Kafka集群版本搭建(一键启动)

注册中心不知选哪个?Zookeeper、Eureka、Nacos、Consul和Etcd 5种全方位剖析对比

本文给大家讲解 5 种常用的注册中心,对比其流程和原理,无论是面试还是技术选型,都非常有帮助。对于注册中心,在写这篇文章前,我其实只对 ETCD 有比较深入的了解,但是对于 Zookeeper 和其他的注册中心了解甚少,甚至都没有考虑过 ETCD 和 Zookeeper 是否适合作为注册中心。经过近

RabbitMQ如何保证消息不丢失

本文将从三个方面详细介绍在使用RabbitMQ时如何确保消息不丢失的方法:1. 持久化机制2. Confirm机制3. 消费者ack

Hive的一系列启动命令

• 会基于 yarn-site.xml 中配置的 yarn.resourcemanager.hostname 来决定在哪台机器上启动 resourcemanager。• 读取 core-site.xml内容( fs.defaultFS 项),确认 NameNode所在机器,启动 NameNode。•

Flink CDC

Flink是一个流处理引擎,Flink CDC是指利用Apache Flink框架来实现数据变更捕获的技术(即用Apache Flink这个流处理框架来实现CDC的技术)。FlinkCDC是一个开源的数据库变更日志捕获和处理框架,它可以实时地从各种数据库(如MySQL、PostgreSQL、Orac

pandas,polars,pyspark的df对象常见用法对比

pandas,pyspark,polars的常见用法对比,切片筛选分组排序合并连接.....

使用Spring Cloud与Eureka:实用教程

使用Spring Cloud与Eureka:实用教程

kafka单机安装及性能测试

Apache Kafka是一个分布式流处理平台,最初由LinkedIn开发,并于2011年开源,随后成为Apache项目。Kafka的核心概念包括发布-订阅消息系统、持久化日志和流处理平台。它主要用于构建实时数据管道和流处理应用,广泛应用于日志聚合、数据传输、实时监控和分析等场景。Kafka具有高吞

Asp .Net Core 系列:集成 CAP + RabbitMQ + MySQL(含幂等性)

官网:https://cap.dotnetcore.xyz/事件总线是一种机制,它允许不同的组件彼此通信而不彼此了解。组件可以将事件发送到 Eventbus,而无需知道是谁来接听或有多少其他人来接听。组件也可以侦听 Eventbus 上的事件,而无需知道谁发送了事件。这样,组件可以相互通信而无需相互

Hadoop 部署

Hadoop部署,一键开启大数据之旅!在几台廉价服务器上,轻松构建高效、可靠、可扩展的分布式计算平台。HDFS存储海量数据,MapReduce加速处理,为数据分析和挖掘提供强大动力。无需深究底层细节,轻松驾驭大数据时代!

Spark学习3.0

,避免了多次转换操作之间数据同步的等待,而且不用担心有过多的中间数据,因为这些具有血缘关系的操作都管道化了,一个操作得到的结果不需要保存为中间数据,而是直接管道式地流入到下一个操作进行处理。RDD就是为了满足这种需求而出现的,它提供了一个抽象的数据架构,我们不必担心底层数据的分布式特性,只需将具体的

【实战指南】SpringBoot结合Zookeeper/Nacos构建Dubbo微服务

Nacos整合Dubbo能够提供动态服务发现、配置管理和服务治理,简化了微服务间的通信和管理,提升了开发效率和系统可维护性。而Zookeeper与Dubbo结合,利用其分布式协调服务特性,保证了服务注册与发现的高可用性和一致性,增强了系统的稳定性和故障恢复能力。两者皆为Dubbo生态提供了强大的支撑

Hadoop 安装与伪分布的搭建

在Hadoop生态系统中,YARN(Yet Another Resource Negotiator)是一个通用的资源管理系统,它不仅可以管理MapReduce作业,还可以支持其他类型的计算框架。Secondary NameNode并不存储集群的实时状态,但它定期合并NameNode的fsimage和

46道ZooKeeper高频题整理(附答案背诵版)

Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。Zookeeper的目标就是封装好复杂易出错的关键

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈