Hadoop深度剖析

作者:禅与计算机程序设计艺术 1.简介Hadoop是一个开源的分布式计算框架,它的设计目标是为了能够在大数据集上进行分布式处理,并提供高效的数据分析能力。Hadoop生态系统包括HDFS、MapReduce、YARN、Zookeeper等组件。HDFS(Hado

Kafka如何实现多线程消费

获取消息的线程可以是一个,也可以是多个,每个线程维护专属的KafkaConsumer实例,处理消息则由特定的线程池来做,从而实现消息获取与消息处理的真正解耦。一个现成话对饮一个KafkaConsumer实例,我们可以称之为消费线程。一个消费线程可以消费一个或多个分区中的消息,所有消费线程隶属同一个消

Rabbitmq的应用场景

虽然并行已经提高的处理时间,但是,前面说过,邮件和短信对我正常的使用网站没有任何影响,客户端没有必要等着其发送完成才显示注册成功,应该是写入数据库后就返回. 消息队列: 引入消息队列后,把发送邮件,短信不是必须的业务逻辑异步处理。​​并行方式​​:将注册信息写入数据库后,发送邮件的同时,发送短信,以

MQ - 11 Kafka的架构设计与实现

在学习的过程中,我们会发现 Kafka 和 RocketMQ 的架构是非常像的,那为什么还要单独来分析 Kafka 呢?因为它们俩面对的场景是不一样的,一个是消息场景、一个是流场景,所以它们在底层的协议设计、存储模型、消费方式的实现上也是不一样的。而实现的不同,又导致了它们在功能和性能上的表现不一样

How AI is changing Big Data and Business

作者:禅与计算机程序设计艺术 1.简介随着人工智能的不断进步、计算机算力的不断提高,以及基于云计算平台的大数据产生的越来越多的数据,人工智能已成为经济界和产业界的一股重要力量。而人工智能究竟能给企业带来哪些新的机遇和变化,如何运用人工智能为企业提供更好的服务?本

hudi搭建【大数据比赛长期更新】

hudi搭建题目分析本任务需要使用root用户完成相关配置,具体要求如下:1、 从宿主机/opt目录下将maven相关安装包复制到容器Master中的/opt/software(若路径不存在,则需新建)中,将maven相关安装包解压到/opt/module/目录下(若路径不存在,则需新建)并配置ma

Kafka实战:消费指定时间范围内的Kafka主题数据

例如,我们可能需要重新处理特定时间范围内的数据,或者需要对历史数据进行分析。Kafka提供了Timestamp和Offset两种方式来定位消息,我们可以利用这些特性来实现消费指定时间范围内数据的需求。本文将介绍如何使用Kafka的消费者API来获取指定时间范围内的数据,并附带相应的源代码示例。总结:

Hive 建表客户端报错 missing EOF at “/“

后来把sql中的注释去掉以后,或者把注释开头替换成 – 此异常便可以解决。在创建表时,我使用的是idea客户端,报了如下错误。

EIK+Filebeat+Kafka

KAFKA、kafka部署、EIK+Filebeat+Kafka部署,内含基础介绍,详细部署步骤图文详解

HDFS读写流程详细过程

HDFS详细的读写流程,edit和fsimage文件的更新,WAL技术

Hadoop启动关闭命令

注意:第一次启动集群之前需要格式化

Hadoop理论及实践-HDFS的Namenode及Datanode(参考Hadoop官网)

本篇博客参照hadoop官网,介绍HDFS的NN及DN,副本存放机制(机架感知策略),安全模式,文件系统元数据持久化(editlog,fsimage),HDFS健壮性,数据组织及存储空间的回收,重点介绍DataNode及NameNode及机架感知策略

【hive】hive修复分区或修复表 以及msck命令的使用

我们知道hive有个服务叫metastore,这个服务主要是存储一些元数据信息,比如数据库名,表名或者表的分区等等信息。如果不是通过hive的insert等插入语句,很多分区信息在metastore中是没有的,如果插入分区数据量很多的话,你用。在 Hive 中,当您向分区表添加、删除或更改分区数据时

dubbo和zookeeper作用以及关系

首先是负载均衡,单注册中心的承载能力是有限的,在流量达到一定程度的时 候就需要分流,负载均衡就是为了分流而存在的,一个ZooKeeper群配合相应的Web应用就可以很容易达到负载均衡;命名服务,将树状结构用于维护全局的服务地址列表,服务提供者在启动 的时候,向ZK上的指定节点/dubbo/${ser

ZooKeeper与Paxos

揭开zooKeeper的神秘面纱!

Flink(java版)

时间语义和 watermark。

An Introduction to Hadoop Streaming API in Big Data

Hadoop Streaming 是 Hadoop 的一个子项目,它可以让用户在 Hadoop 上运行离线批处理作业或实时流处理作业。其主要工作原理是从标准输入(stdin)读取数据,对其进行处理,然后输出到标准输出(stdout)。Hadoop Streaming 的计算模型是 MapReduce

RabbitMQ开启消息跟踪日志(trace)

Trace 是Rabbitmq用于记录每一次发送的消息,方便使用Rabbitmq的开发者调试、排错。在RabbitMQ中默认是关闭的,需手动开启。此处rabbitMQ是使用docker部署的。开启了插件后,无需重启,rabbitMq管理界面就会出现Tracing项,可新建追踪。1、启动Tracing

hiveserver2经常挂断的原因

配置问题:不正确的配置可能导致 HiveServer2 发生问题。如果资源不足,可能会导致 HiveServer2 挂断。Hive 版本问题:某些 Hive 版本可能存在已知的问题或 bug,可能会导致 HiveServer2 挂断。确保使用的 Hive 版本是稳定的,最好是已修复了已知问题的最新版

Elasticsearch实践:ELK+Kafka+Beats对日志收集平台的实现

当我们在开源日志分析系统的领域,谈及 ELK 架构可谓是家喻户晓。然而,这个生态系统并非 Elastic 有意为之,毕竟 Elasticsearch 的初衷是作为一个分布式搜索引擎。其广泛应用于日志系统,实则是一种意料之外,这是社区用户的推动所致。如今,众多云服务厂商在推广自己的日志服务时,往往以

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈