zookeeper权限控制
ACL全称为Access Control List(访问控制列表),用于控制资源的访问权限。分为三个维度:scheme、id、permission,schema代表授权策略,id代表用户,permission代表权限。
大数据技能大赛答案
大数据技能大赛答案
2024.1.3 Spark架构角色和提交任务流程
Cluster Manager:集群管理器是负责管理整个Spark集群的组件,它可以是Standalone模式下的Spark自带的集群管理器,也可以是其他第三方集群管理器,如YARN或Mesos。TaskScheduler:维护所有TaskSet,分发Task给各个节点的Executor(根据数据本
Spark相关知识点(期末复习集锦)
Spark实时大数据分析相关知识点
RabbitMQ 报错:Failed to declare queue(s):[QD, QA, QB]
实在没想到会犯这种低级错误。
2023_Spark_实验二十六:编写Shell模拟生成点击实时数据
通过shell开发脚本,模拟产生实时的实验数据,shell函数自定义及调用
Hadoop-HDFS概览
Hadoop Distributed File System 的缩写,即Hadoop 分布式文件系统。
HDFS常用命令(介绍超详细)
第三步,如何在本地创建readme.txt文件并使用put命令上传到服务端。我们可以看一下是否成功,先看HDFS服务端是否还有readme.txt。第九步,如何将HDFS上readme.txt移动到test文件夹中。首先我们将bigdata.txt拷贝一份命名为hadoop.txt。第十步,如何将H
Spark学习笔记
Spark笔记
Flink 任务指标监控
Apache Flink 监控常用指标
数据仓库:如何解决ODS数据零点漂移问题
数据零点漂移指的是数据同步过程中,ODS表按时间字段分区时,同一个业务日期(分区)包含前一天的数据或丢失了当天的数据、或者包含后一天凌晨附近的数据。由于ODS需要承接面向历史的细节数据查询需求,这就需要物理落地到数据仓库的ODS表按时间段来切分进行分区存储,通常的做法是按某些时间戳字段来切分,而实际
Hive实战:词频统计
在本次实战中,我们任务是在大数据环境下使用Hive进行词频统计。首先,我们在master虚拟机上创建了一个名为test.txt的文本文件,内容包含一些关键词的句子。接着,我们将该文本文件上传到HDFS的目录,作为数据源。随后,我们启动了服务和Hive客户端,为数据处理做准备。在Hive客户端中,我们
大数据Hive篇:explode 和 posexplode
explode
日志系统二(ilogtail+kafka+logstash+es+kibana)
iLogtail 为可观测场景而生,拥有的轻量级、高性能、自动化配置等诸多生产级别特性,在阿里巴巴以及外部数万家阿里云客户内部广泛应用。你可以将它部署于物理机,虚拟机,Kubernetes 等多种环境中来采集遥测数据,例如logs、traces 和 metrics。
《PySpark大数据分析实战》-12.Spark on YARN配置Spark运行在YARN上
大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第4节的内容:Spark on YARN配置Spark运行在YARN上。
大数据导论期末复习知识汇总
大数据导论我是按照这个复习的。大数据导论概述、大数据导论核心技术概述、物联网大数据云计算、数据安全与共享、推荐方法等知识汇总
FlinkCDC数据实时同步Mysql到ES
flincdc 同步mysql 至ES
kafka 偏移量的类型与提交方式
kafka 偏移量
RabbitMQ如何保证消息不丢失?
RabbitMQ如何保证消息不丢失?(面试)
Nacos和Eureka都是开源的、易于使用的、功能丰富的平台,用于构建云原生应用
Nacos和Eureka都是开源的、易于使用的、功能丰富的平台,用于构建云原生应用。它们提供了构建云原生应用所需的各种组件和功能,如服务发现、配置管理、动态服务管理等。