Hadoop-HDFS概览
Hadoop Distributed File System 的缩写,即Hadoop 分布式文件系统。
HDFS常用命令(介绍超详细)
第三步,如何在本地创建readme.txt文件并使用put命令上传到服务端。我们可以看一下是否成功,先看HDFS服务端是否还有readme.txt。第九步,如何将HDFS上readme.txt移动到test文件夹中。首先我们将bigdata.txt拷贝一份命名为hadoop.txt。第十步,如何将H
Spark学习笔记
Spark笔记
Flink 任务指标监控
Apache Flink 监控常用指标
数据仓库:如何解决ODS数据零点漂移问题
数据零点漂移指的是数据同步过程中,ODS表按时间字段分区时,同一个业务日期(分区)包含前一天的数据或丢失了当天的数据、或者包含后一天凌晨附近的数据。由于ODS需要承接面向历史的细节数据查询需求,这就需要物理落地到数据仓库的ODS表按时间段来切分进行分区存储,通常的做法是按某些时间戳字段来切分,而实际
Hive实战:词频统计
在本次实战中,我们任务是在大数据环境下使用Hive进行词频统计。首先,我们在master虚拟机上创建了一个名为test.txt的文本文件,内容包含一些关键词的句子。接着,我们将该文本文件上传到HDFS的目录,作为数据源。随后,我们启动了服务和Hive客户端,为数据处理做准备。在Hive客户端中,我们
大数据Hive篇:explode 和 posexplode
explode
日志系统二(ilogtail+kafka+logstash+es+kibana)
iLogtail 为可观测场景而生,拥有的轻量级、高性能、自动化配置等诸多生产级别特性,在阿里巴巴以及外部数万家阿里云客户内部广泛应用。你可以将它部署于物理机,虚拟机,Kubernetes 等多种环境中来采集遥测数据,例如logs、traces 和 metrics。
《PySpark大数据分析实战》-12.Spark on YARN配置Spark运行在YARN上
大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第4节的内容:Spark on YARN配置Spark运行在YARN上。
大数据导论期末复习知识汇总
大数据导论我是按照这个复习的。大数据导论概述、大数据导论核心技术概述、物联网大数据云计算、数据安全与共享、推荐方法等知识汇总
FlinkCDC数据实时同步Mysql到ES
flincdc 同步mysql 至ES
kafka 偏移量的类型与提交方式
kafka 偏移量
RabbitMQ如何保证消息不丢失?
RabbitMQ如何保证消息不丢失?(面试)
Nacos和Eureka都是开源的、易于使用的、功能丰富的平台,用于构建云原生应用
Nacos和Eureka都是开源的、易于使用的、功能丰富的平台,用于构建云原生应用。它们提供了构建云原生应用所需的各种组件和功能,如服务发现、配置管理、动态服务管理等。
【Hadoop-HDFS分布式文件系统】
本篇详细介绍了HDFS的工作原理,看完这篇文章对HDFS能够有非常深刻的理解与应用。随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一
数据仓库系列:StarRocks 入门培训教程
StarRocks 是一款MPP DB, 对标ClickHouse、Vertica、Teradata、Greenplum,在查询性能上远超当代最快的开源数据库 clickhouse,目前已经被一众互联网企业在生产环境中采用。提供千亿级大数据的在线多维分析和分布式存储。新一代极速全场景 MPP (Ma
【HIVE】数据的定义与操作
Hive作为数据仓库,用来存放企业的海量数据,Hive提供了丰富的数据类型,如关系型数据库,且提供了关系型数据库不支持的数据类型。
Hive-concat_ws 详解
该函数将使用指定的分隔符将所有提供的字符串或字符串数组连接在一起。它接受任意数量的参数,并且可以用于连接单个字符串或字符串数组。是 Hive 中的一个函数,用于在给定分隔符的情况下连接字符串数组或字符串。的参数中有 NULL 值,那么连接的结果中将会忽略这些 NULL 值。在上面的示例中,我们使用逗
Flink系列之:深入理解ttl和checkpoint,Flink SQL应用ttl案例
通过保存作业状态的快照,Flink能够保证作业的一致性,并提供了高可用性和高效率的保存和恢复机制。冷启动和部署:可以使用检查点来实现作业的冷启动,即在作业启动时,从最近的检查点恢复状态和数据,并从上一次检查点的位置继续处理。当窗口中的数据过期时,Flink会自动丢弃这些数据,从而保持窗口中的数据只包
带你了解RabbitMQ:消息丢失、重复、积压的原因及其解决方案
首先说一点,企业中最常用的实际上既不是RocketMQ,也不是Kafka,而是RabbitMQ。RocketMQ很强大,但主要是阿里推广自己的云产品而开源出来的一款消息队列,其实中小企业用RocketMQ的没有想象中那么多。深层次的原因在于兔宝在中小企业普及更早,经受的考验也更久,很容易产生「回头客