Hadoop命令大全
hadoop fs -count [-h] (-h 参数使用便于操作人员读取单位信息格式)- hadoop fs 可操作任意文件系统,不仅仅是hdfs文件系统,使用范围更广。5.count:命令用于统计指定目录下的目录数、文件数、字节数。4.-df:统计文件系统的容量、可用空间和已用空间信息。-
MES系统生产制造流程分析
当今时代,社会在逐渐的进步,MES成为企业不可或缺的生产管理系统,MES系统对工厂生产的实时事件及时作出相应的反应和报告,并用当前准确的数据对进行相应的指导和处理,所以MES系统对企业发展重要性不言而喻。...
spark分布式数据集DataSet
从Spark 2.0开始,DataFrame与Dataset合并,每个Dataset也有一个被称为一个DataFrame的类型化视图,这种DataFrame是Row类型的Dataset,即Dataset[Row]。Dataset是在Spark1.6中添加的新的接口,是DataFrame API的一个
ES集群状态检查报错:master_not_discovered_exception 503错误
一、故障描述在完成ES集群部署,启动后,执行ES集群状态检查发现,集群报错503错误,如下所示:环境:Elasticsearch 7.0.1;JDK版本1.8.0_211二、处理过程1、修改elasticsearch.yml将cluster初始化节点,三个都全写上。修改cluster.initial
sparkSQL连接hive失败案例和解决办法
sparkSQL连接hive失败案例和解决办法
flink任务内存调优,TaskManager、JobManager内存配置
Flink是基于java的JVM运行,拥有高效的数据处理能力,但是考虑到用户在 Flink 上运行的应用的多样性,尽管flink框架已经为所有配置项提供合理的默认值,仍无法满足所有情况下的需求。 flink进程总内存、taskmanager内存、jobmanager内存配置...
“华为杯”研究生数学建模竞赛2004年-【华为杯】C题:售后服务数据的运用(附优秀论文)
产品质量是企业的生命线,售后服务是产品质量的观测点,如何用好售后服务的数据是现代企业管理的重要问题之一。现以某轿车生产厂家为例考虑这个问题。假设该厂的保修期是三年,即在某轿车售出后三年中对于非人为原因损坏的轿车免费维修。在全国各地的维修站通过网络将保修记录送到统一的数据库里面,原始数据主要是这是哪个
HDFS完全分布式集群搭建与配置
HDFS完全分布式集群搭建与配置
Hive知识梳理
Hive是建立在 Hadoop 上的数据仓库基础构架。可以将SQL查询转换为MapReduce的job在Hadoop集群上执行。
设计数据密集型应用(一),DDIA
数据密集型应用系统设计
处理超时订单(超时未付款)的解决方案
超时订单处理
Flink二阶段提交
XA(eXtended Architecture)是指由X/Open 组织提出的分布式交易处理的规范。XA 是一个分布式事务协议,由Tuxedo 提出,所以分布式事务也称为XA 事务。XA 协议主要定义了事务管理器TM(Transaction Manager,协调者)和资源管理器RM(Resourc
数据仓库架构详解
基本概念
【Hadoop】HDFS高可用与高扩展原理分析(HA架构与Federation机制)
通俗的讲,集群启动时DataNode会向NameNode上报所有的Block块信息,每个块(无论大小)对象约占150byte,而NameNode的内存是有限的,当HDFS文件愈来愈多的时候,NameNode就会成为集群的短板(这也是为什么HDFS不适合存储小文件的原因)。图中的Zookeeper是为
开启kafka密码认证
Kafka默认未开启密码认证,可以免密登录,太不安全,因此需要开启密码认证。一 kafka认证方式类型kafka提供了多种安全认证机制,主要分为SSL和SASL大类。其中SASL/PLAIN是基于账号密码的认证方式,比较常用1.1 SSL1.2 SASL1.2.1 SASL/Kerberos1.2.
RabbitMQ教程大全看这一篇就够了-java版本
rabbitmq
dolphinscheduler 3.0.1 资源中心
资源中心通常用于上传文件、UDF 函数和任务组管理。对于 standalone环境,可以选择本地文件目录作为上传文件夹(此操作不需要Hadoop部署)。当然,你也可以 选择上传到 Hadoop 或者 MinIO 集群。在这种情况下,您需要有 Hadoop(2.6+)或 MinION 等相关环境。
PyFlink使用说明:建表及连接Mysql数据库
PyFlink版本是1.16.0,所以需要下载 :flink-connector-jdbc-1.16.0.jar。环境根据最新的版本安装即可,需要注意最新的PyFlink支持的最大Python版本。注意点:使用 批处理环境的时候,无法执行成功 ,必须使用 流处理环境。注意点:使用 批处理环境的时候,
狂神说SpringBoot笔记(全网最全)
狂神说SpringMVC笔记(全网最全)
一文弄懂Hive中谓词下推(on与where的区别)
Hive谓词下推与where和on的使用时机,一文就能理解透彻