HDFS基础知识(个人总结)

    声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章           &nbsp

实时数仓架构那些事儿

架构师要做的事情很多,不同的项目,不同的公司体量,不同的人员数量都会有不同的技术选型,进而形成不同的架构。在这里,我只想聊流批一体的实时数仓架构,不聊离线数仓架构,不聊Java架构 OR 微服务架构;聊更多的是架构思路,而不是某个技术的详细培训。...

全基因组测序数据分析---WGS主流程

全基因组测序数据分析

Minio

miniominio分布式minio单机minio 客户端mc 客户端

Flink 读写MySQL数据(DataStream和Table API)

Flink提供了基于JDBC的方式,可以将读取到的数据写入到MySQL中;本文通过两种方式将数据下入到MySQL数据库,其他的基于JDBC的数据库类似,另外,Table API方式的Catalog指定为Hive Catalog方式,持久化DDL操作。Maven依赖,包含了Hive Catalog的相

Kafka由浅入深(3)一文读懂弃用默认分区器DefaultPartitioner KIP-794

KIP-480:Sticky Partitioner引入了 UniformStickyPartitioner 并使其成为默认分区器。事实证明,尽管被称为统一粘性分区器( UniformStickyPartitioner),但粘性分区器存在问题而实际上并没有统一。

大数据大比拼:Hive vs HBase,你知道两者的区别和适用场景吗?

Apache Hive和Apache HBase是两个非常流行的分布式数据存储技术。尽管两者都是Apache软件基金会的项目,但它们被设计用于不同的用例。在本篇博客中,我们将介绍Hive和HBase的基本概念,以及它们的区别和应用场景。

单线程事件处理器ControllerEventManager

单线程事件处理器,Controller端定义的一个组件。该组件内置了一个专属线程,负责处理其他线程发送过来的Controller事件。还定义了一些管理方法,为专属线程输送待处理事件。0.11.0.0版本前,Controller组件源码复杂。集群元数据信息在程序中同时被多个线程访问,因此,源码里有大量

(面试经典问题)HDFS上传文件(写)流程

HDFS写流程详述,以及面试如何回答

【毕业设计】基于机器学习与大数据的糖尿病预测

本项目以体检数据集为样本进行了机器学习的预测,但是需要注意几个问题:体检数据量太少,仅有1006条可分析数据,这对于糖尿病预测来说是远远不足的,所分析的结果代表性不强。这里的数据糖尿病和正常人基本相当,而真实的数据具有很强的不平衡性。也就是说,糖尿病患者要远少于正常人,这种不平衡的数据集给真实情况下

Hadoop命令大全

hadoop fs -count [-h] (-h 参数使用便于操作人员读取单位信息格式)- hadoop fs 可操作任意文件系统,不仅仅是hdfs文件系统,使用范围更广。5.count:命令用于统计指定目录下的目录数、文件数、字节数。4.-df:统计文件系统的容量、可用空间和已用空间信息。-

BP使用之爆破获取密码

bp爆破

MES系统生产制造流程分析

当今时代,社会在逐渐的进步,MES成为企业不可或缺的生产管理系统,MES系统对工厂生产的实时事件及时作出相应的反应和报告,并用当前准确的数据对进行相应的指导和处理,所以MES系统对企业发展重要性不言而喻。...

sparkSQL连接hive失败案例和解决办法

sparkSQL连接hive失败案例和解决办法

flink任务内存调优,TaskManager、JobManager内存配置

Flink是基于java的JVM运行,拥有高效的数据处理能力,但是考虑到用户在 Flink 上运行的应用的多样性,尽管flink框架已经为所有配置项提供合理的默认值,仍无法满足所有情况下的需求。 flink进程总内存、taskmanager内存、jobmanager内存配置...

“华为杯”研究生数学建模竞赛2004年-【华为杯】C题:售后服务数据的运用(附优秀论文)

产品质量是企业的生命线,售后服务是产品质量的观测点,如何用好售后服务的数据是现代企业管理的重要问题之一。现以某轿车生产厂家为例考虑这个问题。假设该厂的保修期是三年,即在某轿车售出后三年中对于非人为原因损坏的轿车免费维修。在全国各地的维修站通过网络将保修记录送到统一的数据库里面,原始数据主要是这是哪个

Hive知识梳理

Hive是建立在 Hadoop 上的数据仓库基础构架。可以将SQL查询转换为MapReduce的job在Hadoop集群上执行。

设计数据密集型应用(一),DDIA

数据密集型应用系统设计

Flink二阶段提交

XA(eXtended Architecture)是指由X/Open 组织提出的分布式交易处理的规范。XA 是一个分布式事务协议,由Tuxedo 提出,所以分布式事务也称为XA 事务。XA 协议主要定义了事务管理器TM(Transaction Manager,协调者)和资源管理器RM(Resourc

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈