6道常见hadoop面试题及答案解析

Hadoop生态系统,拥有15多种框架和工具,如Sqoop,Flume,Kafka,Pig,Hive,Spark,Impala等,以便将数据摄入HDFS,在HDFS中转移数据(即变换,丰富,聚合等),并查询来自HDFS的数据用于商业智能和分析。具有数据的元数据,但也允许指定用于读取文件的独立模式。基

Git的使用(易懂+巨无比详细+新手必看)

Git是用来干什么的呢?是用来管理代码文件的,具体是啥自行百度就行,其实你点进来你多少会对他有点了解,知道他是干嘛的~

大数据的前世今生与未来

大数据的前世今生与未来

【Hadoop-Distcp】工具简介及参数说明

【Hadoop-Distcp】工具简介及参数说明

DAMA数据管理知识体系-数据治理工程师(CDGA)

本专栏为数据治理专栏,里面的内容主要是本人参加数据治理考试(CDGA)前做的笔记,包括一些考题或者易错点。其中加粗的文字为考试中常考的。

第19届高级数据挖掘与应用国际会议(ADMA‘23)

该会议旨在汇集来自世界各地的数据挖掘专家,并为数据挖掘领域的原创研究成果提供一个领先的国际论坛,包括应用、算法、软件和系统,以及具有潜力的应用领域,如社交网络挖掘、智能交通、金融科技、智能制造、智能手机、生物医学科学、绿色计算等。第19届国际高级数据挖掘和应用会议(ADMA'23)的工业和从业者论文

荐读 | 《揭秘云计算与大数据》

在这个数字化时代,云计算和大数据技术已经成为推动全球发展的关键引擎,激发了一系列令人兴奋的科技创新,而这些创新正在塑造着我们人类未来的面貌。而这本书,恰恰是一个引领读者深入了解这两大领域的绝佳入门之选,无论你是从事计算机科学、信息技术的老师、学生、从业者,还是只是对新技术充满好奇的爱好者。

实战:大数据Flink CDC同步Mysql数据到ElasticSearch

CDC 的全称是 Change Data Capture(变更数据捕获技术) ,在广义的概念上,只要是能捕获数据变更的技术,我们都可以称之为 CDC 。目前通常描述的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。

【大数据】Apache Iceberg 概述和源代码的构建

我们在使用不同的引擎进行大数据计算时,需要将数据根据计算引擎进行适配。这是一个相当棘手的问题,为此出现了一种新的解决方案:介于上层计算引擎和底层存储格式之间的一个中间层。这个中间层不是数据存储的方式,只是定义了数据的元数据组织方式,并向计算引擎提供统一的类似传统数据库中 “表” 的语义。它的底层仍然

SparkSQL性能优化终极篇

随着Spark版本的不断迭代,SparkSQL底层使用了各种优化技术,无论方便性、性能都已经超越了RDD。因此SparkSQL已经是最常用的Spark开发方式,因此,这里把常用的SparkSQL性能优化技术进行汇总。

Kerberos安全认证-连载11-HBase Kerberos安全配置及访问

技术连载系列,前面内容请参考前面连载10内容:​​​​​​​​​​​​​​大数据组件HBase也可以通过Kerberos进行安全认证,由于HBase中需要zookeeper进行元数据管理、主节点选举、故障恢复,所以这里对HBase进行Kerberos安全认证时,建议也对Zookeeper进行安全认证

互联网最新报告出炉!程序员必看系列!

近期,CNNIC发布第50次《中国互联网络发展状况统计报告》,报告显示:截至2022年6月,①我国网民规模为10.51亿;②我国网民人均周上网29.5小时;③我国短视频用户规模达9.62亿,网络直播用户规模达7.16亿;④在线医疗用户规模达3.00亿。自1997年起,CNNIC(中国互联网络信息中心

hdfs删除后空间不是释放,trash回收机制

在2023-06-19删除完的文件后,将删除的文件移动到/user/hadoop/.Trash/current文件夹下,3天后2023-06-22检查点生成机制运行,将回收站中的数据移动到/user/hadoop/.Trash/20230622080017,此时也会删除当前时间三天前过期的检查点数据

hive报错信息不明确的情况汇总

return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Exception when loading 1 in table uniaction1 with loadPath

大数据之Hadoop分布式数据仓库HBase

HBase 是一个构建在 Hadoop 文件系统之上的面向列的数据库管理系统。HBase 是一种类似于 Google’s Big Table 的数据模型,它是 Hadoop 生态系统的一部分,它将数据存储在 HDFS 上,客户端可以通过 HBase 实现对 HDFS 上数据的随机访问。不支持复杂的事

Hadoop-5-HDFS常用命令

打印作业的细节、失败及被杀死原因的细节。更多的关于一个作业的细节比如成功的任务,做过的任务尝试等信息可以通过指定。把hdfs里面的多个文件合并成一个文件,合并后文件位于本地系统。从检查点目录装载镜像并保存到当前检查点目录,检查点目录由。最近的升级会被持久化,回滚到前一版本,这个选项要在停止集群,分发

【FusionInsight 迁移】HBase从C50迁移到6.5.1(01)迁移概述

项目上最近全新部署了FusionInsight HD 6.5.1大数据集群,并且希望将老集群FusinInsight HD C50的所有业务都迁移到新集群上。由于在老集群C50上的HDFS、HBase中存在有大量的业务数据,因此将业务从C50迁移到6.5.1的过程中,就需要将C50上的业务数据同步迁

启动elasticsearch报错

2.原因是,在安装elasticsearch时,新建的logs目录是用root用户建的,因此,logs下的文件是root用户权限,因此,将该权限改为非root用户即可。3.解决方法:修改权限。

Flink1.17.0数据流

必须连续处理无限流,即事件必须在摄取后立即处理。不可能等待所有输入数据到达,因为输入是无限的,并且在任何时间点都不会完成。处理无界数据通常需要按特定顺序(例如事件发生的顺序)引入事件,以便能够推断结果完整性。可以通过在执行任何计算之前引入所有数据来处理有界流。Flink 被设计为在所有常见的集群环境

Flink源码之JobManager启动流程

JobManager的启动过程就是创建三大组件RestServer/RM/Dispacher实例初始化的过程,RestSever通过Netty启动HTTP服务,RM/Dispacher被AkkaRpcService包装成AkkaActor提供本地或远程RPC服务,RestServer仅仅是接受请求解

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈