Logstash数据同步
2. 在 /usr/local/logstash-7.6.2/ 下创建文件夹 sync/,将数据库驱动 mysql-connector-java-5.1.41.jar 包上传到 /usr/local/logstash-7.6.2/sync/ 下,将其 放入 /usr/local/logstash-
【大数据】hadoop运行环境搭建(搭建如此简单)
首先准备好工具。下载好最新的VMware Workstation,CentorOS 7运行Linux,建议Linux桌面标准版,且创建好一个用户模板机一定要按照步骤做好准备,避免遗漏,否则一台一台改超级麻烦。搭建hadoop运行环境!!
Flink三种模式介绍&集群的搭建
Flink、Flink集群的搭建、Flink三种部署模式、会话模式、单作业模式、应用模式
6道常见hadoop面试题及答案解析
Hadoop生态系统,拥有15多种框架和工具,如Sqoop,Flume,Kafka,Pig,Hive,Spark,Impala等,以便将数据摄入HDFS,在HDFS中转移数据(即变换,丰富,聚合等),并查询来自HDFS的数据用于商业智能和分析。具有数据的元数据,但也允许指定用于读取文件的独立模式。基
Git的使用(易懂+巨无比详细+新手必看)
Git是用来干什么的呢?是用来管理代码文件的,具体是啥自行百度就行,其实你点进来你多少会对他有点了解,知道他是干嘛的~
大数据的前世今生与未来
大数据的前世今生与未来
【Hadoop-Distcp】工具简介及参数说明
【Hadoop-Distcp】工具简介及参数说明
DAMA数据管理知识体系-数据治理工程师(CDGA)
本专栏为数据治理专栏,里面的内容主要是本人参加数据治理考试(CDGA)前做的笔记,包括一些考题或者易错点。其中加粗的文字为考试中常考的。
第19届高级数据挖掘与应用国际会议(ADMA‘23)
该会议旨在汇集来自世界各地的数据挖掘专家,并为数据挖掘领域的原创研究成果提供一个领先的国际论坛,包括应用、算法、软件和系统,以及具有潜力的应用领域,如社交网络挖掘、智能交通、金融科技、智能制造、智能手机、生物医学科学、绿色计算等。第19届国际高级数据挖掘和应用会议(ADMA'23)的工业和从业者论文
荐读 | 《揭秘云计算与大数据》
在这个数字化时代,云计算和大数据技术已经成为推动全球发展的关键引擎,激发了一系列令人兴奋的科技创新,而这些创新正在塑造着我们人类未来的面貌。而这本书,恰恰是一个引领读者深入了解这两大领域的绝佳入门之选,无论你是从事计算机科学、信息技术的老师、学生、从业者,还是只是对新技术充满好奇的爱好者。
实战:大数据Flink CDC同步Mysql数据到ElasticSearch
CDC 的全称是 Change Data Capture(变更数据捕获技术) ,在广义的概念上,只要是能捕获数据变更的技术,我们都可以称之为 CDC 。目前通常描述的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。
【大数据】Apache Iceberg 概述和源代码的构建
我们在使用不同的引擎进行大数据计算时,需要将数据根据计算引擎进行适配。这是一个相当棘手的问题,为此出现了一种新的解决方案:介于上层计算引擎和底层存储格式之间的一个中间层。这个中间层不是数据存储的方式,只是定义了数据的元数据组织方式,并向计算引擎提供统一的类似传统数据库中 “表” 的语义。它的底层仍然
SparkSQL性能优化终极篇
随着Spark版本的不断迭代,SparkSQL底层使用了各种优化技术,无论方便性、性能都已经超越了RDD。因此SparkSQL已经是最常用的Spark开发方式,因此,这里把常用的SparkSQL性能优化技术进行汇总。
Kerberos安全认证-连载11-HBase Kerberos安全配置及访问
技术连载系列,前面内容请参考前面连载10内容:大数据组件HBase也可以通过Kerberos进行安全认证,由于HBase中需要zookeeper进行元数据管理、主节点选举、故障恢复,所以这里对HBase进行Kerberos安全认证时,建议也对Zookeeper进行安全认证
互联网最新报告出炉!程序员必看系列!
近期,CNNIC发布第50次《中国互联网络发展状况统计报告》,报告显示:截至2022年6月,①我国网民规模为10.51亿;②我国网民人均周上网29.5小时;③我国短视频用户规模达9.62亿,网络直播用户规模达7.16亿;④在线医疗用户规模达3.00亿。自1997年起,CNNIC(中国互联网络信息中心
hdfs删除后空间不是释放,trash回收机制
在2023-06-19删除完的文件后,将删除的文件移动到/user/hadoop/.Trash/current文件夹下,3天后2023-06-22检查点生成机制运行,将回收站中的数据移动到/user/hadoop/.Trash/20230622080017,此时也会删除当前时间三天前过期的检查点数据
hive报错信息不明确的情况汇总
return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Exception when loading 1 in table uniaction1 with loadPath
大数据之Hadoop分布式数据仓库HBase
HBase 是一个构建在 Hadoop 文件系统之上的面向列的数据库管理系统。HBase 是一种类似于 Google’s Big Table 的数据模型,它是 Hadoop 生态系统的一部分,它将数据存储在 HDFS 上,客户端可以通过 HBase 实现对 HDFS 上数据的随机访问。不支持复杂的事
Hadoop-5-HDFS常用命令
打印作业的细节、失败及被杀死原因的细节。更多的关于一个作业的细节比如成功的任务,做过的任务尝试等信息可以通过指定。把hdfs里面的多个文件合并成一个文件,合并后文件位于本地系统。从检查点目录装载镜像并保存到当前检查点目录,检查点目录由。最近的升级会被持久化,回滚到前一版本,这个选项要在停止集群,分发
【FusionInsight 迁移】HBase从C50迁移到6.5.1(01)迁移概述
项目上最近全新部署了FusionInsight HD 6.5.1大数据集群,并且希望将老集群FusinInsight HD C50的所有业务都迁移到新集群上。由于在老集群C50上的HDFS、HBase中存在有大量的业务数据,因此将业务从C50迁移到6.5.1的过程中,就需要将C50上的业务数据同步迁