hdfs中的租约机制及Flink写hdfs文件未关闭及ORC
主租约是由文件的创建者持有的,它控制着文件的写入和编辑权限。主租约的持有者可以选择将租约延长,以延续对文件的写入和编辑权限。在HDFS中,租约机制的主要目的是确保并发写入时的数据一致性和文件的完整性。通过租约机制,HDFS可以保证在同一时间只有一个用户可以对文件进行写入或编辑操作,从而避免了数据冲突
搭建伪分布式Hadoop
搭建伪分布式Hadoop
VMware CentOS 虚拟机 Hadoop集群网络 配置静态IP
VMware CentOS构造Hadoop集群时,往往需要VMnet8这个虚拟交换机来连接集群内各服务器,而集群服务器之间互相频繁访问,需要指定IP地址。这就需要把各服务器分配静态的IP地址。本文详细地给出了网段IP地址的规划和设置步骤。最主要地是要设置网关地址。
spark获取hadoop服务token
spark提交作业不含hbase的相关逻辑为什么会去获取hbase服务的token
Hadoop——HDFS的Java API操作(文件上传、下载、删除等)
HDFS的文件相关操作
编程实现Hadoop按日期统计访问次数
因为访问日期是数据文件中的第2列,所以先定义一个数组后,再提取第2个元素,与初始次数1一起构成要输出的键值对,即。数据总共有两列,第一列为用户名,第二列为登录的日期,想要统计每个自然日,也就是每一天的访问次数,可以转换为对日期值的词频统计,只要统计出每个日期出现的次数,就可以知道对应日期的日访问次数
hive 如何处理json字符串
hive处理json字符串以及json数组
flume的安装与配置
flume的详细安装与配置
数据采集与Hadoop总结
在网页当中按f12或者右键选择检查打开开发者模式其中对应着网页组成的元素、控制台、源代码、网络等。在网络当中选择了一个文件以后我们可以看到它的获取方式、请求头、URL地址等信息。
【大数据】Hadoop运行环境搭建
自动进入图形界面安装—>选择中文(安装过程中使用的语言,不代表操作系统的语言),继续—>修改时区、日期和时间—>软件选择可以选择最小安装或者GNOME桌面安装,本次选择桌面版。中的主机名配置信息,例如将主机名配置为hadoop100(后面的几台集群中主机为hadoop101、hadoop102、ha
【hive 运维】hive注释/数据支持中文
【hive 运维】hive注释/数据支持中文
【大数据实训】—Hadoop开发环境搭建(一)
因为JDK的压缩包有大概200M,所以我们已经在平台中为你下载好了JDK,不用你再去Oracle的官网去下载了,如果你要在自己的Linux系统中安装,那么还是需要下载的。配置开发环境是我们学习一门IT技术的第一步,Hadoop是基于Java开发的,所以我们学习Hadoop之前需要在Linux系统中配
Hadoop分布式集群搭建教程
大数据课程需要搭建Hadoop分布式集群,在这里记录一下搭建过程。
一百一十七、Hadoop——GZIP压缩并解压HDFS中的文件
GZIP压缩并解压HDFS中的文件
Hive 建表客户端报错 missing EOF at “/“
后来把sql中的注释去掉以后,或者把注释开头替换成 – 此异常便可以解决。在创建表时,我使用的是idea客户端,报了如下错误。
HDFS读写流程详细过程
HDFS详细的读写流程,edit和fsimage文件的更新,WAL技术
Hadoop启动关闭命令
注意:第一次启动集群之前需要格式化
Hadoop理论及实践-HDFS的Namenode及Datanode(参考Hadoop官网)
本篇博客参照hadoop官网,介绍HDFS的NN及DN,副本存放机制(机架感知策略),安全模式,文件系统元数据持久化(editlog,fsimage),HDFS健壮性,数据组织及存储空间的回收,重点介绍DataNode及NameNode及机架感知策略
【hive】hive修复分区或修复表 以及msck命令的使用
我们知道hive有个服务叫metastore,这个服务主要是存储一些元数据信息,比如数据库名,表名或者表的分区等等信息。如果不是通过hive的insert等插入语句,很多分区信息在metastore中是没有的,如果插入分区数据量很多的话,你用。在 Hive 中,当您向分区表添加、删除或更改分区数据时
hiveserver2经常挂断的原因
配置问题:不正确的配置可能导致 HiveServer2 发生问题。如果资源不足,可能会导致 HiveServer2 挂断。Hive 版本问题:某些 Hive 版本可能存在已知的问题或 bug,可能会导致 HiveServer2 挂断。确保使用的 Hive 版本是稳定的,最好是已修复了已知问题的最新版