使用hive查看orc文件 orcfiledump命令详解 异常处理(Failed to read ORC file)
hadoop hive查看orc文件 orc文件修复 orcfiledump命令详解
HIVE获取json字段特定值(单个json或者json数组)
说明:解析json的字符串json_string,可指定多个json数据中的key,返回对应的value。代码:SELECT get_json_object(‘{“NAME”:“张三”,“ID”:“1”}’,‘$.NAME’) as name;SELECT get_json_object(‘{“NA
Hadoop学习-6-HDFS权限管理
HDFS权限管理
Flink+hadoop部署及Demo
上传并解压到3台服务器配置3台主机的hosts和免密登录。
Hadoop 存储占用分析命令,查看 Hdfs 文件夹占用大小
兼职公司 Hadoop 运维之后,经常要解决 Hdfs 空间占用的问题,不知道哪天谁又在集群上留下一大堆缓存文件也不清掉,Hadoop 本身默认就是三副本,人一多每个人留一点结果占用了一堆的存储空间。在 Hdfs 上也支持使用 du 进行文件大小的分析,但是套用上面的模式,就会有些不兼容,所以我对这
Hive SQL——explode拆分函数&多行(列)合并为一行(列)&reflect函数
Hive SQL —— explode 拆分函数
在mac上如何安装和搭建Hadoop集群
可以从 Hadoop 官网下载 Hadoop 安装包,或者通过 Homebrew 进行安装。Hadoop 需要依赖 Java 运行环境,因此需要先安装 Java。:设置 Hadoop 的通用参数,包括文件系统默认的 URI 和文件系统类型。:设置 MapReduce 的参数,包括 MapReduce
Hive自定义函数
本文章主要分享单行函数UDF(一进一出)现在前面大体总结,后边文章详细介绍自定义函数分为临时函数与永久函数需要创建Java项目,导入hive依赖创建类继承GenericUDF(自定义函数的抽象类)(实现函数)打成jar包,传到服务器上将jar包添加到hive的class path上临时生效通过hiv
【HDFS单测】与单测编写相关的一些工具类及方法(大纲篇)持续更新
【HDFS】与单测编写相关的一些工具类及方法(大纲篇)持续更新
Zookeeper下载和安装
Zookeeper下载安装教程:本地安装,集群安装
hive 入门 配置hiveserver2 (三)
Hive的hiveserver2服务的作用是提供jdbc/odbc接口,为用户,例如用户期望在个人电脑中访问远程服务中的Hive数据,就需要用到Hiveserver2。
用户认证——Kerberos集成Hadoop的配置
Hadoop Kerberos配置
hadoop的组件有哪些
Apache Hadoop是一个分布式计算系统,它主要由以下几个组件组成:Hadoop Distributed File System(HDFS):这是Hadoop的分布式文件系统,负责存储大量的数据,并且能够以容错的方式进行读写。MapReduce:这是Hadoop的核心组件,它负责处理大规模的数
大数据开发之windows安装hadoop教程
本文主要介绍如何在windows上安装hadoop
Hive ---- 文件格式和压缩
为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示:Hadoop查看支持压缩的方式hadoop checknative。Hadoop在driver端设置压缩。
Hadoop
CentOS下Hadoop的安装和配置,有问题欢迎大家评论区交流!!!
Hive SQL 迁移 Flink SQL 在快手的实践
快手数据架构工程师张芒,阿里云工程师刘大龙,在 Flink Forward Asia 2022 生产实践专场的分享。
[选型] 实时数仓之技术选型
关于实时数仓的选型● 如果选择hbase,建议选择kudu● 如果选择kudu, 还可以选择doris● 如果选择doris,建议选择iceberg
解决java: 程序包org.apache.hadoop.conf不存在的一种冷门思路
我们在用idea编译Hadoop项目时,明明已经导入了相关的jre依赖包,但是编译时提示包不存在。原因是我们还没在项目的pom.xml文件中配置相关的变量
HIVE基础-文件存储格式
对 HIVE 文件四种主要存储格式(textfile、sequencefile、orc、parquet)进行详细介绍