hive中字符串查找函数 instr 和 locate
可用于优化join or关联匹配情况
GreenPlum小结
GreenPlum小结
HDFS常用命令
hdfs
4、安装部署Spark(Spark on Yarn模式)
执行ls -l命令会看到下面的图片所示内容,这些内容是Spark包含的文件:4.2.1.2在文件末尾添加如下内容;保存、退出4.2.1.3重新编译文件,使环境变量生效4.3验证Spark安装4.3.1修改${HADOOP_HOME}/etc/Hadoop/yarn-site.xml;说明:在mast
hive-动态分区Dynamic Partition
com往分区表插数据时,需要指定分区。这样一次只能插入一个分区。如果插入数据分散在多个分区中,就要通过动态分区功能,自动创建分区并填充。参数配置在使用动态分区之前,我们要进行一些参数的配置.hive.exec.dynamic.partition默认值:false是否开启动态分区功能,默认false关
Ubuntu安装Hbase
Ubuntu安装Hbase
Hudi 0.12.0 搭建——集成 Hive3.1 与 Spark3.2
Hudi 默认依赖的 Hadoop 为 Hadoop2.x,要兼容 Hadoop3.x,则需要修改 Hudi 源码。找到镜像依赖配置,添加新的下载依赖,我这里选用的阿里云依赖,必须放在第一个,否则不会起作用。找到镜像属性配置的那里,添加镜像,我这里选用的阿里云镜像。文件中的大约第 110 行中的参数
Hadoop之Hbase安装和配置
Hadoop之Hbase安装和配置
【Hive】函数(UDF篇)
Hive/UDF
hadoop集群搭建+hive安装
hadoop集群搭建及hive安装
Hadoop三大框架之HDFS
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System)是一个文件系统
Hive日期时间函数
1.取得当前日期:select current_date(); --返回类型'yyyy-mm-dd',如今天日期'2020-01-01'2.取得当前日期时间:select current_timestamp(); --返回格式'yyyy-mm-dd hh:mi:ss' 如'2021-07-2
Linux安装Hadoop(图文解说详细版)
0基础Linux安装hadoop
Hive自定义UDF函数详解
Hive自定义UDF函数详解一、UDF概述二、UDF种类三、如何自定义UDF四、自定义实现UDF和UDTF4.1 需求4.2 项目pom文件4.3 Hive建表测试及数据4.4 UDF函数编写4.5 UDTF函数编写一、UDF概述UDF全称:User-Defined Functions,即用户自定义
CDH 端口未授权访问:hdfs-50070, yarn-8088, jetty漏洞修复
【代码】CDH 端口未授权访问:hdfs-50070, yarn-8088, jetty漏洞修复。
Hadoop基础之《(1)—大数据基本概念》
1、Spark本身也是一个计算框架,它和Hadoop的MapReduce对比。不同点是Spark是一个基于内存的计算,MapReduce是基于磁盘的计算,Spark速度会比Hadoop快2-3倍。2、Spark也有Spark SQL的这个模块,让用户在Spark的API上面去写SQL。Hive的执行
Hadoop安装与配置
第一步:装虚拟机1.新建虚拟机2.典型,下一步,选择你的iso镜像文件,给你的虚拟机命名,选择安装文件位置3.选择一下磁盘大小,最后点完成。安装完成之后和跟下面的步骤来当然你也可以选择中文,需要选择中文就在下面搜索栏中搜ch选择简体中文即可。选择自动分区root密码设置123456,尽量设置简单的,
Zookeeper-3.8.0单台、集群环境搭建
zookeeper搭建
本地数据仓库项目(一) —— 本地数仓搭建详细流程
搭建离线数仓,并实现数据采集到简单数据分析过程
window环境下部署hbase(仅测试环境)
本文章目的是在window系统部署一套单机版的测试用hbase,项目甲方提供的hbase云服务比较老。