大数据 Hadoop - overfit.cn

hive中字符串查找函数 instr 和 locate

可用于优化join or关联匹配情况

overfit同步小助手 2023-04-05 15:03:59 0 收藏

GreenPlum小结

overfit同步小助手 2023-04-05 14:04:27 0 收藏

HDFS常用命令

hdfs

overfit同步小助手 2023-04-05 11:04:25 0 收藏

4、安装部署Spark(Spark on Yarn模式)

执行ls -l命令会看到下面的图片所示内容，这些内容是Spark包含的文件：4.2.1.2在文件末尾添加如下内容；保存、退出4.2.1.3重新编译文件，使环境变量生效4.3验证Spark安装4.3.1修改${HADOOP_HOME}/etc/Hadoop/yarn-site.xml；说明：在mast

overfit同步小助手 2023-04-05 11:04:19 0 收藏

hive-动态分区Dynamic Partition

com往分区表插数据时，需要指定分区。这样一次只能插入一个分区。如果插入数据分散在多个分区中，就要通过动态分区功能，自动创建分区并填充。参数配置在使用动态分区之前,我们要进行一些参数的配置.hive.exec.dynamic.partition默认值：false是否开启动态分区功能，默认false关

overfit同步小助手 2023-04-05 10:04:25 0 收藏

Ubuntu安装Hbase

overfit同步小助手 2023-04-05 09:04:14 0 收藏

Hudi 0.12.0 搭建——集成 Hive3.1 与 Spark3.2

Hudi 默认依赖的 Hadoop 为 Hadoop2.x，要兼容 Hadoop3.x，则需要修改 Hudi 源码。找到镜像依赖配置，添加新的下载依赖，我这里选用的阿里云依赖，必须放在第一个，否则不会起作用。找到镜像属性配置的那里，添加镜像，我这里选用的阿里云镜像。文件中的大约第 110 行中的参数

overfit同步小助手 2023-04-05 09:03:58 0 收藏

Hadoop之Hbase安装和配置

overfit同步小助手 2023-04-05 08:04:13 0 收藏

【Hive】函数（UDF篇）

Hive/UDF

overfit同步小助手 2023-04-05 07:04:10 0 收藏

hadoop集群搭建+hive安装

hadoop集群搭建及hive安装

overfit同步小助手 2023-04-05 06:04:00 0 收藏

Hadoop三大框架之HDFS

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System)是一个文件系统

overfit同步小助手 2023-04-05 05:04:23 0 收藏

Hive日期时间函数

1.取得当前日期：select current_date(); --返回类型'yyyy-mm-dd',如今天日期'2020-01-01'2.取得当前日期时间：select current_timestamp(); --返回格式'yyyy-mm-dd hh:mi:ss' 如'2021-07-2

overfit同步小助手 2023-04-05 05:04:15 0 收藏

Linux安装Hadoop（图文解说详细版）

0基础Linux安装hadoop

overfit同步小助手 2023-04-05 04:04:38 0 收藏

Hive自定义UDF函数详解

Hive自定义UDF函数详解一、UDF概述二、UDF种类三、如何自定义UDF四、自定义实现UDF和UDTF4.1 需求4.2 项目pom文件4.3 Hive建表测试及数据4.4 UDF函数编写4.5 UDTF函数编写一、UDF概述UDF全称：User-Defined Functions，即用户自定义

overfit同步小助手 2023-04-05 04:04:16 0 收藏

CDH 端口未授权访问：hdfs-50070, yarn-8088, jetty漏洞修复

【代码】CDH 端口未授权访问：hdfs-50070, yarn-8088, jetty漏洞修复。

overfit同步小助手 2023-04-05 00:03:53 0 收藏

Hadoop基础之《（1）—大数据基本概念》

1、Spark本身也是一个计算框架，它和Hadoop的MapReduce对比。不同点是Spark是一个基于内存的计算，MapReduce是基于磁盘的计算，Spark速度会比Hadoop快2-3倍。2、Spark也有Spark SQL的这个模块，让用户在Spark的API上面去写SQL。Hive的执行

overfit同步小助手 2023-04-04 23:04:27 0 收藏

Hadoop安装与配置

第一步：装虚拟机1.新建虚拟机2.典型，下一步，选择你的iso镜像文件，给你的虚拟机命名，选择安装文件位置3.选择一下磁盘大小，最后点完成。安装完成之后和跟下面的步骤来当然你也可以选择中文，需要选择中文就在下面搜索栏中搜ch选择简体中文即可。选择自动分区root密码设置123456，尽量设置简单的，

overfit同步小助手 2023-04-04 20:05:07 0 收藏

Zookeeper-3.8.0单台、集群环境搭建

zookeeper搭建

overfit同步小助手 2023-04-04 20:04:53 0 收藏

本地数据仓库项目(一) —— 本地数仓搭建详细流程

搭建离线数仓，并实现数据采集到简单数据分析过程

overfit同步小助手 2023-04-04 19:04:05 0 收藏

window环境下部署hbase(仅测试环境)

本文章目的是在window系统部署一套单机版的测试用hbase，项目甲方提供的hbase云服务比较老。

overfit同步小助手 2023-04-04 17:04:56 0 收藏