大数据技术之Hadoop(十一)——网站流量日志数据分析系统
大数据实战项目之网站流量日志数据分析系统分享
数据同步工具Sqoop
Apache Sqoop(SQL-to-Hadoop)项目旨在协助RDBMS(Relational Database Management System:关系型数据库管理系统)与Hadoop之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与
Hadoop综合案例 - 聊天软件数据
Hadoop综合案例 - 聊天软件数据
hive中字符串查找函数 instr 和 locate
可用于优化join or关联匹配情况
GreenPlum小结
GreenPlum小结
HDFS常用命令
hdfs
4、安装部署Spark(Spark on Yarn模式)
执行ls -l命令会看到下面的图片所示内容,这些内容是Spark包含的文件:4.2.1.2在文件末尾添加如下内容;保存、退出4.2.1.3重新编译文件,使环境变量生效4.3验证Spark安装4.3.1修改${HADOOP_HOME}/etc/Hadoop/yarn-site.xml;说明:在mast
hive-动态分区Dynamic Partition
com往分区表插数据时,需要指定分区。这样一次只能插入一个分区。如果插入数据分散在多个分区中,就要通过动态分区功能,自动创建分区并填充。参数配置在使用动态分区之前,我们要进行一些参数的配置.hive.exec.dynamic.partition默认值:false是否开启动态分区功能,默认false关
Ubuntu安装Hbase
Ubuntu安装Hbase
Hudi 0.12.0 搭建——集成 Hive3.1 与 Spark3.2
Hudi 默认依赖的 Hadoop 为 Hadoop2.x,要兼容 Hadoop3.x,则需要修改 Hudi 源码。找到镜像依赖配置,添加新的下载依赖,我这里选用的阿里云依赖,必须放在第一个,否则不会起作用。找到镜像属性配置的那里,添加镜像,我这里选用的阿里云镜像。文件中的大约第 110 行中的参数
Hadoop之Hbase安装和配置
Hadoop之Hbase安装和配置
【Hive】函数(UDF篇)
Hive/UDF
hadoop集群搭建+hive安装
hadoop集群搭建及hive安装
Hadoop三大框架之HDFS
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System)是一个文件系统
Hive日期时间函数
1.取得当前日期:select current_date(); --返回类型'yyyy-mm-dd',如今天日期'2020-01-01'2.取得当前日期时间:select current_timestamp(); --返回格式'yyyy-mm-dd hh:mi:ss' 如'2021-07-2
Kerberos (四) --------- 安全集群使用说明
安全集群使用说明
Linux安装Hadoop(图文解说详细版)
0基础Linux安装hadoop
Hive自定义UDF函数详解
Hive自定义UDF函数详解一、UDF概述二、UDF种类三、如何自定义UDF四、自定义实现UDF和UDTF4.1 需求4.2 项目pom文件4.3 Hive建表测试及数据4.4 UDF函数编写4.5 UDTF函数编写一、UDF概述UDF全称:User-Defined Functions,即用户自定义
CDH 端口未授权访问:hdfs-50070, yarn-8088, jetty漏洞修复
【代码】CDH 端口未授权访问:hdfs-50070, yarn-8088, jetty漏洞修复。
Hadoop基础之《(1)—大数据基本概念》
1、Spark本身也是一个计算框架,它和Hadoop的MapReduce对比。不同点是Spark是一个基于内存的计算,MapReduce是基于磁盘的计算,Spark速度会比Hadoop快2-3倍。2、Spark也有Spark SQL的这个模块,让用户在Spark的API上面去写SQL。Hive的执行