datax的使用以及参数解释,快速入门版
datax的使用以及参数解释,快速入门版
大数据环境搭建 Hadoop+Hive+Flume+Sqoop
大数据Hadoop生态圈环境搭建,主要针对离线项目,利用HDFS进行分布式存储,MapReduce进行离线计算,Hive进行数据分析。
超详细Hadoop安装教程(单机版、伪分布式)
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop 集群小文件归档 HAR、小文件优化 Uber 模式
Uber 模式” 是指在 Hadoop 中运行 MapReduce 任务时,将所有的任务(Mapper 和 Reducer)都运行在一个单独的 JVM 进程中,而不是在集群的不同节点上分别启动多个 JVM 进程来运行任务。这个模式的名称来自于 Uber 公司,他们在其 Hadoop 集群上采用了这种
【HDFS】NN处理全量块汇报时reportDiff的一些细节
【HDFS】NN处理全量块汇报时reportDiff的一些细节
win10 hadoop报错 unable to load native-hadoop library
win10 安装hadoop执行hdfs -namenode format 和运行hadoop的start-all报错 unable to load native-hadoop library。(1条消息) 【免费】hadoop3.0.0或者其他版本Unabletoloadnative-hadoop
数据仓库(数仓)介绍
比如现在的网购,淘宝,京东等等。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻划各个分析对象所涉及的企业的各项数据,以及数据之间的联系。这个阶段,主要是按照一定的数据模型,对整个企业的数据进行采集,整理,并且能够按照各个业务部门的需要,提供跨部门的,
通过 docker-compose 快速部署 Hive 详细教程
其实通过 docker-compose 部署 hive 是在继上篇文章 Hadoop 部署的基础之上叠加的,Hive 做为最常用的数仓服务,所以是有必要进行集成的,感兴趣的小伙伴请认真阅读我以下内容,通过 docker-compose 部署的服务主要是用最少的资源和时间成本快速部署服务,方便小伙伴学
权限管理-Ranger的介绍和使用(集成Hive)
Apache Ranger是一个Hadoop平台上的全方位数据安全管理框架,它可以为整个Hadoop生态系统提供全面的安全管理。随着企业业务的拓展,企业可能在多用户环境中运行多个工作任务,这就需要一个可以对安全策略进行集中管理,配置和监控用户访问的框架。Ranger由此产生!Ranger的官网:ht
CentOS7 Hadoop3.3.0 安装与配置
hadoop安装
Hadoop——Windows系统下Hadoop单机环境搭建
Hadoop环境搭建流程
【HDFS实战】HDFS上的数据均衡
HDFS上的数据均衡
Hive 安装介绍
Hive 安装介绍
hive解析json
说明:lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对拆分的数据进行聚合,lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一行或者多行,lateral view在把结果组合,产生一个支持别名表的虚
HDFS详解
HDFS,Hadoop Distribute File System(Hadoop分布式文件系统)的简称,它是Hadoop核心组件之一,是大数据生态圈最底层的分布式存储服务。将计算靠近数据,而不是将数据移动到离计算更近的地方,使得应用的计算更有效率。HDFS遵循主从架构(master/slave)。
7、hive shell客户端与属性配置、内置运算符、函数(内置运算符与自定义UDF运算符)
通过show functions命令在hive客户端查看当下可用的所有函数;通过describe function extended funcname命令在hive客户端查看函数的使用方式。用户自定义函数简称UDF,源自于英文user-defined function。UDF(User-Define
Hive数据倾斜的原因以及常用解决方案
Hive数据倾斜的原因以及常用解决方案
13、java api访问hive操作示例
本文依赖hive环境可用,特别是HiveServer2。本文仅仅介绍通过java api访问hive的数据。
Hadoop Hbase Hive 版本对照一览
Hadoop Hbase Hive 版本对照,官网查询记录,仅供参考。
linux中hadoop伪分布搭建
hadoop的核心配置文件在/opt/hadoop/etc/hadoop下,主要修改core-site.xml 、hdfs-site.xml、mapred-site.xml(由mapred-site.xml.template拷贝而来)、yarn-site.xml、slaves五个文件。在正方形内随机