大数据 - Hadoop系列《三》- HDFS(分布式文件系统)概述
当HDFS系统的存储空间不够时,我们只需要添加一台新的机器到当前集群中即可完成扩容,这就是我们所说的横向扩容,而集群的存储能力,是按照整个集群中的所有的机器的存储能力来计算的,这也就是我们所说的高扩容性。,如果使用多台计算机进行存储,虽然解决了数据的存储问题,但是后期的管理和维护成本比较高,因为我们
Hive-SQL语法大全
],表示可选,如上[LOCATION]表示可写、可不写,表示或,如上ASC | DESC,表示二选一…,表示序列,即未完结,如上表示在SELECT后可以跟多个,以逗号隔开(),表示必填,如上(A | B | C)表示此处必填,填入内容在A、B、C中三选一。
掌握大数据--Hadoop全面指南
Hadoop全面指南,希望能帮助大家理解Hadoop
大数据之旅--Hadoop入门
Hadoop是Apache旗下的一个用Java语言实现开源软件框架,是一个存储和计算大规模数据的软件平台。-------几张图让你理解Hadoop的架构
【Hive_03】单行函数、聚合函数、窗口函数、自定义函数、炸裂函数
Hive会将常用的逻辑封装成函数给用户进行使用,类似于Java中的函数。好处:避免用户反复写逻辑,可以直接拿来使用。重点:用户需要知道函数叫什么,能做什么。Hive提供了大量的内置函数,按照其特点可大致分为如下几类:单行函数、聚合函数、炸裂函数、窗口函数。以下命令可用于查询所有内置函数的相关信息。1
还在做 Hadoop 生态?那我祝你一帆风顺
上回说到,我决定走出大数据的围城,用另一种视角审视与复盘行业。文章发出后收到很多读者的反馈,其中呼声比较高的一条是希望我能聊聊大数据的行业前景与思考。针对这个问题,后面我会分享一些自己的经验与思考,同时,也会邀请来自各个大厂及正在相关方向创业的朋友做客(techinstitute),相信届时可以解答
任务15:使用Hive进行全国气象数据分析
任务描述任务指导。
大数据开发之电商数仓(hadoop、flume、hive、hdfs、zookeeper、kafka)
1、数据需求:用户分析日志log、业务数据db2、采集需求:日志采集系统(flume)、业务数据同步系统(Maxwell,datax)3、数据仓库建模:维度建模4、数据分析:对设备、会员、商品、地区、活动等电商核心主题进行统计,统计的报表指标接近100个。5、即席查询:用户在使用系统时,根据自己当时
Clojure 实战(4):编写 Hadoop MapReduce 脚本
众所周知,我们已经进入了大数据时代,每天都有PB级的数据需要处理、分析,从中提取出有用的信息。Hadoop就是这一时代背景下的产物。它是Apache基金会下的开源项目,受Google两篇论文的启发,采用分布式的文件系统HDFS,以及通用的MapReduce解决方案,能够在数千台物理节点上进行分布式并
Hive HWI 配置
1、下载安装好hive后,发现hive有hwi界面功能,研究下是否可以运行,于是使用hive –service hwi命令启动hwi界面报错。启动hwi功能2、访问192.168.126.110:9999/hwi,发现访问错误一、HWI介绍HWI)是Hive-2-1版本之前的源码中提供的网页控制台工
Hive行转列[一行拆分成多行/一列拆分成多列]
hive有张表armmttxn_tmp,其中有一个字段lot_number,该字段以逗号分隔开多个值,每个值又以冒号来分割料号和数量,如:A3220089:-40,A3220090:-40,A3220091:-40,A3220083:-40,A3220087:-40,A3220086:-40,A32
深入理解 Flink(三)Flink 内核基础设施源码级原理详解
本章节主要介绍了 Flink 的通信框架 akka、Flink on YARN 的三种部署模式、Flink 高可用服务、Flink 文件服务 BlobService。读者可从中进一步了解到 Flink 的工作原理与设计哲学,无论从事 Flink 开发、应用、维护,还是其他分布式系统的设计,均会有启发
Java技术栈 —— Hadoop入门(一)
Java技术栈 —— Hadoop入门(一)
Hive的四种排序方法
hive有四种排序方法: ORDER BY 、SORT BY 、DISTRIBUTE BY 、CLUSTER BY。hive排序方法,hive的排序方式。
HADOOP的配置
hadoop的配置详解
Linux环境安装Hadoop
下载Hadoop安装包到本地,并导入到Linux服务器的/opt/software路径下。
【sentry 到 ranger 系列】一、Sentry 的 Hive 鉴权插件
代码走读 + 图文并茂,直击 Sentry 的 Hive 鉴权插件灵魂深处
大数据系统常用组件理解(Hadoop/hive/kafka/Flink/Spark/Hbase/ES)
Spark streaming接收kafka、Flume、HDFS、套接字等各种来源实时输入数据,进行处理,处理后结构数据可存储到文件系统、数据库,或显示在可视化图像中;Hive 是构建在Hadoop HDFS上的数据仓库,可以将结构化的数据文件映射成一张数据库表,并提供类SQL查询功能,主要完成海
大数据开发之Hive(企业级调优)
创建测试用例1、建大表、小表和JOIN后表的语句2、分别向大表和小表中导入数据。
mac上搭建 hadoop 伪集群
mac上搭建 hadoop 伪集群