0


03-黑马程序员大数据开发:Apache Hive

一、 Apache Hive概述

**1. 目的:**了解什么是分布式SQL计算;了解什么是Apache Hive

  1. 使用Hive处理数据的好处
  • 操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)
  • 底层执行MapReduce,可以完成分布式海量数据的SQL处理
  1. 什么是分布式SQL计算

以分布式的形式,执行SQL语句,进行数据统计分析。

  1. Apache Hive是做什么的?

很简单,是一款分布式SQL计算的工具,将SQL语句翻译成MapReduce程序,从而提供用户分布式SQL计算的能力。

  • 传统MapReduce开发:写MR代码 -> 得到结果
  • 使用Hive开发:写SQL -> 得到结果
  • 底层都是MR在运行,但是使用层面更加简单了。

2. 模拟实现Hive功能

基于MapReduce构建分布式SQL执行引擎,主要需要有哪些功能组件?

  • 元数据管理
  • SQL解析器

3. Hive基础架构

4. Hive部署

4.1 在VMware虛拟机集群中,完成Hive的安装部署

Hive是单机工具,只需要部署在一台服务器即可。Hive虽然是单机的,但是它可以提交分布式运行的MapReduce程序运行。

第四章-04-[实操]Hive在VMware虚拟机中部署_哔哩哔哩_bilibili

步骤1: 安装MySQL数据库(部署MySQL数据库,并配置root账户密码)
步骤2: 配置Hadoop(下载Hive上传并解压和设置软链)
步骤3: 下载解压Hive
步骤4: 提供MySQL Driver包(下载MySQL驱动jar包放入Hive的lib目录)
步骤5: 配置Hive(修改配置文件 (hive-env.sh和hive-site.xm)
步骤6: 初始化元数据库(启动hive的metastore服务:前台/后台启动)
步骤7: 启动Hive(使用Hadoop用户)(bin/hive)

4.2 在阿里云中创建RDS作为Hive的元数据存储数据库,并完成Hive的安装部署

第四章-05-[可选]在阿里云上部署Hive_哔哩哔哩_bilibili

  • 云平台上均有提供RDS服务(Relational Database service,关系型数据库服务),即云上的数据库。
  • 借助云平合我们无需手动搭建MySQL服务,只需要简单的购买RDS即可(需付费)
4.3 在Ucloud云中创建UDB作为Hive的元数据存储数据库,并完成Hive的安装部署

第四章-06-[可选]在UCloud云上部署Hive.mp4_哔哩哔哩_bilibili

5. Hive初体验

目标:体验在Hive中使用SQL来处理数据

  1. Hive客户端
6.1 HiveServer2 & Beeline

目标:理解HiveServer2的作用;掌握使用Beeline客户端连接Hiveserver2操作Hive​​​​​​​

6.2 DataGrip & DBeaver

目标:掌握使用DataGrip链接Hive使用;掌握使用DBeaver链接Hive使用

第四章-09-[实操]DataGrip&DBeaver连接HiveServer2使用_哔哩哔哩_bilibili

标签: 大数据 apache hive

本文转载自: https://blog.csdn.net/S1406793/article/details/135657475
版权归原作者 S1406793 所有, 如有侵权,请联系我们删除。

“03-黑马程序员大数据开发:Apache Hive”的评论:

还没有评论