0


hive数据仓库基础命令

一.HDFS的shell命令:

**1. 查看 -ls:hdfs dfs -ls [参数] /hdfs路径 **
hdfs dfs -ls / : 查看根路径下的所有内容
hdfs dfs -ls -R / : 查看根路径下的所有内容以及子内容
2. 创建文件 -mkdir:hdfs dfs -mkdir [参数] /hdfs路径
hdfs dfs -mkdir /name :在根路径下创建名为name文件夹
hdfs dfs -mkdir -p /bbb/ccc :在根路径下创建名为bbb文件夹以及子文件夹ccc
3. 移动文件 -mv:hdfs dfs -mv /源路径 /目标路径
hdfs dfs -mv /bbb /aaa : 将根路径下的bbb文件夹以及子内容移动到根路径下的aaa文件夹内
hdfs dfs -mv /aaa /dir1 : 将根路径下的aaa文件夹重命名为dir1
注意:如果目标路径存在,即为移动,如果目标路径不存在,即为重命名
4. 清除文件 rm:hdfs dfs -rm [参数] /hdfs路径
hdfs dfs -rm /input_txt/word.txt :将根路径下的input_txt目录下的word.txt删除
hdfs dfs -rm -r /dir1/bbb : 将根路径下的dir1目录下的bbb文件夹删除
5.复制文件 cp:hdfs dfs -cp /源路径 /目标路径
hdfs dfs -cp /input_txt/word.txt /dir1 : 将根路径下的input_txt目录下的word.txt复制到根路径下的dir1目录下
hdfs dfs -cp /input_txt /dir1 : 将根路径下的input_txt目录复制到根路径下的dir1目录下
6. 查看文件 cat: hdfs dfs -cat /hdfs文件路径
hdfs dfs -cat /dir1/word.txt :查看根路径下的dir1目录下的word.txt文件内容
7.上传文件 put:hdfs dfs -put /linux路径 /hdfs路径
hdfs dfs -put /export/data/abc.txt /dir1 :将linux根路径下的export目录下的data目录下的abc.txt上传到hdfs根路径下的dir1目录下
hdfs dfs -put ./aaa /dir1 :将linux根路径下的export目录下的data目录下的aaa文件夹上传到hdfs根路径下的dir1目录下(注意:此处使用的是相对路径./ 代表/export/data路径)
8.下载文件 get:hdfs dfs -get /hdfs路径 /linux路径
hdfs dfs -get /dir1 ./ :将hdfs路径下的dir1文件夹下载到linux根路径下的export目录下的data目录下(注意:此处使用的是相对路径./ 代表/export/data路径)
hdfs dfs -get /dir1/word.txt ./ :将hdfs路径下的dir1文件夹内的word.txt下载到linux根路径下的export目录下的data目录下(注意:此处使用的是相对路径./ 代表/export/data路径)

二. hive保持元数据的方式:
  1. 内嵌模式
    特点:metastore不需要单独配置,启动 ;metadata保存在derby中
    优点 :1.解压就能直接使用
    缺点:1.元数据不共享 2.比较浪费资源
    1. 本地模式
      特点:metastore不需要单独配置,启动 metadata保存在mysql中
      优点: 元数据存在mysql中,实现元数据共享
      缺点: 比较浪费资源
    2. 远程模式
      特点:metastore需要单独启动,单独配置 metadata保存在mysql中
      优点: 元数据共享 如果想要多客户端连接,需要启动hiveserver2服务,相对来说资源不那么浪费
      缺点: 启动hiveserver2服务之前要先启动metastore服务
三. derby和mysql的区别:
  1. derby保存的数据量比较少,mysql保存的数据比较多

  2. derby不易于管理数据,mysql管理数据比较方便

3.Derby 只支持一个会话连接,MySQL 支持多个会话连接,并且可以独立部署

四. 数据仓库和数据库区别

1. 数据库是面向事务,数据仓库是面向主题
2. 数据库存储的是业务数据,数据仓库存储的是历史数据
3. 数据库为了捕获数据而设计,数据仓库是为了分析数据而设计的
4. 数据库是避免冗余,符合三范式
5. 数据仓库是有意引入,反三范式

五.数据仓库的特点

1.面向主题的(Subject Oriented)

2.集成的(Integrated)、

  1. 相对稳定的(Non-Volatile)

4.反映历史变化(Time Variant)

六.数据仓库和传统数据库的特点


本文转载自: https://blog.csdn.net/YY20210219/article/details/142657388
版权归原作者 DingYuan101 所有, 如有侵权,请联系我们删除。

“hive数据仓库基础命令”的评论:

还没有评论