hive入门

打开:命令提示符程序,输入mysql -uroot -p 回车查看数据库使用数据库use 数据库名称;创建数据库删除数据库查看当前使用的数据库查看当前use的数据库。

初级练习[1]:Hive数据环境搭建与SQL查询实战

【代码】Hive数据环境搭建与SQL查询实战。

为数据仓库构建Zero-ETL无缝集成数据分析方案(下篇)

服务之间直接集成,不需要使用额外组件完成数据 ETL 的工作。把各种各样的数据都连接到执行分析所需要的地方,实现数据平滑“无感”的流动。它可以帮助用户最大限度地减少甚至消除构建 ETL 数据管道的复杂性。提高敏捷性。简化了数据架构并减少了数据工程的工作量。它允许增加新的数据源,而无需重新处理大量数据

HIVE 数据仓库工具之第一部分(讲解&部署)

HIVE 数据仓库工具之第一部分(讲解&部署)

为数据仓库构建Zero-ETL无缝集成数据分析方案(上篇)

服务之间直接集成,不需要使用额外组件完成数据 ETL 的工作。把各种各样的数据都连接到执行分析所需要的地方,实现数据平滑“无感”的流动。它可以帮助用户最大限度地减少甚至消除构建 ETL 数据管道的复杂性。提高敏捷性。简化了数据架构并减少了数据工程的工作量。它允许增加新的数据源,而无需重新处理大量数据

Impala 与 Hive 的比较

Impala 与 Hive 的关系与异同

Hive的安装

将apache-hive-3.1.2-bin.tar.gz 上传到hadoop102的/opt/software 目录下。解压 apache-hive-3.1.2-bin.tar.gz 到/opt/module/目录下面。修改 apache-hive-3.1.2-bin.tar.gz 的名称为 hi

数据仓库系列15:数据集成的常见挑战有哪些,如何应对?

数据集成是指将来自不同源的数据统一管理,使之在数据仓库中能够无缝协同工作。它包括从不同的数据源收集数据、清洗数据、转换数据以及加载到数据仓库中的过程(ETL流程:Extract, Transform, Load)。

数据仓库系列13:增量更新和全量更新有什么区别,如何选择?

今天,让我们深入探讨这个数据仓库领域的核心问题,揭示增量更新和全量更新的秘密,帮助你在实际工作中做出明智的选择。

hive的first_value、last_value函数,可取非null值

介绍hive函数first_value、last_value用法

数仓工具—Hive语法之替换函数和示例

rlike regexp 是一样的,都是正则匹配REGEXP_REPLACE 是正则替换REGEXP_REPLACE 是正则提取Translate 是字符替换like 是字符匹配,有自己的语法。

hive 基本语法

*不会在HDFS对数据库所在目录进行改名,只是修改location后,新创建的表在新的路径,旧的不变**虚拟列是Hive内置的可以在查询语句中使用的特殊标记,可以查询数据本身的详细参数。**分桶表无法使用LOAD DATA进行数据加载****分区所在的HDFS文件夹依旧保留**将其它表数据,加载到目

数据仓库系列17:元数据管理在数据仓库中的作用是什么?

元数据,顾名思义,就是"关于数据的数据"。它是描述、解释和定位数据的结构化信息。在数据仓库环境中,元数据扮演着至关重要的角色,它就像是数据的"身份证",记录了数据的来源、格式、含义、关系和使用方法等信息。让我们通过一个简单的例子来理解元数据:date DATE,表名: sales_data列名及其数

数据仓库中的表设计模式:全量表、增量表与拉链表

全量表通过保存完整的数据快照确保数据的一致性,增量表则通过记录数据的变化部分优化性能和存储效率,而拉链表则通过维护数据的历史版本满足复杂的分析和审计需求。总的来说,全量表、增量表和拉链表是数据仓库中常见的表设计模式,它们各自针对不同的数据更新场景提供了解决方案,能够有效管理数据的变化并维护历史记录。

Hive数仓总结

数据仓库(Data Warehouse),简称DW。数据仓库顾名思义,是⼀个很⼤的数据存储集合,出于企业的分析性报告和决策⽀持⽬的⽽创建,对多样的业务数据进⾏筛选与整合。它为企业提供⼀定的BI(商业智能)能⼒,指导业务流程改进。 Hive是Facebook为了解决海量日志数据的统计分析而开发的基于H

数据仓库系列10:如何处理维度表中的变化类型?

在深入探讨维度表的变化类型之前,我们需要先明确维度表的定义和作用。维度表是数据仓库中的一种重要表类型,它用于存储与事实表中的数值度量相关的描述性信息。事实表可能包含销售金额、数量等数值信息维度表则可能包含客户信息、产品详情、时间等描述性数据包含描述性属性通常数据量相对较小与事实表形成星型或雪花模型用

数据人,需要了解的数据要素、数据资产、数据治理、数据产品、数据共享、主数据、元数据

一文略讲数据要素、数据资产、数据治理、数据产品、数据共享、主数据、元数据

大数据基础:数仓架构演变

但是很快,他们也发现自己陷入了某种困境:随着数据集市的不断增多,这种架构的缺陷也逐步显现,公司内部独立建设的数据集市由于遵循不同的标准和建设原则,以致多个数据集市的数据混乱和不一致,解决以上问题,还需回归到范式建模。在Lambda架构中,为了计算一些实时指标,就在原来的离线数仓基础之上增加了一个实时

使用beeline连接hive

使用beeline连接hive的前提是hive已经部署完毕,Hive单机部署可以看:http://t.csdnimg.cn/54WMQ。

离线数仓之Hive的基础操作

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈