大数据数据仓库

数仓工具—Hive语法之宏(Macro)

Hive中的宏是一组SQL语句，它们被存储并通过调用宏函数名称来执行。宏在当前会话期间存在。宏是临时的，如果你想拥有永久性的宏，最好创建用户定义的函数并在Hive中注册。在关系数据库管理系统（RDBMS）中，宏存储在数据字典中。Hive宏与关系型数据库中的宏略有不同。在我的其他文章中，我们讨论了如何

overfit同步小助手 2024-07-19 02:03:44 0 收藏

Apache Doris：下一代实时数据仓库

Apache Doris 简介：下一代实时数据仓库

overfit同步小助手 2024-07-18 14:03:38 0 收藏

Hive collect_set()、collect_list()列转行，并对转换后的行值排序

Hive collect_set()、collect_list()列转行，和concat_ws()使用，并对转换后的行值排序

overfit同步小助手 2024-07-18 10:03:28 0 收藏

一文了解和区分数据中台、数据平台、数据湖、数据仓库

在当今数字化时代，数据已经成为推动科技发展和商业创新的关键要素之一。数据中台、数据平台、数据湖和数据仓库是构建现代数据架构的重要组成部分。然而，这些概念之间往往容易混淆。本文将深入介绍并区分这些概念，通过生动的例子帮助读者更好地理解它们之间的关系和区别。

overfit同步小助手 2024-07-17 13:03:37 0 收藏

Hive怎么调整优化Tez引擎的查询？在Tez上优化Hive查询的指南

在Tez上优化Hive查询无法采用一刀切的方法。查询性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试过程中，应评估和验证配置参数及任何SQL修改。建议在工作负载的性能测试过程中一次只进行一项更改，并最好在开发环境中评估调优更改的影响，然后再在生产环境中使用。

overfit同步小助手 2024-07-17 04:03:38 0 收藏

Hive中的数据类型和存储格式总结

overfit同步小助手 2024-07-17 04:03:17 0 收藏

Hive概述与基本操作

Hive基本概念，hive架构，hive的数据库操作、表操作，内部表与外部表

overfit同步小助手 2024-07-17 02:03:46 0 收藏

在Hive中编写和注册UDF（用户自定义函数）

overfit同步小助手 2024-07-16 19:03:42 0 收藏

解决Hive不支持delete、update问题

2.要实现update和delete功能，该表就需要支持ACID（原子性、一致性、隔离性、持久性）支持，CLUSTERED BY(id) INTO 2 BUCKETS //表必须进行分桶。1.Hive是不支持事务的，所以也就无法支持DELETE和UPDATE操作。需要注意的是，启用ACID支持会增加

overfit同步小助手 2024-07-15 06:03:45 0 收藏

Hive-存储-文件格式

数据存储是Hive的基础，选择合适的底层数据存储格式，可以在不改变Hql的前提下得到大的性能提升。类似mysql选择适合场景的存储引擎。Hive支持的存储格式有其中，ORCFile和Apache Parquet，以其高效的数据存储和数据处理性能得以在实际的生产环境中大量运用。创建表时可以使用说明Se

overfit同步小助手 2024-07-14 15:03:58 0 收藏

Hive 内部与外部表

外部表被drop后，表的metadata会被删除，但是data不会被删除。（1）外部表：因其指删除表时不会删除HDFS上的数据，安全性相对较高，且指定目录的特性，适合数据需要共享或者数据的处理需要 hive和其他工具一起处理的场景。Hive中的表可以分为内部表（managed table）和外部表（

overfit同步小助手 2024-07-13 12:03:42 0 收藏

hive搭建完整教学

Hive是一个建立在Hadoop上的数据仓库工具，它提供了一个类似于SQL的查询语言来分析大规模数据。1. 处理大规模数据高效能够处理TB至PB级数据，并优化MapReduce任务以提高效率。2.高可扩展性和容错性利用Hadoop生态系统实现高效扩展，支持大规模并行计算。3.数据管理与存储提供表、分

overfit同步小助手 2024-07-12 18:03:43 0 收藏

深入解析大数据核心概念：数据平台、数据中台、数据湖与数据仓库的异同与应用

数据平台是一个综合性的技术框架，旨在支持整个数据生命周期的管理和使用。它包含数据采集、存储、处理、分析和可视化等多个环节。

overfit同步小助手 2024-07-12 18:03:10 0 收藏

(06)Hive——正则表达式

Hive正则表达式

overfit同步小助手 2024-07-12 11:03:42 0 收藏

大数据—数据采集DataX

DataX 是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCom

overfit同步小助手 2024-07-11 10:03:44 0 收藏

Facebook数据仓库的变迁与启示

Facebook的数据仓库变迁历程为我们提供了宝贵的经验和启示。随着技术的不断进步，我们有理由相信，未来的数据仓库将更加智能、高效和稳定。同时，企业应根据自身业务需求，借鉴Facebook的策略，构建适合自己的数据仓库架构。本文内容基于徐文浩在《大数据经典论文解读》的讲解，结合Facebook在不同

overfit同步小助手 2024-07-11 09:03:40 0 收藏

hive面试题

overfit同步小助手 2024-07-11 07:03:32 0 收藏

Hive数据仓库涵盖的主要方面及一些拓展内容

Hive最初由Facebook开发，后贡献给Apache软件基金会，迅速成为处理和查询PB级数据集的首选工具。它引入了HiveQL，一种类SQL的查询语言，极大地降低了大数据分析的门槛，使非程序员的数据分析师也能轻松操作大数据。假设我们想计算每个用户的全名长度，但Hive原生不支持字符串拼接后的长度

overfit同步小助手 2024-07-10 01:03:38 0 收藏

hive将时间字符串转换为timestamp的几种写法

overfit同步小助手 2024-07-08 20:03:16 0 收藏

Hive的一系列启动命令

• 会基于 yarn-site.xml 中配置的 yarn.resourcemanager.hostname 来决定在哪台机器上启动 resourcemanager。• 读取 core-site.xml内容（ fs.defaultFS 项），确认 NameNode所在机器，启动 NameNode。•

overfit同步小助手 2024-07-07 14:03:34 0 收藏