大数据数据仓库

HiveSQL经典面试题（建议点赞收藏）

【代码】HiveSQL经典题目（2024持续补充）

overfit同步小助手 2024-03-05 11:03:28 0 收藏

数据仓库与大数据技术的结合

1.背景介绍大数据技术已经成为当今企业和组织中不可或缺的一部分，它为企业提供了大量的数据来源，帮助企业更好地了解市场、客户、产品等，从而提高企业的竞争力。然而，大数据技术的发展也带来了一系列的挑战，如数据的存储、处理、分析等。数据仓库技术是一种用于存储、管理和分析大量数据的技术，它的发展也与大数据技

overfit同步小助手 2024-03-05 10:03:59 0 收藏

从零开始了解大数据(六)：数据仓库Hive篇

Apache Hive是一个强大的数据仓库工具，它利用Hadoop的能力，提供了一种高效且简单的类SQL查询语言，使得对大规模数据的分析和查询变得简单而高效。同时，Hive的架构使其具有很好的扩展性，可以轻松地添加新的功能和优化现有的功能。随着大数据技术的不断发展，Apache Hive在未来的发展

overfit同步小助手 2024-03-04 14:03:52 0 收藏

数据仓库选型建议

overfit同步小助手 2024-03-04 06:03:21 0 收藏

【hive】行转列—explode()/posexplode()/lateral view 函数使用场景

overfit同步小助手 2024-03-04 03:03:54 0 收藏

Hive中的行转列和列转行

在使用Hive的数据开发工作中，为了处理复杂的业务需求，经常要用到行转列或列转行的操作。为了节省以后处理这类工作的时间，提高工作效率，现将Hive行列互转的操作方法总结如下。列转行，顾名思义，将原本某列中一行的数据拆分为多行，该操作会使得数据行数增多。我们采用的方法是使用LATERAL VIEW语法

overfit同步小助手 2024-03-03 16:03:22 0 收藏

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

最佳实践概述应用场景客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统，同时借助Hive进行常见的ETL任务。客户在决策上云之后，会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。技术架构本实践方案基于如下图所示的技术架构和主要流程编写操作步骤。方案优

overfit同步小助手 2024-03-03 11:03:57 0 收藏

(03)Hive的相关概念——分区表、分桶表

Hive的相关概念——分区表、分桶表

overfit同步小助手 2024-03-02 21:03:37 0 收藏

数据仓库和数据湖的区别

而数据湖则是一种原始、未经处理的数据存储，它可以包含结构化、半结构化和非结构化数据，数据以原始格式存储，没有强制的模式和架构。而数据湖通常提供更灵活的数据访问方式，可以使用不同的工具和技术来处理和分析数据，如数据科学家可以使用Python或R来开展分析工作。在实际应用中，可以将数据湖作为底层的数据存

overfit同步小助手 2024-03-02 02:03:54 0 收藏

数据仓库内容分享(十)：CDC 技术

CDC 的全称是（变更数据捕获），在广义的概念上，只要是能捕获数据变更的技术，我们都可以称之为 CDC。目前通常描述的 CDC 技术主要面向数据库的变更，是一种用于捕获数据库中数据变更的技术。CDC 技术的应用场景非常广泛：数据同步：用于备份，容灾；数据分发：一个数据源分发给多个下游系统；数据采集

overfit同步小助手 2024-03-01 16:03:49 0 收藏

数据仓库基本理论Ⅰ

什么是数据仓库；三种模型；事实表

overfit同步小助手 2024-03-01 08:03:36 0 收藏

BI 数据分析，数据库，Office，可视化，数据仓库

AIGC ChatGPT 职场案例AI 绘画与短视频制作PowerBI 商业智能 68集Mysql 8.0 54集Oracle 21C 142集Office 2021实战应用Python 数据分析实战，ETL Informatica 数据仓库案例实战 51集Excel 2021实操 100集，E

overfit同步小助手 2024-03-01 08:03:32 0 收藏

Hive实战：网址去重

在本次实战任务中，我们利用Hive大数据处理框架对三个文本文件（ips01.txt、ips02.txt、ips03.txt）中的IP地址进行了整合与去重。首先，在虚拟机上创建了这三个文本文件，并将它们上传至HDFS的目录下作为原始数据源。接着，启动了Hive Metastore服务和客户端，以管理和

overfit同步小助手 2024-03-01 07:03:34 0 收藏

Hive内核调优(三)

了解业务需求后，考虑使用直接编写MR实现，MAP的输入为用户信息表USER及所有指标表的目录下的文件，MAP输出为用户ID、指标值，REDUCE输入为用户ID、指标值序列，REDUCE输出为用户ID和按顺序排列的指标值，落地成结果文件。如下场景，需要将用户信息表USER与INDICT_1、INDIC

overfit同步小助手 2024-02-29 20:03:46 0 收藏

Doris配置外表以及多个Hive外表的配置

Doris/starrocks等建立catlog进行跨库查询,多个Hive外表的配置

overfit同步小助手 2024-02-29 17:03:17 0 收藏

HiveSQL——共同使用ip的用户检测问题【自关联问题】

overfit同步小助手 2024-02-28 22:03:44 0 收藏

数据仓库的安全性与合规性

1.背景介绍数据仓库是企业和组织中的核心资产之一，它存储了大量的敏感数据和商业秘密。随着数据仓库的发展和应用范围的扩大，数据仓库的安全性和合规性变得越来越重要。数据仓库的安全性涉及到数据的完整性、机密性和可用性，而合规性则涉及到法律法规、企业政策和行业标准等方面。在本文中，我们将从以下几个方面进行阐

overfit同步小助手 2024-02-28 15:03:53 0 收藏

SparkUI任务启动参数介绍（148个参数）

SparkUI中有很多任务启动参数，需要对参数有一个深入了解才能进一步调优，资源优化

overfit同步小助手 2024-02-28 13:03:21 0 收藏

Kettle——大数据ETL工具

kettle概念组件介绍，kettle下载安装以及简单使用。

overfit同步小助手 2024-02-28 08:03:29 0 收藏

(11)Hive调优——explain执行计划

Hive调优——explain执行计划

overfit同步小助手 2024-02-28 07:03:55 0 收藏