大数据数据仓库

8月《中国数据库行业分析报告》已发布，聚焦数据仓库、首发【全球数据仓库产业图谱】

本月报告聚焦于数据仓库，一起从技术+案例入手深层次掌握数仓五大关键技术、六大发展趋势，并了解其架构演进、发展历程！本文为报告精彩概览。

overfit同步小助手 2023-09-22 21:03:45 0 收藏

Hive导入csv文件示例

关键是要引入org.apache.hadoop.hive.serde2.OpenCSVSerdecsv要保存到hive的parquet,需要先保存成textfile。

overfit同步小助手 2023-09-22 04:03:59 0 收藏

访问 Hive 的元数据存储（MetaStore）的API方式

访问 Hive 的元数据存储（MetaStore）是通过 Hive 的 Thrift API 来实现的。导入 thrift 和 Hive Metastore 的相应模块，创建一个 Thrift 的 transport 对象和一个 Hive Metastore 的 client 对象，并连接到 Hiv

overfit同步小助手 2023-09-18 05:03:42 0 收藏

关于ETL的两种架构（ETL架构和ELT架构）

在ELT架构中，ELT只负责提供图形化的界面来设计业务规则，数据的整个加工过程都在目标和源的数据库之间流动，ELT协调相关的数据库系统来执行相关的应用，数据加工过程既可以在源数据库端执行，也可以在目标数据仓库端执行（主要取决于系统的架构设计和数据属性）。当ETL过程需要提高效率，则可以通过对相关数据

overfit同步小助手 2023-09-17 13:04:14 0 收藏

hive表的全关联full join用法

把两个表的结果拼在一行了，匹配不上的都用NULL值进行填充了，显然不是我要的结果。查询完显示如下，nice，😄。test_b表的数据如下；test_a表的数据如下。

overfit同步小助手 2023-09-15 10:03:51 0 收藏

hive中collect_list函数

collect_list聚合函数，

overfit同步小助手 2023-09-15 02:03:58 0 收藏

GBase 8a视频配套联系

GBase 8a视频配套练习

overfit同步小助手 2023-09-13 02:03:50 0 收藏

数据仓库(数仓)介绍

比如现在的网购，淘宝，京东等等。面向主题的数据组织方式，就是在较高层次上对分析对象的数据的一个完整、一致的描述，能完整、统一地刻划各个分析对象所涉及的企业的各项数据，以及数据之间的联系。这个阶段，主要是按照一定的数据模型，对整个企业的数据进行采集，整理，并且能够按照各个业务部门的需要，提供跨部门的，

overfit同步小助手 2023-09-12 21:04:08 0 收藏

Hive 安装介绍

overfit同步小助手 2023-09-11 22:04:26 0 收藏

hive解析json

说明：lateral view用于和split、explode等UDTF一起使用的，能将一行数据拆分成多行数据，在此基础上可以对拆分的数据进行聚合，lateral view首先为原始表的每行调用UDTF，UDTF会把一行拆分成一行或者多行，lateral view在把结果组合，产生一个支持别名表的虚

overfit同步小助手 2023-09-11 22:03:57 0 收藏

【数据仓库】即席查询

即席查询（Ad Hoc）是用户根据自己的需求，灵活的选择查询条件，系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的，而即席查询是由用户自定义查询条件的。

overfit同步小助手 2023-09-09 21:04:05 0 收藏

pyspark 判断 Hive 表是否存在

【代码】pyspark 判断 Hive 表是否存在。

overfit同步小助手 2023-09-09 18:03:39 0 收藏

python连接hive

1、下载pyhive、thrift和sasl三个包（pip install就好）2、目前遇到的问题： sasl安装问题：（1）sasl安装需要到相关网站下载whl之后找到和python适配的版本进行安装，安装网址：https://www.lfd.uci.edu/~gohlke/pyth

overfit同步小助手 2023-09-08 07:03:41 0 收藏

数据湖真的能取代数据仓库吗？【SNP SAP数据转型】

湖仓一体架构主要的一点是实现“湖里”和“仓里”的数据能够无缝打通，对数据仓库的弹性和数据湖的灵活性进行有效集成，在该架构中，主要将数据湖作为中央存储库，将机器学习、数据仓库、日志分析、大数据等技术进行整合，形成一套数据服务环，更好地分析、整合数据，让数据仓库和数据湖中的数据可以自由流动，用户可以更便

overfit同步小助手 2023-09-08 02:03:21 0 收藏

hive中时间戳与时间字符串相互转换的方法教程

时间戳是数据库常用的存放日期的形式之一，表示从 UTC 时间’1970-01-01 00:00:00’开始到现在的秒数，与常规时间格式如 ‘2018-01-01 00:00:00’可以相互转换，方法如下。

overfit同步小助手 2023-09-08 02:03:14 0 收藏

在Docker中使用Dockerfile实现ISO文件转化为完整版Centos镜像，并搭建集群数据仓库

overfit同步小助手 2023-09-07 22:03:49 0 收藏

Hive表统计信息采集及应用

Hive提供了分析表和分区的功能，可以将分析后的统计信息存入元数据中，该功能可以自动执行分析表或手动执行分析表。自动执行分析主要针对新创建的表，可以通过配置启用，配置说明详见。Hive默认启用表级别的统计信息收集，在DML（除了LOAD DATA语句）操作期间，自动收集并更新统计信息。默认不启用列级

overfit同步小助手 2023-09-07 17:03:46 0 收藏

数据仓库建设-数仓分层

数据仓库能够帮助企业做出更好的决策，提高业务效率和效益；在数据仓库建设时，绕不开的话题就是数仓分层。

overfit同步小助手 2023-09-06 19:04:27 0 收藏

数据湖Iceberg介绍和使用(集成Hive、SparkSQL、FlinkSQL)

为了解决数据存储和计算引擎之间的适配的问题，Netflix开发了Iceberg，2018年11月16日进入Apache孵化器，2020 年5月19日从孵化器毕业，成为Apache的顶级项目。Iceberg是一个面向海量数据分析场景的开放表格式（Table Format）。表格式（Table Form

overfit同步小助手 2023-09-05 13:04:24 0 收藏

CDH6.3.2搭建HIVE ON TEZ

如果内存不够：可以修改如下参数设置。----配置hive运行引擎。

overfit同步小助手 2023-09-01 20:04:29 0 收藏