数据仓库 - overfit.cn

数据仓库-数据治理小厂实践

数据治理贯穿数仓中数据的整个生命周期，从数据的产生、加载、清洗、计算，再到数据展示、应用，每个阶段都需要对数据进行治理，像有些比较大的企业都是有自己的数据治理平台或者会开发一些便捷的平台，对于没有平台的公司，这里根据自己的亲身实践简单整理一下。

overfit同步小助手 2024-01-09 15:03:22 0 收藏

Python量化投资——金融数据最佳实践: 使用qteasy+tushare搭建本地金融数据仓库并定期批量更新【附源码】

需要大量使用金融历史数据做量化交易的同学们看过来！使用qteasy量化交易工具包，只需要做简单的配置，就可以用几行代码将网上的大量金融数据统统下载到本地，建立一个本地数据仓库。股票、基金、指数、上市公司信息、财务报表、宏观经济。。。一应俱全！

overfit同步小助手 2024-01-09 00:03:52 0 收藏

虚拟机安装单机hive以及简单使用hive

hive是我打算了解的有一个大数据方面的一个技术栈，上一篇介绍了Hadoop和hbase，有兴趣的朋友可以点击“文章”浏览，今天要介绍的hive也是要基于hadoop的，安装hive也要提前安装好hadoop。刚了解这块的朋友肯定就会疑问这三者之间的关系是什么呢，从我这段时间对它们的简单了解，我的理

overfit同步小助手 2024-01-09 00:03:45 0 收藏

Hive DDL语法

Hive的语法和MySQL大部分都相同。

overfit同步小助手 2024-01-08 16:03:50 0 收藏

数据挖掘（Data Mining）第四章课后习题

overfit同步小助手 2024-01-08 08:03:29 0 收藏

最全HSQL命令大全(Hive命令)

最全HSQL命令中文解释，值得收藏

overfit同步小助手 2024-01-08 01:03:47 0 收藏

Hive实战：词频统计

在本次实战中，我们任务是在大数据环境下使用Hive进行词频统计。首先，我们在master虚拟机上创建了一个名为test.txt的文本文件，内容包含一些关键词的句子。接着，我们将该文本文件上传到HDFS的目录，作为数据源。随后，我们启动了服务和Hive客户端，为数据处理做准备。在Hive客户端中，我们

overfit同步小助手 2024-01-07 22:03:50 0 收藏

数据仓库【3】：建模方法

宽表模型是维度模型的衍生，适合join性能不佳的数据仓库产品宽表模型将维度冗余到事实表中，形成宽表，以此减少join操作。

overfit同步小助手 2024-01-07 15:03:27 0 收藏

hive简介和安装

hive是基于hadoop的数据仓库工具。hive提供了一种使用sql语句来读、写、管理基于分布式系统的大型数据的功能。将hdfs上的结构化数据文件映射为一张表，并提供类似sql语句进行查询统计功能。本质就是将sql语句转化为模板化了的MapReduce程序，处理计算还是hdfs中的mapreduc

overfit同步小助手 2024-01-06 20:03:41 0 收藏

hive插入动态分区数据时，return code 2报错解决

如果上面语句没有解决，可以看下yarm配置，考虑是否是语句占用内存超过配置最大内存等等。大概率是因为没有开启允许动态分区或单次动态分区个数太小了。

overfit同步小助手 2024-01-06 13:03:58 0 收藏

Python操作Hive数据仓库

sasl模块是Python中用于实现SASL（Simple Authentication and Security Layer）认证的第三方库，提供了对各种SASL机制的支持，例如与Kafka、Hadoop等进行安全通信。Thrift是一个轻量级、跨语言的RPC框架，主要用于服务间的RPC通信。由于

overfit同步小助手 2024-01-05 07:03:39 0 收藏

HIVE窗口函数

开窗函数笔记

overfit同步小助手 2024-01-05 06:03:45 0 收藏

hive怎么更新数据

使用INSERT OVERWRITE语句时，首先需要创建一个临时表，将需要更新的数据插入到临时表中，然后使用INSERT OVERWRITE将临时表的数据覆盖到原始表中。使用哪种方法取决于你的需求和数据更新的逻辑。请注意，在Hive中不能直接更新单个记录，而是通过覆盖或插入来更新整个表或部分数据。要

overfit同步小助手 2024-01-04 03:03:46 0 收藏

云计算复习之Hive数据仓库期末复习整理

首先，hive是一个构建于hadoop集群之上的数据仓库应用。那么，得先了解一下什么是数据仓库？数据仓库是一个数据集合，用于支持管理决策。简单来说就是为了分析数据而设计的仓库。那么hive就好理解了，hive是一个翻译器，不具备计算能力，存储能力，是一个构建于hadoop集群之上的系统，用于存储和处

overfit同步小助手 2024-01-02 13:03:26 0 收藏

浅谈数据仓库运营

根据表引用次数进行排名，重点关注引用次数高的和次数低的，次数高的定期优化，确保任务执行失败，次数低的考虑数据架构是否合理，如果存在次数为0的说明未使用(很多业务调整但是表还没有拿掉，会存在很多僵尸表)。：检查数据库表是否存在循环写入(A->B,B->C,C->A)，很多公司不存在数据架构师，往往为了

overfit同步小助手 2024-01-01 23:03:37 0 收藏

SpringBoot 3 集成Hive 3

造成此问题的原因是:spring boot 默认日志为logback, 而引用的hive-jdbc 及其关联jar 使用的日志为 log4j ，造成SLF4J 绑定冲突。我这边编写一个简单的Controller，打印Hive 默认数据库包含数据库名称。造成此类问题的原因：hiveserver2 服

overfit同步小助手 2024-01-01 10:03:51 0 收藏

hivesql 将json格式字符串转为数组

本案例为数仓分层设计1. 创建ods层原始数据表2. 创建dwd层维度数据表3. ETL转换ods层数据插入到dwd层

overfit同步小助手 2023-12-31 23:03:17 0 收藏

Hive调优之小表Join大表

结果：这样的后果就是所有为null值的id全部都变成了相同的字符串“hive”，及其容易造成数据的倾斜（所有的key相同，相同key的数据会到同一个reduce当中去）为了解决这种情况，我们可以通过hive的rand函数，随记的给每一个为空的id赋上一个随机值，这样就不会造成数据倾斜。有时虽然某个

overfit同步小助手 2023-12-31 16:03:40 0 收藏

【Hive】——函数案例

hive 函数案例

overfit同步小助手 2023-12-30 20:03:49 0 收藏

【Hive】——函数

hive 常见函数，UDF 自定义函数，explode 函数，Lateral view 侧视图，增强聚合函数，窗口函数，

overfit同步小助手 2023-12-29 18:03:40 0 收藏