大数据数据仓库

【大数据】Doris 构建实时数仓落地方案详解（二）：Doris 核心功能解读

Apache Doris 是由百度研发并开源的数据库项目。 Doris 2008 年开始在百度内部立项，经历了五个大版本的迭代后于 2017 年开源，2018 年进入 Apache 基金会孵化项目。2022 年 4 月 18 日正式发布 Doris 1.0，2022 年 6 月 16 日正式毕业，成

overfit同步小助手 2023-12-18 01:03:28 0 收藏

ERP数据仓库模型

通过对主题域和实体的确定，可以更好地组织数据仓库中的数据，并为后续的数据分析和决策提供支持。通过对用户进行培训和知识转移，可以让用户更好地了解和使用数据仓库中的数据，同时也可以提高用户的工作效率和质量。根据企业的业务需求和目标，可以确定数据仓库的体系结构，包括数据的分层、数据模型的设计、ETL流程等

overfit同步小助手 2023-12-17 20:03:51 0 收藏

Hive 查询优化

set hive.exec.mode.local.auto=true;set mapperd.job.tracker=local;set mapreduce.framework.name=local;set hive.vectorized.execution.enabled=true;

overfit同步小助手 2023-12-17 02:03:54 0 收藏

hive文件存储格式orc和parquet详解

hive orc parquet

overfit同步小助手 2023-12-16 19:03:24 0 收藏

Hive之建表的三种方式

执行的结果是table1 的表与table2的表结构是一致的，但是table1表中的数据为空；Hive建表方式统计了常见的三种建表，分别为直接命令行建表，like建表和as建表。将查询的table2表中id=1的结果插入到table1;或者使用as建表，但表结构会与原表不一致，具体往下看；#原理：直

overfit同步小助手 2023-12-16 17:03:50 0 收藏

mongodb数据同步到hive

通过 datax 从 mongodb 同步数据到 hive

overfit同步小助手 2023-12-16 16:03:49 0 收藏

【Hive-小文件合并】Hive外部分区表利用Insert overwrite的暴力方式进行小文件合并

overfit同步小助手 2023-12-16 08:03:31 0 收藏

FlinkCDC实现主数据与各业务系统数据的一致性（瀚高、TIDB）

FlinkCDC实现业务系统主数据对应字段，用主数据系统主数据字段实时覆盖

overfit同步小助手 2023-12-16 07:03:30 0 收藏

hiveSql调优

| 前是map阶段执行，后的reduce阶段执行1、执行 from，进行表的查找与加载，注意要join的表也要加载进来（MapJoin除外）；2、执行 where，sql 语句中 left join 写在 where 之前的，但是实际执行先执行 where 操作，因为 Hive 会对语句进行优化，如

overfit同步小助手 2023-12-15 11:03:50 0 收藏

我的数据仓库与数据挖掘期末大作业重置版

这是之前已经完成的任务，原本是我的数据仓库与数据挖掘课程的作业。里面都是比较入门的东西，没什么难度。之前学这门课的时候，上了一整个学期的课，几乎都在讲解数学原理。作为数学科目挂了四门的工科蠢材，我整个学期都听得云里雾里，到了学期末的时候突然告诉我们说期末大作业要用 Python 来写。只好赶鸭子上架

overfit同步小助手 2023-12-15 06:03:28 0 收藏

hive 问题解决 Class path contains multiple SLF4J bindings

hive输入命令时出现日志冲突提示（问题不复杂，是个warn，强迫症解决，做项目经常遇到，项目里是处理maven。这里处理方法思路类似。这里选简单的删除日志冲突包，删除hive目录下的包。一种是屏蔽日志冲突包，一种删除多余包。日志冲突提示已消失。

overfit同步小助手 2023-12-15 00:03:15 0 收藏

「数据密集型系统搭建」原理篇｜OLAP、OLTP，竟是两个世界

本篇来聊聊OLAP与OLTP的区别以及它们各自的适用场景，以此话题为导引和大家聊聊技术视野与知识储备对于研发同学的重要性，站在事务处理与在线分析的角度分别论述下两个数据世界的底层构建逻辑。

overfit同步小助手 2023-12-12 18:03:31 0 收藏

Hive 的角色和权限控制

的权限模型中，用户可以拥有多个角色，一个角色可以包含多个用户。管理员可以根据需要创建和管理角色，并为这些角色分配相应的权限。中的角色控制是通过角色的概念来实现的，角色可以理解为一组用户的集合，可以对这个集合中的用户进行权限的管理。用户可以根据自己的需求创建和管理角色，并为这些角色分配相应的权限。中的

overfit同步小助手 2023-12-12 09:03:53 0 收藏

数据仓库岗面试

求用户连续登录3天，要讲出多种解法；将数据表行转列；求两数之和，除了哈希之外的其他解法；数仓分层具体可分为哪些层；ods到dwd层做了哪些处理？数据倾斜

overfit同步小助手 2023-12-10 08:03:45 0 收藏

Hive自定义UDF函数及使用

UDF全称：User-Defined Functions，即用户自定义函数，在Hive SQL编译成MapReduce任务时，执行java方法，类似于像MapReduce执行过程中加入一个插件，方便扩展。

overfit同步小助手 2023-12-10 08:03:42 0 收藏

直播电商数据仓库

数据仓库，简称数仓,（ Data Warehouse ）。从逻辑上理解，数据库和数仓没有区别，都是通过数据库软件实现存放数据的地方，只不过从数据量来说，数据仓库要比数据库更庞大。数仓主要是为企业制定决策，提供数据支持的。当业务简单，可以用数据库来存储，分析，制表。但当数据量几何式增长，需要跨机器整合

overfit同步小助手 2023-12-10 05:03:30 0 收藏

Hive的安装及集成Tez为执行引擎

主要是yarn.nodemanager.vmem-check-enabled以及yarn.nodemanager.pmem-check-enabled这两项配置。切换Tez执行引擎后，hive启动以及HQL执行的日志较多，可参考前面第11步，将日志打印级别设为WARN或者ERROR。Tez介绍：ht

overfit同步小助手 2023-12-10 02:03:28 0 收藏

3、如何从0到1去建设数据仓库

如何从0到1去建设数据仓库

overfit同步小助手 2023-12-08 18:03:29 0 收藏

2023.11.22 -数据仓库的概念和发展

在关系型数据库中，关于数据表设计的基本原则，规则就称为范式。可以理解为，一张数据表的设计结构需要满足的某种设计标准的级别。想要设计一个结构合理的关系型数据库，必须满足一定的范式（规则）。范式的英文名称是Normal Form，简称NF。它是英国人E.F.codd（埃德加·弗兰克·科德）在上个世纪70

overfit同步小助手 2023-12-06 22:03:41 0 收藏

实验五熟悉 Hive 的基本操作

（8）查询 stocks 表中收盘价(price_close)比开盘价(price_open)高得最多的那条记录的交易所 (exchange)、股票代码(symbol)、日期(ymd)、收盘价、开盘价及二者差价。（9）从 stocks 表中查询苹果公司（symbol=AAPL）年平均调整后收盘价(p

overfit同步小助手 2023-12-05 09:03:44 0 收藏