【Hive 基础】-- 数据倾斜

由于数据分布不均匀,导致大量数据集中到一点,造成数据热点。常见现象:一个 hive sql 有100个 map task, 有一个运行了 20分钟,其他99个 task 只运行了 1分钟。

【数据仓库-4】-- 提取、转换、装载(ETL)

又如,性别字段,有些系统使用的是1和0,有些是"M"和"F",有些是"男’和"女",统一成"M"和"F"。假设一个数据仓库系统,在每天夜里的业务低峰时间从操作型源系统抽取数据,那么增量抽取只需要过去24小时内发生变化的数据。对于流水表(只增加,不修改的表),全量数据入仓后,后续的数据,只需要按分区存

什么是数据埋点?有何作用?

数据埋点是指基于业务需求(如淘宝双 11 促销页面统计每个 banner 的点击 次数)、产品需求(如推荐系统统计推荐商品的曝光次数及点击人数),对每一个用户行为事件对应的位置进行埋点,并通过 SDK 上报埋点的数据结果,将记录数据汇总后进行分析,以推动产品优化或指导运营。

数据仓库建模(四):维度表的设计

数据仓库建模(四):维度表的设计维度表的结构维度表的结构

MySQL 8.0.30 安装详解教程-保姆级

本文将详细描述MySQL 8.0.30 的安装教程,目录多但实际内容很少,便于初学者理解和学习

用flink cdc sqlserver 将数据实时同步到clickhouse

flink cdc 终于支持 sqlserver 了。现在互联网公司用sqlserver的不多,大部分都是一些国企的老旧系统。我们以前同步数据,都是用datax,但是不能实时同步数据。现在有了flinkcdc,可以实现实时同步了。1、首先sqlserver版本:要求sqlserver版本为14及以上

【大数据基础实践】(六)数据仓库Hive的基本操作

目录1. 数据仓库概念2. Hive简介2.1 简介2.2 特性2.3 生态系统3. Hive系统架构4. HQL转成MapReduce作业的原理4.1 join的实现原理4.2 group by的实现原理5. 实验练习5.1 环境配置5.1.1 HIVE5.1.2 MYSQL5.1.3 配置MyS

Kettle 连接MySQL连接失败 详细解决步骤(实测)

前言:先说一下我使用的环境和软件版本,不同的环境】版本即使相同的问题可能处理的解决方案也是不一样;网上教程太多,处理起来也很烦;操作系统:windows10、MySQL:8.0.16 (较老) Kettle :8.2问题描述:错误连接数据库错误连接数据库 [本地mysql] : org.pentah

关于分布式计算数据倾斜的杂谈

关于分布式计算数据倾斜的杂谈

数据仓库主题域的划分

记录本人实际工作中接触到的各类主题域和数据域,结合自身的经验和对主题域的理解谈谈其划分标准。

DM(达梦)数据库和其他数据库(mysql,sqlserver...)表互相迁移

因为达梦是国产数据库,管理界面和其他数据库都不能通用,其他数据库可以用navicat一个管理工具都可以连接,而达梦只能用自己提供的管理工具。在做项目的时候遇到两个项目用的表和数据都是同样的但是数据库不一样这个时候为了节省时间可以直接库与库质检互相导表和数据增加效率。6:点击下一步后会出来源数据库里面

Hive时间日期函数一文详解+代码实例

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。Hive中的表示纯逻辑表,只有表的定义等,即表的元数据(存储于MySQL中)。本质就是Hadoop的目录/文件,这种设计方式实现了元数据与数据存储分离。Hive本身不存储数据,它完全依赖HDFS

数据治理系列:数仓建模之数仓主题与主题域

数仓主题是什么?主题域又是什么?二者有什么区别和联系?主题与主题域如何划分?本文可以解答这些问题,

拉链表详解

拉链表产生背景在数据仓库的数据模型设计过程中,经常会遇到这样的需求:1、数据量比较大;2、表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;3、需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,比如,查看某一个用户在过去某一段时间

SQL Server创建表和添加列

撰写时间:2022 年 4 月 27日 SQLServer创建表和添加列SQL Server创建表:表用于在数据库中存储数据;表在数据库和模式中唯一命名。每个表包含一个或多个列。每列都有一个相关的数据类型,用于定义它可以存储的数据类型,例如:数字,字符串和日期。要创建新表,请使用c

数据仓库架构详解

基本概念

【用户画像】用户画像简介、用户画像的架构、搭建用户画像管理平台

数据仓库是大数据体系的基石,用户画像是建立在数仓之上的一种应用,类似的应用还有商业智能,推荐系统等。用户画像,英文: User Profile,( 也有少数称: User Portrait 或User Persona)。一句话概念就是将用户信息标签化(Tag或者Label),以用户为中心,将各种各样

MPP数据库简介及架构分析

MPP (Massively Parallel Processing),即大规模并行处理。简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。MPP数据库是一款 Shared Nothing架构的分布式并行结

【SQL开发实战技巧】系列(二十):数据仓库中时间类型操作(进阶)获取季度开始结束时间以及如何统计非连续性时间的数据

本篇文章讲解的主要内容是:***汇总报表时常要求按季度分类汇总这就需要通过给定年份获取对应的季度开始结束时间、业务数据不连续的情况下如何统计所有年份数据、如何统计相同月份与周内日期聘用的员工、如何返回2月或12月聘用的所有员工以及周二聘用的所有员工***

【第十一届泰迪杯数据挖掘挑战赛】A 题:新冠疫情防控数据的分析 思路+代码(持续更新)

【第十一届泰迪杯数据挖掘挑战赛】A 题:新冠疫情防控数据的分析 思路+代码(持续更新)

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈