spark学习之处理数据倾斜

大数据面试,遇见数据倾斜不会答?最全的数据倾斜总结来教你如何解决它。

HiveSQL面试题47:京东面试题

目录0 需求1 数据准备2 求解3 小结0 需求1 数据准备数据1 aa 2 aa 3 aa 4 d 5 c 6 aa 7 aa 8 e 9 f 10 g 建表 create table a( id string, name s

2022字节跳动数仓实习面经(2、3面、hr面)

字节已经给offer了,今天接着上一篇抖音电商部门的数仓实习生面经,这次面试是2、3面的总结,就放在一起吧。对往期内容感兴趣的同学可以查看如下内容👇:2022字节一面面经: 2022字节跳动数据仓库实习面经.2022 字节被拒面经: 2022暑期实习字节跳动数据研发面试经历.2022百度面经: 2

6. 数据仓库环境准备

6. 数据仓库环境准备数据仓库环境准备数据仓库运行环境Hive环境搭建Hive on Spark 配置Hive on Spark 测试Yarn环境配置数据仓库开发环境启动 HiveServer2配置 DataGrip 连接创建连接配置连接属性测试使用模拟数据准备用户行为日志业务数据生成模拟数据全量表

Kylin简介与环境配置(保姆级教程)

Apache Kylin是基于Hadoop大数据平台的一个开源联机分析处理(Online Analytical Processing,OLAP)引擎。它采用多维立方体**预计算**技术,将大数据的SQL查询速度从之前的分钟乃至小时级别提升到亚秒级别,这种百倍、千倍的速度提升,为超大规模数据集上的交互

2022字节跳动数据仓库实习面经

先和大家说一下情况,3月4号面试的字节跳动数据研发岗位直接把我挂了,我满脸疑惑,但是抱着学习和提升自我的心态,打电话问问hr,像看看面试官给我面试的评价,hr说,就两行,第一句肯定,第二句说我专业知识不够。以下是我上次的面试经历👇:链接: 2022暑期实习字节跳动数据研发面试经历.链接: 2022

大数据的关键技术(二)

七、数据清洗技术(1)数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。 (2)我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。

基于kettle的数据集成平台(汇总)

演示环境: 用户名:admin 密码:admin高低压电力监控系统http://scada.wangyaojun.cn/北大服务网关http://kettle.wangyaojun.cn/认识kettle:认识物联网_qingxinziran007的专栏-CSDN博客最近在做一些物联网的项

02、Hive数据仓库——SQL员工练习题

Hive数据仓库——SQL员工练习题

1、Hive数据仓库——概念及架构

文章目录Hive 1.2.1Hive 是什么Hive 1.2.1Hive 是什么  Hive是建立在Hadoop上的数据仓库基础

2、Hive数据仓库——环境搭建及简单使用

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时

漫谈数据治理一-数据老有问题,我们该如何提高数据质量?

一、前言大家好,我是王老狮,狮是工程师的狮哈。细心地小伙伴应该发现我改名字了,具体改名原因呢?毕竟过了一年了,我也成长了,DarkKing感觉有点太中二了,因此换个成熟稳重一点的名字。(难道我会告诉你我有起名困难症吗?)随着互联网后期以及物联网的崛起,甚至互联网公司们已经不满足现实世界,诞生了元宇宙

你真的需要特征存储吗?

如无必要 勿增实体

Hive hql 经典5道面试题

最近在深入了解Hive,尚硅谷的这5道题很经典,有引导意义,分步解题也很有用,故记录之,方便回看1.连续问题如下数据为蚂蚁森林中用户领取的减少碳排放量找出连续 3 天及以上减少碳排放量在 100 以上的用户id dt lowcarbon1001 2021-12-12 1231002 2021-12-

【2022持续更新】大数据面试题整理-数据仓库篇

导语本专栏博文会整理日常工作与面试中最常用到的大数据相关组件与Java语言的架构、概念、知识点,方便大家进行查阅。涉及到的面试题以及答案均为博主搜罗整理,并加上自己的理解编写而成。同时博主会在部分题目的下方添加管遇此题深入理解的博文连接,方便读者的深入理解。希望大家可以通过此篇博文对于大数据相关概念

3分钟搞懂中台

文章目录什么是数据中台?背景作用定义中台类型有哪些?业务数据双中台技术中台研发中台移动中台管理中台组织中台企业为什么要建中台?需求变了匹配失衡鱼和熊掌成功的中台推荐阿里数据中台网易业务中台百度AI 中台……最后什么是数据中台?背景2015年全年产生的数据量等于历史上所有人类产生数据的总和,人类的数据

现代数据环境下,如何做数据集成?这11个靠谱实践收藏了

现代数据环境下,如何做数据集成?这11个靠谱实践收藏了

hive metastore配置kerberos认证

hive从3.0.0开始提供hive metastore单独服务作为像presto、flink、spark等组件的元数据中心。但是默认情况下hive metastore在启动之后是不需要进行认证就可以访问的。所以本文基于大数据组件中流行的kerberos认证方式,对hive metastore进行认

SQLDeveloper连接Hive使用说明

SQLDeveloper连接Hive使用说明

更新后-Hive免费版本2.1 报错问题收集

目前还不够全面,慢慢记录2021-12-24 Error while compiling statement: FAILED: SemanticException [Error 10002]: line **Invalid column reference ''错误显示是无效的行,一度怀疑自己查询和

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈