Hive - overfit.cn

了解hive on spark和spark on hive

大数据刚出来的时候，并不是很完善。发展的不是很快，尤其是在计算服务上，当时使用的是第一代mr计算引擎，相对来说计算并不是那么快。让大数据快速发展的是2009年伯克利大学诞生的spark，并在2013年成为Aparch的顶级开源项目。使大数据发展比较迅速、但是随着spark的快速发展，对于不太会用sp

overfit同步小助手 2023-08-15 11:04:01 0 收藏

清空hive表姿势大全

- 清空分区表为什么着重强调分区表,因为分区表清空可能会因为分区过多导致清理速度特别慢.

overfit同步小助手 2023-08-15 07:03:52 0 收藏

Hadoop集成Hive

说明：服务器已用主机名代替，可根据自己的需求，改为IP地址环境1、java版本1.82、Rsync CentOS中默认存在3、zstd、openssl、autoconf、automake、libtool、ca-certificates安装4、ISA-L5、nasm与yasm6、ssh7、hadoop

overfit同步小助手 2023-08-14 19:04:04 0 收藏

hive存储压缩格式对比说明

hive压缩说明

overfit同步小助手 2023-08-13 08:05:06 0 收藏

Hive-数据倾斜

在计算各省份的GMV时，有可能会发生数据倾斜，解决办法如下：

overfit同步小助手 2023-08-13 06:04:22 0 收藏

hive 全量表、增量表、快照表、切片表和拉链表

切片表根据基础表，往往只反映某一个维度的相应数据。其表结构与基础表结构相同，但数据往往只有某一维度，或者某一个事实条件的数据。：记录每条信息的生命周期，当一条记录的生命周期结束，就会重新开始一条新的记录，并把当前日期放入生效开始日期。3）合并变动数据和旧拉链表数据（有更新的信息需要修改生效结束日期，

overfit同步小助手 2023-08-13 02:04:21 0 收藏

Presto、Spark 和 Hive 即席查询性能对比

Spark 则是一个基于内存的分布式计算框架，可以快速地处理大规模的数据，并且具有很高的可扩展性。Presto 可以很容易地集成到现有的数据架构中，并且可以在不同的数据源之间进行无缝的查询。它们都具有各自的优缺点，在不同的场景下都有着不同的应用价值。Spark 是一个基于内存的分布式计算框架，它可以

overfit同步小助手 2023-08-12 20:04:39 0 收藏

Hive数据仓库

数仓作为面相分析的数据平台，其主职工作就是对存储在其中的数据开展分析，那么如何读取数据分析呢？理论上来说，任何一款编程语言只要具备读写数据、处理数据的能力，都可以用于数仓的开发。比如大家耳熟能详的C、java、Python等；关键在于编程语言是否易学、好用、功能是否强大。遗憾的是上面所列出的C、py

overfit同步小助手 2023-08-12 05:03:59 0 收藏

Hive Sql优化之一次from查询多次insert into操作

优化点：一次map多个reduce，有效节省了map操作。

overfit同步小助手 2023-08-12 03:04:35 0 收藏

doris配置hive的catalog

查询hive的database。创建hive的catalog。

overfit同步小助手 2023-08-11 08:03:54 0 收藏

拉链表的制作过程

**背景：**对于一些维度表，数据量特别大，每天又会有新增或者修改的数据，但是这部分数据总数据量的比重不大。如果做成每日全量数据，会导致大量的重复数据，占用存储资源；如果做成全量最新，则会缺少历史数据。针对这种情况，可以考虑使用拉链表。**设计思路：**每行数据加上两个字段，开始时间，结束时间。初始

overfit同步小助手 2023-08-10 18:04:03 0 收藏

常用的Prestosql

overfit同步小助手 2023-08-10 17:04:45 0 收藏

【Hive-Partition】Hive添加分区及修改分区location

overfit同步小助手 2023-08-10 05:04:15 0 收藏

iceberg对比hive优势

在传统的实时数仓中，由于列式存储相对行式存储有较高的查询性能，我们一般采用parquet，orc等列存储数据格式。传统的流式数据入库的过程中对小文件进行合并会产生很多问题，比如流式数据不断的往hive表进行写入，如果同时有一个合并程序进行小文件的合并，那么这时候对同一份数据进行读写。当有实时指标计算

overfit同步小助手 2023-08-09 16:04:26 0 收藏

hive read time out

2) hiveConnection的socket超时时间通过loginTimeout进行设置，而loginTimeout读取的DriverManager的超时时间，因此，在创建hive连接时需要设置DriverManage的loginTimeout属性。总结：hive中执行SQL的耗时较长，需要增大

overfit同步小助手 2023-08-08 20:03:46 0 收藏

Spring中最简单的过滤器和监听器

采用三步走策略使用filter开发后台资源静态资源(html,css … …)或者动态资源(Servlet,Jsp)开发Filter在web.xml中配置Filter拦截哪些资源开发Servlet定义两个servletSystem . out . println("myServlet1 执行了se

overfit同步小助手 2023-08-08 17:02:48 0 收藏

Hive（21）：DML之Update、Delete更新、删除数据

首先，必须明确，你理解的Hive这款软件，定位是什么？是面向事务支持事务的RDBMS?还是面向分析，支持分析的数据仓库。这很重要。Hive是基于Hadoop的数据仓库，面向分析支持分析工具。因此在Hive中常见的操作的就是分析查询select操作。将已有的结构化数据文件映射成为表，然后提供SQL分析

overfit同步小助手 2023-08-08 15:04:02 0 收藏

CDH-6.3.2从零到一的详细安装教程&hive on Spark性能测试教程

CDH-6.3.2详细安装教程，从零到一的详细教程，包括mysql、Java、CM、hive、Spark、Hadoop、zookeeper、kafka、Hue、flume、oozie的安装教程

overfit同步小助手 2023-08-08 00:03:46 0 收藏

Hive-时间日期&trunc-日期与数字截取函数

TRUNC函数为指定元素而截去的日期值。其具体的语法格式如下：TRUNC（date[,fmt]）1、current_timestamp() -- 获取时间 2022-10-09 16:00:24.1892、unix_timestamp() -- 获取时间戳 16653024983、select

overfit同步小助手 2023-08-07 18:04:34 0 收藏

HiveSQL执行计划查看(EXPLAIN)

HiveSQL执行计划是指查询语句的执行过程，包括查询语句的优化、查询计划生成和查询执行。通过EXPLAIN命令，我们可以查看查询语句的执行计划，找到性能瓶颈和优化方案，调试查询语句，加深对查询过程的理解。在实际使用中，我们可以根据需要选择不同的参数来获取不同的执行计划信息。

overfit同步小助手 2023-08-07 11:04:24 0 收藏