大数据 Hive - overfit.cn

记apache atlas导入hive元数据过程及问题处理

Apache atlas集成hive，导入hive元数据，导入过程中的问题处理

overfit同步小助手 2024-08-17 23:03:56 0 收藏

离线数据开发流程小案例-图书馆业务数据

hive 终端当前所处的数据库就是这个函数的默认存放数据库，例如：default，如果是在 default 数据库中创建的 udf，在 default 数据库中使用 udf 就可以不携带数据库前缀，如果是在其他数据库中使用这个函数，就需要使用指定这个函数所在的数据库前缀来使用这个函数，比如：sele

overfit同步小助手 2024-08-17 02:03:57 0 收藏

hive3.1.2的详细安装配置

因为hive3.1.2中的有些jar包和比hadoop版本中的jar包版本低，所以我们需要进行一个jar包的替换，把hive中的/hive/lib中的guava-19.0.jar包改名为guava-19.0.jar.bak并从/hadoop-3.1.3/share/hadoop/common/lib

overfit同步小助手 2024-08-15 11:03:37 0 收藏

从SQL到Hive，这些区别你记好

根据万字长文——最详Hive入门指南。

overfit同步小助手 2024-08-14 11:03:52 0 收藏

Hive Transaction事务表（含实现原理）

hive事务表

overfit同步小助手 2024-08-14 10:03:59 0 收藏

sheng的学习笔记-hive框架原理

Hive是基于Hadoop的一个数据仓库（Data Aarehouse，简称数仓、DW），可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。是用于存储、分析、报告的数据系统，常用作离线数据仓库Hive的本质是：将Hive SQL转化成MapReduce程序，其灵活性和扩展性比较好，支

overfit同步小助手 2024-08-14 10:03:33 0 收藏

基于hive数据库的泰坦尼克号幸存者数据分析

泰坦尼克号是当时世界上体积最庞大、内部设施最豪华的客运轮船，有“永不沉没”的美誉。然而不幸的是，在它的处女航中，泰坦尼克号便遭厄运——它从英国南安普敦出发驶向美国纽约。（1）列名介绍PassengerID->乘客IDSurvived->是否生还Pclass->船舱级别Name->姓名Sex->性别A

overfit同步小助手 2024-08-14 06:04:02 0 收藏

Hive的数据库表操作以及数据上传

关于hive的安装、基本的知识，以及hive中数据库表操作等学习练习笔记

overfit同步小助手 2024-08-13 02:03:52 0 收藏

Hive SQL-DML-insert插入数据

insert

overfit同步小助手 2024-08-12 16:03:38 0 收藏

k8s中部署hive，包括客户端及服务端

推送好之后，在cube studio平台上，新建一个pipeline，使用自定义镜像模板，填写镜像为ccr.ccs.tencentyun.com/cube-studio/hadoop-hive:v3.3.2-3.1.3，debug，检查目录对不对，检查环境变量是否正确，在命令行输入hive命令，看是

overfit同步小助手 2024-08-10 02:03:22 0 收藏

EXCEL数据导入HIVE

四、将test.txt文件上传至虚拟机的Linux环境中，同时在hive里新建Test数据表（已经建库），输入建表语句的时候务必注意对应字段的类型必须相同。本文将论述如何将Windows本地的excel表数据，导入到虚拟机Linux系统中的Hadoop生态中的Hive数据仓库中。至此，完成excel

overfit同步小助手 2024-08-09 10:03:59 0 收藏

【理论】Hive SQL和SQL的常用语法及区别

插入数据：`INSERT INTO table_name (column1, column2, ...) VALUES (value1, value2, ...);- 创建表：`CREATE TABLE table_name (column1 data_type, column2 data_type

overfit同步小助手 2024-08-09 10:03:40 0 收藏

【Hive SQL 每日一题】统计最近1天/7天/30天商品的销量

虽然这种方法可以算出结果，但是效率很低，我们需要算三次然后再进行合并，数据量一大的时候那就太慢了，那么有没有更好的方法呢？通过这种方法，我们不再需要写三个子查询然后再进行合并，一个查询即可搞定，提高了整体的运行速度。条件进行过滤，它只会保留符合要求的数据，同样也不会对我们的结果造成影响。行数据，即使

overfit同步小助手 2024-08-08 23:03:47 0 收藏

Hadoop集群模式中Sqoop数据迁移从mysql到hive报错找不到数据库

因为搭建的是Hadoop集群模式，执行时会将Sqoop命令发送到集群中的其他主机中去执行，但是其他集群中并没有相应的mysql数据库，也就是找不到"目标数据库‘test1’"这个报错；执行Sqoop命令后，报错无法找到目标数据库，显示导入失败，但hive中却真实导入了部分数据，属于是半成功。Sqoo

overfit同步小助手 2024-08-08 18:03:26 0 收藏

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

但是这样有个问题是当集群有多个用户运行Hive查询时会有问题，应避免为每个用户的会话分配固定数量的executor，因为executor分配后不能回其他用户的查询使用，如果有空闲的executor，在生产环境中，计划分配好executor可以更充分的利用Spark集群资源。启动并发GC周期时的堆内存

overfit同步小助手 2024-08-08 13:03:36 0 收藏

hive 之 UDTF 之 explode 函数和 lateral view 侧视图（原理）

overfit同步小助手 2024-08-08 05:03:22 0 收藏

Hive 分区

加载数据：Linux 中写：hadoop fs -put ‘linux文件路径’ ’文件要上传的路径，一般为要映射的表所在的路径’DataGrip中写：Load data local inpath ‘Linux的文件路径’ into table 表名;Load data inpath ‘HDFS中

overfit同步小助手 2024-08-07 16:03:26 0 收藏

centos7系统安装MySQL、hive以及常见报错及解决方案

压缩包以附。

overfit同步小助手 2024-08-06 23:03:47 0 收藏

Hive常用内置函数合集

Hive常用函数合集

overfit同步小助手 2024-08-06 22:03:41 0 收藏

Hive/Spark窗口函数

结果中，对于每一行的last_value的结果都是当前值，并不分区中按salary升序的最后一个值。前面在提到last_value时，特意强调了该函数的结果并不是分区中的最后一个值，结合上述介绍的window specification再来看下该函数的结果值。注意，默认情况下last_value取的

overfit同步小助手 2024-08-06 20:04:01 0 收藏