大数据 Hive - overfit.cn

大数据工程师的日常工作内容是干嘛？

我们真的是Sqlboy吗？

overfit同步小助手 2023-04-09 17:04:15 0 收藏

基于Hadoop的数据分析案例-陌陌聊天软件数据分析

目录前言一、使用的工具二、分析步骤1.数据来源2.数据内容分析3.加载数据4.数据清洗ETL5.数据分析总结前言本文章针对陌陌软件进行数据分析。一、使用的工具Vmware Workstation Pro Centos 7 64bit FinalShell 3.9.2.2 DataGrip 2020.

overfit同步小助手 2023-04-09 15:04:02 0 收藏

如何根据Hive SQL代码生成Datahub数据集及血缘

识别、解析Hive、PG SQL代码，自动生成Datahub 表级、字段级血缘

overfit同步小助手 2023-04-08 22:03:53 0 收藏

hive 增加字段修改注释

overfit同步小助手 2023-04-08 10:03:45 0 收藏

SQL实现将多行记录合并成一行

overfit同步小助手 2023-04-08 04:04:08 0 收藏

Spark面试题——Spark小文件问题及解决方案

Spark小文件问题及解决方案

overfit同步小助手 2023-04-08 04:03:38 0 收藏

Hive增加列，调整列顺序，属性名等操作

hive添加字段到指定位置先添加字段到最后位置再移动到指定位置

overfit同步小助手 2023-04-07 04:03:36 0 收藏

Hive截取指定位子或字符后面的数据

Hive截取指定字符后面的数据，博客中分别介绍了三种不同的方法，其中包含substr()函数，instr()函数，字符串反转函数reverse()，regexp_extract()正则匹配函数，split()分割函数的使用

overfit同步小助手 2023-04-07 03:03:20 0 收藏

Hive之Map常用方法

实际工作中，有时会出现map复杂数据类型，字段field1形式如：{‘k0’:‘abc’,‘k1’:‘01,02,03’,‘k2’:‘456’}，如果是string形式，我们可以适用get_json_object 函数，取出对应的value值，具体如：get_json_object（field,‘$

overfit同步小助手 2023-04-06 16:04:52 0 收藏

今天又get到一个小技能，collect_set函数

collect_set函数今天又get到一个小技能，掌握了hive一个关于列转行专用函数 collect_set函数。在这里做个学习笔记。collect_set是Hive内置的一个聚合函数, 结果返回一个消除了重复元素的对象集合, 其返回值类型是 array 。和collect_set相似的还有另一

overfit同步小助手 2023-04-06 15:03:57 0 收藏

hive 日期和时间戳互相转化

一 . 日期转时间戳1 unix_timestamp()获取当前时间戳select unix_timestamp(); --16364622392 unix_timestamp() 输入日期参数输入的时间格式必须符合 yyyy-MM-dd HH:mm:ssselect unix_timestamp

overfit同步小助手 2023-04-06 09:04:25 0 收藏

hive函数——greatest、least 多列取最大最小值

overfit同步小助手 2023-04-06 07:03:53 0 收藏

大数据知识面试题-Hive （2022版）

Hive中所有的数据都存储在HDFS中，没有专门的数据存储格式在创建表时指定数据中的分隔符，Hive 就可以映射成功，解析数据。Hive中包含以下数据模型：**db：**在hdfs中表现为hive.metastore.warehouse.dir目录下一个文件夹**table：**在hdfs中表现所属

overfit同步小助手 2023-04-06 02:04:21 0 收藏

Zookeeper02：Zookeeper安装部署【单机】

一、Zookeeper的安装部署针对Zookeeper前期不需要掌握太多，只需要掌握Zookeeper的安装部署以及它的基本操作即可。Zookeeper也支持单机和集群安装，建议大家在学习阶段使用单机即可，单机和集群在操作上没有任何区别。在这里我们会针对单机和集群这两种方式分别演示一下。二、Zook

overfit同步小助手 2023-04-06 01:04:09 0 收藏

Hive的查询基本操作

Hive的查询基础操作和各运算符

overfit同步小助手 2023-04-05 23:04:26 0 收藏

hive表 desc 描述元信息获取（java hive jdbc）

java hive jdbc一次性获取hive表数据在hdfs中的location位置、或者获取hive的文件存储格式、使用的压缩算法，甚至是表中的字段类型、字段注释、字段约束、表中是否有数据、数据大小、文件数等信息。

overfit同步小助手 2023-04-05 23:04:09 0 收藏

MySQL中存储的数据查询的时候区分大小写问题

涉及字符串的各种运算其核心必然涉及到采用何种字符排序规则（COLLATE，也有翻译为"核对"）。本质上 MySQL 是通过 COLLATE 取值决定字符串运算是否大小写敏感。`utf8_general_ci` 是一个具体的 COLLATE 取值。每个具体的 COLLATE 都对应唯一的字符集，可以看

overfit同步小助手 2023-04-05 16:04:43 0 收藏

hive中字符串查找函数 instr 和 locate

可用于优化join or关联匹配情况

overfit同步小助手 2023-04-05 15:03:59 0 收藏

2022数据血缘关系详解

overfit同步小助手 2023-04-05 12:04:21 0 收藏

安装datagrip以及datagrip连接hive

介绍：DataGrip 出自JetBrains公司,是一款跨平台的数据库管理客户端工具,可在Windows,OS X 和 Linux上使用;同时支持多种数据库:SQL Server, Oracle, PostgreSQL, MySQL, DB2, Sybase, SQLite, Derby, Hyp

overfit同步小助手 2023-04-05 12:04:08 0 收藏