大数据数据仓库

Hive连接方式（本文梳理与datagrip连接）

1.确保HIve已经正确安装完毕，如已正确成功安装Hive，随时随地输入Hive启动即可首先要确保集群成功启动，否则hive会failed；2.启动成功之后，就可以做Hive的相关操作了，出现以下操作 -------成功！

overfit同步小助手 2024-06-05 08:03:42 0 收藏

Hive运行错误

查询hadoop日子：/bin/bash: /bin/java: No such file or directory。删除一个文件一个目录: derby.log和metastore_db。注意：用hadoop的完整地址，不能使用。

overfit同步小助手 2024-06-05 06:03:53 0 收藏

数据仓库、数据中台、大数据平台之间的关系

数据行业经常会出现数据仓库、数据中台、大数据平台等概念，容易产生疑问，它们中间是相等，还是包含的关系？

overfit同步小助手 2024-06-04 16:03:48 0 收藏

数据仓库项目---Day01

只需要研发人员集成采集 SDK，不需要写埋点代码，业务人员就可以通过访问分析平台的“圈选”功能，来“圈”出需要对用户行为进行捕捉的控件，并对该事件进行命名。例如，我们对页面中的某个按钮埋点后，当这个按钮被点击时，可以在这个按钮对应的 OnClick 函数里面调用SDK提供的数据发送接口，来发送数据。

overfit同步小助手 2024-06-04 10:03:48 0 收藏

hive正则函数regexp_extract()提取字符串

分析：将a.STEP_ID 按照[_/,;]来分割，如果匹配上了就提取[_/,;]右侧的字符串，没有的话返回‘NA’;例子：nvl(REGEXP_SUBSTR('005/06','[^_/,;本例中分隔符之前只有数字和字母，且分隔符至多一个。

overfit同步小助手 2024-06-03 11:03:38 0 收藏

Hive常见的日期函数

UNIX 时间戳转日期语法：fom_unixtime(bigint unixtime[, string format]);返回类型：string。

overfit同步小助手 2024-06-03 09:04:11 0 收藏

Hive中文乱码的解决方法

解决Hive中文乱码问题

overfit同步小助手 2024-06-03 09:03:40 0 收藏

hive客户端连接

主题：是一个抽象的概念，数据综合体，一个分析的主题可以对应多个数据源，在数仓的开展分析中，首先确定分析的主题，然后基于主题寻找，采集跟主题相关的数据。特点：服务于分析，要能应对海量数据的存储和数据计算，对于响应速度要求不高没我们很少修改数据，所以也不需要对数据的一致性，安全性进行考虑。ODS：源数据

overfit同步小助手 2024-06-02 04:04:38 0 收藏

Hive 之 UDF 运用（包会的）

Hive 支持两种 UDF 函数自定义操作，分别是：GenericUDF（通用UDF）：用于实现那些可以处理任意数据类型的函数。它们的输入和输出类型可以是任意的，但需要在函数内部处理类型转换和逻辑，可以实现更复杂的逻辑处理。UDF：用于实现那些只能处理特定数据类型的函数。每个 UDF 都明确指定了输

overfit同步小助手 2024-06-01 22:03:37 0 收藏

hive表基本语法

overfit同步小助手 2024-06-01 16:03:12 0 收藏

Hive中的复杂数据类型 - array、map、struct

Hive中的复杂数据类型，学会如何使用，如何指定字段为struct类型？如何向struct类型的字段中插入数据？如何取出struct字段中的值？

overfit同步小助手 2024-06-01 14:03:46 0 收藏

hive：insert into/overwrite插入分区详解

最近在做数据清洗的工作，从ods层到dwd层对数据进行标准化。有多张表需要汇入主题表，因为表中的字段比较多，况且也不统一，需要从指定字段拿数据，并且清洗，最后汇入主题表。PS：又结束了一天忙碌的工作，祝愿大家开心生活每一天。

overfit同步小助手 2024-06-01 14:03:16 0 收藏

hive内置函数--floor,ceil,rand三种取整函数

返回一个0到1范围内的随机数。如果指定种子seed，则会返回固定的随机数。返回等于或者小于该double变量的最大的整数。返回等于或者大于该double变量的最小的整数。

overfit同步小助手 2024-06-01 03:03:50 0 收藏

数据仓库和数据挖掘基础

主要介绍数据仓库和数据挖掘的基本知识。

overfit同步小助手 2024-05-31 21:03:27 0 收藏

在虚拟机中进入hive出现ConnectException拒绝连接

如果输入进入hive的命令后出现以下问题。

overfit同步小助手 2024-05-31 13:03:58 0 收藏

数据仓库内容分享(十五)：解读向量数据库

首先，我们需要理解什么是向量？向量是基于不同特征或属性来描述对象的数据表示。每个向量代表一个单独的数据点，例如一个词或一张图片，由描述其许多特性的值的集合组成。这些变量有时被称为“特征”或“维度”。例如，一张图片可以表示为像素值的向量，整个句子也可以表示为单词嵌入的向量。一些常用的数据向量如下：图像

overfit同步小助手 2024-05-31 06:04:02 0 收藏

第十一章数据仓库和商务智能

A：运营报表指的是业务用户直接从交易系统、应用程序或数据仓库生成报表。B：绩效管理是一套集成的组织流程和应用程序，旨在优化业务战略的执行。C：在线分析处理（OLAP）是一种为多维分析查询提供快速性能的方法。D：在线分析处理（OLAP）比在线事务处理（OLTP）对数据的实时性有更高的要求。正确答案：D

overfit同步小助手 2024-05-31 01:04:10 0 收藏

银行数据仓库项目

需要了解的概念：OLTP是一个操作系统 OLAP是面向解释分析的系统面向主题：客户在使用数仓的时候所关心的内容叫做主题，面向客户的需求银行有哪些主题？客户、财务、贷款集成的：根据主题，将采集业务数据整合汇总加工，形成业务宽表（业务明细表）非易失：数据要做到准确、完整、一致、高效随着时间变化而变化：数

overfit同步小助手 2024-05-31 00:03:31 0 收藏

Hive自定义GenericUDF函数

*** 自定义函数：将字符串转换为大写*//*** 初始化函数* @param arguments 函数参数的ObjectInspector数组* @return 函数返回值的ObjectInspector* @throws UDFArgumentException 如果参数数量不正确*/@Over

overfit同步小助手 2024-05-30 00:03:52 0 收藏

Hive集合函数 collect_set 和 collect_list 使用示例

在Hive中， collect_set 和 collect_list 是用于收集数据并将其存储为集合的聚合函数。

overfit同步小助手 2024-05-29 14:03:30 0 收藏