Hive - overfit.cn

【Flutter】使用Hive插件管理本地缓存与网络缓存

Hive 是一个为 Flutter 和 Dart 设计的轻量级、高性能的 NoSQL 数据库。它是用纯 Dart 编写的，不需要本地依赖，这使得它非常适合 Flutter 应用程序。让我为您详细介绍 Hive 并提供一些使用示例。本文介绍了 Hive 的简单使用，以及对应的封装和应用场景的示例，可以

overfit同步小助手 2024-10-08 09:03:58 0 收藏

Hive之任务优化

Hive 是一个基于 Hadoop 的数据仓库工具，提供了 SQL-like 的查询语言来分析存储在 HDFS（Hadoop Distributed File System）上的大规模数据集。为了提高查询性能，Hive 提供了多种优化方法，涵盖不同层次的改进，从 SQL 查询层到执行层。

overfit同步小助手 2024-10-07 21:03:42 0 收藏

陌陌聊天数据案例分析

陌陌是一个聊天平台，每天都会产生大量大聊天数据，通过对聊天数据的统计分析，可以更好的构建用户画像，为用户提供更好的服务以及实现高ROI的平台运营推广，给公司的决策提供精准的数据支撑。基于Hadoop和hive实现聊天数据统计分析，构建聊天数据分析报表。统计今日总消息量、每小时消息量、发送和接受用户数

overfit同步小助手 2024-10-07 18:04:01 0 收藏

hiveserver2连接数与hivemetastore连接数详解

datanucleus.connectionPool.maxPoolSize 缺省值为10，如果poolSize=100，有3个HMS实例，每个服务器有4个池，则可以容纳1200个连接。连接池中的最大连接数:datanucleus.connectionPool.maxPoolSize（默认10）10

overfit同步小助手 2024-10-07 05:03:40 0 收藏

Mac M1安装Hive

如果你确定装过mysql，但是执行上述命令后，发现不存在mysql命令，那说明你的系统环境没有配置。出现一段空白，接着出现Initialization script completed。关闭hiveServer2时，执行如下命令查看hive进程；执行上面命令后，若有结果输出，则证明配置完成了。如果出

overfit同步小助手 2024-10-06 08:04:08 0 收藏

Hive数仓操作（一）

Hive 是一个基于 Hadoop 的数据仓库工具，旨在简化大规模数据集的管理和分析。它将结构化数据文件映射为表，并提供类似 SQL 的查询功能。Hive 的数据存储在 Hadoop 分布式文件系统（HDFS）中，使用 Hive 查询语言（HQL）进行数据处理。

overfit同步小助手 2024-10-06 06:03:25 0 收藏

Hive整合MySQL

在Xshell窗口中开启另一个窗口开启Hive（两个窗口都可以操作Hive，没有出现异常）配置主要是root用户 + 密码，在任何主机上都能登录MySQL数据库。若因为安装失败或者其他原因，MySQL需要卸载重装，可参考以下内容。初始化Hive元数据库（修改为采用MySQL存储元数据）将MySQL的

overfit同步小助手 2024-10-04 09:04:07 0 收藏

hadoop+spark+hive基于django的民族服饰数据分析系统的设计与实现(源码+爬虫可视化展示+调试+讲解)

随着网络科技的发展，利用大数据分析对民族服饰进行管理已势在必行；该平台将帮助企业更好地理解服饰市场的趋势，优化服装款式，提高服装的质量。本文讲述了基于python语言开发，后台数据库选择MySQL进行数据的存储。该软件的主要功能是进行服饰数据分析。主要包括个人中心、用户管理、民族服饰管理、数据统计管

overfit同步小助手 2024-10-03 19:04:06 0 收藏

详细讲解hive on tez中各个参数作用，以及如何优化sql

最近经常有优化sql的任务，但是自己能力有限，只能凭经验去优化，现整理加学习一波，也欢迎各位学习和讨论。我们经常用hivesql 的模型就是 join.如下。这里面发生了什么，执行流程是什么，为什么有的insert要几十分钟有的只要几分钟。--造1000w条数据文件大小为300M已知上面的数据为1

overfit同步小助手 2024-10-03 17:03:29 0 收藏

Spark与Hive计算转义数据结果不同造成数据差异

同一数据源和相同处理逻辑的脚本，其采用的执行引擎不同，跑出的结果数据存在差异。Hive 执行跑出所有的指标，Spark 仅跑出部分指标。定位在 LATERAL VIEW 侧视图计算指标后返回后的字段都是 string（字符串）类型，对数值为0的指标进行过滤两个引擎的处理之后结果不一致。Hive中能够

overfit同步小助手 2024-10-02 17:03:41 0 收藏

数仓工具—Hive基础之临时表及示例

临时表是应用程序自动管理在大型或复杂查询执行期间生成的中间数据的一种便捷方式。Hive 0.14 及更高版本支持临时表。可以在用户会话中像使用普通表一样多次使用它们。在本文中，我们将介绍，以及如何创建和使用限制的示例。是限于用户会话的。您可以在用户会话中多次重复使用临时表。Hive 在创建它们的 H

overfit同步小助手 2024-10-02 10:03:31 0 收藏

Hive中的分区表与分桶表详解

不过，并非所有的数据集都可形成合理的分区。分桶表的基本原理是，首先为每行数据计算一个指定字段的数据的 hash 值，然后模以一个指定的分桶数，最后将取模运算结果相同的行，写入同一个文件中，这个文件就称为一个分桶（bucket）。动态分区的模式，默认 strict（严格模式），要求必须指定至少一个分区

overfit同步小助手 2024-10-02 08:03:19 0 收藏

在用DolphinScheduler把mysql中的数据导入到hive中的有关报错

本文针对的错误是（1）用shell设计sqoop脚本把数据从mysql导入到hive和（2）直接用sqoop把数据从mysql导入到hive。

overfit同步小助手 2024-10-02 03:03:17 0 收藏

深入理解 Hive SQL 中的 TRANSFORM 函数

本文详细介绍了 Hive SQL 中 TRANSFORM 函数的使用方法和应用场景。TRANSFORM 是一个强大的工具，用于在 SQL 查询中直接进行复杂的数据转换，或调用外部脚本进行自定义的数据处理。文章首先解释了 TRANSFORM 函数的基本用法，通过实例演示如何将销售物品列表中的每个项目提

overfit同步小助手 2024-10-01 06:03:51 0 收藏

pyhton - PyHive

这里，我们使用 PyHive 连接到 Hive 数据库，并使用 Pandas 读取了数据库中的数据。这里，我们使用 PyHive 连接到 Hive 数据库，并使用 SQL 查询语句获取数据集的总行数。这里，我们使用 pandas.read_sql 方法将查询结果转换为 Pandas DataFram

overfit同步小助手 2024-10-01 05:03:54 0 收藏

hive中的分区

Hive分区的概念与传统关系型数据库分区不一样。传统数据库的分区方式：就oracle而言，分区独立存在于段里，里面存储真实的数据，在数据进行插入的时候自动分配分区。Hive的分区方式：因为Hive实际是存储在HDFS上的抽象，Hive的一个分区名对应一个目录名，子分区名就是子目录名，并非一个实际字段

overfit同步小助手 2024-09-30 20:06:22 0 收藏

Hive企业级调优[1]——计算资源配置

MapReduce 资源配置主要包括 Map Task 的内存和 CPU 核数，以及 Reduce Task 的内存和 CPU 核数。本教程的计算环境为 Hive on MR。计算资源的调整主要包括 YARN 和 MapReduce。

overfit同步小助手 2024-09-30 17:03:30 0 收藏

Hive数仓操作（二）

Hive 是一个用于处理大规模数据集的工具，支持多种数据类型以满足不同的需求。本文将详细介绍 Hive 的基本数据类型和集合数据类型。

overfit同步小助手 2024-09-30 14:08:02 0 收藏

Python知识点：如何使用Hive与PyHive进行数据仓库操作

使用Hive与PyHive进行数据仓库操作涉及多个步骤，包括Hive的安装与配置、PyHive的安装以及通过PyHive执行Hive SQL语句等。

overfit同步小助手 2024-09-30 05:05:17 0 收藏

全国职业院校技能大赛（大数据赛项）-平台搭建hive笔记

在大数据时代，数据量呈爆炸性增长，传统的数据处理工具已难以满足需求。Hive作为一个开源的数据仓库工具，能够处理大规模数据集，提供了强大的数据查询和分析能力，是大数据学习中的关键工具。在全国职业院校技能大赛（大数据技术与应用赛项）中的平台搭建模块，hive的搭建也是经常考察的问题，今天大家随着小编一

overfit同步小助手 2024-09-28 13:03:44 0 收藏