大数据 Hadoop - overfit.cn

摸鱼大数据——Hive表操作——文件数据的导入和导出

1- 如果数据在Hive表的某一个文件中，可以使用直接下载文件的方式2- 如果想将Hive表中的数据导出到HDFS路径，推荐使用insert overwrite导出命令3- 如果只是想将Hive表中的数据导出到linux路径，可以使用insert overwrite导出命令或者hive sell命令

overfit同步小助手 2024-06-30 03:03:34 0 收藏

Hadoop在win11安装

更改jre和jdk路径，不要包含空格和中文。

overfit同步小助手 2024-06-30 02:03:32 0 收藏

大数据开发之Hive（详细版，最后有实战训练）

第 1 章：Hive基本概念1.1 Hive1.1.1 Hive产生背景HDFS来存储海量的数据、MapReduce来对海量数据进行分布式并行计算、Yarn来实现资源管理和作业调度。但是面对海量的数据和负责的业务逻辑，开发人员要编写MR对数据进行统计分析难度极大，所以就产生了Hive这个数仓工具。H

overfit同步小助手 2024-06-30 00:03:42 0 收藏

Hadoop 2.0 大家族（四）

本文讲解Hadoop2.0大家族，介绍Flume和Mahout。

overfit同步小助手 2024-06-29 20:03:17 0 收藏

Hive&Hadoop面试常用问题（精修篇）

该章节主要针对Hive和Hadoop做面试的常用问题做了汇总和解答

overfit同步小助手 2024-06-29 16:03:26 0 收藏

【Hive】HIVE运行卡死没反应

其实呢，我最开始就开始尝试打开yarn客户端界面了，但是没有打开，其实我发觉到我用的地址错误了，因为yarn并没有部署在了hadoop102上面，而我发觉之后立马改正，可还是打不开，我不由得觉得我的地址是不是真的输错了，哈哈哈哈，挺逗的，卡了好几分钟，最后在部署yarn的虚拟机(hadoop103)

overfit同步小助手 2024-06-28 22:03:44 0 收藏

【大数据 Hadoop zookeeper】基于azure云服务器的hadoop HA高可用性集群搭建

windows Azure提供了学生认证，通过学生认证后，每年可以免费使用100刀以内的相关云服务。笔者建议大家都可以去申请一个学生优惠认证，感兴趣可以搜索一下。下面的教程是笔者学生认证后搭建hadoop集群的全过程。

overfit同步小助手 2024-06-28 11:03:50 0 收藏

hive的安装与基本配置（超详细，超简单）

本文介绍了hive的详细安装过程与基本配置

overfit同步小助手 2024-06-28 10:03:41 0 收藏

Spark与Hadoop的关系和区别

Hadoop是一个由Apache基金会维护的开源分布式数据处理框架。Hadoop分布式文件系统（HDFS）：用于存储大规模数据的分布式文件系统。Hadoop MapReduce：用于分布式数据处理的编程模型和框架。Hadoop最初是为批处理任务设计的，适用于对大规模数据进行批处理分析。Spark与H

overfit同步小助手 2024-06-28 05:03:41 0 收藏

hadoop三大核心组件及其功能

Hadoop的三大核心组件是HDFS（Hadoop Distributed File System）、MapReduce和YARN（Yet Another Resource Negotiator）。以上三大组件共同构成了Hadoop的核心功能，它们分别负责数据的存储、计算和资源管理，为大数据处理提供

overfit同步小助手 2024-06-27 15:03:52 0 收藏

Hive on spark 多表full join 数据丢失大坑

长方形表示各表id所属范围，t1可能有t2没有的id，同时t2也有可能有t1没有的id，当t1、t2两者full join on t1.id=t2.id 后，若再要对t3表进行full join可以，但是join条件为on t2.id=t3.id，或者说是on t1.id=t3.id的时候都会出现一

overfit同步小助手 2024-06-27 13:03:47 0 收藏

HiveQL性能调优-概览

1、HiveQL 在执行时会转化为各种计算引擎的能够运行的算子，这里以mr引擎为切入点，要想让HiveQL 的效率更高，就要理解HiveQL 是如何转化为MapReduce任务的2、hive是基于hadoop的，分布式引擎采用mr、spark、tze，调度使用的yarn，分布式存储使用的hdfs，

overfit同步小助手 2024-06-27 12:03:50 0 收藏

hive DDL 语句

ShowDescribe在hive中DATABASE|SCHEMA是等效的，可以相互替代oRESTRICT: 默认值，在数据库中存在表的时候会失败，但如果是手动复制到该数据库下的，因为元数据中并没有相关信息，所以照样可以删除成功oCASCADE: 不管是否库中有表，全部删除。

overfit同步小助手 2024-06-27 12:03:45 0 收藏

Hive的存储格式和压缩算法的特点和选择

HIVE 中默认的存储格式；一般使用在数据贴源层(ODS 或 STG) ，针对需要使用脚本 LOAD 加载数据到 HIVE 数仓表中的情况；需要把表里数据导出或直接可以查看等场景，作为BI供数易读性要比 ORC 高很多；数据存储时不压缩，因此磁盘的开销和数据解析开销比较大；TEXTFILE 可以结合

overfit同步小助手 2024-06-27 11:03:50 0 收藏

hive架构详解：HQL案例解析(第15天)

本文主要详解Hive基础架构，Hive数据库,表操作，Hadoop架构详解(hdfs)，Hive环境准备。

overfit同步小助手 2024-06-27 09:03:12 0 收藏

Hive环境配置以及安装步骤

以上步骤是一个基本的Hadoop集群安装和配置流程，具体细节可能因环境差异和版本不同而有所调整。在实际操作中，建议参考Hadoop官方文档和相关教程进行安装和配置。以上步骤仅供参考，具体安装和配置过程可能因环境和需求的不同而有所差异。在实际操作中，建议参考Hive官方文档和相关教程进行安装和配置。

overfit同步小助手 2024-06-27 07:03:42 0 收藏

基于Hive进行聊天数据分析案例实践

聊天平台每天都会有大量的用户在线，会出现大量的聊天数据，通过对聊天数据的统计分析，可以更好的对用户构建精准的用户画像，为用户提供更好的服务以及实现高 ROI 的平台运营推广，给公司的发展决策提供精确的数据支撑。项目将基于一个社交平台 App 的用户数据，完成相关指标的统计分析并结合 BI 工具对指标

overfit同步小助手 2024-06-26 17:03:47 0 收藏

基于Hadoop的大数据个性化商城推荐系统：使用协同过滤算法实现的推荐原理及实例

个性化推荐系统的目的是根据用户的兴趣、行为等信息，向用户提供个性化的商品推荐，以提高用户的购物体验和商城的销售量。基于Hadoop的商城推荐系统采用协同过滤推荐算法，通过数据集的更新、相似度计算、评分预测和结果保存等步骤实现个性化的商品推荐。推荐原理：每天定时更新数据集，数据集为当然商城中用户的订单

overfit同步小助手 2024-06-26 17:03:44 0 收藏

二百三十七、Hive——DWS层生成每个清洗字段的异常情况记录

Hive——DWS层生成每个清洗字段的异常情况记录

overfit同步小助手 2024-06-26 14:03:41 0 收藏

Hadoop+Spark大数据技术（自命题试卷测试）

1. Hadoop 核心组件包括：A. HDFS 和 HiveB. HDFS 和 MapReduceC. HBase 和 SparkD. YARN 和 ZooKeeper2. HDFS 数据块存储方式的优势不包括：A. 文件大小不受单一磁盘大小限制B. 简化存储过程C. 提高数据访问速度D. 提高数

overfit同步小助手 2024-06-26 13:03:32 0 收藏