overfit同步小助手

2023-07-30 17:04:22

大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

文章目录

1、Hadoop

Hadoop是一个开源的分布式计算框架，用于存储和处理大规模数据集。它提供了一个可扩展的分布式文件系统（HDFS）和一个分布式计算框架（MapReduce），可以在大量廉价硬件上进行并行计算。

2、HDFS

HDFS（Hadoop Distributed File System）是Hadoop的分布式文件系统。它被设计用于在集群中存储和管理大规模数据集。HDFS将数据分割成块，并将这些块复制到不同的计算节点上，以提供容错性和高可用性。
据我了解，大部分公司一般将模型需要的数据例如csv/libsvm格式的文件都会保存成Hive表并存放在HDFS上。

3、HIVE

HIVE是基于Hadoop的数据仓库基础设施，提供了一种类似于SQL的查询语言（HiveQL），用于查询和分析存储在Hadoop上的数据。Hive可以将结构化数据映射到Hadoop的分布式文件系统上HDSF上，并提供高层抽象，使用户能够使用类SQL语法进行查询和分析。
Hive构建在HDFS之上，本质上可

标签：大数据 hadoop hdfs

本文转载自: https://blog.csdn.net/weixin_43646592/article/details/130191099
版权归原作者 #苦行僧 所有，如有侵权，请联系我们删除。

发表评论

登录后发布评论

“大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别”的评论:

还没有评论

关于作者

overfit同步小助手

文章同步

相关阅读

网络安全法-网络运行安全

使用selenium/drissionpage时如何阻止chrome自动跳转http到https

docker desktop 里部署的Open WebUI 管理员密码忘记了的处理方法

在ubuntu20.04中搭建onsite比赛运行环境

利用开源的低代码表单设计器FcDesigner高效管理和渲染复杂表单结构

Kafka学习笔记

【前端】浏览器输入url到页面呈现发生了什么？

文章导航