大数据复习知识点1

1、HDFS和MapReduce的起源：HDFS起源于Google的GFS论文，它是为了解决大规模数据集的存储问题而设计的。而MapReduce则是Google为了解决大规模数据处理问题而提出的一种并行计算模型。

2、YARN的作用：YARN是Hadoop的资源管理器，它负责管理和调度集群中的计算资源，使得Hadoop能够支持各种计算模型和应用程序。

3、Hive的作用：Hive是一个基于Hadoop的数据仓库工具，它可以将结构化的数据文件映射为数据库表，并提供SQL查询功能，使得大规模数据的查询和分析变得更加简单。

4、Spark的特点：Spark拥有先进的架构，高效的数据处理能力和易用的API，还支持多种机器学习和图计算库，非常适合大规模数据处理和机器学习任务。

5、虚拟机的网络连接方式：虚拟机有三种网络连接方式：桥接模式、NAT模式和仅主机模式。桥接模式让虚拟机和主机处在同一局域网下；NAT模式让虚拟机可以访问外网，但其他主机不能访问虚拟机；仅主机模式则让虚拟机只能访问主机，不能访问外网。

6、查看主机名的命令：可以使用hostname命令来查看主机名。

标签：大数据

本文转载自: https://blog.csdn.net/2301_81687813/article/details/142613303
版权归原作者 柚乐果果 所有，如有侵权，请联系我们删除。