0


hadoop 2.x和hadoop 3.x的比较

hadoop 3.x的优势总结

  • 更好的存储方式:Hadoop3引入了一种新的数据存储格式,名为ORC(Optimized Row Columnar),它比原来的存储格式Parquet和Avro更具有压缩性能和可读性。
  • 更好的存储方案:在HDFS上支持擦除编码技术(Erasure Coding,简称EC),解决副本复制和副本存储带来的空间和资源的消耗,以EC代替副本,提供和副本存储相同的容错能力,并且存储开销不大于单副本开销的50%。
  • 更好的容错性: Hadoop3利用了YARN(Yet Another Resource Negotiator)的改进版本,提供了更好的容错机制。该机制允许任务重新启动,以便从故障中恢复,而不会影响整个系统的运行。
  • 更高的性能:Hadoop3在性能方面得到了大幅度的提升。它使用了新的编译器,提供了更好的内存管理,并通过JDK8的lambda表达式和并行流API等特性,提高了任务执行效率。
  • 更好的安全性:Hadoop3引入了对数据加密的支持,并提供了一套灵活的访问控制机制,以便管理员可以更好地保护数据资源。

Hadoop3相对于Hadoop2在存储、容错、性能和安全方面都得到了显著的提升。

hadoop 2.x和hadoop 3.x的细节比较

Java的最小支持版本

  • Hadoop 2.x - Java 7
  • Hadoop 3.x - Java 8

容错性

  • Hadoop 2.x - 通过版本复制提高容错性
  • Hadoop 3.x - 通过擦除编码技术实现容错性

数据负载均衡

  • Hadoop 2.x - 对于数据,采用hdfs均衡器做负载均衡
  • Hadoop 3.x - 对于数据,采用数据内节点均衡器做负载均衡,通过HDFS磁盘均衡器CLI调用

存储方案

  • Hadoop 2.x - 3倍副本存储方案
  • Hadoop 3.x - 在HDFS上支持擦除编码技术(Erasure Coding,简称EC),解决副本复制和副本存储带来的空间和资源的消耗,以EC代替副本,提供和副本存储相同的容错能力,并且存储开销不大于单副本开销的50%。

存储开销

  • Hadoop 2.x - 2倍额外的存储空间开销
  • Hadoop 3.x - 0.5倍额外的存储空间开销

YARN时间线服务

  • Hadoop 2.x - 使用老的时间线服务,有性能扩展问题
  • Hadoop 3.x - 升级时间线服务v2,提高了稳定性和扩展性

兼容的文件系统

  • Hadoop 2.x - HDFS,FTP文件系统(将所有数据存储在远端FTP服务器上),亚马逊S3,微软Azure WASB文件系统
  • Hadoop 3.x - 以上及微软Azure数据湖文件系统

数据节点资源

  • Hadoop 2.x - DataNode节点资源并非专用与MapReduce任务,也可以将其用于其他应用程序
  • Hadoop 3.x - DataNode节点资源也可以使用到其他应用程序

HDFS联盟

  • Hadoop 2.x - Hadoop 1中,仅一个NameNode管理多个namespace命名空间,Hadoop 2中,多个NameNode管理多个命名空间
  • Hadoop 3.x - Hadoop 3中,多个NameNode管理多个命名空间

扩展性

  • Hadoop 2.x - 在Hadoop 2中,单个集群可以扩展到10000个节点
  • Hadoop 3.x - 扩展性更好,单个集群可以扩展到大于10000个节点
标签: hadoop java 大数据

本文转载自: https://blog.csdn.net/qq_42456324/article/details/130430271
版权归原作者 大大大大肉包 所有, 如有侵权,请联系我们删除。

“hadoop 2.x和hadoop 3.x的比较”的评论:

还没有评论