您现在的位置是:首页 >技术教程 >hadoop 2.x和hadoop 3.x的比较网站首页技术教程
hadoop 2.x和hadoop 3.x的比较
简介hadoop 2.x和hadoop 3.x的比较
hadoop 3.x的优势总结
- 更好的存储方式:Hadoop3引入了一种新的数据存储格式,名为ORC(Optimized Row Columnar),它比原来的存储格式Parquet和Avro更具有压缩性能和可读性。
- 更好的存储方案:在HDFS上支持擦除编码技术(Erasure Coding,简称EC),解决副本复制和副本存储带来的空间和资源的消耗,以EC代替副本,提供和副本存储相同的容错能力,并且存储开销不大于单副本开销的50%。
- 更好的容错性: Hadoop3利用了YARN(Yet Another Resource Negotiator)的改进版本,提供了更好的容错机制。该机制允许任务重新启动,以便从故障中恢复,而不会影响整个系统的运行。
- 更高的性能:Hadoop3在性能方面得到了大幅度的提升。它使用了新的编译器,提供了更好的内存管理,并通过JDK8的lambda表达式和并行流API等特性,提高了任务执行效率。
- 更好的安全性:Hadoop3引入了对数据加密的支持,并提供了一套灵活的访问控制机制,以便管理员可以更好地保护数据资源。
Hadoop3相对于Hadoop2在存储、容错、性能和安全方面都得到了显著的提升。
hadoop 2.x和hadoop 3.x的细节比较
Java的最小支持版本
- Hadoop 2.x - Java 7
- Hadoop 3.x - Java 8
容错性
- Hadoop 2.x - 通过版本复制提高容错性
- Hadoop 3.x - 通过擦除编码技术实现容错性
数据负载均衡
- Hadoop 2.x - 对于数据,采用hdfs均衡器做负载均衡
- Hadoop 3.x - 对于数据,采用数据内节点均衡器做负载均衡,通过HDFS磁盘均衡器CLI调用
存储方案
- Hadoop 2.x - 3倍副本存储方案
- Hadoop 3.x - 在HDFS上支持擦除编码技术(Erasure Coding,简称EC),解决副本复制和副本存储带来的空间和资源的消耗,以EC代替副本,提供和副本存储相同的容错能力,并且存储开销不大于单副本开销的50%。
存储开销
- Hadoop 2.x - 2倍额外的存储空间开销
- Hadoop 3.x - 0.5倍额外的存储空间开销
YARN时间线服务
- Hadoop 2.x - 使用老的时间线服务,有性能扩展问题
- Hadoop 3.x - 升级时间线服务v2,提高了稳定性和扩展性
兼容的文件系统
- Hadoop 2.x - HDFS,FTP文件系统(将所有数据存储在远端FTP服务器上),亚马逊S3,微软Azure WASB文件系统
- Hadoop 3.x - 以上及微软Azure数据湖文件系统
数据节点资源
- Hadoop 2.x - DataNode节点资源并非专用与MapReduce任务,也可以将其用于其他应用程序
- Hadoop 3.x - DataNode节点资源也可以使用到其他应用程序
HDFS联盟
- Hadoop 2.x - Hadoop 1中,仅一个NameNode管理多个namespace命名空间,Hadoop 2中,多个NameNode管理多个命名空间
- Hadoop 3.x - Hadoop 3中,多个NameNode管理多个命名空间
扩展性
- Hadoop 2.x - 在Hadoop 2中,单个集群可以扩展到10000个节点
- Hadoop 3.x - 扩展性更好,单个集群可以扩展到大于10000个节点
风语者!平时喜欢研究各种技术,目前在从事后端开发工作,热爱生活、热爱工作。