(此学习笔记整理于《Hadoop权威指南》第三章)

背景:Hadoop分布式文件系统:HDFS(Hadoop Distributed Filesystem)

1.HDFS的设计

  • HDFS以流式数据访问模式来储存超大文件,运行于商用硬件集群上。
  • 超大文件(几百MB、GB、TB)
  • 流式数据访问(一次写入、多次读取是最高效的访问模式。读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。)
  • 商用硬件(普通硬件、故障几率较大,但是坏掉可以继续运行且不让用户感到明显的中断。)
  • 低时间延迟的数据访问(如几十毫秒范围内的不适合HDFS,高数据吞吐量必定会以时间为代价。低延迟需求Hbase或许更好。)
  • 大量的小文件(该系统能存储的文件总数受限于namenode的内存容量,每个文件目录和数据块的存储信息大概占用150字节)
  • 多用户写入,任意修改文件(该系统只有1个writer,且写操作总是添加在文件的末尾。不支持多个writer或在文件的任意位置进行修改。)

2.HDFS的概念

- 阅读剩余部分 -