分类 HDFS 下的文章

Hadoop分布式文件系统


(此学习笔记整理于《Hadoop权威指南》第三章)

背景:Hadoop分布式文件系统:HDFS(Hadoop Distributed Filesystem)

1.HDFS的设计

  • HDFS以流式数据访问模式来储存超大文件,运行于商用硬件集群上。
  • 超大文件(几百MB、GB、TB)
  • 流式数据访问(一次写入、多次读取是最高效的访问模式。读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。)
  • 商用硬件(普通硬件、故障几率较大,但是坏掉可以继续运行且不让用户感到明显的中断。)
  • 低时间延迟的数据访问(如几十毫秒范围内的不适合HDFS,高数据吞吐量必定会以时间为代价。低延迟需求Hbase或许更好。)
  • 大量的小文件(该系统能存储的文件总数受限于namenode的内存容量,每个文件目录和数据块的存储信息大概占用150字节)
  • 多用户写入,任意修改文件(该系统只有1个writer,且写操作总是添加在文件的末尾。不支持多个writer或在文件的任意位置进行修改。)

2.HDFS的概念


bst g22 jinniu lilai opebet orange88 vinbet xbet yuebo zunlong shijiebei bet007 hg0088 ju111 letiantang m88 mayaba qg777 qianyiguoji sbf777 tengbohui tlc ule weilianxier waiweitouzhu xingfayule xinhaotiandi yinheyule youfayule zhongying 2018shijiebei w88 18luck 188bet beplay manbet 12bet 95zz shenbo weide1946 ca88 88bifa aomenxinpujing betway bodog bt365 bwin tongbao vwin weinisiren 88jt fenghuangyule hongyunguoji 918botiantang huanyayule jianada28 jixiangfang libo long8 hongzuyishi zuqiutouzhu