@zqbinggong
2018-06-02T15:28:26.000000Z
字数 1481
阅读 826
hadoop
《权威指南》
! All pictures are screenshots from the book 'Hadoop: The Definitive Guide, Fourth Edititon, by Tom White(O'Reilly).Copyright©2015TomWhite, 978-1-491-90163-2'
如果系统中需要处理的数据量大到hadoop的处理极限时,数据被损坏的概率还是很高的
1. 检测数据常见的措施是,在数据第一次引入系统时,计算数据的校验和(checksum)并在数据通过一个不可靠的通道进行传输后再次计算校验和
2. 常用的错误检测码是CRC-32(32位循环冗余检验),hdfs用的是变体CRC-32C
hadoop的LocalFileSystem执行客户端的校验和验证
LocalFileSystem通过ChecksumFileSystem完成自己的任务
文件的压缩有两个好处:减少存储所需的磁盘空间,并加速数据在网络的磁盘上的传输
所谓基于文件,指的是选择合适的文件类型来存储数据,比如说使用纯文本文件存储小说。
对于基于MR的数据处理,将每个二进制数据大对象(blob)单独放在各自的文件中不能实现可扩展性,因此hadoop开发了很多更高层次的容器
MapFile是已经排序过的SequenceFile,他有索引,可以之间按键查找
1. 索引自身就是一个SequenceFile,包含了map的一部分键(默认是每个128个键),由于索引可以加载进内存,因而可以提供随主数据文件的快速查找
2. 主数据文件时另一个SequenceFile,包含了所有的map条目(已经排序)