@zqbinggong
2018-06-16T14:41:56.000000Z
字数 1068
阅读 1054
MapReduce基础
MapReduce应用开发
YARN
hadoop
《权威指南》
! All pictures are screenshots from the book 'Hadoop: The Definitive Guide, Fourth Edititon, by Tom White(O'Reilly).Copyright©2015TomWhite, 978-1-491-90163-2'
尽管应用本身不需要对数据进行排序,但仍可能可以(may be able to)使用MR的排序功能来组织数据
默认情况下,MR根据输入记录的键对数据集排序
连接操作的具体实现取决于数据集的规模以及分区方式
对于两个都很大的数据集,虽然不能将一个数据集完全复制到集群中的每个节点,但是仍然可以使用MR作业纪念性连接
side data是作业所需的额外的只读数据,以辅助处理主数据集,关键在于如何使所有的map或reduce任务都能够方便而搞笑地使用边数据