| |
Google现在通过在巨大的服务器群集上运行平均100,000个MapReduc任务,来每天处理超过20PB的数据。在2007年9月,一个普通的MapReduce任务运行在大约400台服务器上,一个月大约运行11,000服务器。这些是在Google员工Jeffrey Dean 和 Sanjay Ghemawat一篇ACM论文上透露出搜索巨人的计算处理架构。
每天20PT(20,000TB)是一个恐怖巨大的数据处理数量,也成为了Google一直延续着市场优势的关键。竞争对手微软(Dyrad)和 雅虎(Hadoop) 的搜索存储和处理系统 正在后面苦力的追着Google的GFS,MapReduce和BigTable。
Google一个标准的机器群集节点(node)是由2个2GHz Intel至强处理器(超线程),4GB内存,2个160GB IDE硬盘和1个千兆网络连接组成。这种类型的机器成本通过Penguin Computing或Dell厂商大约每台$2400元。
一个普通的MapReduce任务jobs运行在价值$100万的硬件群集上,还不包括带宽费用,数据中心费用及人力。
概要
2008年1月的MapReduce论文为我们对Google的硬件和软件处理每天上10PB的数据提供了新视觉。 Google在2003年将它的搜索索引系统转换为MapReduce系统,并且现在每天除了超过20PB的原始 网页数据。它的吸引人的超大扩展能力,处理着让你头晕的海量数据,和优越性能的分布式计算让Google轻松的应对着当今日益增长Web海量数据处理的大难题。
(the end)
|
|
|