Hadoop简介

摘要

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且

Hadoop是一个分布式系统基础架构,由Apache基金会开发。 

•2006年2月从Nutch项目中分离出来,正式成为Apache顶级项目之一。 

•作者:Doug Cutting 

•官方网站http://hadoop.apache.org 

目前国内使用Hadoop的公司有:

淘宝,百度,360,中国移动,优酷,腾讯,人人网等大型的互联网公司。

问:为什么要用Hadoop?

答:都是数据惹的祸:

(1).海量数据存储

    用Mysql?Oracle?各种水平、垂直扩展?

(2).海量数据计算

    用性能卓越的单台机器?

(3).上述问题的容错性

Hadoop生态系统和Google架构比较

•技术架构的比较 

–并行计算模型:MapReduce->MapReduce 

–分布式文件系统:HDFS->GFS 

–数据结构化管理组件:Hbase->BigTable 

–分布式锁服务:Zookeeper->Chubby 


blob.png

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。






IT家园
IT家园

网友最新评论 (0)