•Hadoop是一个分布式系统基础架构,由Apache基金会开发。
•2006年2月从Nutch项目中分离出来,正式成为Apache顶级项目之一。
•作者:Doug Cutting
•官方网站http://hadoop.apache.org
目前国内使用Hadoop的公司有:
淘宝,百度,360,中国移动,优酷,腾讯,人人网等大型的互联网公司。
问:为什么要用Hadoop?
答:都是数据惹的祸:
(1).海量数据存储
用Mysql?Oracle?各种水平、垂直扩展?
(2).海量数据计算
用性能卓越的单台机器?
(3).上述问题的容错性
Hadoop生态系统和Google架构比较
•技术架构的比较
–并行计算模型:MapReduce->MapReduce
–分布式文件系统:HDFS->GFS
–数据结构化管理组件:Hbase->BigTable
–分布式锁服务:Zookeeper->Chubby
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。