Hadoop起源于2002年的Apache Nutch项目,是Apache Lucene的子项目之一。2004年,Google在OSDI上公开发表了题为《MapReduce: Simplified Data Processing on Large Clusters》的论文,受到启发的Doug Cutting等人开始实现MapReduce计算框架并与NDFS(Nutch Distributed File System)结合支持Nutch的主要算法。2006年逐渐成为一套完整而独立的软件,起名为Hadoop。
2008年初,Hadoop成为Apache顶级项目。也是在这一年,首届中国大数据技术大会在北京举行。过去六年,Hadoop从名不见经传的菜鸟,一跃成为大数据领域的黄色大象。
以下为历届中国大数据技术大会PPT精粹第一部分:
MemSQL联合创始人兼CTO Nikita Shamgunov解析“实时数据分析” PPT下载
Nikita把如今的时代比做是摩尔定律的尾声,指出如今的计算速度不会再像以前那么快,然而数据的发展速度却丝毫没有停止,同时数据的多样性也完全爆发。他认为如今大数据技术最大的难题就是延迟问题,尤其是数据延迟和查询延迟。在对比了Twitter的Strom和Cloudera的Impala技术之后,他详细介绍了MemSQL的性能。
阿里巴巴集团数据交换平台资深专家强琦:大数据探索 PPT下载
强琦称,阿里巴巴将建立一个数据交换平台,每个人都可以从这个平台获得有价值的数据,但同时需要贡献自己的数据,这些零散的数据将组成一个蓝海,要像银行一样玩数据。
Ted Yu:如何在企业中应用HBase PPT下载
Ted拥有14年软件开发经验,以及超过两年的HBase开发经验,2011年成为HBase代码提交者和PMC的成员。
Hortonworks戴建勇:解读Apache Pig的性能优化 PPT下载
戴建勇从充分利用Combiner、构建基于规则的优化器、利用Column Pruner以及使用Push up filter等角度,在分区pruning、压缩中间文件、合并MapReduce作业和控制合并粒度等方面详细演示了如何对Apache Pig的性能进行优化。
华为高级技术经理Anoop Sam John:HBase的二级索引 PPT下载
Anoop介绍了华为在实际工程中对于HBase的优化工作,并分享了华为基于开源社区建设及长期工程积累的经验。除此之外,Anoop Sam John还重点介绍了华为构建的HBase二级索引能力。
网易资深工程师顾费勇:海量数据搬运工——DataStream PPT下载
顾费勇探讨了Datastream产生的原因,结构和特征,关键技术点分享,应用场景和未来展望。大数据最主要的两个关键技术,一个是数据搜集,一个是数据整合与分析。顾费勇介绍网易在数据搜集方面做了比较完整的平台,但没有跟后端的数据分析组成一个完整的大数据平台。
威斯康星大学计算机系教授Miron Livny:当Condor遇到Hadoop时的机遇和挑战 PPT下载
集成了Hadoop的超级计算机集群Condor形成了非常强大的计算机系统,它的能力达到了可以处理类似于人类基因组合这样复杂的问题。它用高吞吐量特性代替了传统的高性能计算,这正好符合了大部分科研对高吞吐量的要求,而不是瞬间的处理速度。
Yahoo!巴塞罗那研究院科学家Flavio Junqueira:Apache BookKeeper——高性能可靠预写式日志 PPT下载
为了高效的顺序写入,较好的容错性和可扩展性,设计了BookKeeper。它的结构由他们组成:Bookie(存储节点),Ledger(日志文档),Ensemble(用一组Bookie存储Ledger)。
Facebook研发部经理邵铮:Puma与数据高速公路——实时数据流与分析 PPT下载
邵铮介绍了Facebook的分析工具和实时数据的使用案例,以及对于可扩展的数据流如何处理,Puma2和Puma3的结构及不同。
百度基础架构部高级研发工程师刘景龙:HDFS的透明压缩存储和压缩传输 PPT下载
为节省更多的存储空间,避免压缩过程影响计算作业,并且使这一过程对用户透明,百度在HDFS下使用了透明压缩存储和压缩传输的技术。
Facebook公司Jerry Chen/Liyin Tang:在HBase上构建关键业务通信系统 PPT下载
Facebook选择了HBase,因为它具有高吞吐量,非常良好的随机读取性能,很不错的扩展性,也具有自动备缓功能,很强的兼容性和HDFS的优点。Facebook通常将Small Message,Message metadata和搜索索引存储在HBase中。
文章引用来源:CSDN