中国大数据技术大会历届PPT精粹_艾迪创想PPT设计制作公司

Hadoop起源于2002年的Apache Nutch项目，是Apache Lucene的子项目之一。2004年，Google在OSDI上公开发表了题为《MapReduce: Simplified Data Processing on Large Clusters》的论文，受到启发的Doug Cutting等人开始实现MapReduce计算框架并与NDFS（Nutch Distributed File System）结合支持Nutch的主要算法。2006年逐渐成为一套完整而独立的软件，起名为Hadoop。

2008年初，Hadoop成为Apache顶级项目。也是在这一年，首届中国大数据技术大会在北京举行。过去六年，Hadoop从名不见经传的菜鸟，一跃成为大数据领域的黄色大象。

以下为历届中国大数据技术大会PPT精粹第一部分：

MemSQL联合创始人兼CTO Nikita Shamgunov解析“实时数据分析” PPT下载

Nikita把如今的时代比做是摩尔定律的尾声，指出如今的计算速度不会再像以前那么快，然而数据的发展速度却丝毫没有停止，同时数据的多样性也完全爆发。他认为如今大数据技术最大的难题就是延迟问题，尤其是数据延迟和查询延迟。在对比了Twitter的Strom和Cloudera的Impala技术之后，他详细介绍了MemSQL的性能。

阿里巴巴集团数据交换平台资深专家强琦：大数据探索 PPT下载

强琦称，阿里巴巴将建立一个数据交换平台，每个人都可以从这个平台获得有价值的数据，但同时需要贡献自己的数据，这些零散的数据将组成一个蓝海，要像银行一样玩数据。

Ted Yu：如何在企业中应用HBase PPT下载

Ted拥有14年软件开发经验，以及超过两年的HBase开发经验，2011年成为HBase代码提交者和PMC的成员。

Hortonworks戴建勇：解读Apache Pig的性能优化 PPT下载

戴建勇从充分利用Combiner、构建基于规则的优化器、利用Column Pruner以及使用Push up filter等角度，在分区pruning、压缩中间文件、合并MapReduce作业和控制合并粒度等方面详细演示了如何对Apache Pig的性能进行优化。

华为高级技术经理Anoop Sam John：HBase的二级索引 PPT下载

Anoop介绍了华为在实际工程中对于HBase的优化工作，并分享了华为基于开源社区建设及长期工程积累的经验。除此之外，Anoop Sam John还重点介绍了华为构建的HBase二级索引能力。

网易资深工程师顾费勇：海量数据搬运工——DataStream PPT下载

顾费勇探讨了Datastream产生的原因，结构和特征，关键技术点分享，应用场景和未来展望。大数据最主要的两个关键技术，一个是数据搜集，一个是数据整合与分析。顾费勇介绍网易在数据搜集方面做了比较完整的平台，但没有跟后端的数据分析组成一个完整的大数据平台。

威斯康星大学计算机系教授Miron Livny：当Condor遇到Hadoop时的机遇和挑战 PPT下载

集成了Hadoop的超级计算机集群Condor形成了非常强大的计算机系统，它的能力达到了可以处理类似于人类基因组合这样复杂的问题。它用高吞吐量特性代替了传统的高性能计算，这正好符合了大部分科研对高吞吐量的要求，而不是瞬间的处理速度。

Yahoo!巴塞罗那研究院科学家Flavio Junqueira：Apache BookKeeper——高性能可靠预写式日志 PPT下载

为了高效的顺序写入，较好的容错性和可扩展性，设计了BookKeeper。它的结构由他们组成：Bookie（存储节点），Ledger（日志文档），Ensemble（用一组Bookie存储Ledger）。

Facebook研发部经理邵铮：Puma与数据高速公路——实时数据流与分析 PPT下载

邵铮介绍了Facebook的分析工具和实时数据的使用案例，以及对于可扩展的数据流如何处理，Puma2和Puma3的结构及不同。

百度基础架构部高级研发工程师刘景龙：HDFS的透明压缩存储和压缩传输 PPT下载 

为节省更多的存储空间，避免压缩过程影响计算作业，并且使这一过程对用户透明，百度在HDFS下使用了透明压缩存储和压缩传输的技术。

Facebook公司Jerry Chen/Liyin Tang：在HBase上构建关键业务通信系统 PPT下载

Facebook选择了HBase，因为它具有高吞吐量，非常良好的随机读取性能，很不错的扩展性，也具有自动备缓功能，很强的兼容性和HDFS的优点。Facebook通常将Small Message，Message metadata和搜索索引存储在HBase中。

文章引用来源：CSDN


请输入时间周期、工作量、要求等