eBay使用Hadoop和HBase成功构建下一代搜索
eBay在Hadoop世界(Hadoop World)大会的主题演讲中展示了一种全新搜索引擎Cassini的架构,该引擎预计在2012年上线。它对所有的内容和用户的元数据进行索引来得到更好的排名,并每小时刷新索引。它使用Hadoop来支持每小时进行的索引更新,使用HBase对随机存取信息提供支持。
eBay在Hadoop世界(Hadoop World)大会的主题演讲中展示了一种全新搜索引擎Cassini的架构,该引擎预计在2012年上线。它对所有的内容和用户的元数据进行索引来得到更好的排名,并每小时刷新索引。它使用Hadoop来支持每小时进行的索引更新,使用HBase对随机存取信息提供支持。
DataStax描述了Brisk,这是一个新的Hadoop发布版,并且使用了Cassandra来存储数据,同时,EMC制作了一个广告,表示5月9日将会有关于Hadoop和Greenplum的大事件。同时,GigaOm也表示MapR技术是一种构建私有Hadoop版本的技术。DataStax对InfoQ表示,已经有基于Cassandra的相关产品部署,能支持多达700个节点,存储数百TB数据以及每秒200,000次写入操作。
近日,Yahoo! Hadoop Map-Reduce开发团队领导Arun Murthy展示了针对Hadoop的重新设计过的核心Map-Reduce架构,旨在简化升级、支持更大的集群、更快的恢复,还要支持除了Map-Reduce以外的其他编程范式。重新设计的Hadoop核心将引擎分割为一个资源管理器,用以支持各种集群计算范式,同时将map-reduce作为一个用户库,组织可以在同一个集群中运行多个版本的map-reduce代码。新的设计非常类似于开源的Mesos集群管理项目——Yahoo!和Mesos对其中的差异进行了评述。
近日,JasperSoft宣布提供对大数据系统报表的支持,包括Hadoop、几种流行的NoSQL数据库以及3个MPP分析关系数据库上的各种模型报表。
Foursquare最近经历了长达11小时的宕机。宕机是由于他们的MongoDB出现了数据的不均衡增长,而且这一点并没有被事先检测到。由于数据分散的原因,当Foursquare试图增加一个分区时没有成功,需要数据库离线才能对数据进行压缩。我们来了解一下发生了什么,以及什么是有计划的响应。
Membase与Cloudera宣布整合Membase的NoSQL数据库和Cloudera的CDH。CDH是一款分布式MapReduce和存储系统,可支持系统间双向数据备份。
苹果近日宣布,他们“听取我们的开发者”和“我们放宽用于创建iOS应用程序的开发工具的所有限制,只要最终的应用程序没有下载任何代码就行了。” 他们还宣布,“我们将首次发布App Store审查指南,以帮助开发者了解我们如何审查提交的应用程序。”
来自LinkedIn的Jay Kreps在近日举办的Hadoop峰会上详细介绍了LinkedIn对数据的处理方式。Kreps介绍了LinkedIn每天是如何处理1.2千亿个关系并通过高容量、低延迟的站点服务来混合大量的数据计算的。
Hadoop峰会2010上,一系列Hadoop及其相关技术的大规模用户带来了演讲报告。值得注意的是,Facebook的主题演讲展示了他们使用 Hive来作分析的详细信息。Mike Schroepfer,Facebook的工程副总裁,作了描述使用Hadoop所处理的Facebook的数据规模的报告。
雅虎首席产品官 Blake Irving 吹响了2010Hadoop峰会的呜呜祖啦 (2010南非世界杯助威工具) 雅虎发表的主题演讲阐述了他们的使用规模,贡献的技术方向,以及他们如何应用这项技术的架构模式。