
大数据时代的数据管理
不知怎么地,大数据,Big Data这个词就变得流行起来。大数据跟海量数据有什么差别?在大数据时代我们又将面临怎样的需求和挑战?本文将一一为您解答。

豆瓣网的三千多万用户上传的照片、写的日记和评论,以及小组话题和订阅的博客内容是非常庞大的,采用传统的关系型数据库和网络文件存储技术很难满足数据的持续增长和24小时可用的需求。演讲中作者会跟大家一起分享豆瓣网在数据存储上的实践经验。
Eobject.org开源软件暨Java框架MetaModel针对不同数据源实现统一访问、查询和挖掘API。Eobjects.org既是一个网站也是一个开源软件组织,该组织专注于开发商业智能和数据仓库相关的开源软件。近日,他们发布了MetaModel 1.5。
在上周六举行的百度技术沙龙活动上,来自百度搜索技术部的研究员殷庆轩和去哪儿网站的搜索技术负责人何伟平,分享了如何提高搜索引擎的时效性,以及数据库在现代搜索技术中的应用。本文对这次活动的内容做简要总结,并提供了演讲用幻灯片下载。
Hadoop峰会2010上,一系列Hadoop及其相关技术的大规模用户带来了演讲报告。值得注意的是,Facebook的主题演讲展示了他们使用 Hive来作分析的详细信息。Mike Schroepfer,Facebook的工程副总裁,作了描述使用Hadoop所处理的Facebook的数据规模的报告。
过去十年里,从大量原始数据中解析出相关信息的需求急剧增长,以致于聚类(clustering)、协同过滤(collaborative filtering)和分类(categorization)等机器学习技术的需求也是呈稳定增长势态。Apache Mahout 0.3于三月份推出,这个新版本在之前的基础上添加了一些新功能,比之前的版本更为稳定,性能也有相应的提升。
微软在TechEd 2009上宣布SQL Server 2008 R2中将包含主数据服务(Master Data Service,MDS),这标志着微软正式进入了主数据管理(MDM)市场。鉴于其强悍的市场地位,这回或许应该轮到那些MDM厂商小心了……