InfoQ

InfoQ

主题/标签专用视图

大数据相关的内容


最新“大数据”相关专题内容

基于Hadoop平台的亿贝用户邮件数据分析

主题
大数据,
数据库设计,
QCon,
会议,
数据库,
Hadoop,
eBay,
海量数据

亿贝的Hadoop系统能够很好地处理大规模非结构化数据,为了高效处理用户邮件数据,我们在Hadoop平台上对于海量邮件进行了基于邮件发送时间的再分区和层级化的文件管理。同时还包括个人信息的过滤,邮件框架信息的过滤等等。结果集有三种不同的数据集合为不同的数据分析而准备, 包括原数据集、清洗后的数据集以及去重之后的小规模数据集。通过对于亿贝用户间的邮件数据分析,我们得出的一个重要结论是,对于亿贝的超级卖家和买家,亿贝要为其建立一个有效的,统一集中管理的邮件传送系统。

如果您观看本视频不流畅,请移步优酷版本(无Slides同步播放)

“大数据”相关新闻

Google BigQuery——企业级大数据分析工具

主题
大数据,
PaaS,
数据库设计,
云计算,
数据库,
云存储

Google本月初发布了企业级大数据分析的云服务——BigQuery为正式付费产品,这是Google迈向企业级云计算领域的关键一步。BigQuery本质上是一个云平台基础服务PaaS,旨在实时处理TB级别的大数据,并提供UI界面和Rest API两种访问方式。

Azavea宣布使用GPLv3协议发布GeoTrellis

主题
大数据,
数据库设计,
API,
GNU,
云计算,
开源项目发布,
数据库,
编程

Azavea是一家位于费城的公司,提供地理数据处理产品,它最近发布了名为GeoTrellis的开源产品,基于GNU GPL v3协议。GeoTrellis是开源数据处理引擎,供高性能应用使用。

数据分析不使用Hadoop的五大理由

主题
大数据,
开源软件,
开放源代码,
数据库设计,
数据库,
编程,
Hadoop

作为Hadoop 曾经的超级粉丝,Joe Brightly 承认自己在很多方面非常热爱Hadoop,但当他部署Hadoop用于分析的时候,他才意识到它并不是无所不能。在Quantivo,Joe及其同事已经“探索了许多方法来部署Hadoop用于回答分析型查询”。直到最后,它带来了“不必要的痛苦和可笑的低效成本”。Joe从五个方面分析了为什么数据分析不使用Hadoop的理由。

2012.4.25微博热报:测试用例、硅谷热点

主题
大数据,
数据库设计,
SaaS,
敏捷测试,
测试,
数据库,
云计算,
测试用例,
移动

今天的微博热报主要关注了有关测试用例执行的讨论和硅谷近期的热点发展趋势。

“大数据”相关文章

探索Hadoop OutputFormat

主题
大数据,
数据库设计,
数据库,
Hadoop

随着Hadoop被越来越多的公司采用,它与其他应用程序的集成也变得越来越重要。这类集成的关键在于,使用合适的OutputFormat以产生最适合于其他应用程序的某种形式的输出数据。

揭秘InputFormat:掌控Map Reduce任务执行的利器

主题
大数据,
数据库设计,
数据库,
Hadoop

在这篇文章中,作者Boris Lublinsky和Mike Segel将向大家展示如何利用自定义的InputFormat类来更紧密地控制Hadoop Map Reduce作业中的Maps执行策略。

揭秘InputFormat:掌控Map Reduce任务执行的利器

主题
大数据,
集群与缓存,
数据库设计,
数据库,
MapReduce,
性能和可伸缩性

在这篇文章中,作者Boris Lublinsky和Mike Segel将向大家展示如何利用自定义的InputFormat类来更紧密地控制Hadoop Map Reduce作业中的Maps执行策略。

大数据时代的创新者们

主题
大数据,
图形数据库,
NoSQL,
数据库设计,
数据可视化,
数据库,
云计算,
数据存储,
创新,
Hadoop,
《架构师》月刊

根据预测,2015年全世界的电子数据存储量会达到如同天文数字般的800万PB,大数据的时代已然来临。面对这些“大数据”,有不少先行者顺势而为,抓住时代发展的商业机会,成为富有活力的创新者。而这些创新者所面对的独特的时代背景,就注定了它们必会受到市场和资本的追捧,成为这个时代创业领域的宠儿。

“大数据”相关技术访谈

Platform创始人王敬文谈云计算和大数据

主题
大数据,
开源软件,
私有云,
Linux,
SaaS,
数据库设计,
开放源代码,
PaaS,
IaaS,
部署,
架构 ,
数据存储,
云计算,
Hadoop,
数据库,
操作系统,
编程,
采访

本次采访到了Platform公司技术副总裁、创始人王敬文博士,首先王敬文博士解释了云计算背后的技术以及业务推动力,然后讲述了私有云在企业内的实施现状,紧接着解释了云计算与分布式计算的区别,通过实际案例说明了当前客户对云计算的需求以及国内外用户对云计算需求的异同。从他的角度分析了大数据为企业的数据分析所带来的挑战。然后介绍并比较了Platform公司大数据领域的产品Platform MapReduce和开源产品的区别。最后给国内正在实施云计算的工程师们以建议。

姜迅谈阿里巴巴数据架构设计经验与挑战

主题
Ruby,
Java,
大数据,
动态语言,
语言,
.NET,
NoSQL,
数据库设计,
Oracle,
架构 ,
编程,
数据库,
企业架构,
数据存储

阿里巴巴数据架构专家、数据仓库架构师姜迅,在阿里巴巴负责了数据建模、技术架构、数据展示三个团队,在本次采访中举例说明了数据的商业价值,分享了大数据量的架构设计难点,选择水平扩展方案做数据分析架构,系统的可伸缩性,资源切片分给不同部门,以及如何能够在数据开放时保证系统的稳定性与资源共享,介绍了阿里巴巴现在的数据架构设计、调优、未来设计计划,也分享了设计过程中遇到的挑战,多任务多指标且相互依赖,数据仓库之间的人物关系非常负责,提出了蒲公英模型,指标服务化,可插拔的设计灵活结构。同时,他也分享了对于NoSQL的看法,对NoSQL技术的优缺点进行了点评,分享了NoSQL选型时的考量点,主要是健壮性和稳定性。