InfoQ

InfoQ

主题/标签专用视图

Hadoop相关的内容


最新“Hadoop”相关专题内容

探索Hadoop OutputFormat

主题
大数据

随着Hadoop被越来越多的公司采用,它与其他应用程序的集成也变得越来越重要。这类集成的关键在于,使用合适的OutputFormat以产生最适合于其他应用程序的某种形式的输出数据。

“Hadoop”相关新闻

Apache Hadoop 1.0.0支持Kerberos验证,支持Apache HBase,提供针对HDFS的RESTful API

主题
NoSQL,
声明,
大数据

海量数据框架Apache Hadoop怀胎六年终于瓜熟蒂落发布1.0.0版本。本次发布的核心特性包括支持Kerberos身份验证,支持Apache HBase,以及针对HDFS的RESTful API。InfoQ就此次发布请Apache Hadoop项目的VP——Arun Murthy回答了几个问题。

展望Hadoop和PyCon中国大会

主题
开放源代码,
采访,
云计算,
并行编程,
互联网,
动态语言,
企业架构

12月初即将举行Hadoop中国2011云计算大会和PyCon中国2011大会,我们不妨看看这些相关技术的最新发展趋势和动态,提前热热身。

eBay使用Hadoop和HBase成功构建下一代搜索

主题
NoSQL,
大数据,
搜索

eBay在Hadoop世界(Hadoop World)大会的主题演讲中展示了一种全新搜索引擎Cassini的架构,该引擎预计在2012年上线。它对所有的内容和用户的元数据进行索引来得到更好的排名,并每小时刷新索引。它使用Hadoop来支持每小时进行的索引更新,使用HBase对随机存取信息提供支持。

“Hadoop”相关文章

Apache基金会主席Doug Cutting谈Hadoop和开源

主题
开放源代码

Doug是多个成功开源项目的创立者,包括Lucene、Nutch和Hadoop。Doug于2009年从Yahoo!加入Cloudera,当时他所在的团队构建并部署了生产环境的Hadoop存储和分析集群,完成关键任务的业务分析,他是团队的主要成员。Doug拥有斯坦福大学的学士学位,同时是Apache软件基金会董事会成员。在2011年12月2日举办的Hadoop In China 2011大会上,InfoQ中文站对Apache软件基金会主席Doug Cutting先生进行专访,谈论了开源和Hadoop的相关话题。

揭秘InputFormat:掌控Map Reduce任务执行的利器

主题
大数据

在这篇文章中,作者Boris Lublinsky和Mike Segel将向大家展示如何利用自定义的InputFormat类来更紧密地控制Hadoop Map Reduce作业中的Maps执行策略。

“Hadoop”相关技术演讲

淘宝量子统计架构设计中的核心点

主题
互联网,
JavaScript

在本演讲中,讲师从量子统计面临的业务挑战谈起,包括成本;高并发数据分析网站的C10K问题;关系型数据库和实时数据计算结果的异构融合;复杂的数据查询接口逻辑和开发效率、查询效率、和正确性;以及分布式计算和任务管理等。然后针对量子系统架构设计中的核心点进行逐个分析,包括Ajax为核心的javascript富客户端展现、Nginx为基础构建的数据接口中间层、实时流计算框架(SuperMario)和实时数据计算引擎、离线分布式计算和任务调度管理和数据分析网站的运维等。最后还会提到目前量子的技术研究方向:多维数据分析在互联网电子商务中的应用、数据可视化和NoSQL产品在实时计算中的应用等。

“Hadoop”相关技术访谈

阿里巴巴陶勇谈海量数据技术架构

主题
数据库设计

本次采访了阿里巴巴资深技术专家陶勇,陶勇主要在平台技术部负责海量数据相关的工作。在本次采访中,陶勇介绍了阿里巴巴网站的数据规模,经历了哪些阶段,每个阶段都有哪些特点。在处理大数据的过程中,可以通哪些策略来满足快速响应用户的请求。采访中还提到了如何针对不同地域的数据中心做数据同步,涉及到三款产品,分别是Erosa、Eromanga、Otter。此外还谈到了阿里巴巴网站的缓存设计、如何做数据库拆分,如何分表。最后谈到了阿里巴巴后台海量数据处理的技术架构以及开放平台的最新进展。

Platform创始人王敬文谈云计算和大数据

主题
云计算,
架构 ,
SaaS,
大数据,
Linux

本次采访到了Platform公司技术副总裁、创始人王敬文博士,首先王敬文博士解释了云计算背后的技术以及业务推动力,然后讲述了私有云在企业内的实施现状,紧接着解释了云计算与分布式计算的区别,通过实际案例说明了当前客户对云计算的需求以及国内外用户对云计算需求的异同。从他的角度分析了大数据为企业的数据分析所带来的挑战。然后介绍并比较了Platform公司大数据领域的产品Platform MapReduce和开源产品的区别。最后给国内正在实施云计算的工程师们以建议。