BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

亚马逊面向托管和大数据处理的大动作

| 作者 Richard Seroter 关注 8 他的粉丝 ,译者 薄海 关注 0 他的粉丝 发布于 2013年6月14日. 估计阅读时间: 6 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

Amazon Web Services(AWS)团队发布了亚马逊Redshift的有限预览版,这个基于云的数据仓库,在成本和功能上正准备对行业造成冲击。另外,AWS还透漏了两种新型的大规模计算实例,以及一个叫做Data Pipeline的数据集成工具。总的来说,这些服务开始切入企业关心的问题,即在公有云上收集,存储,分析他们的业务数据是否是划算而有效率的。

据拉斯维加斯举行的首个年度AWS re:Invent大会上的介绍,Redshift被AWS首席技术官Werner Vogels描述为“云上的一个快速、强大、完全受管理的、PB规模的数据仓库服务。”Vogels讲解了Redshift是如何被构建来快速分析大数据集的。

亚马逊Redshift使用了大量的创新,以使得用户可以快速分析从几百GB到若干PB甚至更大规模的数据集。不同于基于行的传统关系数据库将每一行数据都顺序存储在磁盘上,亚马逊Redshift采用了顺序存储每一列。这意味着Redshift比基于行的数据库消耗更少的IO,因为在执行给定的查询时它不必读取那些不需要的列。另外,由于相似的数据被顺序存储,亚马逊Redshift可以有效的压缩数据,从而进一步降低返回结果所需要执行的IO数量。

亚马逊对Redshift的架构和底层平台进行了优化以便为数据仓库负载提供较高的性能。Redshift具有大规模的并行处理架构,以便于它能够将查询分散到多个低成本节点上进行并行处理。节点本身也针对数据仓库负载进行了特别设计。它们在多个主轴上包含大量本地连接存储,并且被连接在至少是超配额(oversubcribed)的10 GigE网络中。

AWS团队博客描述了Redshift令人印象深刻的恢复能力

亚马逊Redshift被设计为即使面对磁盘或节点故障也能保证数据完整性。第一道防线由两个数据备份组成,分布在你的数据仓库集群中超过24个不同节点的驱动器上。亚马逊Redshift监控这些驱动器的状况,如果驱动器故障会切换到备份数据上。如果可能,它还会把数据移动到正常的驱动器上,如果必要甚至可以移动到新的节点上。虽然在这个重新复制的过程中,你会观察到些许的性能下降,但是这一切都无需用户参与。

Redshift遵循标准AWS“用多少付多少”的定价模型,并且亚马逊声称用户将会发现通过使用该服务可以节省大量的费用。基于亚马逊的调查,典型的on-premises数据仓库每TB每年需要花费 19,000 到 25,000 美元用于许可证和维护,而Redshift服务每年每TB花费却低于1000美元。根据Barb Darrow at GigaOm这篇文章所述,这个服务将“从Oracle,IBM和Teradata蚕食业务(Redshift,能做到吗?)”,并且AWS尚未完成“构建高级服务来和老牌IT提供商甚至部分亚马逊自己的软件伙伴来进行竞争”。

尽管像AWS这样的云供应商有效地提供了无限存储,但是把数据迁移到云上仍然存在挑战,需要用Redshift这样的分析工具巩固加强。当有不断涌现的解决方案来解决前者之际,新的Data Pipeline产品的出现正是为了解决后者。 Data Pipeline产品提供了图形化的可拖拽的用户界面,用于进行数据源之间的建模。AWS团队博客解释了Pipeline由数据源、目的地、处理步骤和执行调度构成。Pipeline数据源可以是AWS数据仓库,比如RDS、DynamoDB和S3,或者是运行在EC2虚拟机甚至on-premises数据中心的数据库。Data Pipeline尚未发布,目前只针对选定的Beta测试伙伴开放。

高效地传输大数据需要巨大的带宽。在GigaOm的一篇采访中,AWS首席数据科学家Matt Wood解释了亚马逊和他的伙伴们正在如何积极地解决这个问题。

数据集越大,上传时间越长。

Wood说AWS正在努力减轻这些问题。比如,像合作伙伴Aspera甚至是一些开源项目让用户可以在网络上高速传送大文件(wood说他看到过持续700Mbs的速度)。这也是为什么AWS减免了入站数据的传输费用,同时开放了大文件并行上传,以及使用数据中心运营商提供的到AWS设施的专用连接来创建直连程序

如果数据集对这些方法来说仍然太大,客户可以把他们的硬盘发送给AWS。Wood说“我们绝对接受硬盘”。

作为“大”这个主题的延续,AWS还透露了EC2虚拟机的两个最新的实例类型。“Cluster High Memory”实例类型拥有 240GB的大内存和一对 120GB的固态硬盘。相对于目前EC2提供的虚拟机最大 60.5GB的内存来说是一个巨大的增长。另一个实例类型被称为 “High Storage”,拥有 117GB的内存以及 48TB的存储。这两个实例类型目前还不可用,但是它们的直接目标都是那些在云中进行Map Reduce和大数据处理的客户。

感谢赵震一对本文的审校。

查看英文原文:Amazon Makes Compelling Case for Hosting and Processing Your Big Data

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT