BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

阿里巴巴集团数据平台总监张东晖谈阿里云ODPS

| 作者 水羽哲 关注 0 他的粉丝 发布于 2012年11月18日. 估计阅读时间: 2 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

阿里云开发者大会上,阿里巴巴集团数据平台总监张东晖分享了ODPS离线处理技术,目前针对于淘宝、支付宝、天猫等拥有的海量数据,阿里使用了ODPS进行离线处理。

他首先提到了这个系统所面临的挑战:

  1. 高可用性;
  2. 数据量太大;
  3. 安全性;
  4. 正确性;
  5. 服务性;
  6. 低成本

现有的ODPS通过一个控制集群管理大集群机器,满足了扩展性的要求。在多租户方面,他解释了两个基本概念:

  1. 基本空间,项目的基本空间提供实体运行空间。任何的跨项目访问都是需要进行授权,同时基本空间也是计量、收费和额度管理的基本单位。
  2. 安全体系,IDPS为了实现多租户的隔离做了三层的安全体系。第一层是认证体系,采用一致的API,第二层是在数据对象上实施防控制策略,第三层在飞天的底层上的防护。

对于编程模型方面,ODPS能够满足多种编程模型,这与平台本身的框架是正交的。对处理数据本身,他提到:

因为都是离线处理流程,针对一个处理流程可以用不同的编程模型编写,用PD脱数据,然后处理,最后使用MPI运算供最后的使用。从数据处理本身而言,支持数据流有点像带着图式的方式来支持多任务的调度,可以在同一个作业当中有参数化等等,作为调动系统的一部分这些逻辑。

他还提到对于ODPS的存储模型是物理存储和逻辑存储相互分开的,并在存储层面减少IO,数据统一采用实体的形式并采用行存储方式。对于小文件采用OTS的小存储,元数据存储在OTS中,有利于高并发和规模扩展,同时在存储模型上还有一个带压缩的列存储。

针对于ODPS上支持的业务,他提供了一些案例分享:

  • 数据魔方,包括了数据通道离线、在线完整的应用、实施访问;
  • 阿里金融,是多租户隔离的最佳体现;
  • MPI的算法,飞天开放平台可以调动MPI的进程,目前可以处理10Mx10M的分解;
  • 数据化运维;

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT