BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Domino:数据科学即服务

| 作者 Michael Hausenblas 关注 1 他的粉丝 ,译者 江舒 关注 0 他的粉丝 发布于 2014年4月17日. 估计阅读时间: 2 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

Domino是一个用于数据科学的PaaS(平台即服务)云计算平台,人们可以使用Python或R语言在这个云平台上做数据分析工作。

据 Nick Elprin(Domino的创始人之一)所说,Domino 让数据科学家只需专注于自己的分析工作,而不用关注软硬件基础设施:

“我们认为,随着数据量的增加和分析技术的越来越成熟,现代数据分析工具在易用性方面已经滞后,并且访问科学领域数据上还有一些不必要的限制。”

Domino平台上的三大支柱功能:

  1.  直接到云部署和执行:Domino允许在EC2上运行现有的代码(Python、R、Matlab、Julia、shell scripts等等),以承载长时间运行或资源密集型任务。该系统还关注云端底层管件功能,比如: AMI管理,启动和停止机器,将数据安全传输到另一机器上,再将结果安全返回。
  2. 数据科学的版本控制:Domino团队计算过,类似于Git之类的分布式版本控制系统并不足以应付分析工作流,因为它们没能力处理大数据集,并且不能在输入和结果(例如图表、数字)间建立联系。Domino会自动保持整个项目的快照,目前最高至40GB,这样就很容易追溯整个工作的历史,包括代码、数据和结果。
  3. 协作:类似Github,Domino也可以用于合作开发项目。合作者可以查看、编辑并运行这个项目。Domino会检测冲突,运行结束后将更新的结果发送通知,并且它还有个内部笔记 ,方便讨论团队工作进展。

随收随付的方式,Domino的定价范围从免费入门到每月付费订阅。正如InfoQ从 Nick Elprin那里了解到的,尽管这个平台还处于发展早期,但是它已经被各个科学领域的从业者所使用: 从学者(如为研究分析了数千张图片的生态学家)到数据科学顾问(把它用于Kaggle比赛),以及市场营销公司(帮助客户更好定向投递)。

参考英文原文:Domino: Datascience-as-a-Service


感谢侯伯薇对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

赞一个 by 张章 鸥翔鱼游

看帖是学习,回帖是礼貌。。。

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

1 讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT