BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Domino :Datascience-as-a-Service

Domino :Datascience-as-a-Service

ブックマーク

原文(投稿日:2014/03/11)へのリンク

データサイエンス向けPlatform-as-a-ServiceであるDominoを使えば、PythonやRのような言語をクラウドで使ってデータ分析ができる。

Nick Elprin氏(Dominoの共同創業者)によれば、データサイエンティストはDominoを使ってインフラではなく分析に注力できる。

データ量が増え、データ分析手法がより洗練されると、データ分析に必要なツールの使い勝手が悪くなり、データサイエンスの分野に取り組むのに不要な制限が生まれます。

Dominoは3つの柱で成り立っている。

  1. クラウドに直接配置して実行: 既存のコード(Python, R, Matlab, Julia, シェル)をEC2上で直接実行でき、負荷をかけず、リソースを使いすぎずに長時間実行できる。これを実現するための細かな調整はシステムが自動で実施してくれる。AMIの管理、マシンの起動と停止、マシンへの安全なデータ転送、分析結果の安全な取得などだ。
  2. データサイエンスのバージョン管理: Dominoの利用者はGitのようなツールは分析作業では使いにくいことを知っている。というのは、大規模なデータセットを扱えないし、入力と結果の間にリンクを作成できないからだ。Dominoはプロジェクト全体のスナップショットを自動的に取得する。現時点では40GBまで。スナッショットがあるので過去の作業を簡単に追跡できる。
  3. コラボレーション: Githubのプロジェクトのように、Dominoのプロジェクトは表示、編集、プロジェクトの実行ができる協力者を持つことができる。衝突を検知し、更新結果の通知を送信できる。チームの作業が進捗するたびに議論で利用できるノートブック機能もある。

従量課金モデルのDominoはフリーのアカウントもあり、月額サブスクリプションもある。InfoQがNick Elprin氏に取材したところ、まだ若いプラットフォームであるにもかからわらず、すでにあらゆる分野のデータサイエンスの実践者に使われている。学術の世界では数千の画像を分析する環境学者、Kaggleのコンテストに参加するデータサイエンスコンサルタント、マーケティング企業などだ。

この記事に星をつける

おすすめ度
スタイル

BT