BT

Domino :Datascience-as-a-Service

| 作者: Michael Hausenblas フォローする 1 人のフォロワー , 翻訳者 徳武 聡 フォローする 0 人のフォロワー 投稿日 2014年3月19日. 推定読書時間: 1 分 |

原文(投稿日:2014/03/11)へのリンク

データサイエンス向けPlatform-as-a-ServiceであるDominoを使えば、PythonやRのような言語をクラウドで使ってデータ分析ができる。

Nick Elprin氏(Dominoの共同創業者)によれば、データサイエンティストはDominoを使ってインフラではなく分析に注力できる。

データ量が増え、データ分析手法がより洗練されると、データ分析に必要なツールの使い勝手が悪くなり、データサイエンスの分野に取り組むのに不要な制限が生まれます。

Dominoは3つの柱で成り立っている。

  1. クラウドに直接配置して実行: 既存のコード(Python, R, Matlab, Julia, シェル)をEC2上で直接実行でき、負荷をかけず、リソースを使いすぎずに長時間実行できる。これを実現するための細かな調整はシステムが自動で実施してくれる。AMIの管理、マシンの起動と停止、マシンへの安全なデータ転送、分析結果の安全な取得などだ。
  2. データサイエンスのバージョン管理: Dominoの利用者はGitのようなツールは分析作業では使いにくいことを知っている。というのは、大規模なデータセットを扱えないし、入力と結果の間にリンクを作成できないからだ。Dominoはプロジェクト全体のスナップショットを自動的に取得する。現時点では40GBまで。スナッショットがあるので過去の作業を簡単に追跡できる。
  3. コラボレーション: Githubのプロジェクトのように、Dominoのプロジェクトは表示、編集、プロジェクトの実行ができる協力者を持つことができる。衝突を検知し、更新結果の通知を送信できる。チームの作業が進捗するたびに議論で利用できるノートブック機能もある。

従量課金モデルのDominoはフリーのアカウントもあり、月額サブスクリプションもある。InfoQがNick Elprin氏に取材したところ、まだ若いプラットフォームであるにもかからわらず、すでにあらゆる分野のデータサイエンスの実践者に使われている。学術の世界では数千の画像を分析する環境学者、Kaggleのコンテストに参加するデータサイエンスコンサルタント、マーケティング企業などだ。

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする
コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

ディスカッション

InfoQにログインし新機能を利用する


パスワードを忘れた方はこちらへ

Follow

お気に入りのトピックや著者をフォローする

業界やサイト内で一番重要な見出しを閲覧する

Like

より多いシグナル、より少ないノイズ

お気に入りのトピックと著者を選択して自分のフィードを作る

Notifications

最新情報をすぐ手に入れるようにしよう

通知設定をして、お気に入りコンテンツを見逃さないようにしよう!

BT