BT

データラングリング・アズ・ア・サービスの簡易化を目指すTrifacta

| 作者: Alex Giamas フォローする 8 人のフォロワー , 翻訳者 吉田 英人 フォローする 0 人のフォロワー 投稿日 2014年1月13日. 推定読書時間: 2 分 |

原文(投稿日:2013/12/30)へのリンク

データ解析サービスプラットフォームのTrifactaは先頃,データアナリストのデータラングリング(Data Wrangring)作業支援という同社の活動を推進するため,VCによる出資を受け入れた。目標はデータ収集とクレンジング,マージといった作業を,現在よりはるかに少ない時間と労力で可能にすることだ。

データラングリングは従来,どのビッグデータプロジェクトにおいても非常に時間と労力を要する作業だった。現代はさまざまなデータがあふれて入り混じり,データソースの進化によってその特性も常に変化している。NoSQLデータベースはこの問いに対して,列ベースあるいは文書ベースなどの手法で,ストレージ側からの回答を試み続けている。しかしデータを収集して意味付けするという問題が残ったままだ。

Trifactaはこの問題に対して,開発者ではなくユーザ中心の観点からアプローチしている。ビジネスアナリストとデータサイエンティストを対象に,ビジュアル指向の方法でデータセットのクレンジングを可能にするのだ。バークレー大学とスタンフォード大学の研究に基づくこのプラットフォームでは,オペレータとマシンの連携によってデータセットから洞察を抽出することを目指している。

ビッグデータからの自動スマートサンプリングとビジュアル化によって,アナリストは,注目すべきパターンを短時間で見つけ出すことができる。そうすればTrifactaが,機械学習アルゴリズムを適用して,取得した情報の再編成と形式化を行う方法を提案してくれる。アナリストはデータセットを情報の論理的集合にグループ化して,それを一歩ずつ正規化した上で,結果を作業工程に従ったユーザフレンドリな方法で視覚化する。最終ステップでは,半ば構造化されたデータセットを形式化することによって,データ全体を一般化する。プラットフォームは,データアナリストがデータ全体を徹底的に変換できるように,ユーザエクスペリエンスを念頭に置いてゼロからデザインされている。データをクレンジングしてデータウェアハウスに格納するために,複雑なパイプラインを開発する必要はない。

Trifactaの前身である研究プロジェクトのDataWranglerとその研究論文がオンラインで公開されている。Trifactaはまだクローズドベータで招待制のデモが計画されているのみだが,どのようなものかを垣間見ることはできる。

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする
コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

ディスカッション

InfoQにログインし新機能を利用する


パスワードを忘れた方はこちらへ

Follow

お気に入りのトピックや著者をフォローする

業界やサイト内で一番重要な見出しを閲覧する

Like

より多いシグナル、より少ないノイズ

お気に入りのトピックと著者を選択して自分のフィードを作る

Notifications

最新情報をすぐ手に入れるようにしよう

通知設定をして、お気に入りコンテンツを見逃さないようにしよう!

BT