BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース データラングリング・アズ・ア・サービスの簡易化を目指すTrifacta

データラングリング・アズ・ア・サービスの簡易化を目指すTrifacta

原文(投稿日:2013/12/30)へのリンク

データ解析サービスプラットフォームのTrifactaは先頃,データアナリストのデータラングリング(Data Wrangring)作業支援という同社の活動を推進するため,VCによる出資を受け入れた。目標はデータ収集とクレンジング,マージといった作業を,現在よりはるかに少ない時間と労力で可能にすることだ。

データラングリングは従来,どのビッグデータプロジェクトにおいても非常に時間と労力を要する作業だった。現代はさまざまなデータがあふれて入り混じり,データソースの進化によってその特性も常に変化している。NoSQLデータベースはこの問いに対して,列ベースあるいは文書ベースなどの手法で,ストレージ側からの回答を試み続けている。しかしデータを収集して意味付けするという問題が残ったままだ。

Trifactaはこの問題に対して,開発者ではなくユーザ中心の観点からアプローチしている。ビジネスアナリストとデータサイエンティストを対象に,ビジュアル指向の方法でデータセットのクレンジングを可能にするのだ。バークレー大学とスタンフォード大学の研究に基づくこのプラットフォームでは,オペレータとマシンの連携によってデータセットから洞察を抽出することを目指している。

ビッグデータからの自動スマートサンプリングとビジュアル化によって,アナリストは,注目すべきパターンを短時間で見つけ出すことができる。そうすればTrifactaが,機械学習アルゴリズムを適用して,取得した情報の再編成と形式化を行う方法を提案してくれる。アナリストはデータセットを情報の論理的集合にグループ化して,それを一歩ずつ正規化した上で,結果を作業工程に従ったユーザフレンドリな方法で視覚化する。最終ステップでは,半ば構造化されたデータセットを形式化することによって,データ全体を一般化する。プラットフォームは,データアナリストがデータ全体を徹底的に変換できるように,ユーザエクスペリエンスを念頭に置いてゼロからデザインされている。データをクレンジングしてデータウェアハウスに格納するために,複雑なパイプラインを開発する必要はない。

Trifactaの前身である研究プロジェクトのDataWranglerとその研究論文がオンラインで公開されている。Trifactaはまだクローズドベータで招待制のデモが計画されているのみだが,どのようなものかを垣間見ることはできる。

この記事に星をつける

おすすめ度
スタイル

BT