BT

Ready for InfoQ 3.0? Try the new design and let us know what you think!

データ準備のパイプライン:戦略、オプション、ツール

| 作者: Srini Penchikala フォローする 41 人のフォロワー , 翻訳者 編集部T フォローする 1 人のフォロワー 投稿日 2017年4月24日. 推定読書時間: 2 分 |

原文(投稿日:2017/04/16)へのリンク

データ準備は、データ処理および分析ユースケースの重要な1側面である。ビジネスアナリストやデータサイエンティストは、データの分析や機械学習モデルの開発ではなく、データの収集と準備に約80%を費やしている。Kelly Stirman氏は先週、Enterprise Data World 2017 Conferenceでデータ準備のベストプラクティスについて講演した。

Kelly氏はデータ準備とデータインテグレーションの取り組みの違いについて話した。データの準備は、主にビジネスアナリストがAlteryxTrifactaPaxataなどのツールを使用して行う。データインテグレーションはITにとって不可欠なツールであり、InformaticaIBM、SAS、SQLツールなどのツールを使用してITチームが実施しています。

データインテグレーションは成熟しており、堅牢である。また、エンタープライズ標準、セキュリティ、ガバナンスの統制とのインテグレーションが提供されている。サーバベースなので、より集中的であり、スケーラブルである。しかし、それは、ITユーザのみのためのものであり、最小限のデータ品質を前提とするような制限がある。エンタープライズでは成熟しているが、クラウド、サードパーティのアプリ、Hadoop、NoSQLデータベースでは成熟していない。

一方、データ準備は、スピード、使いやすさを重視し、より早く価値を生み出すことができる。これは、データ中心のモデル(メタデータ中心のモデルに対して)に基づいており、ITとビジネスの両方のユーザーに役立つ。Hadoop、NoSQLデータベース、Cloud、機械学習などのさまざまなデータ処理環境をサポートしている。ただし、テクノロジスタックが成熟していなかったり、インテグレーションやスキルについてエコシステムに制限がある。また、セキュリティのインテグレーションは包括的ではなく、ITトレーニングと調整を必要とする。

Kelly氏は、ビジネスユーザ、データサイエンティスト、ソフトウェア開発者のようなさまざまなユーザが使用するさまざまなオープンソースおよび商用ツールについて説明し、また、各ツールの長所や短所などを説明した。 Apache SparkPandas(Python)、dplyr(R)などのオープンソースツールは、データを準備するデータサイエンティストや開発者の助けになる。

データ準備ソリューションやツールを探す際に考慮すべき要素は、ユーザビリティ、コラボレーション、ライセンスモデル、ガバナンス、複雑さ、ベンダの実行可能性、エコシステムである。

 

 
 

Rate this Article

Relevance
Style
 
 

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする
コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

ディスカッション
BT