BT

InfoQ ホームページ ニュース データ準備のパイプライン:戦略、オプション、ツール

データ準備のパイプライン:戦略、オプション、ツール

ブックマーク

原文(投稿日:2017/04/16)へのリンク

データ準備は、データ処理および分析ユースケースの重要な1側面である。ビジネスアナリストやデータサイエンティストは、データの分析や機械学習モデルの開発ではなく、データの収集と準備に約80%を費やしている。Kelly Stirman氏は先週、Enterprise Data World 2017 Conferenceでデータ準備のベストプラクティスについて講演した。

Kelly氏はデータ準備とデータインテグレーションの取り組みの違いについて話した。データの準備は、主にビジネスアナリストがAlteryxTrifactaPaxataなどのツールを使用して行う。データインテグレーションはITにとって不可欠なツールであり、InformaticaIBM、SAS、SQLツールなどのツールを使用してITチームが実施しています。

データインテグレーションは成熟しており、堅牢である。また、エンタープライズ標準、セキュリティ、ガバナンスの統制とのインテグレーションが提供されている。サーバベースなので、より集中的であり、スケーラブルである。しかし、それは、ITユーザのみのためのものであり、最小限のデータ品質を前提とするような制限がある。エンタープライズでは成熟しているが、クラウド、サードパーティのアプリ、Hadoop、NoSQLデータベースでは成熟していない。

一方、データ準備は、スピード、使いやすさを重視し、より早く価値を生み出すことができる。これは、データ中心のモデル(メタデータ中心のモデルに対して)に基づいており、ITとビジネスの両方のユーザーに役立つ。Hadoop、NoSQLデータベース、Cloud、機械学習などのさまざまなデータ処理環境をサポートしている。ただし、テクノロジスタックが成熟していなかったり、インテグレーションやスキルについてエコシステムに制限がある。また、セキュリティのインテグレーションは包括的ではなく、ITトレーニングと調整を必要とする。

Kelly氏は、ビジネスユーザ、データサイエンティスト、ソフトウェア開発者のようなさまざまなユーザが使用するさまざまなオープンソースおよび商用ツールについて説明し、また、各ツールの長所や短所などを説明した。 Apache SparkPandas(Python)、dplyr(R)などのオープンソースツールは、データを準備するデータサイエンティストや開発者の助けになる。

データ準備ソリューションやツールを探す際に考慮すべき要素は、ユーザビリティ、コラボレーション、ライセンスモデル、ガバナンス、複雑さ、ベンダの実行可能性、エコシステムである。

 

 
 

Rate this Article

Relevance
Style
 
 

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

BT

あなたのプロファイルは最新ですか?プロフィールを確認してアップデートしてください。

Eメールを変更すると確認のメールが配信されます。

会社名:
役職:
組織規模:
国:
都道府県:
新しいメールアドレスに確認用のメールを送信します。このポップアップ画面は自動的に閉じられます。