BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース データ準備のパイプライン:戦略、オプション、ツール

データ準備のパイプライン:戦略、オプション、ツール

原文(投稿日:2017/04/16)へのリンク

データ準備は、データ処理および分析ユースケースの重要な1側面である。ビジネスアナリストやデータサイエンティストは、データの分析や機械学習モデルの開発ではなく、データの収集と準備に約80%を費やしている。Kelly Stirman氏は先週、Enterprise Data World 2017 Conferenceでデータ準備のベストプラクティスについて講演した。

Kelly氏はデータ準備とデータインテグレーションの取り組みの違いについて話した。データの準備は、主にビジネスアナリストがAlteryxTrifactaPaxataなどのツールを使用して行う。データインテグレーションはITにとって不可欠なツールであり、InformaticaIBM、SAS、SQLツールなどのツールを使用してITチームが実施しています。

データインテグレーションは成熟しており、堅牢である。また、エンタープライズ標準、セキュリティ、ガバナンスの統制とのインテグレーションが提供されている。サーバベースなので、より集中的であり、スケーラブルである。しかし、それは、ITユーザのみのためのものであり、最小限のデータ品質を前提とするような制限がある。エンタープライズでは成熟しているが、クラウド、サードパーティのアプリ、Hadoop、NoSQLデータベースでは成熟していない。

一方、データ準備は、スピード、使いやすさを重視し、より早く価値を生み出すことができる。これは、データ中心のモデル(メタデータ中心のモデルに対して)に基づいており、ITとビジネスの両方のユーザーに役立つ。Hadoop、NoSQLデータベース、Cloud、機械学習などのさまざまなデータ処理環境をサポートしている。ただし、テクノロジスタックが成熟していなかったり、インテグレーションやスキルについてエコシステムに制限がある。また、セキュリティのインテグレーションは包括的ではなく、ITトレーニングと調整を必要とする。

Kelly氏は、ビジネスユーザ、データサイエンティスト、ソフトウェア開発者のようなさまざまなユーザが使用するさまざまなオープンソースおよび商用ツールについて説明し、また、各ツールの長所や短所などを説明した。 Apache SparkPandas(Python)、dplyr(R)などのオープンソースツールは、データを準備するデータサイエンティストや開発者の助けになる。

データ準備ソリューションやツールを探す際に考慮すべき要素は、ユーザビリティ、コラボレーション、ライセンスモデル、ガバナンス、複雑さ、ベンダの実行可能性、エコシステムである。

 

 
 

Rate this Article

Relevance
Style
 
 

この記事に星をつける

おすすめ度
スタイル

BT