データ準備は、データ処理および分析ユースケースの重要な1側面である。ビジネスアナリストやデータサイエンティストは、データの分析や機械学習モデルの開発ではなく、データの収集と準備に約80%を費やしている。Kelly Stirman氏は先週、Enterprise Data World 2017 Conferenceでデータ準備のベストプラクティスについて講演した。
Kelly氏はデータ準備とデータインテグレーションの取り組みの違いについて話した。データの準備は、主にビジネスアナリストがAlteryx、Trifacta、Paxataなどのツールを使用して行う。データインテグレーションはITにとって不可欠なツールであり、Informatica、IBM、SAS、SQLツールなどのツールを使用してITチームが実施しています。
データインテグレーションは成熟しており、堅牢である。また、エンタープライズ標準、セキュリティ、ガバナンスの統制とのインテグレーションが提供されている。サーバベースなので、より集中的であり、スケーラブルである。しかし、それは、ITユーザのみのためのものであり、最小限のデータ品質を前提とするような制限がある。エンタープライズでは成熟しているが、クラウド、サードパーティのアプリ、Hadoop、NoSQLデータベースでは成熟していない。
一方、データ準備は、スピード、使いやすさを重視し、より早く価値を生み出すことができる。これは、データ中心のモデル(メタデータ中心のモデルに対して)に基づいており、ITとビジネスの両方のユーザーに役立つ。Hadoop、NoSQLデータベース、Cloud、機械学習などのさまざまなデータ処理環境をサポートしている。ただし、テクノロジスタックが成熟していなかったり、インテグレーションやスキルについてエコシステムに制限がある。また、セキュリティのインテグレーションは包括的ではなく、ITトレーニングと調整を必要とする。
Kelly氏は、ビジネスユーザ、データサイエンティスト、ソフトウェア開発者のようなさまざまなユーザが使用するさまざまなオープンソースおよび商用ツールについて説明し、また、各ツールの長所や短所などを説明した。 Apache Spark、Pandas(Python)、dplyr(R)などのオープンソースツールは、データを準備するデータサイエンティストや開発者の助けになる。
データ準備ソリューションやツールを探す際に考慮すべき要素は、ユーザビリティ、コラボレーション、ライセンスモデル、ガバナンス、複雑さ、ベンダの実行可能性、エコシステムである。
Rate this Article
- Editor Review
- Chief Editor Action