BT

Your opinion matters! あなたのご意見でInfoQが変わる!

データ準備のパイプライン:戦略、オプション、ツール

| 作者: Srini Penchikala フォローする 17 人のフォロワー , 翻訳者 編集部T フォローする 0 人のフォロワー 投稿日 2017年4月24日. 推定読書時間: 2 分 |

あなたのリクエストに応じて、ノイズを減らす機能を開発しました。大切な情報を見逃さないよう、お気に入りのトピックを選択して、メールとウェブで通知をもらいましょう。

原文(投稿日:2017/04/16)へのリンク

データ準備は、データ処理および分析ユースケースの重要な1側面である。ビジネスアナリストやデータサイエンティストは、データの分析や機械学習モデルの開発ではなく、データの収集と準備に約80%を費やしている。Kelly Stirman氏は先週、Enterprise Data World 2017 Conferenceでデータ準備のベストプラクティスについて講演した。

Kelly氏はデータ準備とデータインテグレーションの取り組みの違いについて話した。データの準備は、主にビジネスアナリストがAlteryxTrifactaPaxataなどのツールを使用して行う。データインテグレーションはITにとって不可欠なツールであり、InformaticaIBM、SAS、SQLツールなどのツールを使用してITチームが実施しています。

データインテグレーションは成熟しており、堅牢である。また、エンタープライズ標準、セキュリティ、ガバナンスの統制とのインテグレーションが提供されている。サーバベースなので、より集中的であり、スケーラブルである。しかし、それは、ITユーザのみのためのものであり、最小限のデータ品質を前提とするような制限がある。エンタープライズでは成熟しているが、クラウド、サードパーティのアプリ、Hadoop、NoSQLデータベースでは成熟していない。

一方、データ準備は、スピード、使いやすさを重視し、より早く価値を生み出すことができる。これは、データ中心のモデル(メタデータ中心のモデルに対して)に基づいており、ITとビジネスの両方のユーザーに役立つ。Hadoop、NoSQLデータベース、Cloud、機械学習などのさまざまなデータ処理環境をサポートしている。ただし、テクノロジスタックが成熟していなかったり、インテグレーションやスキルについてエコシステムに制限がある。また、セキュリティのインテグレーションは包括的ではなく、ITトレーニングと調整を必要とする。

Kelly氏は、ビジネスユーザ、データサイエンティスト、ソフトウェア開発者のようなさまざまなユーザが使用するさまざまなオープンソースおよび商用ツールについて説明し、また、各ツールの長所や短所などを説明した。 Apache SparkPandas(Python)、dplyr(R)などのオープンソースツールは、データを準備するデータサイエンティストや開発者の助けになる。

データ準備ソリューションやツールを探す際に考慮すべき要素は、ユーザビリティ、コラボレーション、ライセンスモデル、ガバナンス、複雑さ、ベンダの実行可能性、エコシステムである。

 

 
 

Rate this Article

Relevance
Style
 
 

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする
コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

ディスカッション

InfoQにログインし新機能を利用する


パスワードを忘れた方はこちらへ

Follow

お気に入りのトピックや著者をフォローする

業界やサイト内で一番重要な見出しを閲覧する

Like

より多いシグナル、より少ないノイズ

お気に入りのトピックと著者を選択して自分のフィードを作る

Notifications

最新情報をすぐ手に入れるようにしよう

通知設定をして、お気に入りコンテンツを見逃さないようにしよう!

BT