BT

Microsoft、インタラクティブなデータ探索とモデリングのためのデータサイエンスツールをリリース

| 作者: Srini Penchikala フォローする 36 人のフォロワー , 翻訳者 笹井 崇司 フォローする 0 人のフォロワー 投稿日 2016年11月14日. 推定読書時間: 2 分 |

原文(投稿日:2016/11/07)へのリンク

Microsoftが、インタラクティブなデータ探索、モデリング、レポーティングのための2つの新しいデータサイエンスツールをリリースしたIDEAR (Interactive Data Exploration, Analysis and Reporting) と AMAR (Automated Modeling and Reporting) と呼ばれるデータサイエンスユーティリティは、プロジェクトにおける特定のタスクをデータサイエンスチームが再利用できるようにする。

データサイエンスチームは、データスキーマ、データ要素の欠落、個々の変数の分布と変換、データ特有のクラスタリングパターン、機械学習(ML)モデルの性能など、データに関する質問に答えるためのコードを書くのに、かなりの時間を費やしている。2つのツールを使うことで、こうしたデータサイエンスのライフサイクルでよく見られるタスクを自動化することができる。目標は、組織のさまざまなプロジェクトを横断して、データサイエンスタスクにおける一貫性と完全性を確保することだ。

Interactive Data Exploration:

IDEARツールは、データを探索、可視化、解析して、データに対する洞察を与えるために使われる。R StudioShinyライブラリをベースに、データエクスポートとレポート生成機能を備えている。データエクスポートには、ビジュアライゼーションを生成する関連RスクリプトをRログファイルに保存する機能が含まれている。ユーザーはRログファイルを実行することで、データレポートを自動的に生成することができる。

他にも、自動変数型検出、変数ランク付けとTarget Leaker識別、高次元データの可視化といった機能がある。

Automated Modeling and Reporting:

AMARはハイパーパラメータスイープを用いた機械学習モデルのトレーニング、モデルの精度の比較、変数の重要度評価に使われる。パラメータ入力ファイルには、実行すべき学習モデル、トレーニングとテストに使うべきデータ、スイープするパラメータ範囲、最適パラメータ選択のための戦略を指定する。

AMARツールが生成するモデルレポートには、モデル情報、モデルの評価と比較、特徴ランキングが含まれる。

IDEARとAMARはCRAN-Rで動作し、GitHubのサイトからアクセスできる。このリポジトリは、9月のMicrosoft Machine Learning & Data Science Summitでローンチされた

Team Data Science Process (TDSP) の一部だ。

これらデータサイエンスツールについてもっと学びたい人は、Microsoft Technetのブログ記事や、Azure TDSP Utilities GitHubサイトをチェックしよう。

 

Rate this Article

Relevance
Style

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする
コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

ディスカッション

InfoQにログインし新機能を利用する


パスワードを忘れた方はこちらへ

Follow

お気に入りのトピックや著者をフォローする

業界やサイト内で一番重要な見出しを閲覧する

Like

より多いシグナル、より少ないノイズ

お気に入りのトピックと著者を選択して自分のフィードを作る

Notifications

最新情報をすぐ手に入れるようにしよう

通知設定をして、お気に入りコンテンツを見逃さないようにしよう!

BT