BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Microsoft、インタラクティブなデータ探索とモデリングのためのデータサイエンスツールをリリース

Microsoft、インタラクティブなデータ探索とモデリングのためのデータサイエンスツールをリリース

原文(投稿日:2016/11/07)へのリンク

Microsoftが、インタラクティブなデータ探索、モデリング、レポーティングのための2つの新しいデータサイエンスツールをリリースしたIDEAR (Interactive Data Exploration, Analysis and Reporting) と AMAR (Automated Modeling and Reporting) と呼ばれるデータサイエンスユーティリティは、プロジェクトにおける特定のタスクをデータサイエンスチームが再利用できるようにする。

データサイエンスチームは、データスキーマ、データ要素の欠落、個々の変数の分布と変換、データ特有のクラスタリングパターン、機械学習(ML)モデルの性能など、データに関する質問に答えるためのコードを書くのに、かなりの時間を費やしている。2つのツールを使うことで、こうしたデータサイエンスのライフサイクルでよく見られるタスクを自動化することができる。目標は、組織のさまざまなプロジェクトを横断して、データサイエンスタスクにおける一貫性と完全性を確保することだ。

Interactive Data Exploration:

IDEARツールは、データを探索、可視化、解析して、データに対する洞察を与えるために使われる。R StudioShinyライブラリをベースに、データエクスポートとレポート生成機能を備えている。データエクスポートには、ビジュアライゼーションを生成する関連RスクリプトをRログファイルに保存する機能が含まれている。ユーザーはRログファイルを実行することで、データレポートを自動的に生成することができる。

他にも、自動変数型検出、変数ランク付けとTarget Leaker識別、高次元データの可視化といった機能がある。

Automated Modeling and Reporting:

AMARはハイパーパラメータスイープを用いた機械学習モデルのトレーニング、モデルの精度の比較、変数の重要度評価に使われる。パラメータ入力ファイルには、実行すべき学習モデル、トレーニングとテストに使うべきデータ、スイープするパラメータ範囲、最適パラメータ選択のための戦略を指定する。

AMARツールが生成するモデルレポートには、モデル情報、モデルの評価と比較、特徴ランキングが含まれる。

IDEARとAMARはCRAN-Rで動作し、GitHubのサイトからアクセスできる。このリポジトリは、9月のMicrosoft Machine Learning & Data Science Summitでローンチされた

Team Data Science Process (TDSP) の一部だ。

これらデータサイエンスツールについてもっと学びたい人は、Microsoft Technetのブログ記事や、Azure TDSP Utilities GitHubサイトをチェックしよう。

 

Rate this Article

Relevance
Style

この記事に星をつける

おすすめ度
スタイル

BT