BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Feature Storeで機械学習ライフサイクルを加速

Feature Storeで機械学習ライフサイクルを加速

ブックマーク

原文(投稿日:2020/07/20)へのリンク

Feature Storeは次世代のMLプラットフォームの中核であり、データサイエンティストがMLアプリケーションの提供を加速できるようにするものである。これにより、チームはバージョン付きの特徴を追跡および共有できるようになり、モデルのトレーニング、バッチ、リアルタイム予測のための特徴が提供できるようになる。Tecton.aiのMike Del Balso氏とAtlassianのGeoff Sims氏は、Spark AI Summit 2020 Conferenceで、フィーチャーストア主導のML開発について講演した

Del Balso氏は、限られた予測データ、長い開発サイクル、生産への苦痛な道のような機械学習プロセスの不足について話した。これには通常、複数のチーム、多くのリソース、さまざまな実装が関わる。彼はOperational MLについて話した。これは基本的には、不正検出、クリックスルーレート(CTR)予測、レコメンド、検索などのユースケースでユーザーエクスペリエンスを高めるMLソリューションである。OperationalMLアプリケーションの構築は非常に複雑であり、データはその複雑さの中核にある。実際のMLコードは、構成、データ収集、特徴エンジニアリング、リソース管理などのタスクと比べると、全体の作業の一部となる。

特徴は、あらゆるMLアプリケーションの主要な構成要素である。しかし、特徴を管理するための現在のツールは、必要なものではない。特徴エンジニアリングや特徴提供を含む、本番環境での特徴パイプラインのデプロイと運用のプロセスを自動化する必要がある。

Del Balso氏は、機械学習アプリケーション用のデータプラットフォームであるTectonについて説明した。これは、データサイエンスチームが容易に運用できるように、全ての運用ライフサイクルを自動化するものである。一般的なMLプロセスでライフサイクルを通して特徴を管理する。データソース(バッチまたはリアルタイム)からデータを抽出し、そのデータをフィーチャーパイプラインとして変換し、特徴値をFeature Storeに編成するために使用できる。MLのデータプラットフォームは、無秩序に広がり、分断された特徴変換ロジックの管理、汚いデータからの質の高いトレーニングセットの構築、本番環境へのデプロイなどの重要な問題を解決する。

特徴はビジネスにおいて厳選されたデータであるが、十分に管理されていない資産である。各MLモデルには通常、数千ではなくとも数百の特徴を管理する必要があるため、この課題が、組織でMLの取り組みを拡大することを困難にする。彼は特徴を特徴データとして管理することを勧めた。また、生成するために使用される特徴変換コードとして管理することを勧めた。

彼は、複数のデータパイプラインをつなぎ合わせたり、データを漏洩したり、トレーニングデータをトレーニングジョブに配信したりするなど、トレーニングデータの組み立てに関する共通の課題について説明した。データサイエンスとエンジニアリングチームは、モデルを本番環境にデプロイし、バッチ環境からリアルタイムに移行するときにも課題に直面する。これらの課題の一部は、インフラストラクチャのプロビジョニングとドリフト&データ品質の監視に関連している。エンタープライズグレードのFeature Storeは、特徴トレーニングと特徴提供を管理できる。

AtlassianのGeoff氏は、どのようにして、Feature Storeソリューションを使用して、人気の製品の1つであるJiraでコンテンツの分類を自動化し、Jiraで追跡されるすべての問題に自動的にラベルを付けるかについて話した。彼らはFeature Storeを使用して大量のイベントを収集し、モデルごとに特徴を保存し、リアルタイムに更新し、さらに特徴と予測を生成しました。

 

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT