Databricks MLflowインテグレーションの一般供与が開始

原文(投稿日：2019/05/23へのリンク

Databricksは先頃、データエンジニアリング及びそれ以上のサブスクリプション層を対象に、DatabrikノートブックとMLflowのインテグレーションの一般供与を開始した。これによってMLflowの機能が、Databrickノートブックおよびジョブの機能に結合される。Databricksは2018年6月に、まずMLflowをオープンソースプロジェクトとして立ち上げた後、独立したスタンドアロンのコマンドラインツールとして供用を続けてきた。

MLflowは主として、実験追跡(experiment tracking)、プロジェクト、MLflowモデルという3つの機能を提供する。各機能は、Databricksオンラインサービスの有無にかかわらず利用可能だが、Databricksと統合された場合と統合されていない場合とでは、表現方法が異なる。

MLflowの実験追跡では、MLflowの実行状態を格納するロケーションが必要となる。MLflowコマンドラインツールには、実行状態を格納する追跡サーバが組み込まれており、実行結果の格納にローカルファイルシステムを使用することが可能だが、実行の保存を管理する責任自体はユーザにある。Databrickは、Databrickノートブックと統合された実験追跡サーバを提供することで、ユーザによる実行情報の管理を不要にする。さらにDatabrickでは、実験の分析結果が記録されるたびに、ノートブックのバージョンとして保存する。実験結果を探索するユーザーインターフェースも提供されており、MLflowコマンドラインツールからアクセスする場合のスタンドアロンUIと同様に動作する。

MLflowは、プロジェクトとして定義された実行条件での反復的な実行が可能な、構造化されたコンフィギュレーションの方法を提供している。gitfレポジトリに適切な設定ファイルを追加することでプロジェクトとして使用可能とし、Conda、Docker、あるいはシステム環境といった環境をサポートする。Databricksには、Databrickクラスタ上でプロジェクトをジョブとして実行する機能が追加されている。ユーザはまず、Databricksアカウントで実験を作成する必要がある。作成したプロジェクトは、Databrickのジョブおよび実験を対象とするようなMLflowコマンドから実行することが可能だ。

MLflowは、実験の実行結果をモデルとして保存する。大規模なモデルを格納する実験では、保存先に外部ストレージを指定することができる。生成されたモデルは、Databrickノートブックまたはジョブ内から、MLflow APIを使用して呼び出すことが可能だ。ユーザは、自分のノートブック内で呼び戻したモデルを使って、Apache Spark UDFによる予測の実施や、AWS SagemakerやMicrosoft Azure MLといった外部サービスにモデルをデプロイすることができる。

DatabricksのチーフテクノロジストであるMatei Zaharia氏は、バージョン1.0で登場する新機能として、マルチステップワークフローとモデルレジストリを発表した。発表では各機能のデモを行うとともに、多段階のワークフローを視覚化し、結果のモデルを登録するユーザーインターフェースが公開された。モデルを登録した後は、新たなユーザーインターフェイスを介してモデルを展開し、追跡することができる。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

AI搭載ボットがGitHub Actionsワークフローを侵害、Microsoft、DataDog、CNCFプロジェクトにわたり

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

TigerFSは開発者およびAIエージェント向けにPostgreSQLデータベースをファイルシステムとしてマウントする機能を提供

AnthropicがMCPトンネルを導入、内部システムへのプライベート・エージェントアクセスのため

Claude CodeがDynamic Workflowsを追加、並列エージェント連携のため

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

GitHub Copilot CLI一般提供開始

Platform Engineering Labs社、formaeをマルチクラウド対応に拡張

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027