UberとOpenAIが分散型機械学習用の新しいライブラリであるFiberを発表

原文(投稿日：2020/04/06)へのリンク

UberとOpenAIはFiberをオープンソース化した。これは、ユーザがコンピュータークラスターに大規模な機械学習計算を実装できるようにすることを目的とした新しいライブラリである。ライブラリの主な目的は、様々な種類のコンピューティングハードウェアを活用し、アルゴリズムを動的にスケーリングし、クラスターに複雑なアルゴリズムを実装するエンジニアの負担を軽減することである。

要件は多岐にわたるめ、強化学習（RL）や人口ベースのアルゴリズムをディープラーニングなどの他のヒューリスティックとともに、十分な柔軟性を維持しながらサポートするのは、機械学習フレームワークにとっての課題である。TensorFlowやPyTorchなどの確立されたフレームワークは、最も一般的な機械学習手法の分散トレーニングのセットアップをカバーするが、これらのフレームワークは、RLベースおよび人口ベースの手法にはあまり適していない。これらの手法では、シミュレーターとの頻繁な相互連携と複雑で動的なスケーリング戦略を必要とする。Fiberは、これらの新しい要件をサポートするために、分散コンピューティングフレームワークに統合されたPythonユーザインターフェイスを提供する。

Fiberについて公開された研究論文では、フレームワークのオーバーヘッド、進化戦略、および近位ポリシーの最適化（PPO）についてライブラリを評価するために使用された実験について詳しく説明している。研究者は、FiberをIPyParallel（並列コンピューティング用のiPython）、spark、および標準のpythonマルチプロセッシングライブラリとフレームワークオーバーヘッドに関して比較した。そして、タスク期間が短い場合、FiberがiPyParallelおよびSparkよりも優れていることを発見した。これはシミュレーターを扱うときに理解する必要がある重要な指標である。Fiberによって有効化された分散バージョンのPPOのパフォーマンスは、AtariベンチマークのBreakoutでのマルチプロセッシング実装と比較して、FiberがローカルマシンよりもRLアルゴリズムをスケールできることを示している。

Fiberは、APIレイヤー、バックエンドレイヤー、およびクラスターレイヤーに分割される。APIレイヤーには、標準のPythonマルチプロセッシングモジュールと同様の要件とセマンティクスがある。同時に、分散環境で機能するように拡張されている。バックエンドレイヤーは、多数の異なるクラスターマネージャーのタスクの通信を処理できる。最後に、クラスターレイヤーには、KubernetesやPelotonなどのクラスターマネージャーが含まれている。

Fiberは、ジョブバックプロセスと呼ばれる新しい概念を導入している。これらのプロセスの1つを開始すると、現在のクラスターにFiberバックエンドと紐づく新しいジョブが作成される。親コンテナは、子プロセスが同じコンテナイメージで開始される前に、必要なファイル、入力データ、およびそのジョブの他の依存関係をカプセル化する。これにより、一貫した実行環境を保証する。次の図は、このアーキテクチャをより詳細に示している。

Fiberと、Googleの新しい分散強化学習ライブラリSeed RLの関して、最近のリリースから、大手ハイテク企業がコストの削減と最先端の機械学習アルゴリズムのトレーニングプロセスの簡素化の両方を目指していることがわかる。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

AI搭載ボットがGitHub Actionsワークフローを侵害、Microsoft、DataDog、CNCFプロジェクトにわたり

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

TigerFSは開発者およびAIエージェント向けにPostgreSQLデータベースをファイルシステムとしてマウントする機能を提供

AnthropicがMCPトンネルを導入、内部システムへのプライベート・エージェントアクセスのため

Claude CodeがDynamic Workflowsを追加、並列エージェント連携のため

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

GitHub Copilot CLI一般提供開始

Platform Engineering Labs社、formaeをマルチクラウド対応に拡張

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027