大規模ディープラーニングモデルの迅速なトレーニングのためにGoogleがオープンソースとして提供するGPipeライブラリ

原文(投稿日：2019/04/16)へのリンク

Google AIは、大規模なディープラーニングモデルのトレーニングを迅速化するためのTensorFlowライブラリであるGPipeをオープンソース化している。

ディープニューラルネットワーク（DNN）は、自然言語処理や視覚オブジェクト検出など、多くのAIタスクを解決するための最適なツールである。視覚オブジェクト検出の新しい方式はImageNetチャレンジの勝者に対してしばしばベンチマークされる。毎年の優勝エントリーは、前回よりも優れている。ただし、それに応じてモデルの複雑さも増している。2014年の受賞者であるGoogLeNetは、400万のモデルパラメータで74.8％のトップ1の精度を達成した。2017年の勝者であるSqueeze-and-Excitation Networksは、1億4,580万個のパラメータで82.7％のトップ1の精度を達成した。

モデルサイズの増加は、ネットワークをトレーニングするときに問題を引き起こす。妥当な時間内にネットワークをトレーニングするために、多くの計算はアクセラレータ、GPUやTPUなどの専用ハードウェアに委譲される。しかし、これらのデバイスはメモリが限られているため、訓練できるモデルのサイズが制限される。アクセラレータのメモリ内のデータをスワップアウトするなど、メモリに対する要求を減らす方法があるが、これらはトレーニングを遅くする可能性がある。別の解決策は、複数のアクセラレータを並行して使用できるようにモデルを分割することである。シーケンシャルDNNで最も明らかになっているパーティションスキームは、モデルをレイヤで分割し、各レイヤに異なるアクセラレータによってトレーニングさせることである。しかし、複数の層をトレーニングするという連続的な性質により、1つのアクセラレータしか動作せず、他のアクセラレータは上位または下位から結果が来るのを待ってアイドル状態になる可能性がある。

GPipeは、トレーニングバッチを「マイクロバッチ」に分割し、それらをレイヤーを介してパイプライン処理することでこの問題を解決している。連続するレイヤのためにアクセラレータは、全バッチが終了するのを待たずに、前の層からのマイクロバッチ結果の処理を開始することができる。

GPipeと8つのTPUv2を使用して、グーグルの研究者たちは18億のパラメータで視覚オブジェクト検出モデルを訓練することができた。それは単一のTPUv2で訓練できたパラメータの5.6倍となる。これらの大規模モデルをトレーニングした結果、ImageNet検証データで84.7％のトップ1の精度が得られ、2017年の勝者のスコアを上回った。

より大きなモデルをサポートすることに加えて、GPipeのモデル分割は、単により多くのアクセラレータを並列に実行することによって、与えられたモデルのより速いトレーニングを可能にする。研究者らは、「4倍のアクセラレータを使用すると3.5倍のスピードアップが達成された」と報告した。

GPipeはTensforFlowでシーケンシャルニューラルネットワークモデルを構築するためのLingvoフレームワークの一部として利用可能である。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

AI搭載ボットがGitHub Actionsワークフローを侵害、Microsoft、DataDog、CNCFプロジェクトにわたり

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

Claude Codeオートモードの内側：人間承認ゲートを備えたAnthropicの自律コーディングシステム

Cloudflare社、AIエージェント向けにトークン使用量を最適化するCode Mode対応MCPサーバーを発表

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

Claude CodeがDynamic Workflowsを追加、並列エージェント連携のため

AnthropicがRoutinesを導入、Claude Code自動化のため

NVIDIAがIsingオープンモデルを発表、量子コンピューティング向け

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

GitHub Copilot CLI一般提供開始

Platform Engineering Labs社、formaeをマルチクラウド対応に拡張

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027