GoogleがTensorFlow Lite向けにトレーニング後の整数量子化をリリース

原文(投稿日：2019/07/23)へのリンク

Googleは、モデルのサイズと推論の待機時間を削減するTensorFlow Liteディープラーニングフレームワーク向けの新しいツールを発表した。このツールは、トレーニング済みモデルの重みを浮動小数点表現から8ビット符号付き整数に変換する。これにより、モデルのメモリ要件が低減され、浮動小数点アクセラレーターを必要とせず、そして、モデルの品質を犠牲にすることなく、モデルをハードウェアで実行できる。

TensorFlowチームは最近のブログ投稿で、モデルの重みを8ビット整数に変換するために整数量子化を使用するアプローチについて説明した。このツールキットには、整数演算のみを使用するテンソル演算も含まれており、浮動小数点ハードウェアアクセラレーションを持たないハードウェアで最高の実行時パフォーマンスを提供する。これにより、ベースラインの浮動小数点モデルと比較して、予測結果の精度が1％未満の低下で「最大2～4倍高速かつ1/4に小型化された」モデルが生成される。

浮動小数点数は、ニューラルネットワークで重みとアクティベーションを表す最も正確な方法である。ただし、これらの数値の数学的操作には、迅速なスループットを実現するために専用のハードウェアが必要である。多くのモバイルまたは組み込みデバイスにはこのハードウェアがないため、浮動小数点演算を使用してニューラルネットワークから結果を計算するのに時間がかかります。整数量子化は、4バイトまたは8バイトの浮動小数点数をシングルバイト整数に変換する手法である。これらの整数は、必要なメモリが少ないだけでなく、整数を使用した演算は汎用CPUで迅速に実行できる。精度の低下は、ニューラルネットワークの精度に影響を及ぼするが、調査では、特にメモリフットプリントと実行時間の大幅な削減を考慮した場合、損失は一般的には許容できるほど小さいことが示されている。

1バイトは-128～127の数値しか表すことができないため、浮動小数点から整数へのアクティベーションの変換には、スケーリングパラメーターを決定するためのキャリブレーションステップが必要である。これは、浮動小数点モデルを介して入力データのいくつかの例を実行することにより行われます。これにより、アクティベーションの最大値と最小値の推定値が得られます。これらの極値は、スケーリングパラメーターが計算するためにそれぞれ127と-128にマッピングされる。このリリースの前に、TensorFlow Liteはモデルの重みを8ビットに変換するだけの「ハイブリッド量子化」スキームを使用していた。ネットワークのアクティベーションを計算するには、依然として浮動小数点計算が必要だったため、スケーリング手順は必要なかった。しかし、浮動小数点計算のために、推論の待ち時間は長くなっていた。

TensorFlowには、「contrib」ライブラリの一部として量子化認識トレーニングも含まれている。これは「公式にはサポートされておらず、予告なく変更または削除される可能性がある」。このメソッドは、整数演算用にすでに最適化されたモデルを出力する。ただし、トレーニング後の量子化は「はるかに使いやすく、ほとんどのモデルで同等の精度を提供する」。ただし、Armデバイスの開発者サイトでは、「iOSでCoreMLを介して8ビットの量子化TensorFlowモデルをデプロイすることは現在不可能である」と述べられている。

もう1つの主要なディープラーニングフレームワークであるFacebookのPyTorchには、昨年リリースされたQNNPACKと呼ばれる類似のツールがある。リリース発表のブログ投稿によると、「QNNPACKベースのCaffe2オペレータは、さまざまな携帯電話でTensorFlow Liteの約2倍高速である。」

量子化ツールは、GitHubで利用可能なTensorFlowの最新リリースに含まれている。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

AI搭載ボットがGitHub Actionsワークフローを侵害、Microsoft、DataDog、CNCFプロジェクトにわたり

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

AnthropicがClaude Platformを提供開始、AWS上で

TigerFSは開発者およびAIエージェント向けにPostgreSQLデータベースをファイルシステムとしてマウントする機能を提供

AnthropicがMCPトンネルを導入、内部システムへのプライベート・エージェントアクセスのため

Teleport社、企業インフラ全体でAIエージェントを保護するAgentic Identity Frameworkを発表

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

GitHub Copilot CLI一般提供開始

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027