Meta AIの畳み込みネットワークのアップグレードにより、画像分類が改善

原文(投稿日：2022/02/02)へのリンク

Meta AIは改良された新世代の畳み込みネットワークをリリースした。Image-Net top-1データセットで87.8％の精度の最先端のパフォーマンスを達成し、オブジェクト検出パフォーマンスを評価できるCOCOデータセットでSwin Transformersを上回った。

新しい畳み込みネットワーク（ConvNeXt）では、Resnetモデル（現在の畳み込みの最先端技術）をスタートベースラインとして使用している。新しい設計とトレーニングのアプローチは、Swin Transformersモデルから着想を得ている。重要なことは、Swin Transformersがビジュアルトランスフォーマーと呼ばれる新しいタイプのアーキテクチャを使用した画像分類のための以前の最先端のディープラーニング手法であったということである。

図1 - 出典 2020年代のConvNet

より良いモデルトレーニングのために使われた手法は、データ効率の高い画像トランスフォーマーとSwin Transformersアプローチに基づいており、Resnet-50の精度が76.1％から78.8％に向上した。

精度を上げるための2番目の戦略は、ストライド2のResNet 7*7カーネルをストライド4のカーネル4*4に変更することで、精度が79.4％から79.5％に向上した。

もう1つの重要な改善点は、ResNeXt設計の使用であり、ネットワークパフォーマンスが80.5％になった。

Resnet-50への「最終的な」アップグレードは残差ブロックの再設計であった。これは、Swin Transformブロックにインスピレーションを受けたものである。

この新しいモデルの大きなメリットはスケーラビリティである。つまり、提供されるデータが増えると精度が向上する。さらに、ConvNeXtでは、畳み込みネットワークが画像分類に関して最適化され、より良い結果を達成することが証明されている。

図2 - 出典 2020年代のConvNet

PyTorchでのフレームワークの実装は、GitHubでリリースされた。一旦、Image-Net-1K、Image-Net-22Kでトレーニングされた事前トレーニング済みのモデルの重みがつけられている。Image-Net-1Kのトレーニングには、次のコマンドを使用する。

python run_with_submitit.py --nodes 4 --ngpus 8 \
--model convnext_tiny --drop_path 0.1 \
--batch_size 128 --lr 4e-3 --update_freq 1 \
--model_ema true --model_ema_eval true \
--data_path /path/to/imagenet-1k \
--job_dir /path/to/save_results

コードリリースに加えて、HuggingFaceプラットフォームを使ってWebのデモが開発された。このデモでは、任意の画像を入力すると、ラベルが生成される。

この新しいフレームワークのリリースは、ソーシャルメディア、特にTwitterのLucas Beyerのような最先端の開発者から多くの注目を集めている。

Twitterでも、EfficientNetの共同開発者は、EfficientNetV2でも同様のパフォーマンスを達成できると説明している。

作者について

Bruno Santos

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Bruno Santos

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

Meta AIの畳み込みネットワークのアップグレードにより、画像分類が改善

作者について

Bruno Santos

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。