Meta AIの畳み込みネットワークのアップグレードにより、画像分類が改善

原文(投稿日：2022/02/02)へのリンク

Meta AIは改良された新世代の畳み込みネットワークをリリースした。Image-Net top-1データセットで87.8％の精度の最先端のパフォーマンスを達成し、オブジェクト検出パフォーマンスを評価できるCOCOデータセットでSwin Transformersを上回った。

新しい畳み込みネットワーク（ConvNeXt）では、Resnetモデル（現在の畳み込みの最先端技術）をスタートベースラインとして使用している。新しい設計とトレーニングのアプローチは、Swin Transformersモデルから着想を得ている。重要なことは、Swin Transformersがビジュアルトランスフォーマーと呼ばれる新しいタイプのアーキテクチャを使用した画像分類のための以前の最先端のディープラーニング手法であったということである。

図1 - 出典 2020年代のConvNet

より良いモデルトレーニングのために使われた手法は、データ効率の高い画像トランスフォーマーとSwin Transformersアプローチに基づいており、Resnet-50の精度が76.1％から78.8％に向上した。

精度を上げるための2番目の戦略は、ストライド2のResNet 7*7カーネルをストライド4のカーネル4*4に変更することで、精度が79.4％から79.5％に向上した。

もう1つの重要な改善点は、ResNeXt設計の使用であり、ネットワークパフォーマンスが80.5％になった。

Resnet-50への「最終的な」アップグレードは残差ブロックの再設計であった。これは、Swin Transformブロックにインスピレーションを受けたものである。

この新しいモデルの大きなメリットはスケーラビリティである。つまり、提供されるデータが増えると精度が向上する。さらに、ConvNeXtでは、畳み込みネットワークが画像分類に関して最適化され、より良い結果を達成することが証明されている。

図2 - 出典 2020年代のConvNet

PyTorchでのフレームワークの実装は、GitHubでリリースされた。一旦、Image-Net-1K、Image-Net-22Kでトレーニングされた事前トレーニング済みのモデルの重みがつけられている。Image-Net-1Kのトレーニングには、次のコマンドを使用する。

python run_with_submitit.py --nodes 4 --ngpus 8 \
--model convnext_tiny --drop_path 0.1 \
--batch_size 128 --lr 4e-3 --update_freq 1 \
--model_ema true --model_ema_eval true \
--data_path /path/to/imagenet-1k \
--job_dir /path/to/save_results

コードリリースに加えて、HuggingFaceプラットフォームを使ってWebのデモが開発された。このデモでは、任意の画像を入力すると、ラベルが生成される。

この新しいフレームワークのリリースは、ソーシャルメディア、特にTwitterのLucas Beyerのような最先端の開発者から多くの注目を集めている。

Twitterでも、EfficientNetの共同開発者は、EfficientNetV2でも同様のパフォーマンスを達成できると説明している。

作者について

Bruno Santos

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

12のソフトウェア・アーキテクチャの落とし穴とその避け方

AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

作者について

Bruno Santos

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

HashnodeがStep Functions、EventBridge、RedisでAWS上にスケーラブルなフィードアーキテクチャを構築

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

Meta社、24000基以上のGPUから成るAIインフラ設計を発表

Databricks、オープンソースの汎用LLM "DBRX" を発表

CNCF、Kubernetes上のKafkaを簡素化するStrimziをインキュベートする

オラクル、ARMとKubernetes 1.28をサポートするOracle Cloud Native 1.8を発表

SUSE、Kubernetesとエッジ管理製品のアップグレードを発表

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方

Meta AIの畳み込みネットワークのアップグレードにより、画像分類が改善

作者について

Bruno Santos

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。