BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Meta AIの畳み込みネットワークのアップグレードにより、画像分類が改善

Meta AIの畳み込みネットワークのアップグレードにより、画像分類が改善

原文(投稿日:2022/02/02)へのリンク

Meta AIは改良された新世代の畳み込みネットワークをリリースした。Image-Net top-1データセットで87.8%の精度の最先端のパフォーマンスを達成し、オブジェクト検出パフォーマンスを評価できるCOCOデータセットでSwin Transformersを上回った。

新しい畳み込みネットワーク(ConvNeXt)では、Resnetモデル(現在の畳み込みの最先端技術)をスタートベースラインとして使用している。新しい設計とトレーニングのアプローチは、Swin Transformersモデルから着想を得ている。重要なことは、Swin Transformersがビジュアルトランスフォーマーと呼ばれる新しいタイプのアーキテクチャを使用した画像分類のための以前の最先端のディープラーニング手法であったということである。

図1 - 出典 2020年代のConvNet

より良いモデルトレーニングのために使われた手法は、データ効率の高い画像トランスフォーマーとSwin Transformersアプローチに基づいており、Resnet-50の精度が76.1%から78.8%に向上した。

精度を上げるための2番目の戦略は、ストライド2のResNet 7*7カーネルストライド4のカーネル4*4に変更することで、精度が79.4%から79.5%に向上した。

もう1つの重要な改善点は、ResNeXt設計の使用であり、ネットワークパフォーマンスが80.5%になった。

Resnet-50への「最終的な」アップグレードは残差ブロックの再設計であった。これは、Swin Transformブロックにインスピレーションを受けたものである。

この新しいモデルの大きなメリットはスケーラビリティである。つまり、提供されるデータが増えると精度が向上する。さらに、ConvNeXtでは、畳み込みネットワークが画像分類に関して最適化され、より良い結果を達成することが証明されている。

図2 - 出典 2020年代のConvNet

PyTorchでのフレームワークの実装は、GitHubでリリースされた。一旦、Image-Net-1KImage-Net-22Kでトレーニングされた事前トレーニング済みのモデルの重みがつけられている。Image-Net-1Kのトレーニングには、次のコマンドを使用する。

python run_with_submitit.py --nodes 4 --ngpus 8 \
--model convnext_tiny --drop_path 0.1 \
--batch_size 128 --lr 4e-3 --update_freq 1 \
--model_ema true --model_ema_eval true \
--data_path /path/to/imagenet-1k \
--job_dir /path/to/save_results

コードリリースに加えて、HuggingFaceプラットフォームを使ってWebのデモが開発された。このデモでは、任意の画像を入力すると、ラベルが生成される。

この新しいフレームワークのリリースは、ソーシャルメディア、特にTwitterのLucas Beyerのような最先端の開発者から多くの注目を集めている。

Twitterでも、EfficientNetの共同開発者は、EfficientNetV2でも同様のパフォーマンスを達成できると説明している。


 

作者について

この記事に星をつける

おすすめ度
スタイル

BT