Perceiver：複数の入力データ型向けの単一のニューラルネットワークモデル

原文(投稿日：2021/04/13)へのリンク

GoogleのDeepMind社は最近、Perceiverと呼ばれる最先端のディープラーニングモデルをリリースした。これは、人間の脳がマルチモーダルデータを認識するのと同じように、音声から画像までの複数の入力データを受信して処理するものである。

Perceiverは、複数の入力データ型、つまり点群、音声、画像を受信して分類できる。この目的のために、深層学習モデルは、入力データ型についての前提を置かないトランスフォーマー（別名、アテンション）に基づいている。

通常、トランスフォーマーを使用する際のボトルネックは、アルゴリズムに必要な2次の演算数である。たとえば、224ピクセル×224ピクセルの画像を処理すると、50,000を超える224の2乗の演算が発生する可能性がある。これは膨大な計算オーバーヘッドになる。この問題を分類するために、DeepMindの研究者は、トランスフォーマーでSelf-AttentionレイヤーをCross-Attentionレイヤーに置き換えたため、線形アルゴリズムが複雑になった。

出典: Perceiver：反復的なアテンションを伴う一般的な知覚

さらに、Cross-Attentionの計算に使用される入力データはバイト配列に変換される。これは、このモデルがデータ型に依存しないことを意味する。

このモデルの大きな進歩は、入力データ型についての前提を置かないことである。たとえば、既存の畳み込みニューラルネットワークは画像に対してのみ機能する。

出典: Perceiver：反復的なアテンションを伴う一般的な知覚

画像分類に対して、このモデルはImageNetで76.4％の最先端の精度を達成する（ResNetでは39.4％を達成）。

出典: Perceiver：反復的なアテンションを伴う一般的な知覚

Perceiverはソーシャルメディアで注目を集めた。YouTubeで数千回の視聴があり、Redditでのスレッドで議論があり、Twitterで議論が続いている。Redditスレッドに興味深いコメントがあり、この新しいモデルとの関連性を示している。

基本的な考え方は、私が理解しているように、トランスフォーマーを使用してMLPを再作成することにより、クロスドメインの一般性を実現することです。

「ニューロン」と活性化はスカラーではなくベクトルである

中間層の重みは動的であり、固定でない

学習されたベクトルの固定の集合にCross-Attentionを適用することにより、入力の次元数を減らすこともできます。かなりクールです。

さらに、Twitterスレッドには研究者の考察がある。

これは本当に素晴らしい取り組みです。コミュニティの実装もあります。
...github.com/lucidrains/per...
間違いなくこれで遊んでいるつもりです。ありがとう。

最後に、ディープラーニングコミュニティのメンバーによるPyTorchのオープンソース実装がある。これを使用するには、次のスニペットを使用できる。

import torch
from perceiver_pytorch import Perceiver

model = Perceiver(
    input_channels = 3,          # number of channels for each token of the input
    input_axis = 2,              # number of axis for input data (2 for images, 3 for video)
    num_freq_bands = 6,          # number of freq bands, with original value (2 * K + 1)
    max_freq = 10.,              # maximum frequency, hyperparameter depending on how fine the data is
    depth = 6,                   # depth of net
    num_latents = 256,           # number of latents, or induced set points, or centroids. different papers giving it different names
    latent_dim = 512,            # latent dimension
    cross_heads = 1,             # number of heads for cross attention. paper said 1
    latent_heads = 8,            # number of heads for latent self attention, 8
    cross_dim_head = 64,
    latent_dim_head = 64,
    num_classes = 1000,          # output number of classes
    attn_dropout = 0.,
    ff_dropout = 0.,
    weight_tie_layers = False    # whether to weight tie layers (optional, as indicated in the diagram)
)

img = torch.randn(1, 224, 224, 3) # 1 imagenet image, pixelized

model(img) # (1, 1000)

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

AI搭載ボットがGitHub Actionsワークフローを侵害、Microsoft、DataDog、CNCFプロジェクトにわたり

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

Claude Codeオートモードの内側：人間承認ゲートを備えたAnthropicの自律コーディングシステム

Cloudflare社、AIエージェント向けにトークン使用量を最適化するCode Mode対応MCPサーバーを発表

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

Claude CodeがDynamic Workflowsを追加、並列エージェント連携のため

AnthropicがRoutinesを導入、Claude Code自動化のため

NVIDIAがIsingオープンモデルを発表、量子コンピューティング向け

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

GitHub Copilot CLI一般提供開始

Platform Engineering Labs社、formaeをマルチクラウド対応に拡張

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027

Perceiver：複数の入力データ型向けの単一のニューラルネットワークモデル

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。