BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Alibaba Announces 10 Billion Parameter Multi-Modal AI M6

Alibaba Announces 10 Billion Parameter Multi-Modal AI M6

原文(投稿日:2021/04/06)へのリンク

AlibabaMulti-Modality to Multi-Modality Multitask Mega-transformer(M6)と称するAIモデルを開発した。100億のパラメータを持ち、1.9TBのイメージと292GBの中国語テキストで構成されたデータセットを使ってプレトレーニングされている。テキストガイド付きイメージの作成、VQA(Visual Question and Answering、視覚に基づく質疑応答)、イメージ-テキストマッチングなど、いくつかのダウンストリームタスクに合わせたファインチューニングが可能だ。

arXivで公開された論文では、モデルといくつかの実験について説明されている。M6はTransformerアーキテクチャをベースとして、イメージとテキストの両方を受け入れるように修正を行ったものだ。プレトレーニングを行うために、オンラインのエンサイクロペディア、ディスカッションフォーラム、Eコマースサイトなどのソースを使用して、中国語イメージと関連テキストを組み合わせたデータセットを開発した。プレトレーニング後、Alibabaの研究者たちは、イメージ生成やVQA、詩の生成、イメージ-テキストマッチングなど、いくつかのコンピュータビジョン(CV)と自然言語処理(NLP)を実行するために、モデルのファインチューニングを行っている。イメージ-テキストマッチングなどいくつかのタスクでは、ベースラインモデルに対してパフォーマンスの改善が確認された。イメージ生成や詩の生成といった他のタスクの結果は、人の判断による評価を行った。

GPT-3など、最近話題となっている非常に大規模なNLPモデルは、ベンチマークタスクにおいて人に近い、あるいは人を越える(super-human)パフォーマンスを示している。これらモデルの成功に刺激された研究者たちが、CVや、視覚と言語を組み合わせた問題など、他の分野でもTransformerアーキテクチャを適用するようになった。2019年にMicrosoftはUNiversal Image-TExt Representation Learning(UNITER)を開発して、VQAやイメージ・テキスト抽出などのビジョン/言語タスクにおいて最先端のパフォーマンスを達成した。2020年にはAlibabaが、M6の最初のイテレーションであるInterBERTに関する論文を発表し、自社のEコマースサイトであるTaobaoにデプロイすることで、検索結果からのCTR(Click Through Rate、クリック率)の改善を確認している。今年初めにはOpenAIが、GPT-3をベースとするイメージ生成モデルであるDALL-Eを発表し、自然言語による説明から高品質かつシュールリアルなイメージを生成する能力を示すいくつかのイメージをリリースした。

これら大規模モデルの課題のひとつは、その規模に相応する大ががりなデータセットを必要とすることだ。これらのデータセットはWikipediaなどのWebサイトをスクレイピングして構築されることが多いのだが、そのようなデータは英語のコンテンツで占められている。M6をトレーニングするため、Alibabaの研究者たちは、"中国語によるプレトレーニングを目的とする、世界初のマルチモーダルかつマルチドメインの大規模コーパス"とチームが称する、中国語のテキスト-イメージデータセットを構築した。このデータセットにはプレーンテキストに加えて、イメージとテキストのペアが含まれている。最小5kピクセルの解像度を持つ60,500万のイメージはトータルで1.9TB、1,120億トークンからなる42,000万のテキストパッセージの合計は292.4GBに達する。

プレトレーニングを行うために、データセット内のイメージは小さなパッチに分割された上で特徴抽出(feature extractor)に送られ、画像特徴(image feature)のシーケンスが生成される。この画像特徴のシーケンスとテキストシーケンスは、次に、一般的なNLPモデルと同じようにTransformerに送られる。M6のプレトレーニングでは、テキストのノイズ除去(BERTなど他のNLPモデルと同様)、イメージキャプション生成を学習するためのとイメージ-テキスト変換や、イメージ入力とマスクされたテキスト入力からのターゲットテキスト生成を学習するためのマルチモダリティ-テキスト変換など、いくつかの異なるオブジェクティブが使用されている。

Alibabaは100億(10B)パラメータバージョンのM6であるM6-10Bと、MoE(Mixture of Experts、エキスパート混合)ベースの1,000億(100B)パラメータバージョンのM6-100Bをトレーニングした。混合精度トレーニング(mixed-precision training)やアクティベーションチェックポイント(activation-checkpointing)といったメモリ削減テクニックを駆使してもなお、M6-10Bは単一GPUで処理するには大規模過ぎるため、モデル並列トレーニング(model-parallel training)を使った複数のGPUへのモデル分散が行われている。M6-100Bのトレーニングは"さらに困難"であるため、Alibaba社内の並列トレーニングフレームワークであるWhaleを使ってトレーニングを行った。

Twitter上では、OpenAIの政策研究責任者であるMiles Brundage氏が次のように述べている

同社は100Bモデルについて言及していますが、その結果については述べていません。うまく動作しなかった、ということでしょう。また、MOE = 100Bよりも計算量は少なくなります。そうではあっても、データ/エンジニアリング/評価における重要な成果であると共に、数か月前に初めて公開されたGPT-2スケールのChinese LMから推定したレベルから大きく進展しています。

現段階ではM6モデル、トレーニングデータのいずれもリリースされていないが、Alibabaは"コミュニティのさらなる発展を促進する"ためにデータセットをリリースするつもりである、と述べている。同社のDamo Academyは、最近のNLP研究論文で使用されたコードを、いくつかのGitHubリポジトリで公開している。

この記事に星をつける

おすすめ度
スタイル

BT