GoogleとMicrosoftのAIモデル、言語理解ベンチマークにおいて人間の能力を凌駕

原文(投稿日：2021/01/12)へのリンク

GoogleとMicrosoft、それぞれの研究チームが先頃、SuperGLUEベンチマークで人の基準点より高いスコアを持つ自然言語処理(NLP)AIモデルを開発した。SuperGLUEは、質問応答(question answering)や読解など、いくつかの言語理解(NLU)タスクにおけるモデルのスコアを測定するものだ。

両チームは1月5日、自らのモデルをSuperGLUE Leaderboardに提出した。Microsoft ResearchのモデルであるDecoding-enhanced BERT with disentangled attention(DeBERTa)はベンチマークで90.3と、Text-to-Text Transfer Transformer(T5)とMeena chatbotをベースとしたGoogle Brainのモデルが記録した90.2をわずかに上回っているが、いずれも人の基準点である89.8を越えている。Microsoftは、DeBERTaの縮小バージョンをオープンソース公開するとともに、最新モデルのコードとモデルのリリース計画を発表した。Googleは最新モデルの詳細をまだ公表していない。また、T5のコードはオープンソースだが、chatbotは非公開である。

General Language Understanding Evaluation(GLUE)は2019年、BERTやGPTといったNLPモデルのパフォーマンスを評価する方法として開発されたもので、一般公開されているデータセットに基いた9つのNLUタスクのコレクションである。NLPモデルの急速な発達により、GLUEで評価できる"余地"が少なくなったため、より難易度の高いSuperGLUEが導入されることになった。

SuperGLUEには8つのサブタスクが含まれている。

BoolQ (Boolean Questions) — 質問応答タスク。短い質問に対して、"はい"または"いいえ"で回答する。
CB (CommitmentBank) — 埋め込まれた句から仮説を抽出する形式のテキスト含意タスク。
COPA (Choice of Plausible Alternatives) — 因果推論タスク。前提と、２つの考えられる原因ないし結果の回答が与えられる。
MultiRC (Multi-Sentence Reading Comprehension) — 質問応答タスク。ひとつのコンテキストの文章に関する質問に答えることが求められる。
ReCoRD (Reading Comprehension with Commonsense Reasoning Dataset) — 質問応答タスク。新たな記事と、それに関する質問が穴埋め形式(Cloze-style)で与えられる。マスクされた部分の適切な置き換えをリストから選択しなければならない。
RTE (Recognizing Textual Entailment) — テキスト含意タスク。ひとつのテキストがもうひとつのテキストと相反しているかどうかを判断する。
WiC (Word-in-Context) — 語義曖昧性解消タスク。２つのパッセージの中で、ひとつの単語が同じ意味で使用されているかどうかを判断する。
WSC (Winograd Schema Challenge) — 共参照解決タスク。代名詞の先行詞を決定する必要がある。

これらのタスクはすべて、NLP研究分野において公開された成果から選ばれたもので、その一部 -- WiC、MultiRC、RTE、ReCoRD -- には、オリジナルの論文中に人によるパフォーマンス基準が掲載されている。それら以外の人のパフォーマンス基準を決定するために、SuperGLUEチームでは、Amazon Mechanical Turkを経由して人を雇用し、データセットにアノテーションを付けている。

2020年初め、Google BrainはMeenaチャットボットを発表した。Googleは、安全性やバイアスに関わる問題を理由として、そのコードやトレーニング済モデルをリリースしていないが、Evolved Transformerと呼ばれる、260億パラメータのseq2seq(sequence-to-sequence)ニューラルネットワークに基づくアーキテクチャを解説した論文を公開した。これとは対照的に、新たなモデルで使用されているT5 transformerはオープンソースで、最大110億パラメータのモデルファイルがいくつか提供されている。Googleはリーダボード登録に関する詳細を発表していないが、SuperGLEのリーダボードでは"T5とMeenaモデルを単一タスクの微調整と組み合わせる新たな手法"と紹介されており、論文が間もなく発表される予定である。

Microsoftは先日のブログ記事で、DeBERTaモデルの150億パラメータの最新バージョンを発表した。2020年中頃にリリースされたDeBERTaは、BERT由来のアーキテクチャを3つの新たな技術 — "disentangled attention", "enhanced mask decoder"、"virtual adversarial training for fine-tuning" — を使って改良したものだ。"disentangled attention"は、コンテンツ埋込み(content embedding)から単語埋込み(word embedding)を分離するもので、2つの値を加算する通常のBERTモデルとは対照的である。"enhanced mask decoder"では、この分離した位置情報を使って精度を向上している。"fine-tuning approach"は、敵対的学習(adversarial training)中の安定性を向上することにより、モデルの一般化を促進する。

Microsoftの研究チームはDeBERTaの他にも、Turing-NLGと呼ばれる170億パラメータモデルなど、NLP分野での進歩を続けており、2020年後半には、同社のAzureクラウドにホストされているスーパーコンピュータ上でトレーニングされた、OpenAIの1750億パラメータNLPモデルであるGPT-3の独占ライセンスを発表している。OpenAでは、Googleの例のように、誤用に関する懸念を理由として、トレーニング済モデルのリリースが遅くなる傾向がある。

MicrosoftのDeBERTa 2020のコードと縮小版のトレーニング済モデルはGitHubで公開されており、最新バージョンが間もなくリリースされる予定である。GoogleのT5のコードとモデルも同じく、GitHubから入手が可能だ。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

AI搭載ボットがGitHub Actionsワークフローを侵害、Microsoft、DataDog、CNCFプロジェクトにわたり

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

Claude Codeオートモードの内側：人間承認ゲートを備えたAnthropicの自律コーディングシステム

Cloudflare社、AIエージェント向けにトークン使用量を最適化するCode Mode対応MCPサーバーを発表

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

Claude CodeがDynamic Workflowsを追加、並列エージェント連携のため

AnthropicがRoutinesを導入、Claude Code自動化のため

NVIDIAがIsingオープンモデルを発表、量子コンピューティング向け

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

GitHub Copilot CLI一般提供開始

Platform Engineering Labs社、formaeをマルチクラウド対応に拡張

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027