テルアビブ大学、長文NLPベンチマークSCROLLSをリリース

原文(投稿日：2022/03/01)へのリンク

テルアビブ大学(Tel-Aviv University)、Meta AI、IBM Research、Allen Institute for AI(AI2)の研究者らが、さまざまな分野から収集した長いテキスト列を処理対象とする自然言語処理(NLP)ベンチマーク用のタスクセットを、Standardized CompaRison Over Long Language Sequences(SCROLLS)としてリリースした。ベースラインのNLPモデルを対象とした実験結果からは、現行のモデルに改善の余地が多くあることが示唆されている。

このベンチマークとベースライン試験に関しては、arXivで公開された論文で解説されている。SCROLLSは、自然言語理解(NLU)、質疑応答、要約といったNLPタスクにおけるモデルのパフォーマンスを、数千字のテキストを含んだ7種類のデータセットで評価する。各データセットは、政府報告書、科学論文、法律文書、映画やテレビの台本、文献などから収集されたものだ。限定的な数の文ではなく、より長いテキストでNLPモデルを比較できるように、NLPコミュニティの能力を向上させることが、このベンチマークの目標である。研究者らは言う。

SCROLLSがNLPコミュニティにおいて、たったひとつの文や段落という段階を脱し、より長い文章を対象とした処理や推論というテーマに対処する契機になれば、と願っています。

ディープラーニングNLPモデルではTransformerがアーキテクチャの主流となっているが、Transformerの欠点のひとつは、処理可能な入力の最大長が限られている上に、その2乗でモデルに必要な計算能力とメモリ容量が増加する、という点にある。これに対象するために、ベーシックなTransformerに対する多くの改良が行われてきた。sparse TransformerやReformer、Performerなどがその例だ。しかしSCROLLチームは、これらさまざまなソリューションの評価タスクやメトリクスがモデル毎に統一されていないことが多く、それがテキスト内の長距離依存性(long-range dependencies)を処理するモデルの能力比較を難しいものにしている、と指摘する。

これに対処するため、同チームは、"自然な長さの文章"を含んだ既存のデータセットを手作業でキュレーションした上で、共通フォーマットに処理した。各データセットには、対応するNLPタスクがある。

GovReport: 政府報告書から、役員向けのサマリを生成する
SummScreenFD: TVショーの台本から、"要約(recap)"を生成する
GMSum: 学術、企業、政府の会議記録から、クエリベースの要約を生成する
Qasper: 学術論文から、内容に関する質問に回答する。
NarrativeQA: 書籍または映画の台本から、内容に関する質問に回答する。
QuALITY: 物語や記事から、内容に関する多肢選択型の質問に回答する。
Contract NLI: 法的な契約から、法的な声明がその契約に"伴う"ものとできるかを推測する。

その上で、BARTとLongformer Encoder-Decoder(LED)という2つのベースラインTransformerモデルをSCROLLSでベンチマークした。さらに、単純に入力の最初を出力として再利用するという、SCROLL用の"ナイーブ"なヒューリスティックベースラインを作成して、その結果の評価も行った。その結果、モデルのパフォーマンスにいくつかの傾向があることが明らかになった。まず、いずれのモデルも、与える"コンテキスト"あるいは入力シーケンスが長いほど、パフォーマンスも向上した。コンテキスト長が同じ場合は、BARTがLEDの性能を上回った。これは"LEDの最適化が不十分である可能性を示唆"している。また、いずれのモデルも、ナイーブなヒューリスティックを"7～10ポイント"上回っていた。他の多くのNLPベンチマークとは異なり、このベンチマークでは、人レベルのパフォーマンススコアのレベルを特定することはできなかった。しかしチームでは、SCROLLSデータセットのいくつかで実施した結果から、それは"現在のベースラインよりもはるかに高いだろう"と結論付けており、モデルに改善の余地が多く残っていることを示唆している。

Twitter上の議論では、AI2の研究者であるSameer Singh氏の、短いテキストのNLUが解決されたと考えているか、という質問に対して、SCROLLSの作者のひとりであるOmer Levy氏が次のように返答している。

短いコンテキストで行うべき研究はまだたくさんありますが、単一文という快適領域から踏み出して、過小評価されているこの領域にもっと重点を置くべき時期に来ているのかも知れません。ほんの少し前まで、セマンティクス(NLU)では何もかもがうまくいってなかったので、ベンチマークの設計においても、文の類似性/内包性を超える必要はありませんでした。これらの問題が必ずしも解決された訳ではありませんが、BERT以降、状況が変わっていることは確実です。

SCROLLSデータセットはベンチマークのWebサイトで、論文の実験を再現するためのコードはGitHubで、それぞれ公開されている。

作者について

Anthony Alford

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

AI搭載ボットがGitHub Actionsワークフローを侵害、Microsoft、DataDog、CNCFプロジェクトにわたり

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

Claude Codeオートモードの内側：人間承認ゲートを備えたAnthropicの自律コーディングシステム

Cloudflare社、AIエージェント向けにトークン使用量を最適化するCode Mode対応MCPサーバーを発表

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

Claude CodeがDynamic Workflowsを追加、並列エージェント連携のため

AnthropicがRoutinesを導入、Claude Code自動化のため

NVIDIAがIsingオープンモデルを発表、量子コンピューティング向け

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

GitHub Copilot CLI一般提供開始

Platform Engineering Labs社、formaeをマルチクラウド対応に拡張

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027

テルアビブ大学、長文NLPベンチマークSCROLLSをリリース

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。