Google、AIによるGoogle Docsの要約生成機能を発表

原文(投稿日：2022/04/19)へのリンク

Googleは、同社のDocsアプリに、ドキュメントのコンテンツの要約を自動生成する新機能を発表した。要約の生成には、Transformerアーキテクチャに基づいた自然言語処理(NLP)AIモデルを使用している。

Googe　ResearchのBrain Teamに所属するソフトウェアエンジニアのMohammad Saleh氏と、Google Docsを担当するソフトウェアエンジニアのAnjuli Kannan氏が書いたブログ記事に、今回のモデルについての説明がある。このモデルは、Brain Teamが開発した抽象テキスト要約(abstractive text summarization)用NLPシステムのPEGASUSをベースとしている。PEGASUSは、マスクされた入力テキストから完全な文を再生成するようにトレーニングされた、ギャップ文予測(Gap　Sentence Prediction)と呼ばれるトレーニング済スキームを使用する。特に、マスクする文章は、テキストの要約を生成する上での重要度に基いて選択されている。Google Docsで現在使用しているモデルは、高品質なデータセットを詳細にチューニングし、知識を集約することによって、レイテンシの改善とメモリフットプリントの削減を行うなど、いくつかの改良をPEGASUSに加えたものだ。Saleh、Kannan両氏によると、

Google Workspaceが今回提供する自動提案(automatic suggestion)によって、ドキュメントを書く側の要約や注釈付けの作業を容易になると同時に、ドキュメントを読む側の理解やナビゲートをも支援することができれば、と思っています。

抽象テキスト要約などのNLP処理で一般的なテクニックは、トークン(文字や単語全体など)のシーケンスを入力として、シーケンスの潜在表現(latent representation)を生成するエンコーダに入力し、デコーダを使って出力シーケンスに変換するという、sequence-to-sequenceモデルのトレーニングである。このようなモデルは大量のトレーニング用データを必要とするため、事前学習済のTransformerをコンポーネントとして使用することが多い。事前学習の目標として代表的なものが、入力中のトークンをランダムにマスクして、モデルがそのマスクされたトークンの正しい値を推測するという、マスク言語モデル(masked language model)(MLM)である。

PEGASUSはこの目標を、文章全体をマスクするように拡張している。ただし、単にランダムな文章をマスクするのではなく、マスク対象としてテキスト内で最も重要な文章をヒューリスティックに選択する学習アルゴリズムを使うことで、要約に関するモデルのパフォーマンスが向上するのである。最初に、入力の全文章の重要度をROUGE1-F1メトリクスを使って採点する。その結果から、上位m件の文章をマスクするのだ。このスキームを使用することでPEGASUSは、要約処理に関する12件のベンチマークで最高のパフォーマンスを達成した。

PEGASUS for Google Docsを製品レベルにするためには、さらに"いくつもの課題"を克服する必要があった。最初は微調整だ。事前学習に使用したコーパス内のドキュメントの多様性のため、事前学習モデルは"容易に混乱する"ものであったからだ。Googleは、要約の好例を含むように慎重にキュレーションされた,小規模で高品質なデータセットを詳細にチューニングすることによって、PEGASUSが優れたパフォーマンスを達成できることを確認した。次にGoogleが取り組んだのは、モデルの規模や非効率性といった、実用化に向けたいくつかの課題だ。特に、モデルのデコーダのステージは、Transformerから回帰型ニューラルネットワーク(recurrent neural network)(RNN)に変更されている。

PEGASUSはいくつかのベンチマークで新たなパフォーマンス記録を達成した。いくつかにおいては現在もリーダだが、一部のタスクについては、PEGASUSを凌駕するモデルが他の研究チームによって開発されている。Salesforceは先頃、GPT-3の380分の1のパラメータで"書籍一冊を要約"可能な要約モデルに関する論文を発表した。Meta AIも先日、いくつかのベンチマークでPEGASUSを越える要約モデルを2つ、オープンソースとして公開した。また、清華大学の研究者らは、1件のベンチマークで現時点のトップスコアを記録したGLMモデルを公開している。

Google AIがTwitterで今回の発表を公開すると、ユーザからいくつかのコメントが寄せられた。データサイエンティストでスタートアップ創業者のDaniel McNichol氏は、要約機能を使用した自身の経験について述べている。

いくつかのブログ記事で[試してみた限りで]は ... 微妙ですね。今ひとつぱっとしません(原文そのままの場合もあります)し、"もう少し何とか"、といったところでしょうか ... ストレートに書かれた"レポート"をエグゼクティブサマリ風にまとめるのは、間違いなく得意なようですが。

Googleは最新モデルをオープンソースにしていないが、オリジナルのPEGASUSシステムのコードとモデルはGitHubで入手可能である。

作者について

Anthony Alford

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社、Rust向けQUICおよびHTTP/3を容易にするtokio-quicheをオープンソース化

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

Dropbox社、企業向け知識検索のためのスケーラブルなコンテキストエンジンを構築

AIコーディングアシスタントはデリバリーを加速しない、なぜならコーディングがこれまでボトルネックではなかったから

Grab、リアルタイムデータ品質監視をプラットフォームに追加

人工知能によって顧客とのつながりはどう変わるか

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

AWSがStrands Labsを発表、実験的AIエージェントプロジェクト向け

GoogleがGemini CLI Conductorに自動レビュー機能を追加

Googleの8つの基本的マルチエージェント設計パターン

Google Cloudは、130,000ノードのGKEクラスターを用いてKubernetesの大規模スケールを実証

オープンソースのAgent Sandbox、Kubernetes上でAIエージェントの安全な展開を可能に

AI駆動サイバー脅威と戦うには多層防御がキー、CNCFレポートが明らかに

QCon AI Boston

Online InfoQ Architect Certification

Online InfoQ AI Engineering Certification

QCon San Francisco

Google、AIによるGoogle Docsの要約生成機能を発表

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。