Baiduは先頃、対話生成(dialog generation)用AIモデルのPLATO-XLを発表した。英語と中国語のソーシャルメディア上の会話から収集した10億以上のサンプルを使ってトレーニングした結果、いくつかの会話ベンチマークで既存の商用チャットボットを凌ぐ、最高レベルのパフォーマンスを達成している。
arXivに公開された論文には、モデルといくつかの試験に関する説明がある。PLATO-XLはUnified Transformerアーキテクチャに基づいており、言語理解と応答生成の両方を同時に学習することができる。また、マルチパーティ対応の事前トレーニングを使用することによって、会話の参加者それぞれの発話を区別し、ボット応答の一貫性を向上させている。人の評価者による自由対話(open-domain conversation)の評価でFacebookのBlenderなど他のチャットボットモデルを上回るとともに、知識に基づく対話やタスク指向の会話に関するベンチマークでも新たなパフォーマンス記録を樹立している。Baiduチームによると、
PLATO-XLは、自然言語処理の最も高度なタスクである自由対話を、新たな領域へと拡張します。中国語会話用および英語会話用として最大規模の事前トレーニングモデルであるPLATO-XLは、会話の一貫性と事実性において新たなレベルに達しており、将来的な最終目標である"人間並みの学習能力と会話能力"に一歩近づいています。
自然言語処理(NLP)AIモデルは、規模によってパフォーマンス向上を実現できるということが分かっている。このような大規模モデルは大量のデータセットを使って事前トレーニングされるが、そのデータセットにはWebから収集したデータを特定のNLPタスク用にファインチューニングしたものが多く使用される。しかしBaiduの研究者たちは、MicrosoftのDialoGPTやFacebookのBlenderを取り上げ、これらのアーキテクチャにおいて、中間サイズのモデルが最大規模モデルをパフォーマンス的に凌駕しているという事実から、スケールの増加がチャットボットの使用する会話生成モデルにとって有益であるかどうかは現時点では明確ではない、と指摘している。スケール増加によってパフォーマンス向上を達成する上で重要なのは、Baiduによれば、事前トレーニングのプロセスである。
PLATO-XLはそのオリジナルであるPLATOモデルと、2020年にリリースされた改良版のPLATO-2をベースに構築されている。モデルの中核となっているのは、一般的なエンコーダ-デコーダアーキテクチャではなく、Unified Transformerである。これによって言語理解タスクと応答生成タスクの間でのパラメータの共有が可能になり、効率が向上している。他の多くのチャットボットと同様、PLATO-XLも、ソーシャルメディアWebサイト — この場合はRedditのコメント — から収集した会話を使って事前トレーニングされている。しかしながら、これらの会話には複数の参加者がいる上に、スレッド階層構造であるため、モデルが異なる参加者の情報を混同して、一貫性のない応答を生成する場合が少なくない。この問題に対処するためにBaiduは、typeとroleという埋め込みコンポーネントをトレーニングの入力テキストに追加して、会話内の応答のタイプと参加者を区別するために使用している。
Baiduは、自社のPaddlePaddleディープラーニングプラットフォームを使用して、コンテキスト/応答のペアで構成された英語と中国語のデータセットでPLATO-XLをトレーニングした。英語のデータには8.11億、中国語には12億のサンプルがそれぞれ含まれている。パフォーマンスの評価では、PLATO-XLに加えて、DialoGPT、Blender、PLATO-2などのチャットボットと人との間で交わされた、英語と中国語の会話記録を収集した。判定は会話の一貫性、有益性、内容の魅力、矛盾性、幻覚性などを基準に行われ、結果としてPLATO-XLが、他のすべてのボットを凌ぐスコアを獲得したのだ。チームはさらにDuConv、DSTC9-Track1、MultiWOZという3つのベンチマークデータセットでも評価を行った。結果として、これまでの主要モデルのポイントを数パーセント上回り、パフォーマンスの新記録を達成している。
InfoQでは先日にも、BaiduのERNIE 3.0モデルについてお伝えしている。このモデルはSuperGLUE言語理解ベンチマークにおいて、人のベースラインパフォーマンスを越える成績を収めている。その他にも、いくつかの大規模な中国語NLPモデルが最近開発されている。今年初めHuaweiは、2,000億のパラメータを持ち、1.1TBの中国語データでトレーニングされたPauGu-Alphaモデルを発表した。クラウド企業のInspurも、同社が"現時点で最大規模の高品質中国語コーパス"であると主張する5TBのデータでトレーニングされた、2,450億パラメータのYuanモデルを発表している。
Baiduでは、PLATO-XLのソースコードと英語モデルを"2021年11月末まで"に、同社がGitHubで公開しているKnoverツールキットの一部としてリリースする予定だと述べている。