BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Facebookが自然言語処理開発を促進するPyTextをオープンソース公開

Facebookが自然言語処理開発を促進するPyTextをオープンソース公開

ブックマーク

原文(投稿日:2018/12/31)へのリンク

先日のブログ記事でFacebookは、自然言語処理(NLP)システムで使用されているモデリングフレームワークのPyTextを、オープンソースとして公開すると発表した。PyTextはPyTorch上に構築されたライブラリで、実験レベルにあるプロジェクトの効率を改善し、大規模な実用システムとして展開可能にする。

PyTextはNLPアプリケーションの構築時に、従来のアプローチに対していくつかのアドバンテージを提供する。FacebookのソフトウェアエンジニアであるAhmed Aly Hegazy氏は、次のようなメリットを挙げている。

PyTextは簡略化されたワークフローを提供し,より早い試験を可能にします。これを実現しているのは,事前構築済の豊富なモデルアーキテクチャへのアクセスとテキスト処理ユーティリティ,そして,大規模展開を支援する語彙管理機能です。さらに,NLPコミュニティの研究者やエンジニアによって構築された構築済モデルやツールを含む,PyTorchのエコシステムを活用する機会も提供されます。

NLPシステムは,自然言語と人工知能の利用を通じて,人とコンピュータの対話を促進する。Facebookでは,MessengerPortalというビデオ会議デバイスなど,多数の自社サービスで自然言語処理を活用している。

PyTextを使用した結果,Facebookでは,自社の多くの機能において市場投入までの期間削減を実現することができた,とAly Hegazy氏は説明する。

Facebookではこのフレームワークを使って,数週間や数ヶ月ではなく,数日でNLPモデルをアイデアから完全な実装まで移行し,マルチタスク学習に依存する複雑なモデルをデプロイしています。

従来の自然言語処理フレームワークは,研究的ないし実験的プロジェクトと運用ワークロードの両方のニーズに対処するための苦慮を続けてきた。その理由としてAly Hegazy氏は,以下の事実に関連する課題の多さを指摘する。

NLPシステムには,本質的に動的構造を用いた数十ものモデルを生成し,トレーニングし,テストすることが求められます。研究志向のフレームワークは,高度な動的モデルを記述するプロセスをスピードアップするような,簡単で活動的なインターフェースの提供が可能ですが,運用時にはレイテンシやメモリ使用量の増加に悩まされる傾向があるのです。

PyTorch 1.0上に構築されているPyTextでは,これら研究プロジェクトから運用に移行する際の課題の多くを回避可能にすることで,研究から実用へのパスを促進する。Facebookでは、同社の厳格なレイテンシ要件を満足しながら1日に10億以上の推論を実施することで、PyTextの大規模運用能力の実証に成功している。FacebookでPyTextを使用している例としては、Portalでのユーザによるコマンド解釈がある。ユーザがPortalに"call my dad"と指示すると、PyTextが意味解析を実行して、ユーザとユーザが電話をかけようとしている人物との関係を理解する。

PyTextは、テキスト分類ライブラリのfastTextなど、Facebookの他のNLP投資を補完するものだ。さらにはテキスト理解エンジンのDeep Textに意味解析を提供すると同時に,Deep Textでは構築不可能なマルチタスク学習モデルの実装を通じて改善することも可能である。

PyTextの使用がFacebookにもたらすメリットは、市場投入期間の短縮に留まらず、正確性の向上にまで及んでいる。Aly Hegazy氏が次のように説明する。

当社ではPyTextを、PortalにおけるアンサンブルやCRF(conditional random field)などのNLPモデル、およびすべでのドメインにおける融合モデルを斬新的に改善するためのイテレーション期間の短縮に用いています。これにより、当社のコアドメインにおけるモデルの正確性が、5パーセントから10パーセント改善されました。分散トレーニングにもPyTextのサポートを使用することで、Portalのトレーニング時間を1/3~1/5に短縮しています。

PyTextフレームワークはGitHubで公開されており、事前トレーニングされたモデルと、PyTextモデルのトレーニングおよび大規模展開のためのチュートリアルが合わせて提供されている。

この記事に星をつける

おすすめ度
スタイル

BT