BT

最新技術を追い求めるデベロッパのための情報コミュニティ

English edition
Chinese edition
Japanese edition
French edition

ここに入力

電子メール

パスワード

InfoQアカウントのメール

再設定用のメールを再送する

Login with:

Google Microsoft Twitter Facebook

アカウントをお持ちでない方

サインアップ/ログイン

Logo - Back to homepage

ニュースアーティクルプレゼンテーションポッドキャスト Eブック

Topics

デベロップメント

Java
Clojure
Scala
.Net
モバイル
Android
IoT
HTML5
JavaScript
Functional Programming

注目のデベロップメント

Spring BootによるAPIバックエンド構築実践ガイド第2版

何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

のすべてを見る development

設計/アーキテクチャ

Architecture
エンタープライズアーキテクチャ
パフォーマンス&スケーラビリティ
Design
デザインパターン
セキュリティ

注目の設計/アーキテクチャ

12のソフトウェア・アーキテクチャの落とし穴とその避け方

成功するソフトウェアアーキテクチャを開発するのはシンプルだが、簡単ではない。QARを理解し、QARを最大限に満たすトレードオフを理解し、実行するには、洞察力と経験が必要であり、その多くはアーキテクチャ自体の実験を繰り返すことで集めなければならない。プロセス自体は単純だが、考慮すべきトレードオフはしばしば難しく、簡単な答えはめったにない。

のすべてを見る architecture-design

AIと機械学習、データエンジニアリング

Big Data
データベース

注目の AIと機械学習、データエンジニアリング

AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

In this annual report, the InfoQ editors discuss the current state of AI, ML, and data engineering and what emerging trends you as a software engineer, architect, or data scientist should watch. We cu...

のすべてを見る ai-ml-data-eng

カルチャー＆手法

Agile
リーダーシップ
Team Collaboration
テスト
UX
Scrum
Lean/Kanban

注目のカルチャー＆手法

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

As an engineering manager, it is your responsibility to help facilitate creative thinking skills among the development team, but that's easier said than done. This article provides advice on how can y...

のすべてを見る culture-methods

運用/インフラ

Automation
Containers
クラウドコンピューティング

注目の DevOps

Low Code/No Codeを採用する：確認するべき6つの適性

LCNC（ローコード/ノーコード）プラットフォームは、プログラマーだけでなくプログラマーでなくても、最小限のコーディングとワンクリックのデプロイメントで、アプリケーションソフトウェアを開発できるよう設計されている。ドラッグ＆ドロップ方式のインターフェースなどを利用することで、開発・デプロイメントプロセスを簡素化し、効率的なアプリケーション開発とデプロイメントを実現する。

のすべてを見る devops

役に立つリンク集

InfoQについて
InfoQのライター
寄稿
C4Mediaについて
Diversity

地域を選ぶ

En
中文
日本
Fr

InfoQ Dev Summit Boston

Discover transformative insights to level up your software development decisions. Register now with early bird tickets.

InfoQ Dev Summit Munich

Get practical advice from senior developers to navigate your current dev challenges. Register now with early bird tickets.

QCon San Francisco

Level up your software skills by uncovering the emerging trends you should focus on. Register now.

The Software Architects' Newsletter

Your monthly guide to all the topics, technologies and techniques that every professional needs to know about. Subscribe for free.

InfoQ ホームページニュース Googleが自然言語処理トレーニング技術のBERTをオープンソース公開

Emerging Technologies

Googleが自然言語処理トレーニング技術のBERTをオープンソース公開

ブックマーク

2018年12月26日読了時間 4 分

作者：

Kent Weare

翻訳者

h_yoshida _

原文(投稿日：2018/11/21)へのリンク

先日のブログ記事で、Googleは、自然言語処理(NLP)アプリケーションのための最先端のトレーニング技術であるBERTのオープンソース化を発表した。同社がこの決定を下した理由のひとつは、開発者が利用可能な公開データセットが不足していることにある。さらにBERTには、NLPの有効性を向上する新たな双方向技術も含まれている。開発者や研究者がNLPモデルのトレーニングに要する時間を短縮するため、Googleは、Cloud Tensor Processing Unit(TPU)の最適化も行った。これによってモデルのトレーニングに必要な時間は、単一のGPUを使った場合の数時間に対して、30分に短縮されている。

開発者が利用可能なNLPトレーニングデータは不足している、とGoogleは考えている。同社の研究者であるJacob Devlin氏とMing-Wei Change氏は、データセットの公開が重要である理由を次のように説明する。

自然言語処理(NLP)における最大の課題のひとつは、トレーニングデータの不足です。NLPは数多くの異なるタスクからなる多様な分野であるため、タスク固有のデータセットのほとんどが、人の手によってラベル付けられた、数千から数十万のトレーニングサンプルを持つに過ぎません。一方で、今日のディープラーニングベースのNLPモデルでは、大量のデータを使うことに大きなメリットがあり、数百万から数十億というトレーニングサンプルでトレーニングすることによって向上が見込めるのです。

さらにGoogleの研究者たちは、Webの一般的なテキストを含む大容量データセットを使って汎用言語表現モデルをトレーニングするための、BERT(Bidirectional Encoder Representations from Transformers)という新技術も開発した。これは事前学習(pre-training)とも呼ばれている。事前学習が重要な理由について、Devlin氏は次のように説明する。

事前学習されたモデルは、質問応答や感情分析といった小規模データのNLPタスクに合わせて微調整することが可能です。その結果として、同じデータでスクラッチからトレーニングした場合に比べると、精度が大幅に向上するのです。

BERTには、オープンソースの機械学習フレームワークであるTensorFlowと、事前学習した言語表現モデルに基づいて構築されたソースコードが含まれている。Googleは11個のNLPタスクに関する最新結果について論証した関連論文を発表しており、これにはSQuAD(Stanford Question Answering Dataset) v1.1に対する実行結果も含まれている。

BERTと他のアプローチとの違いは、半教師つき(semi-supervised)シーケンス学習、生成的事前学習(Generative Pre-Training)、ELMo、ULMFitなど、事前学習による文脈表現でどのように機能するか、という点に基づいている。しかしBERTを本当に際立たせているのは、プレーンテキストコーパスのみを使用して事前学習された、初の双方向教師なし(unsupervised)言語表現である点だ。このアプローチがユニークな理由について、Devlin氏は次のように説明する。

事前学習した表現は、文脈自由(context-free)および文脈(contextual)のいずれも可能で、さらに文脈表現では、単一方向(unidirectional)と双方向(bidirectional)が可能です。word2vecやGloVeなどの文脈自由モデルは、語彙内の各単語に対してひとつの単語埋め込み表現を生成します。この場合、“bank”という単語は、“bank account(銀行口座)”と“bank of the river(川岸)”で同じ文脈自由表現を持つことになります。

文脈モデルはこれとは違い、文中の他の単語に基づいた単語表現を生成します。例えば、“I accessed the bank account”という文に対して、単一方向の文脈モデルは、“account”ではなく“I accessed the”に基づいて“bank”を表現します。しかしBERTは、前後両方の文脈を使用して“bank”を表現します — “I accessed the ... account” — ディープニューラルネットワークの非常に深い部分から開始して、徹底的に双方向化するのです。

単一方向モデルは、各単語を文中の前の単語に基づいて予測することで機能する。これまで双方向トレーニングでは、“次の”予測単語が“前の”予測単語を振り返ることにより、単語が多層モデルになることを避けられないという難しさがあった。BERTはこの問題に、単語をマスクすることで対処している。

イメージ引用: https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html

BERTで採用された新たな技術に加えて、GoogleはCloud TPUを拡張して、開発者や研究者が短時間でモデルの試験、デバッグ、調整を行なうことを可能にした。これらの投資によって、既存の事前学習モデルの能力を越えることができた。

BERTはtensor2tensorライブラリの他、GitHubからも入手可能である。

この記事を評価

採用ステージ

スタイル

編集者評
編集長アクション

この記事に星をつける

おすすめ度

スタイル

Author Contacted

このコンテンツのトピックは Emerging Technologies です。

関連記事:

デベロップメント
設計/アーキテクチャ
AIと機械学習、データエンジニアリング
Google
Artificial Intelligence
Emerging Technologies

関連記事

関連するコンテンツ

InfoQ ニュースレター

毎週火曜日に前週のまとめコンテンツをお送りいたします。（日本語版は不定期リリース）25万人のシニアな開発者コミュニティーにぜひご参加ください。サンプルを見る

あなたのメールアドレスはこちら

国を選んでください。

InfoQ.com がプライバシーポリシーに従って私の個人情報を扱うことに同意します。

We protect your privacy.

デベロップメント
設計/アーキテクチャ
カルチャー＆手法
AIと機械学習、データエンジニアリング
DevOps

InfoQ ニュースレター

毎週火曜日に前週のまとめコンテンツをお送りいたします。（日本語版は不定期リリース）25万人のシニアな開発者コミュニティーにぜひご参加ください。サンプルを見る

様々なイノベーターとアーリーアダプターがお送りするテクノロジーの概要を見る。
自分がまだ知らないことに気づいていないと知る
あなたが興味のあるトピックスをいつでも最新な情報に。

あなたのメールアドレスはこちら

国を選んでください。

InfoQ.com がプライバシーポリシーに従って私の個人情報を扱うことに同意します。

We protect your privacy.

ホームアカウントを作る QCon Conferences Events 寄稿 InfoQのライター InfoQについて C4Mediaについて Diversity

Events

QCon London
APRIL 7-9, 2025
InfoQ Live Roundtable
APRIL 23, 2024
InfoQ Dev Summit Boston
JUNE 24-25, 2024
InfoQ Dev Summit Munich
SEPTEMBER 26-27, 2024
QCon San Francisco
NOVEMBER 18-22, 2024

Follow us on

Stay in the know

The InfoQ Podcast

Engineering Culture Podcast

The Software Architects' Newsletter

サイト全般について feedback-jp@infoq.com 記事 editors-jp@infoq.com

InfoQ.com and all content copyright © 2006-2024 C4Media Inc.
InfoQ.com and all content copyright © 2024 SHIFT Inc.
プライバシー

BT