Google AI、ユニバーサルスピーチモデルをアップデートし、自動音声認識の規模を100言語以上に拡大

Google AIは先日、1,000 Languages Initiativeをサポートするユニバーサルスピーチモデルのアップデートを発表した。このモデルは自動音声認識のすべてのセグメントにおいてOpenAI Whisperよりも優れた性能を発揮する。

ユニバーサルスピーチモデル（USM）とは異なる言語やアクセントの音声言語を認識・理解するために訓練された機械学習モデルである。USMは300以上の言語にわたる1200万時間の音声と、280億文のテキストで訓練された20億のパラメータを持つ最先端の音声モデルファミリーだ。Googleによると、USMは、アムハラ語、セブアノ語、アッサム語、アゼルバイジャン語などのリソース不足の言語から、英語、北京語などのよく使われる言語まで自動音声認識（ASR）を行うことができる。

学習プロセスの初期段階では、膨大な数の言語の音声を対象に教師なし学習が行われる。その後、オプションでテキストデータを用いた事前学習段階を設けることで、モデルの品質と言語カバー率を向上させることが可能だ。この段階を含めるかどうかは、テキストデータの有無によって決定される。第2段階を組み込むことで、USMは優れた性能を発揮することができるのだ。トレーニングパイプラインの最終段階では、自動音声認識や自動音声翻訳などの下流タスクが、最小限の教師付きデータを使って微調整される。

研究によると、自動音声認識（ASR）における2つの重要な課題は、スケーラビリティと計算効率である。従来の教師あり学習法は、特に代表的でない言語では、高品質のモデルを構築するために十分なデータを収集することが困難であるため、スケーラブルではない。

自己教師あり学習は扱いやすい音声のみのデータを利用できるため、多数の言語にわたるASRのスケーリングに適した方法である。ASRモデルが言語カバー率と品質を向上させながら、良い計算効率で改善するには、様々なソースからの大量のデータを扱い完全な再トレーニングを伴わずにに新しい言語やユースケースに一般化できる、柔軟で効率的、かつ一般化できる学習アルゴリズムが必要なのだ。

ラベルのない大規模な多言語データセットを用いてモデルのエンコーダを事前学習し、ラベル付きデータの小規模なコレクションで微調整することで、代表的でない言語を認識することが可能になった。さらに、この学習手順は新しいデータや言語にもうまく適応する。

ユニバーサルスピーチモデルは機械と人間の自然で直感的な対話を促進する上で、重要な役割を果たし多様な言語や文化をつなぐ架け橋となる。このモデルはバーチャルアシスタント、音声認識デバイス、言語翻訳、音声テキストトランスクリプトなどさまざまなアプリケーションで大きな可能性を秘めている。

今回のアップデートによりUSMは世界一広範な音声認識モデルとなった。この開発によって少数民族やあまり知られていない言語を話す人々が有意義にテクノロジーと関われるようになり、広範でアクセスしやすいインターネットの実現に向けた、Googleの取り組みは大きな一歩を踏み出したのである。

作者について

Daniel Dominguez

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

12のソフトウェア・アーキテクチャの落とし穴とその避け方

AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

作者について

Daniel Dominguez

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

HashnodeがStep Functions、EventBridge、RedisでAWS上にスケーラブルなフィードアーキテクチャを構築

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

Meta社、24000基以上のGPUから成るAIインフラ設計を発表

Databricks、オープンソースの汎用LLM "DBRX" を発表

Kubecost、ネットワーク監視機能を備えたバージョン2.0を発表

マージキューでGitHubのデプロイを改善する

CNCF、Kubernetes上のKafkaを簡素化するStrimziをインキュベートする

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方

Google AI、ユニバーサルスピーチモデルをアップデートし、自動音声認識の規模を100言語以上に拡大

作者について

Daniel Dominguez

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。